1.8.2 XML数据标引

(1)针对不同数据内容进行XML置标

XML标记语言是一种简单的数据存储语言,使用一系列简单的标记描述数据,这些标记是一个公共格式,可以用方便的方式建立,不依附于特定浏览器。XML占用的空间虽然比二进制数据要多,但它极其简单,易于掌握和使用,没有固定的要求。因此,XML被广泛用作跨平台之间交互数据的形式,主要针对数据的内容,通过不同的格式化描述手段,生成对应的HTML、PDF或者其他的文件格式进行表达。

用XML标记元数据,其语法为:<标记属性=值>信息内容</标记>,前面< >为信息内容的开始标记,后面</标记>为信息结束标记,二者成对出现。开始标记中的“属性”是提示计算机处理用的参考信息,用以识别信息的语义,为建立的倒排档提供内容析出的依据。例如,本书第1版用XML方式记述的部分基础书目信息元数据如下。

<书名>数字出版实用教程</书名>

<著者>张志林黄孝章陈功明</著者>

<出版地>北京</出版地>

<出版社>知识产权出版社</出版社>

<出版年月>2011.10</出版年月>

<开本尺寸>787mm×960mm</开本尺寸>

用XML记述内容对象数据,则要根据内容对象的各种类型的结构化需要。对图书的类型结构化可以分为如下三类,每一种类型在进行XML标引时的数据内容可以不相同。①论著类图书:每篇论著可供结构化的内容包括标题、作者、摘要、关键词、文章内容等。②教材教辅类图书:按照篇、章、节来反解内容。③辞书类图书:先将辞书以条目为单位进行反解,再进一步把条目里面不同意义的内容结构化。最终形成一本辞书对应一个条目集合,条目集合里面每个条目都是结构化的数据。

(2)图书元数据的XML标引

如前所述,图书元数据信息用处大,应尽可能多加标引,可以包括的内容有书名、年份、责任者、主要责任者关系、出版社、出版地、摘要、主题词/关键词、其他题名、作品类型、次要责任者、次要责任者关系、出版日期、标识、标识类型、纸书价格、版次、印次、字数(千字)、中图分类号、语种、地图法分类号、中国分类法、索书号、目录等。以人民出版社为例,其作为甲方监理方用户,提出对政治类图书的元数据标引的加工要求,如表1-1所示。

表1-1 ××数据库基础信息元数据加工要求

(3)正文文本的XML标引

以北京中献拓方公司为例,根据合同提供的XML标准,对数据标引程序进行配置优化,在加工生产流水线上进行。首先要制定完备的DTDDTD(Document Type Definition)是一套关于标记符的语法规则,是XML文件的验证机制,属于XML文件组成的一部分。DTD是一种保证XML文档格式正确的有效方法,可通过比较XML文档和DTD文件来看文档是否符合规范,元素和标签使用是否正确。每一个XML文档都可携带一个DTD,用来对该文档格式进行描述,测试该文档是否为有效的XML文档。各机构都能依DTD建立XML文件,并且进行验证,就可以轻易的建立标准和交换数据,满足网络共享和数据交互。,标识程序加入相应标签,如角标标签。编写相应的XML文件,使其能够在IE浏览器显示图书内容,根据显示结果检查标引正确与否,以此加工生产出满足甲方监理方要求的XML文件。

在画框识别的代码界面中,红色画框表示锁定的文字内容,位置信息已经由中间文件描述,每一个中文字符或者英文字符分别用绿色画框标注,标题章节及每一行都有起始、结束内部标识符进行标记,如图1-21所示。

图1-21 正文文本的XML标识示例

带有图形的正文文本XML标识中,图用绿色画框锁定,在标引框中并有标记表示,带有图形的正文文本XML标识示例如图1-22所示。

图1-22 带有图形的正文文本XML标识示例

带有表格的正文文本XML标识中,表格用绿色画框锁定,在标引框中并有表的标记,带有表格的正文文本XML标识示例如图1-23所示。

图1-23 带有表格的正文文本XML标识示例

(4)XML标引是跨媒体出版的基石

根据上述对XML标引的讲述可以了解,尽管原始文档有多种格式,但归一化处理后形成标准的图书XML标引,通过程序初排或者程序转换之后,就可以形成纸书或者PDF和ePub等电子书,实现内容的跨媒体呈现。因此说,XML标引是实现跨媒体出版的基石,如图1-24所示。

图1-24 基于XML标引实现的跨媒体内容呈现