1.3.3 数字化加工的通用格式与规范

(1)数字化加工通用格式

目前,在各种电子终端上显示阅读的电子书,是经过非结构化数据加工的各种格式电子文档。其中,最有代表性的格式有两种:一种是可移植文档格式(Portable Document Format),简称PDF格式;另一种是电子书格式(Electronic Publication),简称ePub格式ePub是由国际数字出版论坛(International Digital Publishing Forum,简称IDPF)提出的一种自由开放的电子图书标准,特点是文字内容可以根据阅读设备的特性、以最适于阅读的方式显示。ePub元数据是XML,内容是XHTML。如果文档构建系统产生的结果用于Web,或者是基于XML,就可用于生成ePub。国际数字出版论坛是一个电子书产业的国际性商业与标准组织,原为开放式电子书论坛(Open eBook Forum,简称OeBF)。为促进电子书市场开放,并适合于阅读系统(Reading System)之间的信息交換,制定OeBPS(Open eBook Publication Structure)标准,后演变成epub(Electronic Publication)标准,作为电子书內容描述的标准规范。目前,ePub在欧美已被广泛使用,日本各图书出版商和电子公司已经达成共识,将ePub3.0作为电子书出版格式。。ePub是目前国际上兴起的能够跨越互联网平台和移动通信平台的格式。另外,国内一些数字出版公司也开发应用了各种电子书阅读格式,如同方CAJ、方正CEB、超星PDG、书生SEP等。目前,中国新闻出版信息化技术委员会正在进行数字出版标准体系研究,其中,涉及数字出版的十多个细分领域的标准,包括制定电子书数字出版标准。可以预见,电子书数字出版标准会出现逐渐采用通用格式的趋向。

(2)数字化加工规范作用

目前国内很多数据加工单位制作PDF格式文件,使用的参数不统一,造成的影响是:①其成品对后期PDF数据的反解和格式转换软件的开发带来很大不便;②有些重要的参数也被忽略,如“字体嵌入”,导致PDF格式在转换及文本分析时产生乱码。为了避免后续应用带来的制约,需要在数字化加工中制定PDF加工规范,用规范引导和保证加工成品的各种重用需求。