1.6.2 画框识别_数字出版实用教程（第二版）-QQ阅读都市男生网

书名：数字出版实用教程（第二版）
作者名：黄孝章周健华张志林
本章字数：1102字
更新时间：2025-02-26 01:05:20

1.6.2 画框识别

用光学字符识别方法对图像文档进行处理，是对扫描图进行代码化的工序。这一步称为OCR（Optical Character Recognition，光学字符识别）。

（1）OCR识别即电子代码化

OCR识别是对经过扫描、修图的图像文档进行分析，将图像文档翻译成计算机文字，获取内容信息及版面信息，OCR识别过程即电子代码化过程。通过OCR识别，图像文档中的文字图形将继续保存；图像文档中有表格的，则将表格信息一律变成计算机文字。因此，如何避免和消除代码化过程中的错误，或者说如何利用辅助信息提高图像文档的识别正确率，是OCR系统最重要的课题。在OCR识别界面，图像文档翻译成计算机文字显示的内容如图1-6所示。

图1-6 OCR将图像文档进行转换示例

（2）文字图片的代码化

文字图片代码化的具体做法是，将经过修图的图像文档置入专用OCR软件中，进行画框识别。将横排文本、竖排文本、表格、插图、页码分开画框，框线不得压字、压图。在画框完成后对整个工作包进行检查，确保没有画框错误及漏画等现象。

画框识别一般分为两个步骤，一是对内容信息的代码化，二是中间软件程序自动跟踪标注位置信息。对内容信息进行画框识别时，文字信息的属性会自动用红色框边显示；图像信息的属性则自动显示为绿色。同时，识别时产生的中间程序会自动切图，进行位置信息的识别标注。

画框识别中，按页产生的文档尽管有一个记录位置信息的中间文件，但仍然包含在一个完整的文件中。也就是说，本道工序入口时是TIF图像文档，出口时是TIF+中间文件。经过画框标记的文档，内容信息被分别用红色、绿色框标注；位置信息包括页码也同时标注出来并加以编号，如图1-7所示。

图1-7 画框标识的代码化文档

（3）复杂公式表格的代码化

一些比较先进的OCR系统，能够自动对带有复杂公式、表格的图像文档进行画框识别，多窗口展开进行比对。画框识别中展开的图像文档窗口，文字和公式信息被逐一作为图像标注；展开的代码化识别窗口中，文字信息和位置信息被逐一识别标注。更进一步，OCR系统能够同时展开三个窗口自动进行操作，即展开原图像文档窗口、代码化过程窗口及识别结果窗口，如果识别结果与原图像文档有差异，则需要人工进行修正。复杂数字公式的画框识别示例如图1-8所示；复杂数字公式的代码化过程窗口展示如图1-9所示。

图1-8 对复杂数学公式的画框识别

图1-9 复杂数学公式的识别窗口展示

（4）代码化识别的优点

OCR识别后的图像文档中，内容信息和位置信息能够自动拆分保存。经过OCR转换的文档有以下优点：①点阵图像的技术特性是用正方形的小点来描述图像，所以在描述曲线及一些角度的直线时就会产生锯齿，经过OCR识别后，文字成为矢量图，能够有效避免锯齿状；②能减少图像文档的储存量；③识别出的文字可再使用及分析；④因无须键盘输入，可节省信息输入的人力与时间。