1.6.3 文字审查

(1)窗口比对逐行逐字自动审查

系统采用多核心识别技术,对画框后图像文件进行识别。生产系统对多核心识别后的结果进行语义分析检查,根据上下文关联及词组组成进一步筛选识别结果,使得错误定位更加明确。最后将所有有问题的可疑字进行局部截取,截取后利用校对软件校对时,操作员看不到整页图书,只能看到页面的局部,有效地保证数据安全。在文字审查校对软件界面中,会有两个窗口同时打开,使文本与原书扫描图像同时显示在计算机屏幕上。文字校对窗口中,中间文件对照画框识别窗口中的文字,通过光标逐行、逐字进行自动审查,可以实现文本与原书图像逐行对应,操作员可以逐行对照原书图像校对文本内容,使得数据更加精密准确,文字内容差错率可以控制在三万分之一以内。文字审查校对程序界面如图1-10所示。

图1-10 审查软件自动进行逐行逐字光标跟踪检查

(2)查错时的人工修正

专用改字检查程序对上道工序进行二次质量检查,针对一些易混的相似字及特殊符号,形成自主研发的易错字符集和符号集,通过程序对易出现识别错误的相似字或特殊符号进行处理,可以轻松校正,以保证数据准确性。文字内容差错率控制在万分之一至万分之三以内。

如图1-11中,黄色底纹标出的图形文档信息与OCR识别产生的中间文件进行比对,当发现OCR识别有误时,系统会提示。这时需要采用人工方式进行修改,系统显示“园”字识别错误为“国”,用黑色块光标提示。

图1-11 审查软件自动识别错误需人工修改