第2章　多媒体教学素材处理

实验2-1　文本素材处理

【知识链接】

文本是最常用、最基本的一类多媒体素材，对文本素材的处理方法也是多媒体信息处理的最基本方法。在多媒体应用软件中虽然有多种媒体可供使用，但是在有大段的内容需要表达时，文本方式使用最为广泛。尤其是在表达复杂而确切的内容时，人们总是以文字为主，其他方式为辅。另外，与其他媒体相比，文字是最容易处理、占用存储空间最少、最方便利用计算机输入和存储的媒体。

文字素材的文件格式通常有纯文本文件与文档文件两类。文本指的是字母、数字和符号，文本文件除了换行符和回车符外，不包括任何格式化信息，它是ASCII码文件。文本显示是多媒体教学软件的非常重要的一部分。多媒体软件中，问题的提出，知识体系的阐述，标题、菜单、按钮、导航等都离不开文本信息。文本是准确有效地传播信息的重要媒体元素。因此，屏幕画面上少不了文本。

常见的文字素材处理包括导入与识别、编辑排版、文件格式转换等方面。

文字的导入与识别，可以通过键盘输入、手写板输入、语音识别输入、扫描与OCR识别输入等多种方法实现。

文字编辑排版的软件很多，可以编排出各种格式与样式（如字体、字号、颜色、文字修饰、底纹等）的文档。但一个突出的问题是，这样的文档通常离不开各自的编辑环境，在不同的编辑环境中操作文档，经常会有出现乱码、丢掉原有的格式甚至无法打开文件的现象。解决这个问题的一种途径是，利用屏幕复制功能或抓图软件，将带格式的文本转换成图像，然后再使用即可。

带有各种不同文件格式或内部控制符的文档文件向某种特定文件格式的转换策略，是先将其另存或转换为纯文本文件（扩展名为.txt，Windows记事本可以打开与编辑），再导入支持所需文件格式的编辑环境加以编辑、保存。

常见的文字编辑软件有Office办公组件、WPS办公系统、无锡永中等。

常见的文字输入与识别软件有IBM的语音识别软件、清华TH-OCR、尚书OCR等。

常用的文字输入硬件有手写板、扫描仪、耳麦等。

【实验目的与要求】

①了解文字处理内容与途径。

②掌握多种环境下文字格式化与排版的方法。

③掌握文档文件转换为纯文本文件的方法。

④掌握文本块转换为图像和利用OCR软件从图像中获取文字的方法。

【实验设备与软件】

①多媒体计算机、扫描仪（可选）。

②基本软件：Office组件、WPS、清华TH-OCR、SnagIt。

③可选软件：WPS、CCED、无锡永中、Flash、Authorware。

【实验内容】

①使用文字处理软件建立与编辑文档文件。

②转换文档文件格式。

③捕获文本。

【实验步骤】

1.建立与编辑文档文件

①视微机软件安装情况，分别用Word、WPS、CCED、无锡永中等编辑一段约150字的文本，进行格式与排版后，分别保存成各软件默认格式的文档文件（如.doc、.wps）。

②在Excel、PowerPoint、Flash、Authorware等环境中输入文本，分别保存成各软件默认格式的文档文件（.xls、.ppt、.fla、.a6r）。

③登录一个网站，打开一个新闻链接网页，将其另存为网页文件（.htm）、Web档案文件（.mht）和文本文件（.txt）。

④利用搜索引擎，搜索一个主题（如“文字素材处理”）的某种特定格式（如PDF、CAJ等）的文档文件，将其保存到本地磁盘。

2.转换文件格式

（1）使用文件另存功能

①打开前面生成的文档文件（如.doc、.wps、.xls、.htm、.pdf）。

②选择“文件”→“另存为…”命令，选择文件类型为“文本文件”（.txt），保存即可。

（2）利用剪贴板保存文本块

①打开一个Word文档或一个网页文件，选定一个文字段落进行复制（按【Ctrl+C】组合键）。

②打开Windows“附件”中的“记事本”程序，进行粘贴（按【Ctrl+V】组合键）；

③保存“记事本”中的内容（生成文本文件）。

3.捕获文本

（1）使用SnagIt

①打开一个可编辑文档（如.ppt、.mht、.wps等）。

②启动SnagIt（见图2-1-1），设置输入方式为“区域”、输出方式为“文件”、捕获方式为“文本”不含光标。

图2-1-1　SnagIt选项设置

③单击“捕获”按钮，拖动鼠标，使红色框线包含被捕获的文本，然后松开鼠标左键，如图2-1-2所示。

图2-1-2　含有文本的PowerPoint演示文稿

④在弹出的预览窗口中对捕获到的文字进行整理与简单的编辑，如图2-1-3所示，然后单击“保存”按钮，生成文本文件。

图2-1-3　捕获的文本

（2）使用清华紫光OCR识别文本

利用OCR软件，可以将图像中的文字识别出来，生成可编辑的文本文件，进而，可以对识别出的文本进行格式化处理和重新排版，这在数字文本处理过程中是很重要的一环。

将不便处理的文字生成图像，通常有两种方法：其一，通过扫描仪，可以将纸质的文字稿扫描到计算机生成图像文件；其二，对于较为复杂格式的文档（如.tex.、.pdf、.caj等），只要能在计算机屏幕上显示出来，利用抓图软件（如SnagIt），就可以将其捕获，生成图像。

假设已生成含文字的图像text.bmp，下面利用TH-OCR进行文字识别与编辑操作。

①启动TH-OCR，单击工具栏中的“打开”按钮，打开aa.bmp，如图2-1-4所示。

②拖动鼠标，选定识别区域（蓝色矩形框内部分，若不选则识别全部）。

图2-1-4　打开待识别文件

③单击工具栏中的“识别”按钮（眼镜形状）右边的向下展开按钮，设置识别选项，然后单击“识别”按钮，开始识别，随后系统自动生成文本文件aa.txt，如图2-1-5所示。

图2-1-5　识别后生成文本文件aa.txt

④单击左边树形结构中的aa.TXT项，打开文本编辑界面，对误识别之处进行纠正，调整词句位置与段落，如图2-1-6所示，然后保存。

图2-1-6　对识别文本进行编辑修改

实验要点与注意事项：

①进行文件另存时注意选择保存位置与文件类型。

②同时操作多个软件时，注意当前工作窗口的切换和确定剪贴板中的内容。

③捕获（或扫描）文本区域生成的图像要保证背景的干净（尽量为白底黑字）。

本周热推：

李商隐诗花间集李太白集（上）谢榛诗选宋词三百首

第2章 多媒体教学素材处理

实验2-1 文本素材处理

第2章　多媒体教学素材处理

实验2-1　文本素材处理