1.3 多媒体技术

媒体(Medium)是指文字、声音、图像、动画和视频等内容。多媒体信息在计算机内部都转换成以0和1表示的数字化信息进行处理,并以不同文件类型进行存储,然后通过计算机输出界面向人们展示丰富多彩的文、图、声信息。

按照国际电信联盟制订的广义媒体分类标准,可以将媒体分为感觉媒体(视觉、听觉、触觉)、表示媒体(计算机数据格式)、表现媒体(输入、输出)、存储媒体(存取信息)和传输媒体(网络传输介质)5类。

1.3.1 多媒体技术的特征

多媒体(Multimedia)技术是指能够同时对两种或两种以上的媒体进行采集、操作、编辑、存储等综合处理的技术,具有交互性、集成性、多样性、实时性、非线性等特征,是一门跨学科的综合技术,它使得高效而方便地处理文字、声音、图像和视频等多种媒体信息成为可能。

(1)交互性。交互性是指多媒体技术可以实现人对信息的主动选择和控制,具有人—机交互功能。交互性是多媒体技术的关键特征,没有交互性的系统就不是多媒体系统。交互性是指多媒体系统向用户提供交互使用、加工和控制信息的手段,从而为应用开辟了更加广阔的领域,也为用户提供了更加自然的信息存取手段。

(2)集成性。集成性是指以计算机为中心,将多种媒体信息(文字、声音、图形、图像与音频、视频等)有机地组织在一起,共同表达一个完整的概念。此外,多媒体处理工具和设备的集成能够为多媒体系统的开发与实现建立理想的集成环境。

(3)多样性。多样性是指多媒体信息是多样化和多维化的,同时也指媒体输入、传播、再现和展示手段的多样化。多媒体技术使人们的思维不再局限于顺序、单调和狭小的范围。这些信息媒体包括文字、声音、图像、动画等,它扩大了计算机所能处理的信息空间,使计算机不再局限于处理数值、文本等,使人们能得心应手地处理更多种信息。

(4)实时性。实时性是指声音与视频图像必须在时间上保持同步和连续性。多媒体系统提供了对这些媒体实时处理和控制的能力。多媒体系统除了像一般计算机一样能够处理离散媒体,如文本、图像外,它的一个基本特征就是能够综合处理带有时间关系的媒体,如音频、视频和动画,甚至是实况信息媒体。

(5)非线性。多媒体技术的非线性特点将改变人们传统循序性的读写模式。以往人们读写大都采用章、节、页的框架,循序渐进地获取知识,而多媒体技术将借助超文本链接的方法,把内容以一种更灵活、更具变化的方式呈现给读者。

目前,多媒体技术主要处理的对象(元素)有文字、声音、静态图像(包括图形、图像)、动态图像(包括视频、动画),主要研究和解决的问题是图像、声音、视频等表示媒体的数据编码、压缩与解压缩。

1.3.2 声音的编码

声音(Audio)是人们进行交流最直接、最方便的形式,也是计算机领域最常用的媒体形式之一。一般人耳听见的声音信号是一种通过空气传播的连续的模拟信号(声波),在计算机中处理时,要将其转换为数字信号,并以文件的形式保存,常见的声音文件格式有WAV、MIDI、MP3等。

1.声音的数字化

声音的主要物理特征包括频率和振幅。声音用电表示时,声音信号是在时间上和幅度上都连续的模拟信号,而计算机只能存储和处理离散的数字信号。将连续的模拟信号变成离散的数字信号就是数字化,声音的数字化主要包括采样、量化、编码3个基本过程。

(1)采样。采样就是以固定的时间间隔在声音波形上获取一个幅度值,把时间上连续的信号变成时间上离散的信号。该时间间隔称为采样周期,其倒数称为采样频率。

采样频率可用每秒采样次数表示,如44.1 kHz表示将1s的声音用44 100个采样点数据表示。显而易见,采样频率越高,数字化音频的质量越高,需要的存储空间越大。因此,需要确定一个合适的时间间隔,既能记录足够复现原始声音信号的信息,又不浪费过多的存储空间。

根据奈奎斯特采样定理,当采样频率大于或等于声音信号最高频率的两倍时,就可以从采样中恢复成原声音信号。

(2)量化。量化就是将每个采样点得到的幅度值以数字存储。表示采样点幅度值的二进制位数被称为量化位数,它是决定数字音频质量的另一重要参数,一般为8位、16位,又称为采样精度。量化位数越大,采样精度越高,声音的质量越好,需要的存储空间也就越多。

记录声音时,每次只产生一组声波数据,称单声道;每次产生两组声波数据,称双声道。双声道具有空间立体效果,但占空间比单声道多一倍。

(3)编码。编码就是将量化的结果用二进制数的形式表示。编码常用的基本技术是脉冲编码调制(Pulse Code Modulation,PCM)。

每秒音频数据量(字节数)可按如下公式计算。

音频数据量=采样频率(Hz)×量化位数(b)×声道数/8。

2.声音文件格式

(1)WAV文件(.wav)。是微软采用的波形声音文件存储格式,主要针对外部音源(麦克风、录音机)录制,然后经声卡转换成数字化信息,播放时还原成模拟信号输出。WAV文件直接记录了真实声音的二进制采样数据,通常文件较大,多用于存储简短的声音片段。

(2)MIDI文件(.midi)。乐器数字接口(Musical Instrument Digital Interface,MIDI)是电子乐器与计算机之间交换音乐信息的规范,是数字音乐的国际标准。MIDI文件中的数据记录的是乐曲演奏的每个音符的数字信息,而不是实际的声音采样,因此MIDI文件要比WAV文件小很多,而且易于编辑、处理。

(3)MP3文件(.mp3)。是采用MPEG音频标准进行压缩的文件。MPEG音频文件的压缩是一种有损压缩,根据压缩质量和编码复杂程度的不同,可分为3层(MPEG-1 Audio Layer 1/2/3),分别对应MP1、MP2、MP3这3种音频文件。其中MP3文件因其压缩比高、音质接近CD、制作简单、便于交换等优点,非常适合在网上传播,是目前使用最多的音频格式文件,其音质稍逊于WAV文件。

(4)RA文件(.ra)。是由Real Network公司制订的网络音频文件格式,压缩比较高,采用了“音频流”技术,可实时传输音频信息。

(5)WMA文件(.wma)。是微软新一代Windows平台音频标准,压缩比高,音质比MP3和RA格式强,适合网络实时传播。

还有其他的音频文件格式,如UNIX下的Au(.au)文件、苹果机的AIF(.aif)文件等。

1.3.3 图像的编码

图像是多媒体中最基本、最重要的数据。照片、图片和印刷品等,是自然界中的客观景物通过某种系统的映射,使人们产生的视觉感受,一般有静止和活动两种表现形式。静止的图像称为静态图像,活动的图像称为动态图像。

1.静态图像的数字化

一幅图像可以看成是由许许多多的点组成的,这些点称为像素,因此图像的数字化就是采集组成一幅图像的点,再将采集到的信息进行量化,最后编码为二进制。每像素的值表示其颜色、属性等信息。一幅图像像素点的行数×列数称为图像的分辨率;存储图像颜色的二进制数的位数称为颜色深度。例如,3位二进制数可以表示8种不同的颜色,因此8色图的颜色深度是3;真彩色图的颜色深度是24,可以表示16 777 216种颜色。

2.动态图像的数字化

动态图像是将静态图像以每秒n幅的速度播放,当n≥25时,显示在人眼中的就是连续的画面。

动态图像又分为视频和动画。习惯上将通过光学镜头拍摄得到的动态图像称为视频,而用计算机或绘画的方法生成的动态图像称为动画。

3.图像文件格式

(1)BMP位图文件(.bmp)。是Windows采用的图像文件存储格式。

(2)GIF文件(.gif)。供联机图形交换使用的一种图像文件格式,目前在网络上广泛采用,压缩比高,占用空间小,但颜色深度不能超过8,即256色。

(3)JPEG文件(.jpg/.jpeg)。是利用JPEG方法压缩的图像格式,压缩比高,适用于处理真彩大幅面图像,可以把文件压缩到很小,是互联网中最受欢迎的图像格式。

(4)TIFF文件(.tiff)。是二进制文件格式,广泛用于桌面出版系统、图形系统和广告制作系统,并用于跨平台间的图形转换。

(5)PNG文件(.png)。是适合网络传播的无损压缩流式图像文件格式。

4.视频文件格式

(1)AVI文件(.avi)。是Windows操作系统中数字视频文件的标准格式。

(2)MOV文件(.mov)。是QuickTime for Windows视频处理软件采用的视频文件格式,其图像画面的质量比AVI文件要好。

(3)ASF文件(.asf)。是高级流视频格式,主要优点包括本地或网络回放、可扩充的媒体类型、部件下载以及扩展性好等。

(4)WMV文件(.wmv)。是微软Windows媒体视频文件格式,是Windows Media的核心。

(5)MPG文件(.mpeg/.dat/.mp4)。是包括MPEG-1、MPEG-2和MPEG-4在内的多种视频格式,MPEG系列标准已成为国际上影响最大的多媒体技术标准。

(6)FLV文件(.flv)。是Flash Video的简称,FLV流媒体格式是一种新的视频格式。由于它形成的文件极小、加载速度极快,所以使得通过网络观看视频文件成为可能。

(7)RMVB文件(.rmv/.rmvb)。其前身为RM格式,是Real Networks公司制定的视频压缩规范,根据不同的网络传输速率,而制定出不同的压缩比率,从而实现在低速率的网络上进行影像数据实时传送和播放,具有体积小、品质接近于DVD的优点,是最主流的视频格式之一。

1.3.4 多媒体数据压缩

多媒体信息数字化之后,其数据量往往非常庞大。为了解决视频、图像、音频信号数据的大容量存储和实时传输问题,除了提高计算机本身的性能及通信信道的带宽外,更重要的是有效压缩多媒体。

数据压缩实际上是一个编码过程,即把原始的数据进行编码压缩。因此,数据压缩方法也称为编码方法。数据压缩可以分为无损压缩和有损压缩两种类型。

1.无损压缩和有损压缩

无损压缩是利用数据的统计冗余进行压缩,又称可逆编码。其原理是统计被压缩数据中重复数据的出现次数来进行编码。解压缩后的重构数据是对原始对象的完整复制。无损压缩的压缩比较低,一般为2∶1~5∶1,通常广泛应用于文本数据、程序以及重要图形和图像(如指纹图像、医学图像)的压缩,典型软件WinZip和WinRAR可用来压缩任何类型的文件。无损压缩没有解决多媒体信息存储和传输的所有问题,常用的无损压缩算法包括行程编码、霍夫曼编码(Huffman)、算术编码等。

有损压缩是指压缩后的数据不能够完全还原成原始数据的压缩方法,又称不可逆编码。有损压缩以损失文件中对视觉和听觉感知不重要的信息为代价,来换取较高的压缩比,压缩比一般为几十到几百,常用于音频、图像和视频的压缩。

典型的有损压缩编码方法有预测编码、变换编码、基于模型编码、分形编码及矢量量化编码等。

2.多媒体数据压缩标准

目前已公布的数据压缩标准有:用于静止图像压缩的JPEG标准;用于视频和音频编码的MPEG系列标准(包括MPEG-1、MPEG-2、MPEG-4等);用于视频和音频通信的H.261、H.263标准等。

JPEG标准。JPEG(Joint Photographic Experts Group,联合图像专家组)是第一个针对静止图像压缩的国际标准。JPEG标准制定了两种基本的压缩编码方案:以离散余弦变换为基础的有损压缩编码方案和以预测技术为基础的无损压缩编码方案。

MPEG标准。MPEG(Motion Picture Experts Group,运动图像专家组)规定了声音数据和电视图像数据的编码和解码过程、声音和数据之间的同步等问题。大部分的VCD都是用MPEG-1格式压缩的;MPEG-2则应用在DVD和一些HDTV(高清晰电视广播)的制作中;MPEG-4是基于第二代压缩编码技术制定的国际标准,它以视听媒体对象为基本单元,采用基于内容的压缩编码,以实现数字视音频、图形合成应用及交互式多媒体的集成。

H.261、H.263标准。H.216是CCITT所属专家组主要为可视电话和电视会议而制定的标准,是关于视像和声音的双向传输标准。H.261最初是针对在ISDN上实现电信会议应用,特别是面对面的可视电话和视频会议而设计的。实际的编码算法类似于MPEG算法,但不能与后者兼容。H.261在实时编码时比MPEG所占用的CPU运算量少得多,此算法为了优化带宽占用量,引进了在图像质量与运动幅度之间的平衡折中机制,也就是说,剧烈运动的图像比相对静止的图像质量要差。因此,这种方法是属于恒定码流可变质量编码而非恒定质量的可变码流编码。H.263的编码算法与H.261一样,但做了一些改善和变化,以提高性能和纠错能力。H.263标准在低码率下能够提供比H.261更好的图像效果。