1.1 人类认知基本理论
人类通过视觉、听觉、触觉等不同感官形成对事物的感知,本质上,人脑所处理的信息本身就具有跨媒体特性,“McGurk现象”和近期神经系统科学进行的研究从不同角度揭示了人脑认知的跨媒体特性。1976年,McGurk等人验证了人类对外界信息的认知是基于不同感官信息(如听觉和视觉等)而形成的整体性理解,任何感官信息的缺乏或不准确将导致大脑对外界信息的理解产生偏差,这个现象被称为“McGurk现象” [7]。McGurk现象揭示了大脑在进行感知时,不同感官被无意识和自动地结合到了一起进行处理。更为重要的是,后续神经系统科学研究也揭示,在大脑皮层的颖上沟和脑顶内沟等部位,不同感官信息的处理神经相互交融,人脑的生理组织结构决定了其对外界的认知过程是通过跨越多种感官信息的融合处理来实现的[8]。
另外,从人工智能研究的角度来看,1976年Newell和Simon提出了物理符号系统假设,认为物理符号系统是表现智能行为的必要和充分条件,任何信息加工系统都可以看成一个具体的物理系统,如人的神经系统、计算机的构造系统等。之后以McCorthy和Nilsson等为代表,主张任何事物都可以用统一的逻辑框架来表示,即可以用形式化的方法来描述客观世界。20世纪70年代后期提出的知识系统,作为人工智能学科最重要的工业化和商业化产物,辅助人们进行问题求解,如产品质量的评价、辅助医疗诊断、金融决策支持等。传统的人工智能研究的目标是让机器模仿人,认为人脑的思维活动可以通过一些公式和规则来定义,希望通过把人类的思维方式翻译成程序语言输入机器,使机器有朝一日能产生像人类一样的思维能力。然而,人脑得到的信息中可以符号化的只占很小一部分,85%以上是符号以外的形象数据,如一幅花红柳绿的风景图、一段余音绕梁的音乐等。传统的人工智能研究面对多媒体的信息环境,不能自如地模拟人脑的智能活动。跨媒体思想对于人工智能研究的重要意义正体现在着眼于对85%以上的非符号信息的综合理解和有效利用,以使计算机可更好地模拟人类感知。
跨媒体是一个比较广义的概念,主要涉及以下研究范畴。
1)跨媒体检索
用户向计算机提交一种类型的多媒体对象作为查询例子,系统可以自动找到其他不同类型、在语义上相似的多媒体对象。虽然不同类型的多媒体对象之间没有直接的可比性,如一幅山水画和一段描述小河流水声的音频在底层内容特征上彼此异构,但却可以用机器学习、统计分析等方法学习两者在统计意义上潜在的相关性,并以此为依据进行跨媒体检索。
2)跨媒体推理
推理是从一种命题合理演绎到另一种命题,跨媒体推理就是从一种类型的多媒体数据经过问题求解转向另一种类型的多媒体数据。例如,OCR(Optical Character Recognition)技术是从图像到文本的推理、基于内容的图像检索是从图像到图像的推理、视频动画技术是从视频数据到动画序列的演绎。跨媒体推理囊括了对这些不同类型的多媒体数据之间的转换研究。
3)跨媒体存储
现有的处理海量数据的检索技术主要针对的是文本信息,如谷歌和百度等搜索引擎,针对多媒体检索的研究工作其出发点并不是针对跨媒体海量数据。跨媒体存储研究高效压缩、索引和分片等方法,以及对用户行为的个性化索引等技术,用于提高海量环境下的跨媒体检索效率,更好地支持上层应用。
上述三个方面,从底层数据存储到上层应用技术,从不同方面描述了跨媒体思想对多媒体研究领域的技术涵盖和突破性要求,是一个整体性的研究框架设计和考虑。要实现上述研究思路,需要在海量数据库、多媒体索引、并行计算、机器学习和统计分析、计算机视觉、计算机听觉以及信息检索等领域取得突破性的研究进展。