- Web用户查询日志挖掘与应用
- 王继民
- 1989字
- 2021-04-04 01:27:38
前言
随着计算机网络技术的日益成熟与Web信息量的快速增长,用户可以利用网络在任何地点对各类Web检索系统进行信息查询,包括Web搜索引擎、电子商务站点、数字图书馆等。Web检索系统的服务器日志记录了用户与系统交互的整个过程,主要包括用户的访问时间、所输入的查询词、点击的检索结果及点击时间、移动用户的终端设备信息等。这些日志文件所包含的查询或点击记录的规模一般都很大,尤其是大型商业搜索引擎,它每天能接受几千万甚至上亿次的用户查询。
开展大规模互联网用户查询日志挖掘及其应用研究,可以发现中文用户进行Web查询行为的特征与规律,改善Web检索系统的性能 (效果与效率),实现个性化信息服务,在发现用户查询主题的变化及其与社会事件之间的关系等方面也具有重要的理论与实际意义。
本书介绍了互联网用户查询日志挖掘及其应用研究领域的主要技术、方法与实证研究成果,全书由3篇共14章内容组成,具体如下。
上篇是对用户查询日志挖掘及其应用研究的概括性分析与总论。首先利用文献计量与社会网络分析等方法,剖析了Web搜索引擎用户日志与移动搜索用户日志的国内外研究热点、主要科研团队等研究现状。然后给出了Web用户查询日志挖掘研究框架,分别针对搜索引擎用户日志和移动搜索用户日志,阐明了使用何种数据分析与挖掘的理论、技术与方法,归纳并总结了目前已有的研究成果,包括:日志挖掘的研究内容、数据集的选择方法、数据预处理的方法、不同地域用户行为的特征与比较、如何应用于系统性能的改善等内容。该框架的建立可以指导一般的Web检索系统、电子商务站点及其类似Web日志挖掘的研究等。上篇由4章内容组成。
中篇介绍基于不同类型日志所开展的实证研究。用户日志来自北大天网大规模Web搜索引擎系统的用户日志、国内某大型期刊数据库的用户日志、移动搜索的用户日志,这三类日志分别涵盖搜索引擎的使用情况、学术期刊数据库的使用情况和移动搜索的使用情况,代表性较强。对这些日志数据集,我们开展了多维度、多方法的综合性试验研究。取得了许多有价值的研究成果,包括:基于时间序列的用户访问量模型、中文Web搜索引擎用户检索的一般特征与规律、多任务中文Web查询的特征、用户点击URL的局部性与自相似性、中文Web用户查询行为的演化趋势、高校用户检索策略的影响因素模型、国内移动搜索用户与传统PC搜索用户的比较研究等。中篇由7章内容组成。
下篇介绍应用研究方面的工作,主要包括3部分内容。其一为基于用户日志进行查询推荐的一项实验性研究。其二由一项发明专利的内容构成,所介绍的查询推荐方法及系统具有实际可操作性。它充分利用用户日志的数据项,为用户提供最可能反映其查询意向且系统具有最佳反馈结果的查询串。其三介绍基于用户查询的舆情监测实例与一个实证研究结果。下篇由3章内容组成。本书的整体逻辑框架如图1所示。
图1 本书的基本结构
Web用户查询日志挖掘所使用的技术与方法主要有:中文信息处理技术、Web使用挖掘方法、建模分析与预测、社会网络分析方法、可视化技术、新事件探测技术、网络舆情分析分法等。整体研究思路与技术路线如图2所示。
图2 Web用户查询日志挖掘的研究思路与技术路线
本书内容主要来自作者近年来在该领域所做的研究工作,多数章节的内容直接来自本人与他人合作发表的学术研究论文;其中,基于搜索引擎实证研究的数据主要来自北大天网前几年的用户日志 (作为公益性中文搜索引擎,它始终没有商业化,近几年的用户访问量较少),而主流的商业搜索引擎如百度、谷歌等都不对外提供或不愿完整提供自己的用户日志,这使得我们无法进一步更新这些实证研究成果。本书的部分研究工作得到中国博士后科学基金、教育部人文社科基金、国家社会科学基金等科研基金的资助。作者早期的研究工作是在北京大学信息科学技术学院网络实验室做博士后时完成的,感谢合作导师李晓明教授的指导与帮助。本书中的搜索引擎日志分析的工作大多是与北大网络实验室的老师和研究生们共同完成的,包括闫宏飞、彭波、孟涛、陈翀、龚笔红等;移动搜索和期刊数据库检索日志挖掘的工作大多是与我指导的研究生们一起完成的,主要有王建冬、李雷明子、张鹏、王明星、郑玉凤、张玉涛等,本科生有孟凡、王一博等;我系博士后化柏林老师和知识产权出版社的李德升老师对书稿的修订和完善提出了有益的建议。感谢所有与我进行过合作研究和为我提供帮助的老师和同学们。在写作过程中,我们参考或借鉴了大量的中外文参考资料,由于篇幅所限或工作疏忽,未能一一列出,在此特向所有的参考文献作者表示衷心的感谢。
本书的撰写工作虽几经努力,但限于能力和水平,难免有疏漏与错误之处;同时,Web用户查询日志挖掘与应用属于一个新兴的研究领域,具有多学科交叉属性;随着互联网的快速发展,特别是移动互联网的普及,Web用户的查询行为也将产生新的变化,本书中的一些理论、技术与方法也需要进一步完善和提高。因此,恳请各位专家和读者批评指正 (E-mail:mailto:wjm@pku.edu.cn)。
王继民
2013年10月于北京大学静园三院