1.1 正说搜索技术发展史

“我们面前无所不有,我们面前一无所有。”

正如查尔斯·狄更斯在《双城记》中所述。在信息大爆炸的当下,“我们面前无所不有”;而个人信息过载已成为越来越多的人的负担,“我们面前一无所有”。

如何挣脱过载的信息的束缚,高效地找到自己需要的信息呢?——答案是搜索引擎,借助搜索引擎来实现!

本书介绍的搜索引擎是Elasticsearch——一个开源的搜索引擎(简称ES)。

我们每天都在某种场景下使用搜索引擎,在电脑上、手机上,都可以找到自己惯用的搜索引擎,比如百度搜索、搜狗搜索、神马搜索、谷歌搜索、360搜索、头条搜索,等等。

那么,搜索引擎是什么呢,它是如何发展到今天的样子呢?本章就介绍搜索技术发展,让我们沿着技术发展的脉络更深刻地认识搜索技术。

宏观而言,搜索引擎的发展经历了五个阶段和两大分类。五个阶段分别是FTP文件检索阶段、分类目录导航阶段、文本相关性检索阶段、网页链接分析阶段和用户意图识别阶段。具体情况汇总如下。

FTP文件检索阶段

该阶段的搜索引擎只检索多个FTP服务器上存储的文件,代表作是Archie。用户搜索文件时需输入精确的文件名来搜索查找,搜索引擎会告诉用户从哪一个FTP地址可以下载被搜索的文件。

分类目录导航阶段

该阶段的搜索引擎就是一个导航网站,网站中都是网址的分类陈列,用户在互联网上常用的网址在这里一应俱全。

在使用该类搜索引擎时,用户需要从各个分类目录里找到自己想要的网址,单击其网站链接后进入相应的网站。

直到今天,这类搜索引擎依然不过时,我们常用的网站如好123、搜狗浏览器主页、UC导航等均是这类导航页面。

文本相关性检索阶段

随着互联网内容的不断丰富,网页的内容和形态也越来越多样化,页面中开始出现内容可能与网页地址和网页标题大相径庭的情况。

为了解决这个问题,搜索引擎引入全文搜索技术,来保证搜索引擎检索到的网页标题与网页全文内容强一致,摒弃了单纯依靠网页标题和网页地址来判断网页内容的方法。

在使用这类搜索引擎查询信息时,用户将输入的查询信息提交给搜索引擎后台服务器,搜索引擎服务器通过查阅已经索引好的网页全文信息,返回一些相关程度高的页面信息。

计算输入的查询信息与网页内容相关性判断的模型主要有布尔模型、概率模型、向量空间模型等。

这个阶段的搜索引擎的主要代表作是Alta Vista、Excite等。

网页链接分析阶段

这个阶段的搜索引擎所使用的网站链接形式与当前基本相同。在该阶段,外部链接表示推荐。

因此,通过计算每个网站的推荐链接的数量,就可以判断一个网站的流行性和重要性。

于是,搜索引擎通过结合网页内容的重要性和相似程度来改善搜索的信息质量。在这一阶段,搜索引擎的代表作是谷歌搜索。

这种模式是谷歌首创的,并且大获成功,随之引起了学术界和其他商业搜索引擎的极度关注和效仿。目前,网页链接分析算法及其改进优化的版本在主流搜索引擎中大行其道。

用户意图识别阶段

这个阶段的搜索引擎以用户为中心作为设计的初心,搜索引擎力求理解每一位用户的真正搜索诉求,力求做到千人千面,追求个性化识别和反馈。

在使用这类搜索引擎时,即便是同一个查询的请求关键词,不同的用户可能也会得到不同的查询结果。比如输入的是“小米”,那么一个想要购买小米电子设备的用户和一个想要购买小米食用的用户,他们的搜索意图显然天壤之别,因而得到不同的搜索结果是顺理成章的事情。不光是不同用户之间,同一个用户搜索同样的关键词也会因时因地的不同而有所差异。比如当用户在搜索引擎上首次输入“TAL”时,可能是想查找TAL股票代码对应的好未来公司的网站;当用户在好未来的办公区内搜索“TAL”时,有可能是想查看TAL股票代码的实时股价。

其实在这两个案例背后,搜索引擎都在致力于解决同一个问题,即怎样才能通过输入的简短的关键词来判断用户的真正查询诉求。这也是我们将其归类为用户意图识别的原因。这一阶段的搜索引擎典型代表就是百度。

在搜索引擎技术不断演进的过程中,为了更好地识别及满足用户的搜索需求,更多的新技术也在不断引入,如AI技术、地理位置信息、用户画像等。

两大分类是指站内搜索和站外搜索。

站外搜索就是全网搜索,现在主流的搜索引擎基本都是全网搜索,如谷歌、百度。随着技术的发展,搜索领域的生态圈搜索形态不断扩大。以谷歌为代表的搜索引擎推出了整合搜索、个人化搜索、实时搜索、地图服务、线上文件编辑、网站统计、浏览器、网管工具、超大容量电子邮件、即时通信等。百度上线了百度百科、百度知道、百度贴吧等服务,这些服务中嵌入了文字搜索、语音搜索、图像搜索、地图搜索等搜索形态。

站内搜索近几年发展比较迅猛,各大网站平台纷纷上线了站内搜索,如SNS平台中的微博、人人网等,如电商平台中的京东、饿了么、淘宝、美团等。

另外,区块链内容搜索是近两年新的站内搜索形式,如比特币区块链的搜索内容在比特币公链上,但比特币公链的节点所在地域却是分布式的,和常见的站内搜索大相径庭,如图1-1所示。

图1-1

在未来,搜索引擎的发展会是什么样的呢?我们不妨畅想一下。随着5G时代的到来,物联网和智慧城市将会随处可见;AR/VR技术会更加成熟,设备更加普及和便宜。与之对应的,除现在的文字搜索、语音搜索、图像搜索外,还会出现AR/VR搜索等搜索形态。

在5G的加持下,搜索引擎的搜索效率会更高;物联网和区块链中设备和信息搜索也会更加普遍,而搜索引擎的商业模式也可能随之升级,广告的效果可能会更好。