封面
版权信息
作者序
第1章 引言
1.1 搜索引擎概述
1.1.1 目录式搜索引擎
1.1.2 全文搜索引擎
1.1.3 元搜索引擎(Meta-Search Engine)
1.2 搜索引擎的主要需求
1.2.1 快
1.2.2 全
1.2.3 准
1.2.4 稳
1.2.5 省
1.3 搜索引擎的4大系统
1.3.1 搜索引擎的体系结构
第2章 搜索引擎的下载系统
2.1 爬虫的发展历史
2.1.1 世界上第1个爬虫
2.1.2 爬虫的发展历程
2.2 万维网及其网页分析
- APP免费
2.2.1 蝴蝶结型的万维网
- APP免费
2.2.2 万维网的直径
- APP免费
2.2.3 万维网的规模及变化特征
- APP免费
2.2.4 网页的特征
- APP免费
2.3 有关爬虫的基本概念
- APP免费
2.3.1 爬虫
- APP免费
2.3.2 种子站点
- APP免费
2.3.3 URL
- APP免费
2.3.4 Backlinks
- APP免费
2.4 网页抓取原理
- APP免费
2.4.1 telnet和wget
- APP免费
2.4.2 从种子站点开始逐层抓取
- APP免费
2.4.3 不重复抓取策略
- APP免费
2.4.4 网页抓取优先策略
- APP免费
2.4.5 网页重访策略
- APP免费
2.4.6 Robots协议
- APP免费
2.4.7 其他应该注意的礼貌性问题
- APP免费
2.4.8 重要性网页优先抓取策略
- APP免费
2.4.9 抓取提速策略(合作抓取策略)
- APP免费
2.5 网页库
- APP免费
2.6 下载系统回顾及未来发展
- APP免费
参考文献
- APP免费
第3章 搜索引擎的分析系统
- APP免费
3.1 知识准备
- APP免费
3.1.1 HTML语言
- APP免费
3.1.2 锚文本(anchor text)
- APP免费
3.1.3 半结构化数据(semi-structured data)
- APP免费
3.2 信息抽取及网页信息结构化
- APP免费
3.2.1 网页结构化的目标
- APP免费
3.2.2 建立HTML标签树
- APP免费
3.2.3 通过投票方法得到正文
- APP免费
3.2.4 网页结构化过程回顾
- APP免费
3.3 网页查重
- APP免费
3.3.1 网页查重技术发展历史
- APP免费
3.3.2 网页查重实现方法
- APP免费
3.4 中文分词
- APP免费
3.4.1 什么是中文分词
- APP免费
3.4.2 通过字典实现分词
- APP免费
3.4.3 基于统计的分词方法
- APP免费
3.5 PageRank
- APP免费
3.5.1 PageRank的来由
- APP免费
3.5.2 PageRank的基本想法
- APP免费
3.5.3 PageRank的计算公式
- APP免费
3.5.4 PageRank的计算方法
- APP免费
3.6 分析系统结构图
- APP免费
参考文献
- APP免费
第4章 搜索引擎的索引系统
- APP免费
4.1 知识准备
- APP免费
4.1.1 信息
- APP免费
4.1.2 索引
- APP免费
4.1.3 倒排索引、倒排表、临时倒排文件、最终倒排文件
- APP免费
4.1.4 其他概念
- APP免费
4.2 全文检索
- APP免费
4.3 文档编号
- APP免费
4.3.1 编号的本质
- APP免费
4.3.2 文档编号的方法
- APP免费
4.3.3 游程编码
- APP免费
4.4 倒排索引
- APP免费
4.4.1 经典的倒排索引
- APP免费
4.4.2 正排索引(前向索引)
- APP免费
4.4.3 倒排索引
- APP免费
4.5 数据规模的估计
- APP免费
4.5.1 齐普夫法则
- APP免费
4.5.2 布尔检索模型下的索引规模估计
- APP免费
4.6 涉及存储规模的一些计算
- APP免费
4.6.1 正排表与倒排表的合并
- APP免费
4.6.2 多个临时倒排文件的归并
- APP免费
4.6.3 倒排索引分布式存储
- APP免费
4.6.4 倒排文件缓存
- APP免费
4.6.5 倒排索引词典统计信息的计算
- APP免费
4.7 倒排索引文件的创建过程
- APP免费
4.7.1 创建倒排表
- APP免费
4.7.2 计算统计信息
- APP免费
参考文献
- APP免费
第5章 搜索引擎的查询系统
- APP免费
5.1 知识准备
- APP免费
5.1.1 什么是信息熵
- APP免费
5.1.2 检索和查询的区别
- APP免费
5.1.3 检索词和查询词的区别
- APP免费
5.1.4 自动文本摘要(Automatic Text Summarization)
- APP免费
5.2 网页信息检索
- APP免费
5.2.1 早期的检索模型
- APP免费
5.2.2 向量空间模型(Vector Space Models)
- APP免费
5.2.3 关键词权重的量化方法TF/IDF
- APP免费
5.2.4 搜索引擎采用的检索模型
- APP免费
5.2.5 多文档列表求交计算
- APP免费
5.2.6 检索结果排序
- APP免费
5.2.7 堆排序
- APP免费
5.3 中文自动摘要
- APP免费
5.3.1 自动摘要的发展历史
- APP免费
5.3.2 自动摘要的含义和实现
- APP免费
5.4 生成搜索结果页
- APP免费
5.4.1 生成搜索结果页
- APP免费
5.5 搜索结果页的缓存
- APP免费
5.6 推测用户查询意图
- APP免费
5.6.1 查询分类
- APP免费
5.6.2 推测信息类、事物类的查询意图
- APP免费
5.7 查询系统的当前热点和发展方向
- APP免费
5.7.1 查询系统的当前热点
- APP免费
5.7.2 查询系统的发展方向
- APP免费
参考文献
- APP免费
第6章 搜索引擎日志分析
- APP免费
6.1 简介
- APP免费
6.1.1 人机交互的记录——日志
- APP免费
6.1.2 分析搜索引擎日志的意义
- APP免费
6.1.3 本章的主要内容
- APP免费
6.2 知识准备
- APP免费
6.2.1 二分图模型(Bipartite Model)
- APP免费
6.2.2 图模型(graphical model)
- APP免费
6.2.3 LDA(Latent Dirichlet Allocation)模型
- APP免费
6.2.4 随机游走(Random Walk)
- APP免费
6.2.5 小结
- APP免费
6.3 查询日志分析
- APP免费
6.3.1 查询日志的内容
- APP免费
6.3.2 查询词频统计
- APP免费
6.3.3 查询词提示(Suggestion)
- APP免费
6.3.4 命名实体(Named Entity)类别识别
- APP免费
6.3.5 小结
- APP免费
6.4 点击日志分析
- APP免费
6.4.1 点击日志的内容
- APP免费
6.4.2 查询串提示(Suggestion)再分析
- APP免费
6.4.3 查询和结果类别属性传递
- APP免费
6.4.4 搜索结果相似性度量
- APP免费
6.4.5 查询结果排序
- APP免费
6.4.6 点击数据的稀疏性
- APP免费
6.4.7 小结
- APP免费
6.5 隐私问题
- APP免费
6.5.1 日志的两面性
- APP免费
6.5.2 日志的安全使用
- APP免费
6.5.3 小结
- APP免费
6.6 本章总结
- APP免费
参考文献
- APP免费
第7章 排序学习(Learning to Rank)
- APP免费
7.1 排序概述
- APP免费
7.2 传统的排序模型
- APP免费
7.2.1 查询相关的排序模型
- APP免费
7.2.2 查询无关的排序模型
- APP免费
7.3 排序学习简介以及研究现状
- APP免费
7.3.1 排序学习简介
- APP免费
7.3.2 排序学习问题的研究现状
- APP免费
7.4 排序学习模型的应用实例
- APP免费
7.5 排序学习方法的框架
- APP免费
7.5.1 参数设置
- APP免费
7.5.2 排序学习方法的框架
- APP免费
7.6 评测数据集
- APP免费
7.6.1 LETOR数据集
- APP免费
7.6.2 Microsoft Learning to Rank数据集
- APP免费
7.6.3 Yahoo Webscope数据集
- APP免费
7.7 排序学习模型简介
- APP免费
7.7.1 实例
- APP免费
7.7.2 Pointwise方法
- APP免费
7.7.3 Pairwise方法
- APP免费
7.7.4 Listwise方法
- APP免费
7.7.5 3种排序方法的对比
- APP免费
7.8 排序学习模型性能比较
- APP免费
7.8.1 评测方法
- APP免费
7.8.2 排序模型性能的比较
- APP免费
7.9 排序学习的研究方向
- APP免费
7.9.1 标准标注的自动构建
- APP免费
7.9.2 排序特征
- APP免费
7.9.3 半监督学习/主动学习
- APP免费
7.9.4 查询相关的排序模型
- APP免费
7.9.5 利用用户行为特征
- APP免费
7.10 总结
- APP免费
参考文献
- APP免费
第8章 搜索引擎的性能调优
- APP免费
8.1 系统调优概述
- APP免费
8.2 瓶颈识别
- APP免费
8.3 涉及CPU的优化方法
- APP免费
8.3.1 上下文切换问题(context switching)
- APP免费
8.3.2 中断和轮询
- APP免费
8.3.3 CPU的Affinity问题
- APP免费
8.3.4 流水线问题
- APP免费
8.4 涉及内存的优化方法
- APP免费
8.4.1 概述
- APP免费
8.4.2 对换区
- APP免费
8.4.3 cache line
- APP免费
8.4.4 false sharing问题
- APP免费
8.4.5 内存的锁问题
- APP免费
8.4.6 内存库的使用
- APP免费
8.5 涉及磁盘的优化方法
- APP免费
8.5.1 磁盘IO的调度
- APP免费
8.5.2 其他常见磁盘参数调优
- APP免费
8.5.3 磁盘读写方式
- APP免费
8.5.4 文件缓存问题
- APP免费
8.5.5 5分钟法则
- APP免费
8.6 涉及网络的优化方法
- APP免费
8.6.1 搜索首页,结果页提速方法
- APP免费
8.6.2 Web Server的架构选择
- APP免费
参考文献
更新时间:2019-01-09 16:02:57