爬虫基础篇
项目一
初识爬虫
项目概述
现阶段,互联网已经成为信息的重要来源,人们习惯在搜索引擎上根据关键字查找自己感兴趣的网站,那么搜索引擎是如何找到这些网站的呢?其实,搜索引擎使用了网络爬虫(简称爬虫)不停地从互联网抓取网站数据,并将网站镜像保存在本地,从而为大众提供信息检索功能。本项目主要介绍爬虫产生的背景、爬虫的定义、爬虫的用途、爬虫的分类、爬虫实现原理和爬虫开发涉及的相关技术(TCP、HTTP、cookie、网页编码规范、HTML语言规范),以及网站robots协议和反爬虫技术。