2.4 爬虫技术的类型_Python网络爬虫技术与实战-QQ阅读男生玄幻网

书名：Python网络爬虫技术与实战
作者名：赵国生王健编著
本章字数：297字
更新时间：2025-02-28 14:26:18

2.4　爬虫技术的类型

聚焦网络爬虫是“面向特定主题需求”的一种爬虫程序，而通用网络爬虫则是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分，主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。增量抓取意即针对某个站点的数据进行抓取，当网站的新增数据或者该站点的数据发生变化后，自动地抓取它新增的或者变化后的数据。Web页面按存在方式可以分为表层网页（surface Web）和深层网页（deep Web，也称invisible Web pages或hidden Web）。表层网页是指传统搜索引擎可以索引的页面，即以超链接可以到达的静态网页为主来构成的Web页面。深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的Web页面。