- Python数据预处理技术与实践
- 白宁超 文俊 唐聃
- 211字
- 2021-03-26 09:07:32
3.6 网络爬虫技术扩展
数据采集是一项庞杂的工作,倘若是文档文件或者数据库文件,采用拷贝和文件导出的方法即可完成。面对海量的非结构化文件,尤其是网络数据不可避免地会选择网络爬虫技术。网络爬虫作为一门单独的学科领域,其涉及的知识非常深,仅仅这一项技术足够一本书去阐述,故而本书只是管中窥豹地介绍了爬虫技术,更多的网络爬虫技术难点包括:
- 实现网站虚拟登录并爬取数据。
- 网站反爬策略。
- 网站模板定期变动。
- 网站URL抓取失败。
- 网站频繁抓取IP被封。