- Python数据预处理技术与实践
- 白宁超 文俊 唐聃
- 156字
- 2021-03-26 09:07:32
3.7 本章小结
本章介绍了结构化、半结构化和非结构化数据及其数据的采集策略。面对非结构化网页信息,带领读者实现了页面分析和数据爬取,并把抓取的数据进行本地化存储。由于网络爬虫技术内容较多,本书篇幅有限,只是管中窥豹地介绍了网络爬虫技术与方法。下一章介绍文本信息抽取,即对采集的数据(包括DOC、PDF、HTML、Excel等)抽取文本信息。
本章介绍了结构化、半结构化和非结构化数据及其数据的采集策略。面对非结构化网页信息,带领读者实现了页面分析和数据爬取,并把抓取的数据进行本地化存储。由于网络爬虫技术内容较多,本书篇幅有限,只是管中窥豹地介绍了网络爬虫技术与方法。下一章介绍文本信息抽取,即对采集的数据(包括DOC、PDF、HTML、Excel等)抽取文本信息。