- Python网络爬虫从入门到精通
- 明日科技编著
- 1461字
- 2022-07-28 19:46:35
前言
在大数据、人工智能应用越来越普遍的今天,Python可以说是当下世界上最热门、应用最广泛的编程语言之一,在人工智能、爬虫、数据分析、游戏、自动化运维等各个方面,无处不见其身影。随着大数据时代的来临,数据的收集与统计占据了重要地位,而数据的收集工作在很大程度上需要通过网络爬虫来爬取,所以网络爬虫技术变得十分重要。
本书内容
本书提供了Python网络爬虫开发从入门到编程高手所必需的各类知识,共分4篇,大体结构如下图所示。
第1篇:基础知识。本篇内容主要介绍网络爬虫入门知识,包括初识网络爬虫、搭建网络爬虫的开发环境、Web前端知识、Python自带的网络请求模块urllib、第三方请求模块urllib3和requests,以及高级网络请求模块。结合大量的图示、举例等使读者快速掌握网络爬虫开发的必备知识,为以后编写网络爬虫奠定坚实的基础。
第2篇:核心技术。本篇主要介绍如何解析网络数据(包括正则表达式解析、Xpath解析和BeautifulSoup解析),以及如何爬取动态渲染的信息、多线程与多进程爬虫、数据处理与数据存储等相关知识。学习完这一部分,读者可熟练掌握如何通过网络爬虫获取网络数据并存储数据。
第3篇:高级应用。本篇主要介绍数据可视化、App抓包工具、识别验证码、Scrapy爬虫框架,以及Scrapy_Redis分布式爬虫等知识。
第4篇:项目实战。本篇通过一个完整的数据侦探爬虫项目,运用软件工程与网络爬虫的设计思想,让读者学习如何对电商数据进行网络爬虫软件项目的实践开发。书中按照“需求分析→系统设计→公共模块设计→数据库设计→实现项目”的流程进行介绍,带领读者一步一步亲身体验开发项目的全过程。
本书特点
由浅入深,循序渐进。本书以初中级程序员为对象,采用图文结合、循序渐进的编排方式,从网络爬虫开发环境的搭建到网络爬虫的核心技术应用,最后通过一个完整的实战项目对网络爬虫的开发进行了详细讲解,帮助读者快速掌握网络爬虫开发技术,全面提升开发经验。
实例典型,轻松易学。通过例子学习是最好的学习方式,本书通过“一个知识点、一个例子、一个结果、一段评析”的模式,透彻详尽地讲述了实际开发中所需的各类知识。另外,为了便于读者阅读程序代码,快速学习编程技能,书中几乎每行代码都提供了注释。
项目实战,经验累积。本书通过一个完整的电商数据爬取项目,讲解实际爬虫项目的完整开发过程,带领读者亲身体验开发项目的全过程,积累项目经验。
精彩栏目,贴心提醒。本书根据需要在各章使用了很多“注意”“说明”“技巧”等小栏目,让读者可以在学习过程中更轻松地理解相关知识点及概念,并轻松地掌握个别技术的应用技巧。
读者对象
初学编程的自学者
大中专院校的老师和学生
毕业设计的学生
程序测试及维护人员
编程爱好者
相关培训机构的老师和学员
初、中级程序开发人员
参加实习的“菜鸟”程序员
读者服务
本书附赠的各类学习资源,读者可登录清华大学出版社网站(www.tup.com.cn),在对应图书页面下获取其下载方式,也可扫描本书封底的“文泉云盘”二维码,获取其下载方式。
致读者
本书由明日科技Python开发团队组织编写。明日科技是一家专业从事软件开发、教育培训及软件开发教育资源整合的高科技公司,其编写的教材非常注重选取软件开发中的必需、常用内容,同时也很注重内容的易学、方便性及相关知识的拓展性,深受读者喜爱。其教材多次荣获“全行业优秀畅销品种”“全国高校出版社优秀畅销书”等奖项,多个品种长期位居同类图书销售排行榜的前列。
在编写本书的过程中,我们始终本着科学、严谨的态度,力求精益求精,但疏漏之处在所难免,敬请广大读者批评指正。
感谢您购买本书,希望本书能成为您编程路上的领航者。
“零门槛”编程,一切皆有可能。祝读书快乐!
编者
2021年4月