2.5.2 Python其他知识点_轻松学大数据挖掘：算法、场景与数据产品-QQ阅读男生玄幻网

书名：轻松学大数据挖掘：算法、场景与数据产品
作者名：汪榕
本章字数：978字
更新时间：2020-08-28 01:52:17

2.5.2 Python其他知识点

1．Linux环境下Python开发环境的部署

在后期的文章里会引导大家部署Linux环境，以便学习数据仓库，大数据生态圈相关的一些知识。这些对于做数据挖掘前期的数据清洗、加工和转换很重要。

（1）下载喜欢的Python版本。

Python版本主要是2.x版本和3.x版本，考虑到Python版本的差异性比较大，虽然未来主流还是往3.x靠近，但是考虑现在学习书籍主要还是以2.x为主，所以选择用Python 2.7.9进行开发学习。现在安装的Linux环境都自带Python版本，但是版本比较低。

（2）安装Python的方法有很多，这里选择下载安装包进行安装。

切换root权限，进入Python安装包所在的目录，像安装常用软件的方式一样进行安装（可以使用本地电脑进行下载，上传到Linux目录下）。

解压安装程序压缩包（tar -xzf Python-2.7.9.tgz）。再进入Python-2.7.9文件夹（蓝色的为文件夹；绿色和黑色的为文件；红色的为压缩包），在其目录下运行．/configure。然后会生成一个Makefile文件。接着输入“make >>”，再输入make install命令（它的效果是把生成的执行文件拷贝到Linux系统中必要的目录下）。

（3）在线安装工具pip的部署。

下载这两个安装脚本，即ez_setup.py，下载地址为http://pan.baidu.com/s/1o8ydmxs，密码为yfa9; get-pip.py，下载地址为http://pan.baidu.com/s/1qYNH8za，密码为cwpt。

安装ez_setup.py，执行命令Python ez_setup.py，注意是在该脚本文件目录下进行的。然后添加环境变量到Linux的path路径下。

        # vim /etc/profile

添加

        export PATH=/usr/local/bin:$PATH"

保存并退出，然后运行。

        source /etc/profile

再安装get-pip.py，为了防止错误，先按如下两个命令进行安装。

        yum install openssl -y
        yum install openssl-devel -y

（4）重新安装Python软件。

进入Python软件文件目录，运行．/configure。找到文件夹Modules，进入该文件夹。vim编辑Setup脚本，在最后找到下面的注释。

        #zlib zlibmodule.c -I$(prefix)/include -L$(exec_prefix)/lib -lz

取消注释的标志，再回到软件目录，运行make和make install程序。

（5）执行Python get-pip.py进行安装。

完成以上步骤就完成了Python后期开发环境和在线安装库的功能。

（6）安装一些常用的库。

· MySQLdb库的安装：运行pip install mysql-Python（MySQLdb），如果这个库安装出错，则运行yum install mysql-devel后，再执行安装即可。

· iPython的安装：回到初始目录，运行pip install iPython即可。

2．Python自然语言的学习

笔者主要是做业务方向的数据挖掘，与结构化数据、半结构化数据打交道比较多，而且和业务接触会更紧密些。如果有做Python自然语言处理的朋友，可以学习一下nltk库。

直接运行pip install nltk进行安装。进入IPython的交互环境，载入import nltk包，再执行nltk.download()进行下载。随即会打开一个下载页面，选择存储路径和“book”选项进行下载。然后进行向导安装，如果输入from nltk.book import * 后能成功运行就代表安装完成。（入门学习文档：http://www.nltk.org/）。

以上所有内容都涉及大数据挖掘学习的入门知识，也是每一个入门与转型的朋友应该掌握的。