1.3 体验TensorFlow文本分类

以文本分类这个经典问题来体验TensorFlow。

1.3.1 安装TensorFlow

这里介绍在Linux操作系统下安装TensorFlow。当前推荐使用Ubuntu发行版本。

当用户最终让自己的Linux操作系统正常运行以后,请打开一个终端并安装一些必要的软件。

git:分布式版本控制系统。

wget:使用HTTP、HTTPS和FTP协议进行数据传输。

必须安装的软件包括:

awk:编程语言,用于搜索和处理文件和数据流中的模式。

bash:UNIX Shell和脚本编程语言。

grep:逐行处理文本并打印与指定模式匹配的任何行。

make:从源代码自动构建可执行程序和库。

bazel:从源代码自动构建TensorFlow可执行程序和库。

perl:动态编程语言,非常适合文本文件处理。

例如,安装git可以用如下的命令。

     #apt-get install git

要仅为在CPU上使用而安装当前版本:

     #pip install tensorflow

如果要使用支持CUDA的GPU卡,则安装TensorFlow的GPU版本:

     #pip install tensorflow-gpu

在交互式环境测试TensorFlow:

使用函数tf.nn.softmax()测试Tensorflow。例如,有一个4维的向量。-1是最低值,3是最高值。这些值都归一化为0~1的数值。

softmax是逻辑函数的推广,softmax将任意实数值的K维向量“压缩”到[0,1]区间的实数值的K维向量,向量中的元素值加起来为1。

如果TensorFlow依赖的numpy出错,则可以考虑先卸载numpy,然后重新安装Tensorflow。

可以使用交互式会话测试Tensorflow:

1.3.2 实现文本分类

在训练文本分类模型之前,必须先准备数据。可以创建一个简单的JSON文件来保存训练所需的数据。

以下是示例JSON训练的数据文件,其中包含5个类别。

数据加载和预处理:

构建一个简单的深度神经网络,并用它来训练模型。

使用下面的代码测试神经网络文本分类Python模型。