5.1 变量的类型

每个变量都有值和类型,日常统计中使用的特征变量(variables)大致可以分为数值变量(numerical)和分类变量(categorical)。

数值型变量是由测量或计数、统计所得到的值,加、减、求均值等运算对于这些值是有意义的,而对于分类变量是没有意义的。

数值变量可以分为如下两类。

1)离散型变量(discrete):离散型变量的数值只能用自然数或整数计算,其数值是间断的,相邻两个数值之间不再有其他数值。这种变量的数值一般用计数方法取得,例如一棵果树上结了多少个果实。

2)连续型变量(continuous):连续型变量的数值在一定区间内可以取任意值,其数值是连续不断的,相邻两个数值之间可以进行无限次分割,即可取无限个数值,例如果树上果实的重量。

分类变量可以分为如下两类。

1)有序分类变量(ordinal):描述事物等级或顺序,变量值可以是数值型或字符型,也可以是比较差别程度的词,比如可以将疗效按治愈、显效、好转、无效分类。

2)无序分类变量(nominal):是指所分类别或属性之间无程度和顺序的差别。它既可进行二项分类,如性别(男和女)、药物反应(阴性和阳性)等;也可以进行多项分类,如血型(O、A、B、AB)、职业(工、农、商、学、兵)等。

有序分类变量和无序分类变量的区别是:前者对于“比较”操作是有意义的,而后者对于“比较”操作是没有意义的。图5-1描述了它们之间的关系。

图5-1 变量分类

除了刚刚介绍的与统计相关的变量,日常工作中还会遇到其他类型的变量。

布尔型变量(Boolean Variable)是有两种逻辑状态的变量,包含两个值:真和假。如果在表达式中使用了布尔型变量,那么将根据变量值的真假而赋予整型值1或0。

对于日期和时间型变量,一般在数据库常见的是datetime,存储格式为“YYYY-MM-DD HH:mm:ss”,其中YYYY表示年、MM表示月份、DD表示日期、HH表示小时、mm表示分钟、ss表示秒。

上述数据都是可以用表格形式存储的数据,即结构化数据,除此之外,还有非结构化数据,如文本、图像等。相比结构化数据而言,非结构化数据更难让计算机理解,目前比较流行的做法是使用深度学习方法直接提取特征变量供模型使用。