3.2 特征选择
在模式识别中,经常面临的一个问题是,要从许多可能的特征(高维)中选择一些用于测量并作为分类器输入的低维特征[1]。
如前所述,所要提取的特征应当是具有可分性、可靠性、独立性的少量特征。一般来说,若人们希望特征有用,则当它们被排除在外后,分类器的性能至少应下降。实际上,去掉噪声大的或相关程度高的特征,能改善分类器的性能。
因此,特征选择可以看作一个(从最差的开始)不断删去无用特征和组合有关联的特征的过程,直至特征的数目减少至易于驾驭的程度,同时分类器的性能仍然满足要求为止。例如,从一个具有M个特征的特征集中挑选出较少的N个特征时,要使采用这N个特征的分类器的性能最好。
一种蛮干的特征选择方法是这样执行的:首先对每种可能由N个特征组合的子集训练分类器,再用各类别的测试样本进行测试,统计分类器的错分率;然后根据这些错分率计算分类器总的性能指标;最后选择一个具有最佳性能指标的特征组合。
除了一些非常简单的模式识别问题,使用这种方法的最大问题自然是计算量大。因此,在多数实用问题中,这种蛮干的方法是行不通的,必须使用一种开销较小的方法来达到同样的目标。
在以下的讨论中,考虑将两个特征压缩成一个特征的最简单的情况。假设训练样本集有M个不同类别的样本,令表示第j类的样本数,第j类中第i个样本的两个特征分别记为和。每类的每个特征均值为
(3-1)
和
(3-2)
式中,和上的“”分别表示这两个值仅是基于训练样本的估值,而不是真实的类均值。
3.2.1 特征方差
理想情况下,同一类别中所有对象的特征值应该相近。第j类的x特征的方差估计为
(3-3)
而y特征的方差估计为
(3-4)
3.2.2 特征相关系数
第j类特征x与特征y的相关系数估计为
(3-5)
它的值的范围为−1~+1。若该值为0,则说明这两个特征之间没有相关性;若该值接近1,则说明这两个特征相关性很强;若该值为−1,则说明任一特征都与另一个特征的负值成正比。因此,若相关系数的绝对值接近1,则说明这两个特征可以组合成一个特征或可干脆舍弃其中一个。
3.2.3 类间距离
一个特征区分两类能力的一个指标是类间距离,即类均值间的方差归一化间距。对x特征来说,第j类与第k类之间的类间距离为
(3-6)
显然,类间距离大的特征是好特征。
3.2.4 降维
有许多方法可以将两个特征x与y合成一个特征z,一个简单的方法是用线性函数:
(3-7)
式中,a和b均为实数。由于分类器的性能与特征幅值的缩放倍数无关,因此可以对幅值加以限制,如
(3-8)
将其合并到式(3-7)得
(3-9)
式中,θ为一个新的变量,它决定了x和y在组合中的比例。
若训练样本集中每个对象都对应于二维特征空间(xy平面)中的一个点,则式(3-9)描述了所有在z轴上的投影。显然,可以选取θ使类间距离最大,并利用投影进行降维,如图3-1所示。
图3-1 利用投影进行降维
基于线性变换来进行降维的方法称为线性降维法。要对降维效果进行评估,通常可比较降维前后学习器的性能,若性能有所提高,则认为降维起到了作用。若将维数降低到二维或三维,则可通过可视化的方法直观评估降维效果。
下面进一步介绍特征提取的重要方法之一——降维。