4.2.2 模式相似性测量

1.样品与样品之间的距离

设有两个样品的特征值分别为XiX j,即

这两个样品可能在同一类中,如图4-3a所示,也可能在不同的类中,如图4-3b所示。因此可以计算同一个类内样品与样品之间的距离,也可以计算属于不同类样品与样品之间的距离。

图4-3 样品间的距离示意图

样品与样品间的距离计算有4种方法,分别是欧氏距离法、夹角余弦距离法、二值夹角余弦法和具有二值特征的Tanimoto测度。

(1)欧氏距离

欧氏距离的算法如下:

D ij越小则两个样品距离越近,两个样品也就越相似。

(2)夹角余弦距离

夹角余弦距离的算法如下:

S值越大则两个样品相似度越大。

(3)二值夹角余弦距离

二值夹角余弦距离的算法如下:

该算法要求Xi,X j向量的各个特征都是以二值(0或1)表示,S值越大两个样品越相似。

(4)具有二值特征的Tanimoto测度

具有二值特征的Tanimoto测度的算法如下:

该算法要求Xi,X j向量的各个特征都是以二值(0或1)表示,S值越大两个样品越相似。

2.样品与类之间的距离

样品与类之间的距离如图4-4所示。ω是代表某类样品的集合,ω中有N个样品,X是某一个待测样品。

图4-4 样品与类之间的距离

错误!样品与类之间的距离计算方法有两种,如下所述。

·计算该样品到ω类内各个样品之间的距离,将这些距离求和,取平均作为样品与类之间的距离。样品与类之间的距离可描述为

·计算ω类的中心点X(ω),以ω中的所有样品特征的平均值作为类中心,然后计算待测样品Xω的中心点X(ω)的距离,即

3.类内距离

类内距离指同一个类内任意样品之间距离之和的平均值。

如图4-5所示,类内点集{Xi,i=1,2,…,N}各点之间的内部距离平方为 i,j=1,2,…,Nij,从集内一固定点 Xi 到所有其他的 N-1个点 X j之间的距离平方是,同样道理,取ω类内所有N个点的平均距离表示其类内距离,即

图4-5 ω类内的距离

4.类与类之间的距离

设有两个类ωiωj,如图4-6所示,计算类与类之间的距离有多种方法,如最短距离法、最长距离法、重心法和平均距离法等。

图4-6 类间的距离

(1)最短距离法

规定两个类间相距最近的两个点之间的距离为两类的距离。

ij

式中,d =|Xi-X j|,Xiωi,X jωjij

(2)最长距离法

规定两个类间相距最远的两个点之间的距离为两类的距离。

式中,d =|Xi-X j|,Xiωi,X jωj

(3)重心法

将各类中所有样品的平均值作为类的重心,用两类的重心间的距离作为两类的距离。

式中,NiN j分别是ωiωj类中样品的个数。

(4)平均距离法

计算两类之间所有样本的距离之和,取距离的平均值作为两类间的距离。