3.3.1 参数估计法

参数估计法根据从总体中抽取的样本估计总体分布中所含的未知参数,下面结合贝叶斯分类算法进行说明。假设X={xi|xis,i=1,2,…,n}表示样本数量为n,属性数量为s,类别数量为c的数据集。其中,第i个样本为xi=[xi1,xi2,…,xis]T。式(3-74)为通过贝叶斯分类算法计算得到的第i个样本xi属于第c类的概率:

式(3-74)中,P(c)表示第c类的先验概率,即类内样本占数据集全体样本的比例。P(xi)表示证据(Evidence)因子,用于对所得概率进行归一化,取值与分类无关。P(xi|c)是样本xi相对于第c类的类条件概率(Class Conditional Probability)。此概率往往难以直接计算,根据样本出现的频率计算类条件概率通常是不可取的,因为此概率是样本xi所有属性的联合概率。假设每个属性有d种取值,则根据排列组合原理,数据集所在样本空间将有ds种属性值组合。此数值通常远大于数据集中的样本数量,意味着“未被观测到”与“出现概率为零”是不等价的。参数估计法为此类问题提供了解决方案,即在样本空间中样本均为独立同分布的前提下,将类条件概率P(xi|c)估计问题转化为参数估计问题。具体来说,假设P(xi|c)具有确定的分布形式并且被一组参数组成的向量唯一确定,将该参数向量记为β(c),参数估计法将数据集中的样本视为样本空间中全体样本的抽样,并由此估计参数β(c),此时,将类条件概率P(xi|c)记为P(xi(c)),其中i=1,2,…,n;c=1,2,…,C。

参数估计法一般可分为点估计法(Point Estimation)和区间估计法(Interval Estimation)。点估计法是指依据抽取的样本估计总体分布中所含的未知参数;区间估计法是指在一定的正确度与精确度要求下,依据抽取的样本构造适当的区间,作为总体分布中未知参数真值所在范围。本节结合缺失值填补,对点估计法中的极大似然估计法进行介绍。

极大似然估计法是一种基于极大似然原理的参数估计方法。极大似然估计原理的直观理解是,一个随机实验中如果有若干个可能的结果A、B、C…,若某次实验的结果为A,则认为该实验条件对结果A的出现有利。举一个简单的例子,假设有两个外形完全相同的箱子,甲箱中装有99个白球和1个黑球,乙箱中装有99个黑球和1个白球。若某次实验随机选择一个箱子并从中随机抽取一个球,该球的颜色为黑色,这一黑球从乙箱抽取的概率比从甲箱抽取的概率大得多,自然更多地相信这个黑球是取自乙箱的。在极大似然原理的基础上,由“结果为黑球”估计出“该球取自乙箱”的过程就是极大似然估计的过程。由此可见,极大似然估计法的目的是:利用已知的样本结果,反推最大概率导致这样结果的参数值。

将数据集X中第c类样本的集合记为X(c),通过该子集中的样本反推参数向量β(c)的方法如式(3-75)所示:

式(3-75)为参数β(c)对于子集X(c)的似然函数(Likelihood Function),记为L(β(c))=P(X(c)(c))。为了便于求导,并避免计算机运算过程中出现下溢,则采用式(3-76)所示的对数似然函数(Log-Likelihood Function)代替原似然函数:

假设(c)是H(β(c))取最大值时对应的β(c)取值,则对β(c)进行极大似然估计的过程等价于寻找(c)的过程。因此,极大似然估计的目标函数如式(3-77)所示:

假设参数向量β(c)中包含M个元素,若似然函数连续可导,则可通过对参数求导,并令导数值为0,以求其极大值,如式(3-78)所示:

式中,∇H(β(c))表示对数似然函数在β(c)处的梯度。将式(3-75)代入式(3-78),结果如式(3-79)所示:

一种极简的情况是M=1,此时参数向量β(c)中仅包含一个元素,该元素记为β1(c),可通过式(3-80)进行参数估计:

下面举例说明基于极大似然估计法的参数估计过程,假设类概率密度P(xi|c)对应的样本xi∈X(c)服从正态分布N(μ,σ2),μ为该正态分布的均值,σ为其标准差。为简便起见,在本例中假设各样本仅包含单维属性,式(3-81)至式(3-84)为通过极大似然估计求解2的过程。

步骤1:将式(3-75)与正态分布的假设结合,参数μ、σ对于子集X(c)的似然函数如式(3-81)所示:

式(3-81)中,μ、σ为待估计参数。

步骤2:令n(c)表示子集X(c)中的样本数量,则式(3-81)对应的对数似然函数如式(3-82)所示:

步骤3:对μ和σ2分别求导,所得方程组如式(3-83)所示:

步骤4:求解该方程组,所得结果如式(3-84)所示:

由式(3-84)可见,通过极大似然估计得到的正态分布均值等于类内样本均值,方差等于类内样本的方差,此结果与正态分布中关于均值和方差的定义相吻合。

极大似然估计法提供了一种简便的类条件概率估计方式,但其精度受所假设概率分布形式的影响较大,在应用时,需根据实际数据集尽可能合理地分布假设。此外,若参与估计的样本数量不足,也会对所得参数的准确性产生影响。