1.4 概率分布与随机变量

1.4.1 机器学习为什么要使用概率

事件的概率是对该事件发生的可能性的量度。虽然在一次随机试验中某个事件是否发生是带有偶然性的,但那些可在相同条件下大量重复的随机试验,其结果往往呈现出明显的数值规律。

机器学习除了要处理不确定量,也需处理随机量。不确定性和随机性可能来自多个方面,我们使用概率论来量化不确定性。

概率论在机器学习中扮演着一个核心角色,因为机器学习算法的设计通常依赖于对数据的概率假设。

在机器学习的课中,例如Andrew Ng公开课,有一个朴素贝叶斯假设就是条件独立的例子。该学习算法对内容做出假设,用来分辨电子邮件是否为垃圾邮件。假设无论邮件是否为垃圾邮件,单词1出现在邮件中的概率条件都独立于单词2出现在邮件中的概率。很明显,这个假设并不是一般性的,因为某些单词几乎总是同时出现。然而,最终结果是,这个简单的假设对结果的影响并不大,依据其他情况都可以让我们快速分判垃圾邮件。

1.4.2 变量与随机变量的区别

随机变量(Random Variable)是表示随机现象的各种结果的变量。例如,某段时间内公共汽车站等车乘客人数、电话交换台在一定时间内收到的呼叫次数等,都是随机变量。

变量与随机变量的区别在于,当变量取某个值的概率不是1时,变量就变成了随机变量;当随机变量取某个值的概率为1时,随机变量就变成了变量。

例如,如果变量x的值为100的概率为1,那么x=100就是确定的,不会再有变化,除非做进一步运算。如果变量x的值为100的概率不为1,比如为50的概率是0.5,为100的概率是0.5,那么这个变量就是会随不同条件而变化的,是随机变量,取50或者100的概率都是0.5,即50%。

1.4.3 随机变量与概率分布的联系

一个随机变量仅仅表示一个可能取得的状态,还必须给定与之相伴的概率分布来确定每个状态的可能性。用来描述随机变量或一簇随机变量的每一个可能状态的可能性大小的概率规律,就是概率分布(Probability Distribution)。

随机变量可以分为离散型随机变量和连续型随机变量。相应的描述其概率分布的函数如下。

(1)概率质量函数(Probability Mass Function,PMF):描述离散型随机变量的概率分布,通常用大写字母P表示。

(2)概率密度函数(Probability Density Function,PDF):描述连续型随机变量的概率分布,通常用小写字母p表示。

1.4.4 离散型随机变量和概率质量函数

概率质量函数是将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。

一般而言,Px)表示X=x的概率。有时为了防止混淆,要明确写出随机变量的名称,如PX=x)。有时需要先定义一个随机变量,然后说明它遵循的概率分布X服从PX)。

概率质量函数可以同时作用于多个随机变量,即联合概率分布(Joint Probability Distribution)。PX=xY=y),表示X=xY=y同时发生的概率,也可以简写成Pxy)。

如果一个函数P是随机变量X的概率质量函数,那么它必须满足如下三个条件。

(1)P的定义域必须是所有可能状态的集合。

(2)∀xX,0≤Px)≤1。

(3)

1.4.5 连续型随机变量和概率密度函数

如果一个函数px的概率密度函数,那么它必须满足如下几个条件。

(1)p的定义域必须是x的所有可能状态的集合。

(2)∀xXpx)≥0。注意,我们并不要求px)≤1,因为此处px)不表示对应此状态的具体概率,而是概率的一个相对大小(密度)。具体的概率需要用积分去求。

(3)∫px)dx=1,求积分,总和还是1,概率之和还是1。

注:概率密度函数px)并没有直接对特定的状态给出概率,而是给出了密度,即概率的相对大小,它给出了落在面积为σx)的无限小区域内的概率为pxσx)。由此无法求得具体某个状态的概率,但可以求得某个状态x落在某个区间[a,b]内的概率,为

1.4.6 举例理解条件概率

条件概率公式如下:

说明:在同一个样本空间Ω中的事件或子集AB,如果从Ω中随机选出的一个元素属于B,那么下一个随机选择的元素属于A的概率就定义为,在B的前提下A的条件概率。条件概率的文氏图如图1-1所示。

图1-1 条件概率的文氏图

根据文氏图可以很清楚地看到在事件B发生的情况下,事件A发生的概率就是PAB)除以PB)。

举例 一对夫妻有两个小孩,已知其中一个是女孩,则另一个是女孩的概率是多少?(面试、笔试都见过这道题。)

穷举法:已知其中一个是女孩,那么样本空间为男女、女女、女男,则另外一个仍然是女孩的概率就是1/3。

条件概率法,夫妻有两个小孩,那么它的样本空间为女女、男女、女男、男男,则,所以最后1/3。

这里大家可能会认为男女和女男是同一种情况,实际上这两者类似姐弟和兄妹,是不同情况。

1.4.7 联合概率与边缘概率的区别和联系

区别

联合概率:指在多元的概率分布中多个随机变量分别满足各自条件的概率。类似于PX=aY=b),包含多个条件且所有条件同时成立的概率就是联合概率。

边缘概率:边缘概率是某个事件发生的概率,与其他事件无关。类似于PX=a),PY=b),仅与单个随机变量有关的概率就是边缘概率。

联系

知道联合概率可求边缘概率;但若只知道边缘概率,无法求得联合概率。

1.4.8 条件概率的链式法则

由1.4.6节中条件概率的定义可直接得出下面的乘法公式。

AB是两个事件,并且PA)>0,则有

拓展到三个事件,公式为

一般地,用归纳法可证明可得:

任何多维随机变量的联合概率分布,都可以转换成只有一个变量的条件概率相乘的形式。

1.4.9 独立性和条件独立性

独立性

两个随机变量xy,概率分布表示成两个因子乘积的形式,一个因子只包含x,另一个因子只包含y,两个随机变量相互独立。

条件的存在有时可以将不独立的事件变为独立事件,有时也会把本来独立的事件变为不独立事件,从而失去独立性。

举例 ,事件X和事件Y独立。此时给定Z,则

事件独立时,联合概率等于概率的乘积。这是一个非常好的数学性质,然而不幸的是,无条件的独立是十分罕见的,因为大部分情况下,事件之间都是互相影响的。

条件独立性

在给定Z的情况下,XY条件独立,当且仅当

XY的关系依赖于Z,而不是直接产生的。

举例 定义如下事件:

X:明天下雨。

Y:今天的地面是湿的。

Z:今天下雨。

Z事件是否成立,对XY均有影响,然而,在Z事件成立的前提下,今天的地面情况对明天是否下雨没有影响。