第四章 正态分布和极限定理
第一节 什么是正态分布
第二章谈到,为了全面了解变量,必须研究它的分布。分布的图形是多种多样的,有单峰、双峰、对称、非对称、偏态、U形、J形等等。但在自然、经济、社会等领域内,如人的身高、体重、一片森林的高度、学生成绩、人的智商、测量的误差、甚至公共入口门槛的磨损、海浪的高度等等随机变量,都服从一类确定的分布规律,这类分布规律叫做正态分布。这种分布除了在自然界、社会经济生活中大量存在外,还由于任何变量,不管其原有分布如何,如果把它们n个加在一起,当n大于一定数之后,例如大于30(n>30),那么,其和的分布必然接近正态分布。这就是有名的中心极限定理。它在抽样、统计推论中都占有很重要的位置。因此,可以说,在各种分布中,正态分布居于首要的地位。
正态分布(又称常态分布或高斯分布),是最初由德国数学家高斯在研究误差理论时发现的。现在通过实例来阐述导出正态分布的思想和方法,这是很有启发性的。
[例]1.以下是100人初婚年龄的统计。根据统计分为七个区间,如表4-1所示。
表 4-1
根据表中数据,它的频率直方图,如图4-1所示。
图 4-1
图中横轴为变量x,纵轴为频率密度=频率/组距。由于年龄是连续型的变量,我们可以把区间越分越细,不是用两岁作为一个区间,而是用一岁,半岁……甚至更小到无穷小,作为一个区间,于是直方图宽度越变越细,最终只剩下了中心值形成的线段,现在把这些紧挨着的中心值连接起来,就成了一条平滑的曲线,它称作为正态分布的密度曲线,可见,分布密度曲线φ(x)实际上就是频率直方图的极限分布或理论分布。
分布密度曲线也可称作概率密度曲线,因为分布密度下任意两点x1-x2之间的面积,从直方图来说,就是变量x在取值区间x1-x2的频率,区间的频率越高,人们从总体中抽取到该区间的可能性越大,而可能性大小是用概率来度量的,因此,对于平滑了的分布密度曲线,我们把频率引申为概率P,纵轴的单位把频率密度引申为概率密度。(频率和概率的关系,在本章后面的大数定理中,还会进一步说明。)把分布密度曲线称为概率密度曲线。而概率的概念对抽样调查更为重要。
从图(4-1)上可以看到,这条分布密度曲线φ(x)具有对称起伏的形状,形成“钟形”曲线。它具有如下三个特征。
1.一个高峰:曲线是单峰,有一个最高点。
当x向左或向右远离时,曲线不断地降低。“中间高,两边低”与一个尖塔或古钟相似。
2.一个对称轴。曲线在高峰处有一个对称轴,在轴的左右两边是对称的。对称轴是直线x=μ。
3.一个渐近线。曲线无论向左或向右延伸,都愈来愈接近横轴,但不会和横轴相交,以横轴为渐近线。
由于正态分布曲线是单峰、对称的。因此具有这种分布的变量,它的众值、中位值和均值三者必然是重叠的。
根据实践的经验和理论的分析,正态分布的分布密度(概率密度)表达式(4-1)为:
其中π=3.14,e=2.72。
从正态分布的数学表达式,可以看出,当μ和σ确定后,正态曲线的图形也就唯一地被确定了。μ和σ称作正态分布曲线的两个参数。
下面分别讨论这两个参数对曲线形状的影响。
1.φ(x)在x=μ处达到峰值,在x=μ±σ处有拐点,且以直线x=μ为对称轴(图4-2)。
图 4-2
因此,在σ2一定的情况下,若μ增大,则图形右移,反之μ减小,则图形左移,但整个图形形状不变(图4-3)。
图 4-3
其中μ3>μ2>μ1。
2.改变σ2值:当μ不变的情况下,σ越小,则对应的图形越尖瘦。图4-4给出了σ=2,σ=1,σ=0.5三种正态分布密度曲线。
图 4-4
综合图4-3和图4-4,说明正态分布曲线的位置,是由μ决定的。而正态分布曲线的形状“高、矮、胖、瘦”的特点,则是由σ所决定。
那么,参数μ和σ代表的意义是什么呢?实际上,通过积分,可以发现,μ和σ不是别的,μ正是正态分布曲线的均值,σ正是正态分布曲线的标准差。由于分布对应的是变量的总体描述,所以正态分布的μ和σ,是正态分布的总体均值和总体标准差。
以上μ和σ对图形影响的讨论,也正好反映了均值和标准差对分布影响的一般特征。
三、正态曲线下的面积
为了形象地理解正态曲线下面积所代表的含义,我们把正态曲线看做是一种极限的直方图。它的组距甚小,以至于中心值顶点的连线已是一条平滑的曲线。而正态曲线下的面积,实际就是由这无数个小直方形拼接而成的(图4-5)。
图 4-5
每一小块面积根据直方图的定义,代表的是随机变量ξ在该小块取值Δxi所出现的概率,或者说代表了总体中随机变量ξ在该小块取值Δxi的概率。
因此任意两点x1-x2曲线下的概率,就是把从x1到x2点所有这些小块面积加起来:
当然Δxi要非常之小,小到Δxi→0,只有这样才能正确算出正态曲线下任意两点x1-x2间的面积,一般它要通过积分才能算出,这里给出正态分布几个典型取值间的面积或概率值:
1.变量取值在区间[μ-σ,μ+σ]之间的概率(图4-6):
P(μ-σ≤ξ≤μ+σ)=0.6827
图4-6表明,变量取值在范围[μ-σ,μ+σ]之间的概率为0.6827,其中μ、σ正如正态曲线的数学式(4-1)所表达的:μ代表总体的均值;σ代表总体的标准差。
图 4-6
2.变量取值在区间[μ-2σ,μ+2σ]之间的概率(图4-7):
P(μ-2σ≤ξ≤μ+2σ)=0.9545
图4-7表明,变量取值在[μ-2σ,μ+2σ]之间的概率为0.9545。
图 4-7
3.变量取值在区间[μ-3σ,μ+3σ]之间的概率(图4-8):
P(μ-3σ≤ξ≤μ+3σ)=0.9973
图4-8表明,变量取值在[μ-3σ,μ+3σ]之间的概率为0.9973。
图 4-8
根据正态分布图形的对称性,如果用σ作为取值的组距,那么,围绕着μ,各σ所代表的概率将如图4-9所示[6]。
图 4-9