第三节 离散趋势测量法
众值、中位值和均值都反映了资料的集中特征,但这还不够。试比较以下两个班次考试成绩(图2-29和图2-30)。
图2-29 甲班成绩
图2-30 乙班成绩
如果仅用集中值来评价两个班次的成绩,似乎两班是相等的。但两班的分布显然有很大差别。对甲班来说,成绩参差不齐,相差悬殊。对乙班来说,虽然没有优异的,但成绩比较整齐。可见,仅用集中趋势来比较资料是不够的,还需要考虑资料的分散特征。
从后面章节所要谈到的统计推论来看,集中值告诉我们的是怎样去估计和预测总体,而离散趋势或离散特征告诉我们的是估计值误差的大小。两者是相互补充的。以下介绍四种离散趋势的测定法。
一、异众比率γ
当用众值来表示资料的集中值时,我们不知道非众值的频次和在总数N中所占的比例。显然,非众值的比例越小,众值的代表性越好,信息量越大。反之,非众值所占的相对频次越大,众值的代表性越差,所提供的信息量也就越小。异众比率γ是非众值在总数N中所占的比例。
fm0:众值的频次。
可见,异众比率是众值的补充。当γ=0,说明变量只有一个取值,那就是众值,这时众值可以完全代表变量,因此它的信息量最大。当γ→1时,表示资料十分分散,众值几乎没有代表性。
二、极差R
极差是对定序以上变量分散程度的度量。
极差(R)=观察的最大值-观察的最小值
极差小表示资料比较集中,极差大表示资料分散。极差计算方便。但由于它的值是由端点的变量值决定的,因此个别远离群体的极值会极大地改变极差,以至于使它不能真正反映资料全体的分散程度(图2-31)。
图 2-31
三、四分互差Q
四分互差是定序以上变量度量分散程度的另一种方法。它的优点是可以克服极值对分散度量的干扰。四分互差不是用观察的最大值和最小值,而是用对应于累计百分比c%↑为75%的变量值Q75和对应于累计百分比c%↑为25%的变量值Q25相减而得图2-32。
图 2-32
四分互差
(一)未分组数据
1.根据原始资料求四分互差。
以下是11户家庭人口数,Q25,Q75,Q50(中位值)
2.根据频次分布求四分互差(表2-24)。
表 2-24
结论:有50%的学生成绩在乙与丁之间。
(二)分组资料
对于分组资料,求Q25,Q75与求Q50(中位值)方法相同。首先,找到含有累计百分比25%和75%的区间,然后利用线性插值法求出25%和75%所对应的变量值(见表2-25)。
表 2-25
例如为了求Q25,可把式(2-1)式(2-2)中的50换作25,或把式(2-3)中的N/2换作N/4,得计算Q25的3个公式——(2-8)、(2-9)、(2-10),它们都是等效的。
式中L:含累计百分比25%区间的真实下界
U:含累计百分比25%区间的真实上界
L%:含累计百分比25%区间的真实下界累计百分比
U%:含累计百分比25%区间的真实上界累计百分比
n:含累计百分比25%区间的频次
cf↑:含累计百分比25%区间的下界累计(向上)频次
同理,为了求Q75,可把式(2-1)式(2-2)的50换作75,或把式(2-3)中的N/2换作(3N)/4,得计算Q75的3个公式——(2-11)、(2-12)、(2-13),它们也都是等效的:
式中L:含累计百分比75%区间的真实下界
U:含累计百分比75%区间的真实上界
L%:含累计百分比75%区间的真实下界累计百分比
U%:含累计百分比75%区间的真实上界累计百分比
n:含累计百分比75%区间的频次
cf↑:含累计百分比75%区间的下界累计(向上)频次
下面运用(表2-25)中百分比数据,代入式(2-9)和式(2-12),计算Q25、Q75和Q值:
读者可以运用式(2-8)、式(2-10)、式(2-11)、式(2-13)进行验算,看看结果是否与式(2-14)相同。
四、方差σ2与标准差σ
为了充分利用资料所提供的信息,对于定距变量,可以使用方差或标准差来度量资料的分散程度。所谓方差σ2,是将观察值Xi与其均值之差的平方和除以全部观察总数N。方差的平方根便是标准差。
(一)未分组数据
1.根据原始资料(表2-26)。
表 2-26
计算的步骤是:1.根据变量的观察值求出平均值;2.求观察值与均值之差;4.除以N;5.再开方得之。
均值在计算中只是过渡步骤。为了简化计算,可对分子项作变换:
将式(2-17)代入式(2-16),
表2-26可简化为表2-27。
表 2-27
将表2-27值代入式(2-18)得:
可见,公式(2-16)和公式(2-18)计算的结果是相同的。但当取小数点后有限位时,公式(2-16)计算的结果不及公式(2-18)计算的精确。
使用公式(2-18)时,可先列表2-28,然后再代入公式:
表 2-28
2.根据频次分布。
如果资料已经整理为频次分布,计算σ值的列表,一般有如下形式(表2-29)。
表 2-29
(二)分组资料
对于分组资料,用组中心值bi来代替变量值Xi,标准差计算公式与上述相同:
显然,用组中心值bi计算的方差或标准差,不及用原始数据计算精确,但对社会学来说,大多数情况下已足够用了。
(三)小结
异众比例作为资料离散程度的度量仅考虑频次,因此对定类变量最为适用。极差和四分互差由于考虑了变量的次序或大小,因此对定序和定距变量适合。从资料信息运用充分来考虑,使用方差和标准差对定距变量更精确。
为了简化资料的分析,我们用众值、中位值或均值来代表变量分布的集中特征。但为了说明它们所能代表的程度或可靠的程度,还需要用变量分布的离散特征加以补充。集中值和离散值相互补充的对应关系是:
本章要点辅导
1.统计学中的分布是研究什么的?
[解]统计学中的分布是研究变量各取值的数量特征的。研究变量各取值频次关系的,称变量的频次分布;同样研究变量各取值频率、概率关系的,称变量的频率、概率分布。2.分布中的数据有什么特点?
[解]分布中数据的特点是变量值与之对应的数量特征(频次、频率、概率)必定是共存的,不可能只有变量值,而没有数量特征,反之,亦然。另外,变量取值必须满足完备性与互斥性,使之每一个调查对象的调查结果都有类可归,且也只有一类可归。
3.统计表、统计图和分布的关系如何?
[解]统计表和统计图都是用来表达分布的。它可以使分布的内容表达得更清晰、更直观。没有分布就无法制作出相应的统计表和统计图。
4.频次和频率有何不同?
[解]频次指的是某一类在调查中出现的次数。而频率是某一类频次在总频次中所占的比例,又称相对频次。例如,调查总人数为100人,其中男性为51人,那么,男性在调查中的频次就是51,而男性频次在总频次(总调查人数)中所占的比例51人/100人=51%,就是男性在调查中的频率,频率是没有单位的。
5.统计关系是否意味着因果关系?
[解]不是的。不能根据统计关系轻率做出因果判断。例如统计服用补钙与不补钙人群引起骨折的比例,就会得出补钙人群骨折的比例高于不补钙的人群,但这并不意味着补钙会引起骨折。恰恰相反,由于补钙的人群多是老年人,而年龄才是骨质疏松、骨折的原因。
6.统计表有哪几类?
[解]统计表从形式上分:(1)离散式统计表:当统计的结果,变量值的分类是离散的,是可以一一列举的,其中包括定类型、定序型变量以及一部分可以列举的离散型定距变量(如家庭子女数等),都可做成离散式统计表。(2)分组式统计表:当统计的结果,变量值的分类无法一一列举,只能以分组形式给出的,其中包括定距型变量中,虽可以列举但分类太多或变量本身是连续的,都可做成分组式统计表。
7.统计图和统计表的关系是怎样的?
[解]圆瓣图、条形图对应的是离散式统计表,而直方图对应分组式统计表,且图形的高度为密度,如频次密度、频率密度等:
8.什么是“上组界不包括在内”的约定?
[解]当分组式统计表的组界值,不是设置为比观测值精度高一位时,就出现观测值与相邻两组的组界值相同时,将观测值统计在哪一组的问题?为此必须增加新的约定,否则有的统计在前一组,有的统计在后一组,将产生错误,“上组界不包括在内”的约定,就是规定当观测值是相邻两组的组界值时,应将观测值统计到属于下组界的一组,例如
职工基本工资统计表
根据“上组界不包括在内”的约定,基本工资为1500的职工,应统计在第二组,基本工资为2000的职工,应统计在第三组,余则类推。
9.集中趋势是研究变量分布的什么特征的?集中趋势共有哪些测量方法?
[解]集中趋势是用一个典型值来代表、描述或概括变量分布的主要特征。它的特点是对变量的描述简明、重点,但比起分布对变量的描述来说,不够全面,会损失一部分变量的信息。
集中趋势有以下几种测量方法:
(1)众值法:它是变量分布中频次最多的变量值。它适用于各种变量的层次,但用得最多的是定类型变量,对高层次的变量,众值法会丢失变量的某些数量信息。
(2)中位值法:将资料按变量值的序排队,居中位置的变量值称中位值。它适用于定序以上层次的变量。
(3)平均值法:是资料的观测值(变量值)X的加总,n是观测总数。它仅适用于定距以上变量。它对资料的信息利用最充分,但它的不足是,对于严重偏态的分布,平均值会失去它作为典型值应有的代表性,被称作“骗人的平均值”。
10.离散趋势是研究变量分布的什么特征的?离散趋势共有哪些测量方法?
[解]离散趋势是研究变量分布的分散特征的,它是对集中趋势的补充。有了集中、离散两个趋势的研究,可以对分布的特征,有了更全面的描述。
离散趋势有以下几种测量方法:
(1)异众比例:非众值的频次在总数中所占的比例,称异众比例。它是对众值的补充,异众比例越大,众值频次的比例越小,众值的代表性越差。
(2)极差:分布中最大观测值与最小观测值之差,称极差,它适用于定序以上层次的变量。
(3)四分互差:为了避免资料中个别极值对分散程度的干扰,类似于评分中的”去掉一个最高分、去掉一个最低分”,去掉资料按序排队首、尾各1/4的变量值,保留中间的1/2段,中间段的最大变量值与最小变量值之差称四分互差。由于中位值位于排序资料居中位置、1/2的地方,所以四分互差中的最大值和最小值,位于中位值两边各1/4的地方,它是对中位值的补充。
(4)方差σ2与标准差σ是观测值围绕均值平均分散程度的度量。由于求平均时,观测值围绕均值加总,会出现正负相抵为零的情况,因此改为观测值围绕均值先平方再加总,因此出现了方差σ2:
而为了单位上与观测值取得一致,将方差开方,得标准差。方差和标准差都只适用于定距以上层次的变量,它是对集中趋势均值的补充。
均值和标准差是统计学中最基本也是最重要的概念,是必须牢牢掌握的。
11.是否任何分布都可以用集中和离散两特征值来讨论分布的主要特征?
[解]不是的,对于多峰的分布,用特征值来讨论就失其意义。
例如,幼儿园的人口年龄分布,就可能是两个峰值,一个是儿童的峰值年龄,另一个是工作人员的峰值年龄,其中用任何一个峰值来代表总体幼儿园的年龄结构都是没有代表性的。解决的办法是把儿童和成人分作两张统计表,使之成为单峰统计表。
又例如地球表面的海拔高度,其中一个峰值是海平面以下3哩左右,另一个峰值在海平面左右:如果用一个值作为集中趋势的代表,显然与实际分布情况相差太远。
12.珠穆朗玛峰应画在下图的什么位置?海底的最深渊应画在图的什么位置?
图 海拔(哩)
[解]珠穆朗玛峰应画在图的右端点,海底的最深渊应画在图的左端。
13.为什么低层次的变量不能使用高层次变量的集中值和离散值?
[解]简言之,是因为低层次的变量不具有高层次变量的属性所引起的。例如,均值和方差都必须计算变量的数值大小,而定类变量却不具有。同理,中位值和极差都要求变量值能排序,而这也是定类变量所不具有的。
14.中位值和均值在实际中一定存在吗?
[解]不一定。当频次为偶数时,其中位值在实际中有可能并不存在。例如某居民楼有8户人家,家庭人口为:2,4,4,5,6,6,6,6,其中位值将位于(N+1)/2的地方,对应中位值为:
显然,中位值5.5人在实际中是不存在的
又如均值
在实际中也是不存的。
15.均值永远是定距变量最合理的集中值吗?
[解]不一定。当变量的分布严重偏态时,均值就未必能作为总体的代表。例如,当一个城市有少数亿万富翁存在时,会拉高城市居民的平均收入,从而歪曲了广大居民真实的生活水平,因此在某些情况下,作为集中值,不是采用均值,而是用中位值来代表一般居民的生活水平。又如水深平均50 cm的河流,照样有水很深、足以淹死人的地方,因此作为离散值的代表,不是采用方差或标准差,而是要用极差,要知道河流最深是多少。
16.为什么高层次的变量,采用低层次变量的集中值和离散值来测量,就会造成信息使用不完全?
[解]本题可以用实例来说明,
甲村9户家庭人口数有:3,3,4,4,4,5,6,7,8
乙村9户家庭人口数有:3,3,4,4,4,4,5,5,5
如果用众值来讨论家庭人口,众值都是4,似乎两村是相同的,但用肉眼也能看出,两村实际是有差别的,而这种差别,采用均值来讨论集中值,就可以表达出来了,甲村的平均家庭人口数为4.9,而乙村的平均家庭人口数只有4.1,甲村高于乙村。可见众值法只关注了频次最多的变量值是否相同,其他信息被忽略,因此将有差别的总体当作了无差别的总体。
本章解题辅导
1.某高校对新生来源地的结构情况进行统计。新生的来源分为来自城市、乡镇和农村三类,试就该问题,指出什么是变量、变量值和分布。
[解]变量:某高校新生的来源地(X)
变量值:共有3个,来自城市(X1)、来自乡镇(X2)和来自农村(X3)。
分布:来自城市的变量值人数对(X1,n1);来自乡镇的变量值人数对(X2,n2)和来自农村的变量值人数对(X3,n3),三者的集合,构成了变量“新生来源地”的频次分布。
2.甲地进行了民族构成调查,结果有:汉族2000人,其他少数民族1800人,试作统计表。
[解]统计表的制作从书写表头开始,然后有标识行,标识行中包括变量的具体名称和统计的数量特征,本题中的标识行有:民族、人数和百分比(见下表),紧接着是主体行,主体行完整的表达变量分布的统计结果,主体行按主词、宾词排列,每一行都是一个完整的句子。例如:第一行是:汉族(主语)的人数是2000人(宾语),占总人数的53%(宾语)。
第二行是:其他民族(主语)的人数是1800人(宾语),占总人数的47%(宾语)。
甲地民族构成表
时间×××
3.如果我们不仅在甲地,还在乙地也做了民族构成调查,其结果是:汉族3500人(88%),其他民族500人(12%),问:能否将两地的调查合并为一张统计表?
[解]可以增加一个新变量“地区”,放在纵轴,它的取值有2个:甲地和乙地,另一个原有变量“民族构成”放在横轴,构成二维的统计表(见下表):
甲、乙两地民族构成表
时间×××
这时每一行仍然是完整的句子。例如:
第一行 甲地汉族人数是2000人,占53%;其他民族是1800人,占47%。
第二行 乙地汉族人数是3500人,占88%;其他民族是500人,占12%。
4.某居委会对社区200名有基础疾病的老人进行了三高统计,结果有:
老年基础病调查表
地点、时间
问:统计表是否正确?
[解]不正确。因为调查人数为200人,而根据统计表加总的人数100+70+80=250人,超过了调查人数(200人),或者从百分比也可看出50%+35%+40%=125%>100%。这是因为有的老人患有不止一种基础病,所以打了不止一个勾,说明存在一个调查对象,同时统计在两次以上的基础病分类中,这就违背了每一个调查对象,只有一类可归的“分类必须互斥”的原则。
5.接上题,为什么统计表中的分类必须满足互斥的要求?
[解]统计表只是原始资料简化保存的一种方式,它必须和原始资料存在唯一的对应关系,如果一个调查对象,被统计了不止一次,结果就会出现不同的原始资料,却具有相同的统计结果。下面不妨设想两种不同的原始资料,它们统计的结果将与表相同:
原始资料(1):50人患高血压,50人患高血糖,50人患高血脂,20人同时患高血压和高血糖,30人同时患高血压和高血脂
原始资料(2):100人患高血压,20人患高血糖,30人患高血脂,50人同时患高血糖和高血脂
实际上,我们还可以设计出更多的原始资料,对应有如上相同的统计结果,因此这样的统计分类是不科学的。
6.接上题,那么,应该如何设计统计分类?
[解]要把有两种以上的基础病的人,作为新的一类列出,这样仅患高血压和患高血压同时患高血糖的人就不是一类了,因此得如下完备的分类表,满足每个调查对象不仅有类可归,且也只有一类可归的“完备与互斥”的要求了:
老年基础病调查表
地点、时间
7.某地根据调查结果,制作了如下统计表,问该表是否正确?
某地民族构成表
时间、地点
[解]该表不完备,因为总百分比:40%+10%+16%+14%=80%<100%说明还有相当一部分人未统计进去,应予补上,才能满足统计表必须完备的要求。
11.根据如下的统计资料:
(汉族,50000)
(满族,22000)
(回族,20000)
(苗族,10000)
问:可以制作成什么样的统计图?
[解]由于民族是定类变量,因此可以制作圆瓣图或条形图。
12.接上题,如果将以上资料制成条形图,变量的排列是否有要求?
[解]因为变量是定类性的,因此排列可以是任意的。
13.根据以下的统计资料:
(老年,1000)
(中年,2000)
(青年,5000)
问:是否可以制成直方图?
[解]由于资料是定序变量,所以不能制成直方图。
14.接上题,如果将以上资料制成条形图,变量的排列是否有要求?
[解]有。因为是定序变量,可以按老、中、青或青、中、老顺序排列。
15.直方图的高度有什么意义?
[解]直方图的高度表示的频次密度:
频次密度=(频次/组距)
或
频率密度=(频率/组距)
16.什么情况下,直方图的高度也可用频次或频率来表示?
[解]当资料按等距分组情况下,也可用频次或频率来表示高度,这时它和用频次密度或频率密度的图形是相似的。也就是说,图形高度的相对关系是相同的。
17.根据调查资料,制成的直方图呈凹凸不平的形状:
问:这是为什么?如何解决?
[解]这是由于数据分组太多的缘故。解决的方法是减少组数或增加调查总数,以增加频率的稳定性。
18.有人说:“条形图与直方图的区别是,条形图的长条是离散的,而直方图的长条是紧挨着的。”对吗?
[解]不对,条形图也可画成紧挨着的。同样,直方图对应某个组距也可能不存在。它们最大的区别是,条形图的长度代表的是频次或百分比(相对频次,频率),而直方图是用面积而不是长度来代表频次或百分比。直方图的长度(高度)为频次密度或频率密度:
频次密度=频次/组距
频率密度=频率/组距
从图形上看,只有在等组距情况下,条形图和直方图相对高度相同,但毕竟意义是不同的。
19.有甲乙两组,每组人数为100人,两组收入的百分比相同,但乙组工人收入是甲组的2倍,以下是甲、乙两组工人月收入的统计表,试作直方图,并作比较。
甲组月收入统计表
乙组月收入统计表
[解]根据甲、乙收入统计表制作的直方图:
甲、乙两组收入比较
由于乙组收入是甲组的2倍,组距增加,相应乙组纵轴百分比密度是甲组的1/2,因此乙组的直方图峰值是甲组峰值的1/2,乙组图形右移,分散性增大。
20.根据以下统计表,众值是否是120?
某地家庭结构统计表
[解]不是,众值是频次最多的那个变量值,因此众值是核心家庭,而不是120。21.根据上题,求异众比例,并解释它的意义。
异众比例表示非众值即非核心家庭在总数中所占的比例。显然,该值越大,众值在总数中所占的比例越小,因而众值的代表性也就越差。
22.接上题,问:是否有中位值或均值?
[解]无中位值和均值。
42.根据以下数据作直方图、折线图并求中位值、均值以及四分互差和标准差(括号内第一个数是分组数据的上组界和下组界,第二个数是频次)。
(11-15,2)
(16-20,4)
(21-25,7)
(26-30,6)
(31-35,5)
(36-40,3)
(41-45,1)
[解](1)为了作直方图,首先要求分组数据写成真实组界,并将计算集中值和离散值所需的量都一并把它们放在一张分布表上:
频次分布表
(2)根据频次分布表,可作如下的直方图和折线图:
(3)中位置Q位于累计百分比50%的地方,由于它不在组界上,而是在变量值区间[25.5-30.5]内,对应的累计百分比区间为[46.43-67.86],假定在此区间内,变量值从25.5增长到30.5,累计百分比是线性的增长,因此累计百分比50%对应的变量值Q,应该有如下的线性比例:
(4)为了求四分互差,要先求得累计百分比为25%和75%的变量值Q25和Q75,为此找到了含累计百分25%的区间为(20.5-25.5),累计的百分比为(21.43-46.43),假定在此区间内,变量值从20.5增长到25.5,累计百分比是线性的增长,因此累计百分比25%对应的变量值Q25,应该有如下的线性比例:
同理,含累计百分75%的区间为(30.5-35.5),累计的百分比为(67.86-85.71)
(5)平均值对于分组式统计表,用组中心值bi代表各组的变量值,平均值有:
(6)标准差σ用公式(2-20)得:
本章要点思考
一、什么是分布?
二、统计表和统计图与分布的关系?
三、统计表和统计图有哪几种?各适用于哪些变量层次?
四、直方图与条形图有什么不同?
五、集中趋势有哪些测量方法?各适用于哪些变量层次?
六、离散趋势有哪些测量方法?各适用于哪些变量层次?
本章习题
1.以下是某地家庭月收入的直方图,横轴的单位是千元,纵轴的单位是频率密度(百分比/千元):
问:
(1)月收入正好是1千、2千、3千的家庭,应如何统计?
(2)月收入在1千元以下、1-2千元、2-3千元、3-4千元、4-5千元各占百分比是多少?
(3)月收入在4-7千元、7-10千元各占百分比是多少?
(4)月收入在6-7千元之间和7-8千元之间的家庭数目是否大致相同?
(5)试比较10-11千元、15-16千元、25-26千元,哪组家庭数最多?哪组最少?
2.以下是某班期末的考试成绩的直方图:
问
a:是否有人成绩在20分以下?
b:如果20-40分之间的人数占10%,那么,40-60分之间的人数占多少?
c:60分以上及格的人数占多少?
3.以下是3个村庄村民生活水平的直方图,其中以50分作为中等生活水平的标准,
试对这3个村庄的生活水平作出评价(50分为中等)。
4.指出以下6张分布图,对应的是以下哪个统计?
(1)年轻夫妇(有子女)家庭所有成员身高的统计。
(2)已婚丁克、夫妇家庭成员身高的统计。
(3)全体居民身高的统计。
(4)汽车的高度(约120cm)。
5.以下是发达地区、欠发达地区、中部地区计时工资所做的直方图比较,如果欠发达地区的计时工资直方图为图中A,问:
(1)如果发达地区计时工资普遍是欠发达地区的约2倍,那么发达地区应有怎样的直方图?
(2)如果中部计时工资比欠发达地区普遍多约10元,那么,中部地区应有怎样的直方图?
6.以下是某地工人月收入直方图,但缺少2-5千元收入的高度。
问:直方图中2-5千元收入的高度?
月收入
7.以下是某单位体检中根据体重绘制的3张直方图:
问:哪一张是正确的?
8.以下图形,是否是直方图?
9.以下是有一个孩子和有多个孩子妇女血压的统计直方图:
问:根据结果,能否得出“随着妇女生育数量的增加,血压也会升高”的结论?10.两企业都给员工增加了工资,其中甲企业按原有工资增加10%,乙企业按每人增加100元,问:如果与增加前员工工资直方图相比,以下的两张直方图哪张图是甲企业的?哪张图是乙企业的?
11.以下是某单位体检结果的血压直方图:
问:哪张直方图是对的?
12.以下是3组数据,试作它们的直方图,并比较3个直方图的关系。
(a)1,2,2,3(b)2,3,3,4(c)2,4,4,6
13.以下有3组原始数据:
(a)1,5,7(b)1,2,5,7(c)8,-3,5,0,1,4,-1
试求各组数据的中位值。
14.以下3组数据:
(a)0,20,40,50,60,80,100(b)0,48,49,50,51,52,100(c)0,1,2,50,98,99,100
如果不经计算,根据数据特点,说出它们的
a.平均值
b.哪组数据分散程度最大?哪组数据分散程度最小?
15.有A、B、C 3个班级,每班有99名同学。各班成绩有:
A班:1名得1分,1名得99分,其余均为50分
B班:49名得1分,49名得99分,余1名得50分
C班:从1分开始,每分有一名同学获得,直至99分
问:
(a)各班平均分?
(b)各班的标准差是否相同?哪个班最大?
(c)各班成绩的变化范围?
16.以下2组数据,求出它们的平均值,离均差和标准差,并由此能做出什么结论。
(a)1,3,4,5,7
(b)6,8,9,10,12
17.以下2组数据,求出它们的平均值、离均差和标准差,并由此能做出什么结论?
(a)1,3,4,5,7(b)3,9,12,15,21
18.以下2组数据,求出它们的平均值、离均差和标准差,并由此能做出什么结论?
(a)5,-4,3,-1,7(b)-5,4,-3,1,-7
19.如果某企业将全部员工的工资都增加100元,问:企业员工的平均工资和工资的标准差有何改变?
20.如果企业将全部员工的工资都增加5%,问:企业员工的平均工资和工资的标准差有何改变?
21.如果企业全部员工的工资相同,那么工资的标准差如何?
22.设中奖共分1、2、3三个等级,今有10人去抽奖,问,他们都抽到了什么等级,将是以下结果:
(a)平均等级为2,等级的标准差为0
(b)等级的标准差为1
23.厂家生产的调味品,按重量分4种包装:20克、15克、10克、5克,生产的比例相应为40%、30%、20%、10%。
调味品分装表
问:如果甲按生产的比例购买了10包,乙也按生产的比例购买了20包。那么,甲、乙两人所购产品的平均重量和重量的标准差是多少?是否相同?
24.某幼儿园A班共10人,平均身高1.2米;B班15人,平均身高也是1.2米,现新来一名儿童,身高1.3米,问分在哪班,平均身高增加多少?
25.设有A班40人,B班45人,考试结果都是5分占20%;4分占30%;3分占40%;2分占10%,问:计算平均分与班级总人数有关吗?
26.某外向型企业,由于订单减少,生产萎缩,但工人的平均工资反而上升了,问:这是什么原因?
27.以下是某企业职工一年观看电影次数统计,括号内第一项为观看次数,第二项为人数:
(0,417)(1,240)(2,366)(3,222)(4,134)(5,63)(6,39)(7,24)(8,21)
(1)试作频率统计表、直方图和折线图。
(2)试求均值和标准差。
28.设以下是72名离婚者婚龄的统计,括号内第一项为离婚者婚龄组,第二项为人数:
(1-3,5)(4-6,10)(7-9,20)(10-12,14)(13-15,9)
(16-18,4)(19-21,3)(22-24,2)(25-27,4)(28-30,1)
(1)作频率统计表、直方图和折线图。
(2)求众值、中位值和均值,并作简单讨论。
(3)求四分互差和标准差。