Transcript 第二节中数第三节众数
第三章集中趋势与集中量数
第一节 平均数算术
1.平均数
2.加权平均数
第二节 中数
第三节众数
1.测量水平
2.灵敏程度
3.稳定程度
4.信息容量
5.代数运算
6.极端数值
7.数据分布
第一节 平均数
平均数有算术平均数、集合平均数、加
权平均数等几种。由于算术平均数最为
常用,因此在没有引起误解的情况下,
通常用“平均数”来指算术平均数。
算术平均数
算术平均数或平均数,一般用符号
( 读作“X杠”,表示平均数是由变量X
计算而来)或M表示。
算术平均数的计算有以下几种情况:
1.根据未分组数据计算平均数
方法是:把数据中的所有数值累加,在初
一数值的个数。用公式表示如下
2.根据次数分布表球平均值
不难看出,直接用原始数据计算平均数很费时间,
当数据量很大时尤其如此。其实,上足数据中有
很多数值时重复出现的,因此我们可以把每个数
值与其出现的次数相乘(没有重复的数值则乘1,
结果即该数值本身),然后再累加,最后初一总
次数(数值的个数)、就能得到平均数。这一方
法显然要简捷一些。用公式表达如下:
式中 f——每个数值出现的次数;
fx——每个数值与其次数的积;
N——总次数(N=∑f)
3.根据分组次数分布表计算平均数
此外,还可以利用分组次数分布表计算数
据的算术平方数。方法是:先用每组的组
中点乘以该组的次数,求出各组内数值的
和,然后把各组的和相加,得出总和,最
后初一总次数(即数值的个数)。用公式
表示为:
例如,下表是某年级100个人的英语阅读考试
成绩的分组次数分布表。平均成绩的计算过
程如下:
加权平均数
在计算算术平均数时,是把一组数值累加,再除以熟
知的个数。这时,各熟知的重要性是一样的。如果要
赋予各数值以不同的重要性,就要用不同的方法计算
平均数,这就是加权平均数(用符号Mw表示)。这
里的“权”(或“权数”、“权重”)就反映了熟知
的相对重要性。其实,“权”的概念对于我们并不陌
生,譬如,在一份试卷中,我们给不同的题目分配不
同的分值,就是要以此来体现不同题目的难度、重要
性等;在目前的高考中,在计算总分时,并不是每一
门课满分都是100分,二十有底是100分,有底是50
分等等。这也是给不同的科目以不同的“权”。
计算加权平均数的公式是
该公式表示:把每一个数值乘以其权数,
累加,然后除以各数值的权数之和。
第二节 中数
中数,又称中位数,用符号Md或Mdn表示,
是集中数量的一种。假如把一组数值从高
到底或从低到高排序,畏惧中间的那个数
值就是中数,它把一组数值恰好分成两等
分,一半位其上,一半居其下。如果用分
布图来表示数据段分布,则通过中输掉一
条垂线敲好把分布图中的面积分成两个相
等的部分。
1.从未分组数据求中数
从未分组数据求中数时,把数据按大小排序,然后找出
中间的那个数值即可。如果数值的个数(N)为奇数,
位于正中间的那个数值,即(N+1)/2那个数,就是中
数。例如在下面一组数据中有7个数值,中数就是第
(7+1)/2那个数,也就是第四个数,即5:
1,3,4,5,8,9,12 (N=7,Md=5)
当数值的个数为偶数时,则用第N/2与第N/2+1两个数
值的平均数作为中数,例如在下列有10个数值(N=10)
的数据中,第N/2个数值(即第五个数)是12,第
N/2+1个数值(即第六个数)为16,因而中数为
(12+16)/2=14
3,6,9,10,12,16,17,18,20 (N=10,Md=14)
从上例可以看出,中数有时是原数据中的数值,而有时
则可能不是。
2.从分组次数分布表求中数
依次数分布而言,中数应位于总次数(N)的
50%这一点上。其计算公式如下
第三节众数
众数也是反映集中趋势的一个量数,常用符号Mo表
示。众数就是在一组数据中出现次数最多的那个数
值,例如在6,3,4,4,7,3,4这组数据中,4这个数值
出现的次数最多,因而改组数据的众数就是4。
但是有时也会出现一些特殊情况。例如当各数值出
现的次数完全一样时,该组数据就没有众数,而有
时则会出现两个以上的众数。含有两个众数的次数
分布称为双众数分布。
众数的求法如下:对于量小的数据,通过直接观察
就可以找到众数;对于量较大的数据,可以先按照
大小排序,这样观察起来方便一些;对于量非常大
的数据,最好的办法就是先把数据整理成次数分布
表(或用次数分布图表示),这时众数就一目了然
了。
除此以外,我们还可以利用公式(皮尔逊经
验公式)求众数的近似值
Mo=3Md-2M
式中 Mo——众数;
Md——中数;
M——平均数。
第四节 平均数、中数与众数的比较
与选择
我们已经讨论了反映数据集中趋势或典型
情况的三个最基本的量数:平均数、中数
与众数,但是由于各自的性质与特点,它
们在特点情况下的适用性是不同的,因而
有必要把它们加以比较,以利于在统计时
间中作出正确的选择。
1.测量水平
变量的测量水平是选择代表值时需要考虑的重要因素之
一。对于等距变量和比率变量,这三个集中量数都可以
使用;对于顺序变量中数更为合适,因为中数是建立在
排序基础之上的;而对于称名变量则只能使用众数。
2.灵敏程度
由于在计算平均数时,每一个数值都要考虑,因而平均
数对数值的变化反应十分灵敏。而确定中数与众数时,
不需要考虑每个数值,因而都对数值本身的变化反应不
够灵敏。
3.稳定程度
同样,由于平均数的计算需要每个数值都要加入,因为
它较少受样本抽样的影响,作为反映样本集中趋势的量
数比较稳定可靠,同时作为样本统计量,它也能更好地
反映总体的集中趋势。
4.信息容量
平均数既反映了数值的顺序关系,又体现了所有数值的值,
同时又稳定可靠,因而它所提供的信息量最大。譬如,当
我们已知一组数据的平均值时,一个位置数值很有可能等
于平均值。
5.代数运算
平均数是用代数方法计算的,非常简便,而更为重要的是,
它还适合进一步的代数运算,而中数与众数都不具备这一
性质。从计算难度来讲,平均数的计算更为直截了当,但
在确定中数(或众数)时,则需要把数值排序,当数据量
非常大时,这是非常费事的。
6.极端数值
我们说过,由于计算平均数时每一个数值都要加入,因此
它对数据内数值的变化反应较为灵敏,这是它的优点,但
是基于同样的原因,它也易受极端数值的影响,进而降低
其代表性。
既然极端数值会对平均数这个集中量数产生如此大
的影响,研究者就要给予足够的重视。常用的解决
办法是用中数作为数据的集中量数。其次,研究者
还要对极端数值给予解释,指出到底是什么原因导
致了极端数值的出现。此外,当出现极端的数值时,
对所得出的结论也要慎重。
7.数据分布
我们看到,当数据中出现极其反常的数值时,其平
均数和中数差别就会很大,这时中数是更具有达标
性的集中量数。我们还可以从分布的角度理解这个
问题。
一般来讲,当分布大体对称或接近正态时,平均数、
中数与众数非常接近;当数据的分布完全对称或呈正
态时这三个集中量数完全重合;但是,当数据中出现
极端的(不具代表性的、非典型的)数值,分布严重
不对称或偏离正态时,它们之间就会出现很大的差异。
具体来讲,当分布为正偏态时(即向左偏时),平均
数最大,其次是中数,最后是众数;而对于负偏态的
数据分布(向右偏),其关系正好相反;众数最大,
平均数最小,中数介于两者之间。显然,当分布为正
态时,如果不考虑别的因素,那么平均数、中数和众
数都能很好地反映数据的集中趋势,而当分布呈(严
重)偏态时,中数则为最佳选择。
综上所述,平均数、中数与众数各有其优点、局
限性以及适用的特定情境,但是总的来讲,平均
数时最好的集中量数。出来概念明了、易于理解、
计算简便这些特点之外,更重要的是它最稳定可
靠,信息量最大,对数值变化的反应也岁灵敏,
也适于进一步的代数运算。所以,平均数时最常
用的集中量数,几时在三者都可以使用的情况下
一般也是首选平均数。但是需注意。只有同性质
的数据才能计算平均数。同质数据是指用同样的
手段或工具以及同样的标准测量而得来的数据,
例如用同一份试题考试做得到的考分。
但是中数与众数(尤其是中数)在有些情
况下还是用得到的,有时甚至是最佳或唯
一的选择。例如,当我们仅需要粗略估计
一组数据的代表值时,可用中数或众数;
当数据中出现两极端的数值时,常用中数
(有时也用众数);当数据的测量水平为
顺序数据时,中数常常是最合适的代表值;
当数据不同质时,可用众数作为代表值,
等等。
总结
本章主要论述了能反映数据基本情况的统计量即数据的集
中趋势及其代表值——集中量数。接着讨论了常用的三种
集中量数,即平均数、中数和众数。
平均数有算术平均数、几何平均数和加权平均数集中。本
章重点介绍了算术平均数和加权平均数的求法。
中数,又称中位数,用符号Md或Mdn表示,是集中数量
的一种。求中数的方法有两种,分别是从分组数据中求中
数以及未分组数据表中求中数。众数是在一组数据中出现
次数最多的那个数值,用符号Mo表示。众数可以用直接
观察法得出,还可以利用皮尔逊经验公式求众数的近似值。
平均数、中数与众数各有其优点、局限性以及适用的特定
情境,但是总的来讲,平均数时最好的集中量数。