第二节中数第三节众数

Download Report

Transcript 第二节中数第三节众数

第三章集中趋势与集中量数
第一节 平均数算术
1.平均数
2.加权平均数
第二节 中数
第三节众数
1.测量水平
2.灵敏程度
3.稳定程度
4.信息容量
5.代数运算
6.极端数值
7.数据分布
第一节 平均数



平均数有算术平均数、集合平均数、加
权平均数等几种。由于算术平均数最为
常用,因此在没有引起误解的情况下,
通常用“平均数”来指算术平均数。
算术平均数
算术平均数或平均数,一般用符号
( 读作“X杠”,表示平均数是由变量X
计算而来)或M表示。



算术平均数的计算有以下几种情况:
1.根据未分组数据计算平均数
方法是:把数据中的所有数值累加,在初
一数值的个数。用公式表示如下


2.根据次数分布表球平均值
不难看出,直接用原始数据计算平均数很费时间,
当数据量很大时尤其如此。其实,上足数据中有
很多数值时重复出现的,因此我们可以把每个数
值与其出现的次数相乘(没有重复的数值则乘1,
结果即该数值本身),然后再累加,最后初一总
次数(数值的个数)、就能得到平均数。这一方
法显然要简捷一些。用公式表达如下:
式中 f——每个数值出现的次数;
fx——每个数值与其次数的积;
N——总次数(N=∑f)


3.根据分组次数分布表计算平均数
此外,还可以利用分组次数分布表计算数
据的算术平方数。方法是:先用每组的组
中点乘以该组的次数,求出各组内数值的
和,然后把各组的和相加,得出总和,最
后初一总次数(即数值的个数)。用公式
表示为:
例如,下表是某年级100个人的英语阅读考试
成绩的分组次数分布表。平均成绩的计算过
程如下:

加权平均数
在计算算术平均数时,是把一组数值累加,再除以熟
知的个数。这时,各熟知的重要性是一样的。如果要
赋予各数值以不同的重要性,就要用不同的方法计算
平均数,这就是加权平均数(用符号Mw表示)。这
里的“权”(或“权数”、“权重”)就反映了熟知
的相对重要性。其实,“权”的概念对于我们并不陌
生,譬如,在一份试卷中,我们给不同的题目分配不
同的分值,就是要以此来体现不同题目的难度、重要
性等;在目前的高考中,在计算总分时,并不是每一
门课满分都是100分,二十有底是100分,有底是50
分等等。这也是给不同的科目以不同的“权”。
计算加权平均数的公式是

该公式表示:把每一个数值乘以其权数,
累加,然后除以各数值的权数之和。
第二节 中数

中数,又称中位数,用符号Md或Mdn表示,
是集中数量的一种。假如把一组数值从高
到底或从低到高排序,畏惧中间的那个数
值就是中数,它把一组数值恰好分成两等
分,一半位其上,一半居其下。如果用分
布图来表示数据段分布,则通过中输掉一
条垂线敲好把分布图中的面积分成两个相
等的部分。







1.从未分组数据求中数
从未分组数据求中数时,把数据按大小排序,然后找出
中间的那个数值即可。如果数值的个数(N)为奇数,
位于正中间的那个数值,即(N+1)/2那个数,就是中
数。例如在下面一组数据中有7个数值,中数就是第
(7+1)/2那个数,也就是第四个数,即5:
1,3,4,5,8,9,12 (N=7,Md=5)
当数值的个数为偶数时,则用第N/2与第N/2+1两个数
值的平均数作为中数,例如在下列有10个数值(N=10)
的数据中,第N/2个数值(即第五个数)是12,第
N/2+1个数值(即第六个数)为16,因而中数为
(12+16)/2=14
3,6,9,10,12,16,17,18,20 (N=10,Md=14)
从上例可以看出,中数有时是原数据中的数值,而有时
则可能不是。

2.从分组次数分布表求中数
依次数分布而言,中数应位于总次数(N)的
50%这一点上。其计算公式如下
第三节众数



众数也是反映集中趋势的一个量数,常用符号Mo表
示。众数就是在一组数据中出现次数最多的那个数
值,例如在6,3,4,4,7,3,4这组数据中,4这个数值
出现的次数最多,因而改组数据的众数就是4。
但是有时也会出现一些特殊情况。例如当各数值出
现的次数完全一样时,该组数据就没有众数,而有
时则会出现两个以上的众数。含有两个众数的次数
分布称为双众数分布。
众数的求法如下:对于量小的数据,通过直接观察
就可以找到众数;对于量较大的数据,可以先按照
大小排序,这样观察起来方便一些;对于量非常大
的数据,最好的办法就是先把数据整理成次数分布
表(或用次数分布图表示),这时众数就一目了然
了。
除此以外,我们还可以利用公式(皮尔逊经
验公式)求众数的近似值




Mo=3Md-2M
式中 Mo——众数;
Md——中数;
M——平均数。
第四节 平均数、中数与众数的比较
与选择

我们已经讨论了反映数据集中趋势或典型
情况的三个最基本的量数:平均数、中数
与众数,但是由于各自的性质与特点,它
们在特点情况下的适用性是不同的,因而
有必要把它们加以比较,以利于在统计时
间中作出正确的选择。






1.测量水平
变量的测量水平是选择代表值时需要考虑的重要因素之
一。对于等距变量和比率变量,这三个集中量数都可以
使用;对于顺序变量中数更为合适,因为中数是建立在
排序基础之上的;而对于称名变量则只能使用众数。
2.灵敏程度
由于在计算平均数时,每一个数值都要考虑,因而平均
数对数值的变化反应十分灵敏。而确定中数与众数时,
不需要考虑每个数值,因而都对数值本身的变化反应不
够灵敏。
3.稳定程度
同样,由于平均数的计算需要每个数值都要加入,因为
它较少受样本抽样的影响,作为反映样本集中趋势的量
数比较稳定可靠,同时作为样本统计量,它也能更好地
反映总体的集中趋势。




4.信息容量
平均数既反映了数值的顺序关系,又体现了所有数值的值,
同时又稳定可靠,因而它所提供的信息量最大。譬如,当
我们已知一组数据的平均值时,一个位置数值很有可能等
于平均值。
5.代数运算
平均数是用代数方法计算的,非常简便,而更为重要的是,
它还适合进一步的代数运算,而中数与众数都不具备这一
性质。从计算难度来讲,平均数的计算更为直截了当,但
在确定中数(或众数)时,则需要把数值排序,当数据量
非常大时,这是非常费事的。





6.极端数值
我们说过,由于计算平均数时每一个数值都要加入,因此
它对数据内数值的变化反应较为灵敏,这是它的优点,但
是基于同样的原因,它也易受极端数值的影响,进而降低
其代表性。
既然极端数值会对平均数这个集中量数产生如此大
的影响,研究者就要给予足够的重视。常用的解决
办法是用中数作为数据的集中量数。其次,研究者
还要对极端数值给予解释,指出到底是什么原因导
致了极端数值的出现。此外,当出现极端的数值时,
对所得出的结论也要慎重。
7.数据分布
我们看到,当数据中出现极其反常的数值时,其平
均数和中数差别就会很大,这时中数是更具有达标
性的集中量数。我们还可以从分布的角度理解这个
问题。

一般来讲,当分布大体对称或接近正态时,平均数、
中数与众数非常接近;当数据的分布完全对称或呈正
态时这三个集中量数完全重合;但是,当数据中出现
极端的(不具代表性的、非典型的)数值,分布严重
不对称或偏离正态时,它们之间就会出现很大的差异。
具体来讲,当分布为正偏态时(即向左偏时),平均
数最大,其次是中数,最后是众数;而对于负偏态的
数据分布(向右偏),其关系正好相反;众数最大,
平均数最小,中数介于两者之间。显然,当分布为正
态时,如果不考虑别的因素,那么平均数、中数和众
数都能很好地反映数据的集中趋势,而当分布呈(严
重)偏态时,中数则为最佳选择。

综上所述,平均数、中数与众数各有其优点、局
限性以及适用的特定情境,但是总的来讲,平均
数时最好的集中量数。出来概念明了、易于理解、
计算简便这些特点之外,更重要的是它最稳定可
靠,信息量最大,对数值变化的反应也岁灵敏,
也适于进一步的代数运算。所以,平均数时最常
用的集中量数,几时在三者都可以使用的情况下
一般也是首选平均数。但是需注意。只有同性质
的数据才能计算平均数。同质数据是指用同样的
手段或工具以及同样的标准测量而得来的数据,
例如用同一份试题考试做得到的考分。

但是中数与众数(尤其是中数)在有些情
况下还是用得到的,有时甚至是最佳或唯
一的选择。例如,当我们仅需要粗略估计
一组数据的代表值时,可用中数或众数;
当数据中出现两极端的数值时,常用中数
(有时也用众数);当数据的测量水平为
顺序数据时,中数常常是最合适的代表值;
当数据不同质时,可用众数作为代表值,
等等。
总结




本章主要论述了能反映数据基本情况的统计量即数据的集
中趋势及其代表值——集中量数。接着讨论了常用的三种
集中量数,即平均数、中数和众数。
平均数有算术平均数、几何平均数和加权平均数集中。本
章重点介绍了算术平均数和加权平均数的求法。
中数,又称中位数,用符号Md或Mdn表示,是集中数量
的一种。求中数的方法有两种,分别是从分组数据中求中
数以及未分组数据表中求中数。众数是在一组数据中出现
次数最多的那个数值,用符号Mo表示。众数可以用直接
观察法得出,还可以利用皮尔逊经验公式求众数的近似值。
平均数、中数与众数各有其优点、局限性以及适用的特定
情境,但是总的来讲,平均数时最好的集中量数。