第二节中数第三节众数

Transcript 第二节中数第三节众数

第三章集中趋势与集中量数
第一节平均数算术
1.平均数
2.加权平均数
第二节中数
第三节众数
1.测量水平
2.灵敏程度
3.稳定程度
4.信息容量
5.代数运算
6.极端数值
7.数据分布
第一节平均数



平均数有算术平均数、集合平均数、加
权平均数等几种。由于算术平均数最为
常用，因此在没有引起误解的情况下，
通常用“平均数”来指算术平均数。
算术平均数
算术平均数或平均数，一般用符号
( 读作“X杠”，表示平均数是由变量X
计算而来)或M表示。



算术平均数的计算有以下几种情况：
1.根据未分组数据计算平均数
方法是：把数据中的所有数值累加，在初
一数值的个数。用公式表示如下


2.根据次数分布表球平均值
不难看出，直接用原始数据计算平均数很费时间，
当数据量很大时尤其如此。其实，上足数据中有
很多数值时重复出现的，因此我们可以把每个数
值与其出现的次数相乘（没有重复的数值则乘1，
结果即该数值本身），然后再累加，最后初一总
次数（数值的个数）、就能得到平均数。这一方
法显然要简捷一些。用公式表达如下：
式中 f——每个数值出现的次数；
fx——每个数值与其次数的积；
N——总次数（N=∑f）


3.根据分组次数分布表计算平均数
此外，还可以利用分组次数分布表计算数
据的算术平方数。方法是：先用每组的组
中点乘以该组的次数，求出各组内数值的
和，然后把各组的和相加，得出总和，最
后初一总次数（即数值的个数）。用公式
表示为：
例如，下表是某年级100个人的英语阅读考试
成绩的分组次数分布表。平均成绩的计算过
程如下：

加权平均数
在计算算术平均数时，是把一组数值累加，再除以熟
知的个数。这时，各熟知的重要性是一样的。如果要
赋予各数值以不同的重要性，就要用不同的方法计算
平均数，这就是加权平均数（用符号Mw表示）。这
里的“权”（或“权数”、“权重”）就反映了熟知
的相对重要性。其实，“权”的概念对于我们并不陌
生，譬如，在一份试卷中，我们给不同的题目分配不
同的分值，就是要以此来体现不同题目的难度、重要
性等；在目前的高考中，在计算总分时，并不是每一
门课满分都是100分，二十有底是100分，有底是50
分等等。这也是给不同的科目以不同的“权”。
计算加权平均数的公式是

该公式表示：把每一个数值乘以其权数，
累加，然后除以各数值的权数之和。
第二节中数

中数，又称中位数，用符号Md或Mdn表示，
是集中数量的一种。假如把一组数值从高
到底或从低到高排序，畏惧中间的那个数
值就是中数，它把一组数值恰好分成两等
分，一半位其上，一半居其下。如果用分
布图来表示数据段分布，则通过中输掉一
条垂线敲好把分布图中的面积分成两个相
等的部分。







1.从未分组数据求中数
从未分组数据求中数时，把数据按大小排序，然后找出
中间的那个数值即可。如果数值的个数（N）为奇数，
位于正中间的那个数值，即（N+1）/2那个数，就是中
数。例如在下面一组数据中有7个数值，中数就是第
（7+1）/2那个数，也就是第四个数，即5：
1，3,4,5,8,9,12 （N=7，Md=5）
当数值的个数为偶数时，则用第N/2与第N/2+1两个数
值的平均数作为中数，例如在下列有10个数值（N=10）
的数据中，第N/2个数值（即第五个数）是12，第
N/2+1个数值（即第六个数）为16，因而中数为
（12+16）/2=14
3,6,9,10,12,16,17,18,20 （N=10，Md=14）
从上例可以看出，中数有时是原数据中的数值，而有时
则可能不是。

2.从分组次数分布表求中数
依次数分布而言，中数应位于总次数（N）的
50%这一点上。其计算公式如下
第三节众数



众数也是反映集中趋势的一个量数，常用符号Mo表
示。众数就是在一组数据中出现次数最多的那个数
值，例如在6,3,4,4,7,3,4这组数据中，4这个数值
出现的次数最多，因而改组数据的众数就是4。
但是有时也会出现一些特殊情况。例如当各数值出
现的次数完全一样时，该组数据就没有众数，而有
时则会出现两个以上的众数。含有两个众数的次数
分布称为双众数分布。
众数的求法如下：对于量小的数据，通过直接观察
就可以找到众数；对于量较大的数据，可以先按照
大小排序，这样观察起来方便一些；对于量非常大
的数据，最好的办法就是先把数据整理成次数分布
表（或用次数分布图表示），这时众数就一目了然
了。
除此以外，我们还可以利用公式（皮尔逊经
验公式）求众数的近似值




Mo=3Md-2M
式中 Mo——众数；
Md——中数；
M——平均数。
第四节平均数、中数与众数的比较
与选择

我们已经讨论了反映数据集中趋势或典型
情况的三个最基本的量数：平均数、中数
与众数，但是由于各自的性质与特点，它
们在特点情况下的适用性是不同的，因而
有必要把它们加以比较，以利于在统计时
间中作出正确的选择。






1.测量水平
变量的测量水平是选择代表值时需要考虑的重要因素之
一。对于等距变量和比率变量，这三个集中量数都可以
使用；对于顺序变量中数更为合适，因为中数是建立在
排序基础之上的；而对于称名变量则只能使用众数。
2.灵敏程度
由于在计算平均数时，每一个数值都要考虑，因而平均
数对数值的变化反应十分灵敏。而确定中数与众数时，
不需要考虑每个数值，因而都对数值本身的变化反应不
够灵敏。
3.稳定程度
同样，由于平均数的计算需要每个数值都要加入，因为
它较少受样本抽样的影响，作为反映样本集中趋势的量
数比较稳定可靠，同时作为样本统计量，它也能更好地
反映总体的集中趋势。




4.信息容量
平均数既反映了数值的顺序关系，又体现了所有数值的值，
同时又稳定可靠，因而它所提供的信息量最大。譬如，当
我们已知一组数据的平均值时，一个位置数值很有可能等
于平均值。
5.代数运算
平均数是用代数方法计算的，非常简便，而更为重要的是，
它还适合进一步的代数运算，而中数与众数都不具备这一
性质。从计算难度来讲，平均数的计算更为直截了当，但
在确定中数（或众数）时，则需要把数值排序，当数据量
非常大时，这是非常费事的。





6.极端数值
我们说过，由于计算平均数时每一个数值都要加入，因此
它对数据内数值的变化反应较为灵敏，这是它的优点，但
是基于同样的原因，它也易受极端数值的影响，进而降低
其代表性。
既然极端数值会对平均数这个集中量数产生如此大
的影响，研究者就要给予足够的重视。常用的解决
办法是用中数作为数据的集中量数。其次，研究者
还要对极端数值给予解释，指出到底是什么原因导
致了极端数值的出现。此外，当出现极端的数值时，
对所得出的结论也要慎重。
7.数据分布
我们看到，当数据中出现极其反常的数值时，其平
均数和中数差别就会很大，这时中数是更具有达标
性的集中量数。我们还可以从分布的角度理解这个
问题。

一般来讲，当分布大体对称或接近正态时，平均数、
中数与众数非常接近；当数据的分布完全对称或呈正
态时这三个集中量数完全重合；但是，当数据中出现
极端的（不具代表性的、非典型的）数值，分布严重
不对称或偏离正态时，它们之间就会出现很大的差异。
具体来讲，当分布为正偏态时（即向左偏时），平均
数最大，其次是中数，最后是众数；而对于负偏态的
数据分布（向右偏），其关系正好相反；众数最大，
平均数最小，中数介于两者之间。显然，当分布为正
态时，如果不考虑别的因素，那么平均数、中数和众
数都能很好地反映数据的集中趋势，而当分布呈（严
重）偏态时，中数则为最佳选择。

综上所述，平均数、中数与众数各有其优点、局
限性以及适用的特定情境，但是总的来讲，平均
数时最好的集中量数。出来概念明了、易于理解、
计算简便这些特点之外，更重要的是它最稳定可
靠，信息量最大，对数值变化的反应也岁灵敏，
也适于进一步的代数运算。所以，平均数时最常
用的集中量数，几时在三者都可以使用的情况下
一般也是首选平均数。但是需注意。只有同性质
的数据才能计算平均数。同质数据是指用同样的
手段或工具以及同样的标准测量而得来的数据，
例如用同一份试题考试做得到的考分。

但是中数与众数（尤其是中数）在有些情
况下还是用得到的，有时甚至是最佳或唯
一的选择。例如，当我们仅需要粗略估计
一组数据的代表值时，可用中数或众数；
当数据中出现两极端的数值时，常用中数
（有时也用众数）；当数据的测量水平为
顺序数据时，中数常常是最合适的代表值；
当数据不同质时，可用众数作为代表值，
等等。
总结




本章主要论述了能反映数据基本情况的统计量即数据的集
中趋势及其代表值——集中量数。接着讨论了常用的三种
集中量数，即平均数、中数和众数。
平均数有算术平均数、几何平均数和加权平均数集中。本
章重点介绍了算术平均数和加权平均数的求法。
中数，又称中位数，用符号Md或Mdn表示，是集中数量
的一种。求中数的方法有两种，分别是从分组数据中求中
数以及未分组数据表中求中数。众数是在一组数据中出现
次数最多的那个数值，用符号Mo表示。众数可以用直接
观察法得出，还可以利用皮尔逊经验公式求众数的近似值。
平均数、中数与众数各有其优点、局限性以及适用的特定
情境，但是总的来讲，平均数时最好的集中量数。

第二节中数第三节众数

Transcript 第二节中数第三节众数

Directory