Transcript 第三章
第三章 样本特征数 主讲教师:王丽艳 徐栋 样本特征数: 集中位置量数:反映数据集中趋势的特征数。 如平均数、中位数和众数等。 离中位置量数:反映数据离散趋势的特征数。 如方差、标准差和变异系数等。 第一节 集中位置量数 一、算术平均数 1.小样本资料平均数的计算 x x n fd i 2.大样本资料平均数的计算 x A n A— 假定均数,一般选取频数最多的那组的组中值。 x A d — 组序差(缩减值或简化后的组中值) d .由于等距分 i 组(即 i 相等), d 值是有规律的,A 所在组d=0, 向上 依次是-1,-2,-3……..向下依次为1,2,3……。 例:120名18岁女孩身高如下表,求平均数. f x d fd fd 2 F (1) (2) (3) (4) (5) (6) (7) 147~ 149~ 151~ 153~ 155~ 157~ 159~ 161~ 163~ 165~ 167~ 169~ 171~ 1 4 8 11 14 15 20 15 11 10 6 4 1 160 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 -6 -20 -32 -33 -28 -15 0 15 22 30 24 20 6 36 100 128 99 56 15 0 15 44 90 96 100 36 1 5 13 24 38 53 73 88 99 109 115 119 120 815 - 组限 ∑ 120 -17 fd 17 x A i 160 2 159.7 n 120 练习:某校150名男生60米跑成绩如表,求 x fd 26 x A i 8.85 0.3 8.80 n 150 二、中位数 Md (一)定义:将一组数据按大小顺序排列,位置居中的数。 (二)适用条件:适用于在一组变量中,大部分较集中,只有少数 的甚至个别的分散在一侧的资料,它不受极端 数据的影响。 x是描述数据集中趋势较好的指标,但因与资料中的每个 变量值都有关,灵敏性较高,易受极端数据的影响,为避免极端 数据的影响,最好用 Md 表示集中趋势。 (三)计算 1.小样本资料 Md 的计算 (1)n为奇数: M d x n 1 2 (2)n为偶数:为位置居中间的两个数的均值,即有序数 n n 列中第 和 2 1 位所对应的两个数的均值。 2 i n 2.大样本资料 M d 的计算 M d L ( F ) f 2 L— 中位数所在组的下限 f — 中位数所在组的频数 F — 中位数所在组前一组的累计频数 例:120名18岁女孩身高如下表,求 Md n/2=60 M d在159-组 i n 2 120 M d L ( F ) 159 ( 53) 159.7 f 2 20 2 练习:某年级立定跳远成绩如下表,求 M d n/2=80 Md 在2.3-组 i n 0.1 M d L ( F ) 2.35 (80 61) 2.35 f 2 160 三、众数 M o 众数也是集中位置量数的一种。它是一组 数据中出现次数最多的那个数,用 M o 表示。 众数的计算有理论众数和粗略众数两种方法。 四、x、Md、MO 三者的关系(数据呈正态分布) 第二节 离中位置量数 一、极差(全距) 【优点】是反映离散程度一种简单的方法,可作为一 种辅助指标,以便大体了解数据的扩散程度。 【缺点】1、由于极端值的偶然性,会影响它的可靠 性和稳定性。 2、未把观察值都考虑进去,在分析资料中有 很大的局限性。 二、方差 S2 2 ( x x ) n 1 x x 离均差(每一个实测值与均数之差) n 1 自由度(能够独立自由变化的变量个数) 【缺点】方差的单位与原观察值的单位不一致,如身 高原来的单位是 cm ,而方差的单位就成了 cm2 ,为统一单位,方差开方便得到了S。 三、标准差 (一)计算 1. 小样本资料S的计算 S (x x) n 1 2 ( x) 2 x n n 1 2 2. 大样本资料S的计算 S fd 2 ( fd ) 2 n 1 n i (二)代表的意义 当两组变量相近时: S较大,说明变量值围绕 x 的分布较广, x 的代表性较差。 S较小,说明变量值围绕 x的分布较密集, x 的代表性较好。 四、变异系数 CV CV S 100% x 1、定义:标准差与均数的百分比。 兼顾了x与S,描述了一组数据相对于x的变异 程度,是一个无量纲的统计量。 2、适用条件: (1)单位相同但均数差异较大(如标枪、铅球) (2)单位不同(如投掷、百米) 3、代表的意义:CV大,说明变量值的离散程度大。 CV小,说明变量值的离散程度小。 4.S和CV的区别 【相同点】 都是反映变量的离散程度。 【不同点】 S只能对相同性质资料的离散程度进行比较。 CV能比较不同水平、不同性质的资料数据的离散程度。 例: 某运动会少年女子跳远前6名的 少年女子跳高前6名的 x1 5.69m x2 1.72m S1 0.12m S2 0.04m 试比较这两项成绩的离散程度。 解:这两组数据虽然单位相同,但 X相差较大,不能用S作比较,而应计算CV。 跳远: 跳高: S1 0.12 CV1 100% 100% 2.11% x1 5.69 S2 0.04 CV2 100% 100% 2.33% x2 1.72 因为跳远的CV小于跳高,所以跳远的离散程度亦即变异程度小于跳高。 例:某男运动员,主项为 100m,兼项为跳远,主兼项20 次测试结果为100m:x1=12s,s1=0.15s;跳远: x2=5.9 m ,s2=0.18 m 比较主兼项成绩的稳定性。 解: S1 0.15 CV1 100% 100% 1.25% x1 12 S2 0.18 CV2 100% 100% 3.05% x2 5.9 说明该运动员100 m成绩较稳定 第三节 百分位数 一、定义:将一组数据从小到大排成有序数列,并将其100 等分,每一 等分处即是一个百分位,第 H等分处,称第H百分位数,即PH。 二、适用条件:百分位数可以描述任何分布数据资料的特征。 三、百分位数的计算: i nH PH L ( F) f 100 PH — 第H百分位数 i H L — 百分位数所在组的下限 — 组距 f — 百分位数所在组的频数 — 百分位 F — 百分位数所在组前一组的累计频数 例:某年级立定跳远成绩如下表,求P5、 P15、 P50 、P75。 nH/100=5×140/100=7 P5在2.0-组 i n H 0.1 P5 L ( F ) 2.0 (7 2) 2.05(m) f 100 11 同理: i n H 0.1 140 15 P15 L ( F ) 2.1 ( 13) 2.13(m) f 100 24 100 i n H 0.1 140 50 P50 L ( F ) 2.3 ( 66) 2.31(m) f 100 39 100 i nH 0.1 140 75 P75 L ( F ) 2.3 ( 66) 2.40(m) f 100 39 100 四、百分位数代表的意义: 1、 P5 指所有变量值中低于此水平的仅有5% P5 指所有变量值中高于此水平的有95% 2、 P50就是中位数,以中位数描述样本的集中趋势。 以不同的百分位数来描述离散的程度。 复习思考题 1、何谓集中位置量数、离中位置量数?常用的统计量有哪些? 2、什么叫平均数、中位数和众数?它们各适用于描述哪类数据分布? 3、举例说明标准差与变异系数的联系与区别。 4、测得12名男运动员的纵跳成绩为(单位:㎝)72,73,63,73, 64,58,59,56,62,67,69,66,计算其 x , M d 和S。 5、某市120名12岁健康男孩身高(㎝)资料制成频数分布表,如表所 示,求(1) x , M d 和S。 (2) p25 , p50 , p75 6、将测得的某校某年级100名男生原地纵跳成绩(cm)制成频数分布 表,如表所示。求 p5 , p25 , p50 , p90 第5题表: 第6题表: 例:测得8名学生的铅球成绩如下表(单位:m) 编号 1 2 3 4 5 6 7 8 ∑ x 7.13 8.10 8.50 7.10 7.00 8.15 6.95 7.50 60.43 x2 50.84 65.61 72.25 50.41 49.00 66.42 48.30 56.25 459.08 S 2 x ( x) 2 n 1 n (60.43) 2 459.08 8 0.61 8 1 返回 例:120名18岁女孩的身高如下表: S 2 fd ( fd ) 2 n 1 n i (17) 2 815 120 2 120 1 5.23 返回