Transcript 抽样调查
例:某城市三个市场上有关同一种商品销售资料如下 市场 销售价格(元) 基 期 A 2.5 B 2.4 C 2.2 合计 —— 劳动生产率(吨/人) 报告期 基 期 报告期 3.0 2.8 2.4 —— 700 670 550 1960 560 710 820 2090 要求:建立指标体系,对平均销售价格变动进行因素 分析。 第七章 • • • • • 抽样调查 第一节 抽样调查的概念和作用 第二节 抽样调查中的几个基本概念 第三节 抽样误差和抽样估计 第四节 抽样调查的组织形式 第五节 必要样本容量的确定和总量指标的 推算 例.某服装厂生产了一批棉衣1200件,从 中任意抽取了60件进行检验,其中合格品 58件,其余不合格,试估计这批棉衣中有多 少件不合格? 解:设这批棉衣中有x件不合格,则: 60-58 60 ≈ x 1200 答:这批棉衣中有40件不合格 第一节 抽样调查的概念和 作用 • 一、 抽样调查的概念和特点 • 1.抽样调查的概念 • 抽样调查是一种非全面调查,是按照随机原则 从所要研究的总体(调查对象)中抽取一部分 单位进行调查,用调查所得的指标数值对总体 的相应指标数值作出具有一定可靠性的估计和 判断的一种统计调查方法。 随机抽取 总体 推断 样本 2.抽样调查的特点 • 1)按随机原则抽取调查单位 随机原则是指,排除人们主观意愿的干扰,使 得总体中每个单位都有同等被抽中的机会。 • 2)用部分单位(样本)的指标数值去推断 和估计总体的指标数值 抽样调查的中心问题是如何根据已知的(样本) 资料来推断未知的总体情况。 • 3)抽样调查必然会产生抽样误差,但这个 误差是可以事先计算并加以控制的 通过各种组织措施来控制抽样误差范围,保证 抽样推断的结果达到预定可靠程度的要求。 二、 抽样调查的作用 • 1.有些现象不可能进行全面调查,为了测算全面资 料,必须采用抽样调查的方法 如调查某地区的矿藏、某城市的空气质量等。 • 2.有些现象不必要或很难进行全面调查,也要采用 抽样调查 如炮弹射程的测量,电视、灯泡等耐用时数的检验等。 • 3.对全面调查资料进行检验和修正 如某市居民家计调查,某林区的木材储存量调查等。 • 4.可以用于工业生产过程的质量控制 第二节 抽样调查中的几个基本概 念 • 一、 全及总体和抽样总体 • 1.全及总体(唯一) • 全及总体是指统计研究对象的全体,简称为总 体,也叫母体。用字母“N”来表示。 • 2.抽样总体(多样) • 抽样总体是按照随机原则从全及总体中抽取出 来的一部分单位组成的小总体。抽样总体也称 样本总体,简称样本、子样。用字母“n”来表 示。 (n≥30时,称为大样本;否则为小样本。) 二、 全及指标和抽样指标 • 1.全及指标 • 全及指标又称总体指标和总体参数,是根据 全及总体各单位标志值计算的综合指标。 • 1)总体平均数 X X X • 在总体未分组的情况下: N i i 1 N N k • 在总体分组的情况下: X X i Fi i 1 k F i 1 i XF F 2)总体成数 P N1 Q P Q 1 N0 N N 3)总体数量标志标准差和方差 在总体未分组的情况下: X N X i 2 i 1 N 在总体分组的情况下: X k i X i 1 F i 1 i X N 2 Fi X X F 2 k X F 2 4)总体是非标志标准差和方差 2 P 1 P P (1 P ) 2.抽样指标 • 抽样指标,又称样本指标和样本统计量, 是根据抽样总体计算的统计指标。和全及 总体一样,常用的抽样指标也有四种:抽 样平均数、抽样成数、样本数量标志标准 差及方差,样本是非标志标准差及方差。 1)抽样平均数 • 在抽样总体未分组的情况下: x x n • 在抽样总体分组的情况下: x xf f 2)抽样成数 p n1 n q n0 pq 1 n 3)样本数量标志标准差及方差 • 当抽样总体未分组时: S x x 2 n • 当抽样总体分组时: S x x f 2 f 4)样本交替标志标准差及方差 S , S 2 p 1 p p 1 p 三、 重复抽样与不重复抽样 • 1.重复抽样 • 重复抽样也叫重置抽样,是从全及总体中 随机抽取一个样本单位,经调查登记有关 标志后将其放回到原总体中去,然后再从 总体中抽取第二个样本单位,记录它的有 关标志表现后,也把它放回到总体中去, 如此下去,直到抽够 个样本单位为止。 n 2.不重复抽样 • 不重复抽样也称为不重置抽样,是从全及 总体中按随机原则抽取一个样本单位,观 察记录其有关标志后,不再将它放回到总 体中去参加下一次抽选,而是从剩余的 N -1个单位中抽取第二个样本单位。如此进 行 n 次,就可以得到容量为 n 的样本 总体。 (二)样本可能数目 指抽样组织和抽样方法一定时,从总体 N 个单位中随机抽 取一个容量为n 的样本,该样本不同构成的可能数目。 1. 重复抽样的样本可能数目 重复抽样,通常还要考虑样本单位的排列顺序,如电话号码 中的“863”和“368”不同。重复抽样的样本可能数目为: m重 N n 2. 不重复抽样的样本可能数目 不重复抽样,通常不考虑样本单位的排列顺序,如篮球队的 5个队员按其号码“1,2,3,4,5”排队和“5,4,3,2.1”排队 是同一个队。不重复抽样的样本可能数目为: m 不重 C N n 例1:设总体有A、B、C、D 4个单位,现在要从中随机抽取2 个单位构成样本。试分别计算重复抽样的样本可能数目和不 重复抽样的样本可能数目。 解:编制样本构成表如下: 重置抽样 第 一 次 A AA BA CA DA A B C D m重 N n 4 16(个); 2 B AB BB CB DB 第二次 C AC BC CC DC D AD BD CD DD 不重置 抽样 m 不重 C N C 4 (个) 6 n 2 第二节 抽样误差 • 一、 抽样误差 • 1.抽样误差的概念 • 抽样误差是指在遵守随机原则的条件下,用 抽样指标代表总体指标所产生的不可避免的 误差,抽样误差表现为抽样指标与总体指标 之间的绝对离差,即抽样平均数与总体平均 数之间的绝对离差 x X 和抽样成数与总体 成数之间的绝对离差 p P 。 抽样误差产生的原因 登记性误差 可消除性误差 统 计 误 差 的 产 生 原 因 系统性误差 技术性误差 不可消除性误差 抽样误差 3.影响抽样误差的因素 • 1)抽样单位数目的多少 抽样误差与样本容量(n)的算术平方根成反比。 • 2)总体各单位标志变异程度 抽样误差与总体标准差(σ) 成正比。 • 3)抽样的组织形式和方法 不重复抽样比重复抽样所产 生的误差小。 常用抽样组织形式的抽样误 差由小到大的顺序是: 类型(分层)抽样、机械(等距) 抽样、纯随机(简单随机)抽样、整群抽样。 二、 抽样平均误差 • 1.抽样平均误差的概念 • 抽样平均误差是所有可能出现的抽样指标 和全及指标之间的平均离差,也就是指所 有可能出现的样本指标的标准差,一般用 或 表示。 x x p m x i X i 1 m 2 m x x 2 i i 1 m • 例:假设4个工人的日生产量为,甲40件、乙50件、 丙70件和丁80件,现在从四人中抽取三个人来估计 四个人的日平均生产量。 可见四个人总体的日平均生产量为(40+50+70+80)/4=60 • 现在从四个人中选三个人出来日平均产量,一共有4 种可能: 可能1:甲乙丙 可能2:甲乙丁 可能3:甲丙丁 可能4:乙丙丁 日平均产量 ( 40+50+70)/3=53.33 ( 40+50+80)/3=56.33 ( 40+70+80)/3=63.33 ( 50+70+80)/3=66.33 误差 |60-53.33| |60-56.67| |60-63.33| |60-66.67| 可见这种抽样的四种可能与总体平均60,存在一定差异。 • 故抽样平均误差应表示为四种可能的平均误差,即 x x i X |60-53.33|+ |60-56.67|+ |60-63.33|+ |60-66.67| ———————————————————— 4 m • 由于有绝对值不利于数学推导和运算,故将抽样平均误差 计为 x m x i X i 1 2 m 60 - 53.33 2 (60 - 56.67) 2 (60 - 63.33) 2 (60 - 66.67) 4 =5.27 说明这种抽样方法估计日平均生产 量平均来说将会产生5.27件的误差。 2 • 所以,抽样平均误是综合衡量一种抽样 方法的抽样指标能反映总体指标的代表 性,如果某抽样方法抽样平均误差越大 则估计的总体指标的代表性越差,反之 则越好。 2.抽样平均误差的计算公式 • 1)平均数的抽样平均误差 • 重复抽样条件下 2 x • 在不重复抽样条件下 x n n 2 n 1 n N 不重复抽样的修正系数 当N 很大时, N n N 1 当抽样比(n/N)很小时, 1 n N 1 n N 1 例3:总体有A、B、C、D 4名学生,其考试成绩分别 为5分、4分、4分、3分,总体均值为4分,方差为 0.5。现要从中随机抽取2名学生构成样本。试分别 计算重复抽样和不重复抽样的抽样平均误差。 解:①重复抽样 x n 0 .5 2 1 4 1 0 . 5(分) 2 ②不重复抽样 x N n n N 1 2 0 .5 4 2 2 4 1 1 4 2 3 1 6 0 . 4082 (分) 2)成数的抽样平均误差 • 重复抽样条件下 p P (1 P ) n • 不重复抽样的条件下 p P (1 P ) n 1 n N 【例】 • 某地区有奶牛2500头,随机抽选400头进行调查, 得出每头奶牛年平均产奶量为3000公斤,标准差 为280公斤,求抽样平均误差。 • 用重复抽样公式计算为: x 2 n 280 2 14 (公斤) 400 • 用不重复抽样公式计算为: x 2 n 1 n N 2 400 1 12 . 83(公斤) 400 2500 280 【例】 • 某厂生产一批电视机共10000台,现从中抽 取300台进行质量检测,测得其合格率为 94%,试求其抽样平均误差。 p p p (1 p ) 0 . 94 (1 0 . 94 ) n p (1 p ) n 1 n N 1 . 37 % 300 0 . 94 (1 0 . 94 ) 300 1 1 . 35 % 300 10000 三、 抽样极限误差 • 抽样极限误差,又称抽样允许误差。它是 表示样本指标与总体指标之间产生抽样误 差的最大可能范围,表现为样本指标允许 变动的上限或下限与总体指标之差的绝对 值,用 表示。 x x X x x ≤ X ≤ p pP x x 例子 • 要估计某乡粮食亩产,从8000亩粮食作物中,用不 重复抽样抽取400亩,求得平均亩产为450公斤。如 果确定抽样极限误差为5公斤,这就要求某乡粮食亩 产为450±5公斤,即在445公斤到455公斤之间。 • 要估计某农作物秧苗的成活率,从播种这一品种的 秧苗地块随机抽取秧苗1000棵,其中死苗80棵,则 样本成活率P=1-80/1000=92%。如果确定抽样极限 误差△p为2%,这就要求该种秧苗的成活率P为 92%±2%,即是在90%到94%之间 四、 抽样误差的概率度 • 抽样极限误差与抽样平均误差的比值, 叫做误差的概率度,用 t 表示 t t x x p p 或 x t x 或 p t p 借助t和 x 就可以计算极限误差 五、 抽样估计 • 1.点估计 • 点估计,也称定值估计,是直接用实际样 本指标数值代替总体指标数值。 x X p P 2.区间估计 • 区间估计是根据一定的概率保证程度把样 本指标和抽样误差结合起来去推断总体指 标所在可能范围的估计方法 。 • 1)总体平均数的区间估计 x x ≤ X ≤ x x • 误差率: x x x X x • 估计精度:估计精度=1-误差率 x X x 1 1 x x 例如已知样本平均数为500公斤,根据估计精度为90% 的要求,可推算出允许的抽样误差范围为:50公斤 如果已知总体平均数, 样本平均数的概率表 示为: 3 2 1 P( X x x X x ) 1 2 3 二)区间估计 1、建立置信区间……极限误差 x x-X x (X- x ) x (X x ) 该不等式表明样本平均数以 X 为中心,在(X x )之间 变动,由于X未知,这一展开 式不用 (x- x ) X (x x ) 该不等式表明区间(x x ) 包含总体平均数 同理:成数 (P- p) p (P p) 该不等式表明样本平均数以 为中心,在(P p)之间 变动,由于P未知,这一展开 p-P P 式不用 p- p) P (p p) ( 该不等式表明区间(p p) 包含总体平均数 2、误差范围的 x 进一步确定 x ± x x ±t x x (x- x ) X (x x ) ( x- x ) X (x x ) ( x- 2 x ) X (x 2 x ) x- ( 3 x ) X (x 3 x ) 3、把握程度的确定……概率 (x- x ) X (x x ) 概率度 t=1 P(x- x X x x ) 0.6828 t=2 P(x- 2 x X x 2 x ) 0.9545 P(x- t=3 3 x X x 3 x ) 0.9973 3、把握程度的确定……概率 p(x) 68.27% x X x t=1 p(x) 95.45% X 2 x 2x t=2 p(x) 99.73% X 3 x 3x t=3 p(x) 置信区间的概率(1 ) 1- /2 /2 置信区间 为不包含 的概率 总结: 1、认识…极限误差、概率度t、抽样平均误 差、置性区间等概念及其关系 x ± x 置性区间, 其中 x 为极限误差 x ±t x x = t x 其中 t概率度 t 表示 x 有几倍的 x 、 x 在此仅仅是计量单位 2、认识…精度与概率的关系 3、认识…概率的真实含义 如果已知样本平均数,总 体平均数的概率表示为: P( X x x X x ) P(x x X x x ) 【例7】 • 某进出口公司出口一种名茶,为检查其每包规格的质 量,现用重复抽样的方法抽取100包,检验结果如表3: 表3 某公司茶叶质量抽样表 每包重量(克) 包数 148~149 149~150 150~151 151~152 10 20 50 20 合计 100 按规定这批茶叶每包规格重量应不低于150克,试以99.73%的 概率推断这批茶叶每包平均重量所在的区间范围,并确定茶 叶每包规格质量是否达到要求。 表10-4 每包重量 (克) 某公司茶叶质量抽样误差计算表 包数 f 组中值 xf x x ( x x) f 2 148~149 149~150 150~151 151~152 10 20 50 20 148.5x 149.5 150.5 151.5 1485 2990 7525 3030 -1.8 -0.8 0.2 1.2 32.4 12.8 2 28.8 合计 100 — 15030 — 76 x x xf f 15030 100 2 n x x f 2 0 . 76 150 . 3(克) S 0 . 087 (克) 100 150 . 3 0 . 261 ≤ X 150.039≤ X x t x f 100 0 . 76 (克) 3 0 . 087 0 . 261 (克) ≤ 150 . 3 0 . 261 ≤150.561 76 2)总体成数的区间估计 p ≤P ≤ p p 【例18】仍利用上例资料,在95.45%的概率保证下推断每包重 量在150克以上的茶叶所占的比重范围。 p n1 n p 70 p 70 % 100 p 1 p n 0 . 7 (1 0 . 7 ) 100 p t p =2×4.58%=9.16% 70%-9.16%≤ P ≤70%+9.16% 60.84%≤ P ≤79.16% 4 . 58 % 第四节 必要样本容量的确定 一、 必要样本容量的确定 • 1.影响必要样本容量的因素 • 1)总体各单位的标志变异程度 • 2)允许的误差范围,即极限误差 • 3)抽样估计的概率保证程度 • 4)抽样调查的组织形式 2.必要样本容量的计算公式 • 必要样本容量的计算公式,是由抽样平均 误差与抽样极限误差的关系式变换而来的, 也分为重复抽样与不重复抽样两种计算方 法。 简单随机抽样的必要样本容量的 计算公式: • 1)重复抽样的必要样本容量 • 平均数的必要样本容量: t 2 nx 2 x 2 • 成数的必要样本容量: t P (1 P ) 2 np 2 p 2)不重复抽样的必要样本容量 • 平均数的必要样本容量: Nt 2 • 成数的必要样本容量: nx 2 N x t 2 2 2 Nt P (1 P ) 2 np N 2 p t P (1 P ) 2 • [例] 对某油田的2000口油井的年产油量进行抽样 调查。根据历史资料可知,油井年产油量的标准 差为200吨,若要求抽样误差不超过15吨,概率保 证程度为95.45%,试求需要调查多少口油井 • 解:F(t)= 95.45% t = 2 • [例] 对某工厂的一批机械零件的合格率进行抽样调 查,根据过去的资料,合格率曾有过99%、97%和 94%三种情况,现要求允许误差不超过1%,要求 推断的把握程度为95.45%,问需要抽取多少个零件。 • 解: (件) 2 2 n t p(1 p ) 2 p 2 0.0564 2 0.01 2256 • p(1-p) 取最大值,即需抽取2256件产品才能满足要 求。 例题:某灯泡厂对一批灯泡的平均使用寿命和合格品率 进行检验,要求置信度为95%,前几批的经验数据资 料有:平均使用寿命的标准差为200、250、300小时, 合格品率为92%、93%、95%。要求: 推断平均寿命 的抽样误差不超过50小时,推断合格率的误差不超过 2 2 5%,试问应至少抽多少只灯泡。 Z 2 2 1 1 . 96 300 2 nx 138 . 3 ( 只 ) 2 2 50 x Z np 2 1 P (1 P ) 2 p 2 1 . 96 92 % 8 % 2 ( 5 %) 2 113 . 1( 只 ) 为了满足两者共同的需要,应抽取139只进行调查。 二、 总体总量指标的推算 • 1.直接推算法 • 直接推算法是用样本指标数值或总体指标的 区间估计值乘以总体单位数来推算总体总量 指标的方法。 • 在点估计的情况下,可以直接用样本指标数 值乘以总体单位数,即 x N 或 pN 来推 断; • 在区间估计的情况下,可以用区间估计值乘 以总体单位数,即 [ ]或 (x )N ,(x )N [ ]来推算。 ( p p )N ,( p p )N x x 修正系数法 • 1)比例修正 • 比例修正是指用同一抽样总体中各个有关标志比 例来修正全及总体指标的方法。 • 【例10.17】某县粮食预计产量为4000万公斤, 现随机抽取100个农户进行核实,结果这100个农 户原预计粮食总量为60万公斤,实际入库产量为 63万公斤,其修正比例为: • 修正比例= 抽样实际产量 抽样预计产量 63 1 . 05 60 则全县粮食实际产量可以修正为:4000×1.05=4200(万公斤) 第五节 抽样调查的组织形式 • 一、简单随机抽样 • 简单随机抽样,又称纯随机抽样。它是对 全及总体的所有单位不进行任何分类或排 队处理,而是完全按照随机原则从总体中 抽出样本单位加以观察,以保证总体中每 个单位有相等被抽中的机会。 • • • • 简单随机抽样具体抽取样本单位的方法有: (1)直接抽选法 (2)抽签法 (3)随机数字表法 二、 类型抽样 • 1.类型抽样的概念 • 类型抽样,也称为分层抽样或分类抽样。 它首先把全及总体按某一标志分成若干组 (或若干类、若干层),然后分别在各组 内按随机原则抽取一定数目的样本单位构 成样本的抽样方式。 2.类型抽样样本单位的分配方法 • 1)等比例抽样 ni Ni n N • 2)不等比例抽样 ni n Ni N 3.类型抽样误差的计算公式 • 1)平均数的抽样平均误差 • 重复抽样条件下: i 2 • 不重复抽样条件下: x n i 2 x i Ni 2 i 2 N n 1 n N 2)成数的抽样平均误差 • 在重复抽样条件下, p Pi 1 Pi N • 不重复抽样条件下 Pi 1 Pi n 1 N N p P 1 P N P 1 P i i i i N i 三、 等距抽样 • 1.等距抽样的概念 • 等距抽样,又称机械抽样或系统抽样,它 是首先将总体各单位按某一标志排队,然 后按固定的顺序和间隔来抽选样本单位的 一种抽样组织形式。 2.等距抽样的分类 • 1)等距抽样按排队所依据的标志不同,可 以分为按无关标志排队和按有关标志排队 两种。 • 2)等距抽样按样本单位的抽选方法不同, 可以分为随机起点等距抽样、半距起点等 距抽样和对称等距抽样等。 3.等距抽样误差的计算公式 • 按无关标志排队的等距抽样,抽样误差的计算方 法比较复杂,一般可以按不重复简单随机抽样误 差公式来计算。 • 按有关标志排队的等距抽样具有类型抽样的性质, 因此,可用类型抽样的公式计算抽样误差。因为 按有关标志排队说明已经初步掌握了总体各单位 标志值的资料,因而可以直接用总体方差,而不 必用样本方差。 四、整群抽样 • 1.整群抽样的概念 • 整群抽样是将总体各单位划分成若干群或 组,然后以群或组为单位从中随机抽取一 些群,对中选群的所有单位进行全面调查 的抽样组织形式。 2.整群抽样误差的计算公式 • 1)平均数抽样平均误差 X R r 2 x X R X 2 i i 1 X r R 1 x 2 R x r 2 i i 1 r x 2 • 2)成数抽样平均误差 P R r 2 p r R P i 2 P r R 1 P i 1 R pi 2 2 p i r p 2