Transcript 附件:点击下载
第8章 抽样推断与参数估计 第一节 抽样误差 第二节 抽样单位数目的确定 第三节 参数估计 第一节 抽样误差 2.1、抽样平均误差 (一)概念 (二)计算 1、简单随机抽样 2、类型抽样 3、等距抽样 4、整群抽样 5、阶段抽样 (三)影响抽样平均误差的因素 2.2、抽样极限误差 2.3、抽样极限误差与抽样平均误差的关系 返回 一、抽样平均误差 (一)抽样平均误差的概念 实际误差 x1 ( X ) x 2 ( X ) p2 P p1 P ( X ))2 ux M 2 ( p P) up M (x 平均误差 • 抽样平均误差:样本指标与总体指标间平均的离差 二、抽样平均误差计算 1、简单随机抽样平均误差的计算公式 ①平均数的抽样平均误差 σ ux (重复) n σ2 N n σ2 n u ( 1 )(不重复) ux ( )或 x n N n N1 ②成数的抽样平均误差 P(1 P) up (重复) n up P(1 p) N n P(1 P) n ( )或u p (1 )(不重复) n N1 n N 练习 1、某冷库冻鸡平均每只重1200克,标准差70克,如果重复 随机抽取100只和200只,分别计算抽样平均误差。 σx 70 70 ux 7(克) ux 4 95 (克) n 100 200 2、该冷库冻鸡合格率为97%,如果重复随机抽取100只和200 只,分别计算抽样平均误差。 P(1 P) 97%( 1 97%) up 1 7% n 100 97%(1 97%) up 1 2% 200 3、据电视观众抽样调查资料显示:电视观众平均收视时间 为95分钟,标准差为70,如果采用重复抽样的方法随机抽取 10000人或40000人,分别计算抽样平均误差。 x 70 ux n 10000 ux 70 40000 4、据CNNIC “中国互联网络发展状况统计报告”显示:截止 到 2009年1月中国宽带网民占网民总体的90.6%,如果采用 重复随机抽取方法在网民中抽取100人和400人,分别计算抽 样平均误差。 P(1 P) 90.6%(1 90.6%) up n 100 5. 从总体300个单位中随机重复抽取36个单位作样本, 其标准差为6,则平均数的平均抽样误差为: ( ) (1)2 (2)1 (3) 3 (4) 4 6.从总体300个单位中随机不重复抽取36个单位 作样本,其标准差为6,则平均数的平均抽样 误差为: ( ) 7.在随机重复抽样条件下,为使抽样误差减少一半, 样本容量应增加到: ( ) (1) 1 倍 (2) 2 倍 (3) 3 倍 (4) 4 倍 2、类型抽样 (1)概念:类型抽样是将总体全部单位按某个标志分成若干 个类型组,然后从各类型组中采用简单随机抽样方式或其它 方式抽取样本单位。 (2)样本单位数在各类型组中的分配方式 ①等额分配:在各类型组中分配同等单位数。 ②等比例分配:按各类型组在总体中所占比例分配样本单位 n1 n 2 nk n 数。即: N1 N 2 Nk N ③最优分配:按各类型组的规模大小和差异程度,确定各类 型组的样本单位数。 (3)抽样平均误差的计算公式 2 2 ①平均数的抽样平均误差 σi σ i Ni 2 ux σi 重复 n N 不重复且等比例 ux i2 n (1 ) n N ②成数的抽样平均误差 Pi (1 Pi ) 重复 up n k Pi (1 Pi ) 不重复且等比例 Pi (1 Pi ) n up (1 ) n N Pi (1 Pi )N i i 1 N 例 题 ①有12块小麦地,每块1亩。6块处于丘陵地带,亩产量(斤) 分别为:300 330 330 340 370 370 。 6块处于平原 地带,亩产量(斤)分别为:420 420 450 460 490 520。抽查4块,测定12块地的平均亩产量,计算其抽样误差。 ②设亩产在350以上的为高产田,抽查4块,测定12块地高产 田的比重,计算其抽样误差。 用类型抽样,每类抽2块 计算各组方差 平均组内方差 抽样误差 X1 ( X1 X1) 2 ( X X ) X2 2 2 2 丘 陵 平 原 亩产量 300 1600 330 100 330 100 340 0 370 900 370 900 i2 N 2 X2 460 2 1 3600 合计 2 i Ni X1 340 3600 600 6 600 6 1300 6 950 12 σi 950 ux 15.41 n 4 亩产量 420 1600 420 1600 450 100 460 0 490 900 520 3600 合计 7800 22 2 7800 1300 6 σi n 950 4 ux (1 ) (1 ) n N 4 12 12 57 ② 1 Pi 地块 数 高产 田数 高产田 比重% 丘陵 6 2 33.3 66.67 22.2 平原 6 6 100 0 0 Pi Pi (1 Pi (1 Pi ) 22.2% 6 0 Pi (1 Pi ) 11.1% N 12 Pi (1 Pi ) 11.1% up 16.65% n 4 Pi )N i Pi (1 Pi ) n 11.1% 4 up (1 ) (1 ) 13.6% n N 4 12 3、等距抽样 (1)概念:将总体各单位标志值按某一标志顺序排队,然而按 一定的间隔抽取样本单位。 (2)排对的方法 ①无关标志排队 ②有关标志排队 (3)抽取样本单位的方法 ①按相等的距离取样 ②对称等距取样 (4)抽取第一个样本单位的方法 ①随机抽取 ②居中抽取 4、整群抽样 (1)概念:把总体分为若干群,从总体群中抽取若干样本群,对 抽中的群进行全数登记调查。 (2)抽样平均误差的计算公式 2 2 2 ( x i x) ( X i X) 2 δx Rr 2 δx δx ux ( ) r 2 r R 1 R 2 ( p p ) 2 i ( Pi P ) δ 2p R r 2 δ p δp up ( ) r r R 1 R (3)例题 某水泥厂一昼夜的产量为14400袋,现每隔144分钟抽取1分钟 的水泥(10袋)检查平均每袋重量和一级品率,样本资料如下: 计算抽样平均误差 一昼夜有1440分钟,即把总体分为1440群,R=1440 每隔144分钟抽取1分钟的水泥(10袋),r= 10 δ 2x R r 2 65 1440 10 ux ( ) ( ) 0.513 r R 1 10 1440 1 δ Rr 0.00048 1440 10 up ( ) ( ) 0.0069 r R 1 10 1440 1 2 p (三)影响抽样平均误差的因素 1、总体标准差的大小 2、样本单位数的多少 3、抽样方法的不同 4、抽样组织方式的差别 2.2 抽样极限误差 样本指标围绕总体指标左右两侧波动形成的一定范围。 抽样极限误差:样本指标与总体指标最大可能的误差 范围 x x p p P 2.3、抽样极限误差与抽样平均误差的关系 (一)抽样分布 据中心极限定理,当总体为正态或总体非正态但n≥30时,样本均 值的分布趋近于正态分布;当n足够大时,样本成数的分布近似为正态 分布。 (二)关系 x X x z ux ux 第三节 抽样单位数目的确定 3.1、抽样单位数目的计算 (一)简单随机抽样 (二)类型抽样 (三)等距抽样 (四)整群抽样 3.2、影响抽样单位数目的因素 3.1 抽样单位数目的计算 (一)简单随机抽样单位数目的确定 1、计算公式 2 (1)平均数 2 2 x zu x z x n n z x 2 x n Nz 2 x2 N2x z 2 x2 (2)成数 z P(1 P) 2 n 2 p n Nz 2 p(1 P) N2p z 2 P(1 P) 2.例题 (1)某类产品根据以往资料的估计,总体方差5.456千克,现对 一批进行简单随机抽样以推断该批产品的平均重量,要求可靠 程度达到99.73%,误差范围不超过0.9千克,需要抽多少样 本单位? 按题意 2 2 3 5 456 σ x 5 456 n 61 z 3 2 (0 9) x 0 9 (2)根据以往资料的估计,该类产品的一等品率为 90%,可靠程度仍为99.73%,误差范围不超过5%,推断该 批产品的一等品率,需要抽多少样本单位? 按题意 P 90% z 3 p 5% 3 0901 n 324 2 (0 05) 2 (二)类型抽样 1、计算公式 重复抽样 平均数 n 不重复抽样 z 2 i2 2 x n Nz 2 i2 N2x z 2 i2 2、例题 某工厂早、中、晚生产罐头10000瓶,根据以往资料的估计平 均重量的类型平均方差为0.549克,合格率的类型平均方差为 0.02787,要求可靠程度为何95%,平均重量的允许误差为 0.11克,合格率的允许误差为0.025,用类型抽样推断10000 瓶罐头的平均重量和合格率,需要抽多少样本单位? 据题意 σ 2 0 549 N 10000 i z 1 96 x 0 11 Pi (1 Pi ) 0 02787 p 0 025 10000 (1 96)2 0 549 n 171 2 2 10000 (0 11) (1 96) 0 549 (1 96)2 0 02787 n 171 2 (0 025) (三)等距抽样 计算公式 (1)按有关标志排队 同类型重复抽样 n (2)按无关标志排队 同简单随机不重复抽样 n Nz2 x2 2 N z 2 x 2 2 2 x z 2 2 i 2 x n n z2 pi (1 pi ) 2 2p Nz2 p(1 P ) 2 N2p z2 P (1 P ) 2 3.2、影响抽样单位数目的因素 总体各单位的变异程度 抽样推断的准确程度△ 抽样推断的可靠程度Z 抽样的组织形式 抽样的方法 σ 第四节 抽样估计 4.1 估计量的优良标准:无偏性、有效性、一致性 4.2 抽样估计的方法 (一)点估计:直接用样本指标代替总体指标 不能准确的告诉我们估计的把握程度 (二)区间估计 :不仅仅告诉我们一个范围,告诉我们估计 的把握程度 1、平均数的区间估计 2、成数的区间估计 3、2个总体平均数之差的估计 4、两个总体比例之差的估计 二、抽样估计的方法 返回 (一)点估计 Xx (二)区间估计 Pp 特点:不是指出被估计参数的确定数值,而是指出被估计参数的的可能范 围,同时对参数落在某一范围内给定相应概率的保证程度。z-概率度 1、平均数的区间估计 (1)样本取自总体方差已知的正态分布(大、小样本) z xX ux ux n x z ux X x zu x ux 2 N n ( n N 1 ) 例:经抽样调查计算样本亩产粮食600公斤,并求得抽样平 均误差是3公斤,现给定抽样误差极限为6公斤,求总体平均 亩产落在估计区间的概率? 已知: u=3公斤 Δ=6公斤 x 600 则估计区间(600-6,600+6)=(594,606) | x X | 6 z 2 查正态概率表得,落在估计区间的概率为: 3 F(z)=F(2)=95.45% 例:麦当劳餐馆在7星期内抽查49名顾客的消费额如下,在概率90%的保证 下,顾客平均消费额的估计区间. 15 24 38 26 30 42 18 30 25 34 44 20 35 46 28 47….. 解:①计算样本的平均数和标准差: x 32 9.45 9.45 1.35 n 49 ②根据给定的置信度F(z)=90%,查概率表z=1.64 ③计算: z 1.641.35 2.2元 消费额下限= x 32 2.2 29.8元 消费额上限= x 32 2.2 34.2元 点估计:麦当劳餐馆顾客平均消费额为32元 区间估计:以90%的概率保证,麦当劳餐馆顾客消费额在29.8-34.2之间 某制造厂质量管理部门希望估计本厂生产的5500包原材料 的平均重量,抽出250包,测得平均重量65千克。总体标准 z 1.96 差15千克。总体为正态分布,在置信水平为95%的条件下 建立这种原材料的置信区间。 x 65 15 15 x z 65 1.96 65 1.86 n 250 5500包原材料的平均重量在63.14~66.86之间。 总体平均数估计 根据置信度的要求,估计极限误差可能的范围,并指出估计区间, 具体步骤如下: ①抽取样本,并根据样本的标志值求出样本平均数 差S,在大样本的情况下用S代替 ②根据给定的置信度F(z),查正态分布概率表得到z ③根据 z 计算估计区间的上下限。 和标准 x 例:为了估计一分钟广告的平均费用,抽出15个电视台组成样 本,得样本均值10000元,标准差2000元。总体近似服从正态 分布,在置信水平为96.76%(z=2.14)的条件下建立广告平均 费用的置信区间。 s 2000 z 2.14 x 10000 s 2000 x z 10000 2.14 10000 1106 n 15 电视台一分钟广告的平均费用在8894~11106之间。 (二)根据极限抽样误差 ,求概率保证度F(z) 。 具体步骤如下: ①抽取样本,并根据样本的标志值求出样本平均数 x 作为总 体平均数的估计值,并计算标准差S以推算平均误差 ②根据给定的极限抽样误差,估计总体平均数上下限。 ③根据 z 概率度z, 查正态分布概率表,求得置信度 F(z)。 在一项新广告的跟踪调查中,在被调查的400人中有240人会记起广告 的标语。试求会记起广告语占总体比率的95%置信度的估计区间。 根据样本资料计算: P=n1/n2=240/400=60% p (1 p ) 0.6(1 0.6) 0.49 p (1 p ) n 0 .6 0. 4 0.0245 400 根据给定的置信度要求F(Z)= 95%,查表Z=1.96 根据 z 1.96 2.45% 4.8% 则总体比率的上下限为: 下限 p 60% 4.8% 55.2% 上限 p 60% 4.8% 64.8% 以概率95%的保证程度,会计会记起广告语的人数占总体比率的55.264.8之间 总体成数的估计 (一)根据置信度的要求,估计极限误差可能的范围,并指出估计 区间范围,具体步骤如下: ①抽取样本,计算样本的成数 p和标准差S,并由此推算出抽样 的平均误差u ②根据给定的置信度F(z),查正态分布概率表得到z ③根据 z 计算总体成数的上下限。 成数的区间估计 •例1:某企业在一项关于职工流动原因的研究中,从原 职工中随机抽取了200人访问,有140人离开的原因是 工资太低。以95%的置信水平对总体这种原因离开的人 员比例进行区间估计。 p 0.7 z 1.96 p(1 p) 0.7 (1 0.7) pz 0.7 1.96 0.7 0.064 n 200 该企业由于工资低离开的职工比例为63.6% 与76.4%之间