Transcript “线性回归模型”。
第一课时 必修3(第二章 统计)知识结构 整理、分析数据 估计、推断 收集数据 (随机抽样) 用样本估计总体 简 单 随 机 抽 样 分 层 抽 样 系 统 抽 样 用样本 的频率 分布估 计总体 分布 变量间的相关关系 用样本 数字特 征估计 总体数 字特征 线 性 回 归 分 析 思考:相关关系与函数关系有怎样的不同? 函数关系中的两个变量间是一种确定性关系 相关关系是一种非确定性关系 函数关系是一种理想的关系模型 相关关系在现实生活中大量存在,是更一 般的情况 问题1:现实生活中两个变量间的关系有哪 些呢? 不相关 函数关系 1、两个变量的关系 相关关 系 线性相关 非线性相关 相关关系:对于两个变量,当自变量取值一定 时,因变量的取值带有一定随机性的两个变量 之间的关系。 问题2:对于线性相关的两个变量用什么方法 来刻划之间的关系呢? 2、最小二乘估计 最小二乘估计下的线性回归方程: n ˆ aˆ ˆy bx bˆ ( x X )( y Y ) i i 1 n i 2 ( X X ) i i 1 ˆ aˆ Y bX n ˆ aˆ yˆ bx b^ x y nx y i 1 n i i x i 1 i 2 2 nx a ^ y b^ x 1 n x xi n i 1 回归直线必过样本点的中心 ( x , y ) 1 n y yi n i 1 3、回归分析的基本步骤: 画散点图 求回归方程 预报、决策 这种方法称为回归分析. 回归分析是对具有相关关系的两个变量进行统计 分析的一种常用方法. 课堂互动讲练 题型一 线性回归分析 该类题属于线性回归问题,解答本类题目的关键首 先应先通过散点图来分析两变量间的关系是否相 关,然后再利用求回归方程的公式求解回归方程. 学生 学科成绩 A B C D E 数学成绩(x) 88 76 73 66 63 物理成绩(y) 78 65 71 64 61 (1)画出散点图; (2)求物理成绩y对数学成绩x的回归直线方程; (3)一名学生的数学成绩是96,试预测他的物理 成绩. 【思路点拨】先画散点图,分析物理与数学成绩是 否有线性相关关系,若相关再利用线性回归模型求 解预报变量. 【解】(1)散点图如图: n b^ 1 (2) x = ×(88+76+73+66+63)=73.2, 5 1 y = ×(78+65+71+64+61)=67.8. 5 5 x y nx y i 1 n =25054. 5 x 2i =882+762+732+662+632=27174. i= 1 2 xi n x 2 i 1 ˆ aˆ Y bX x iyi=88×78+76×65+73×71+66×64+63×61 i= 1 i i 5 xiyi-5 x ^ 所以b = y i= 1 5 x2i -5 x 2 25054-5×73.2×67.8 = 27174-5×73.22 i= 1 b^ ≈0.625. ^ ^ a = y -b x =67.8-0.625×73.2=22.05. ^ 所以 y 对 x 的回归直线方程是y =0.625x+22.05. ^ (3)x=96,则y =0.625×96+22.05≈82,即可以预 测他的物理成绩约是 82. n x y nx y i 1 n i i 2 xi n x 2 i 1 ˆ aˆ Y bX 【题后点评】求回归直线方程的一般 方法是:作出散点图,将问题所给的数 据在平面直角坐标系中进行描点,这样 表示出的两个变量的一组数据的相关 图形就是散点图,从散点图中我们可以 判断样本点是否呈条状分布,进而判断 两个变量是否具有相关关系. 例题1 从某大学中随机选出8名女大学生,其身 高和体重数据如下表: 编号 1 2 3 4 5 6 7 8 身高 165 165 157 170 175 165 155 170 体重 48 57 50 54 64 61 43 59 求根据一名女大学生的身高预报她的体重的 回归方程,并预报一名身高为172cm的女 大学生的体重。 分析:由于问题中 要求根据身高预报 体重,因此选取身 高为自变量,体重 为因变量. 1. 散点图; 2.回归方程: yˆ 0.849x 85.172 身高172cm女大学生体重 yˆ = 0.849×172 - 85.712 = 60.316(kg) 3.通过探究栏目引入“线性回归模型”。此处可 以引导学生们体会函数模型与回归模型之间的 差别。 第二课时 探究? 身高为172cm的女大学生的体重一定 是60.316kg吗?如果不是,其原因是什 么? (1)由图形观察可以看出,样本点呈条状分布, 身高和体重有比较好的线性相关关系,因此可以 用线性回归方程刻画它们之间的关系。 (2)从散点图还可以看到,样本点散布在某一 条直线的附近,而不是一条直线上,所以不能用 一次函数y=bx+a来描述它们之间的关系。 这时我们用下面的线性回归模型来描述身高和体 重的关系:y=bx+a+e其中a和b为模型 的未知参数,e是y与 yˆ 之间的误差,通常e称为随机 误差。 产生随机误差e的原因是什么? e 产生的主要原因: (1)所用确定性函数模拟不恰当; (2)忽略了某些因素的影响; (3)观测误差,如使用的测量工具不同等. 函数模型与回归模型之间的差别 一次函数模型: y=bx+a 线性回归模型: y=bx+a+e 线性回归模型y=bx+a+e增加了随机误差项e,因 变量y 的值由自变量x和随机误差项e 共同确定,即 自变量x 只能解释部分y 的变化. 在统计中,我们也把自变量x称为解释变量, 因变量y称为预报变量. 随机误差 e y y e的估计量 eˆ y yˆ 样本点:( x1 , y1 ),( x2 , y2 ), ... ,( xn , yn ) 相应的随机误差为: ei yi yi yi bxi a, i 1,2,..., n 随机误差的估计值为: ˆ aˆ , i 1,2,..., n eˆi yi yˆ i yi bx i eˆ i 称为相应于点 ( xi , yi ) 的残差. 残差分析 在研究两个变量间的关系时,首先要根据散点图来粗 略判断它们是否是线性相关,是否可以用线性回归模 型来拟合数据.然后,可以通过残差 eˆ1 , eˆ2 , , eˆn 来 判断模型拟合的效果,判断原始数据中是否存在可疑 数据.这方面的分析工作称为残差分析. 下表为女大学生身高和体重的原始数据以及相应的 残差数据: 编号 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 体重/kg 48 57 50 54 64 61 43 59 残差 eˆ -6.373 2.627 2.419 -4.618 1.137 6.627 -2.883 0.382 以纵坐标为残差,横坐标为编号,作出图形(残差图) 来分析残差特性. 8 6 4 残差 2 0 -2 0 系列1 2 4 6 8 10 -4 -6 -8 编号 由图可知,第1个样本点和第6个样本点的残差比较大, 需要确认在采集这两个样本点的过程中是否有人为的 错误.如果数据采集有错误,就予以纠正,然后重新 利用线性回归模型拟合数据;如果数据采集没有错误, 则需要寻找其他原因. 如何刻画模型拟合的精度? n 相关指数:R2 1 2 ˆ ( y y ) i i i 1 n 2 ( y y ) i i 1 在含有一个解释变量的线性模型中,R2恰好等于相关 系数r的平方. R2取值越大,则残差平方和越小,即模型的拟合效果 越好. R2=0.64,表明:“女大学生的身高解释了64%的体 重变化”,或者说“女大学生的体重差异有64%是 由身高引起的”. (2)利用 R2 刻画回归效果 n ^ 2 yi-y i i =1 解释 预报 ;R2 表示______变量对______变量 R2=1- n yi- y 2 i =1 2 1 变化的贡献率.R 越接近___,表示回归的效果越好. 问题四:结合例1思考:用回归方程预报体重时应注意什么? 1.回归方程只适用于我们所研究的样本的总体。 2.我们建立的回归方程一般都有时间性。 3.样本取值的范围会影响回归方程的适用范围。 4.不能期望回归方程得到的预报值就是预报变量的精确值。 涉及到统计的一些思想: 模型适用的总体;模型的时间性; 样本的取值范围对模型的影响;模型预报结果的正确 理解。 误差与残差,这两个概念在某程度上具有很大的相似 性,都是衡量不确定性的指标,可是两者又存在区别。 误差与测量有关,误差大小可以衡量测量的准确性, 误差越大则表示测量越不准确。误差分为两类:系统 误差与随机误差。其中,系统误差与测量方案有关, 通过改进测量方案可以避免系统误差。随机误差与观 测者,测量工具,被观测物体的性质有关,只能尽量 减小,却不能避免。 残差――与预测有关,残差大小可以衡量预测的准确 性。残差越大表示预测越不准确。残差与数据本身的 分布特性,回归方程的选择有关。 题型三 残差分析 通过对残差图的分析,得出模型的拟合效果. 例2 在7块形状、大小相同的并排试验田上进行 施肥量对水稻产量影响的试验,得到如下表所示的 一组数据(单位:kg): 施肥量 15 20 25 30 35 40 45 x/kg 水稻产量 330 345 365 405 445 450 455 y/kg (1)以施肥量x为解释变量,水稻产量y为预报变量, 作出散点图; (2)求y与x之间的回归方程,并求施肥量为28 kg时 水稻产量的预报值; (3)计算残差,并计算残差平方和; (4)求R2,并说明其含义. 【思路点拨】 作散点图 → 得到x、y → 代入公式求得线性回归方程 → 将x代入求得对应值 → 5 求残差平方和 e2i → 求得相关指数R2 i= 1 【解】(1)散点图如图所示: (2)由散点图可以看出,样本点呈条状分布, 施肥量和水稻产量有较好的线性相关关系,因此 可以用线性回归方程近似刻画它们之间的关系。 ^ ^ ^ 设回归方程为y =b x+a , x =30, y ≈399.3, 7 xi- x yi- y ^ 于是b = i= 1 ^ 代入数据得:b ≈4.75, 7 xi- x 2 i= 1 ^ ^ a = y -b x ≈399.3-4.75×30=256.8, ^ 因此所求的回归直线方程是y =4.75x+256.8. 当 x=28 时,水稻产量的预报值是 ^ y =4.75×28+256.8=389.8(kg). ^ ^ (3)因为残差e i=yi-y i,所以可得 ^ ^ ^ ^ e 1=1.95,e 2=-6.8,e 3=-10.55,e 4=5.7, ^ ^ ^ e 5=21.95,e 6=3.2,e 7=-15.55, 7 ^ 所以残差平方和为 e 2i =927.68. i= 1 7 (4)=(yi- y )2=16721.43, i= 1 927.68 ≈0.9445=94.45%. 16721.43 说明了施肥量对对水稻产量的影响占 94.45%. ∴R2=1- 【题后点评】在求回归方程时,先画散点图,看 样本是否能很好地符合线性相关关系或进行相关 性检验.相关指数R2表示解释变量对预报变量的贡 献率. 第三课时 题型二 非线性回归分析 对于非线性回归问题,并且没有给出经验公 式,这时我们可以画出已知数据的散点图,把 它与必修模块《数学1》中学过的各种函数 (幂函数、指数函数、对数函数等)的图 象作比较,挑选一种跟这些散点拟合得最好 的函数,然后采用适当的变量代换,把问题转 化为线性回归问题,使其得到解决. 例2 一只红铃虫的产卵数y和温度x有关,现收 集了7组观测数据列于表中: 温度xoC 21 23 25 27 29 32 35 产卵数y/个 7 11 21 24 66 115 325 试建立产卵数y与温度x之间的回归方程; 选变量 方 法 一 : 一 元 函 数 模 型 解:选取气温为解释变量x,产卵数 为预报变量y。 350 300 250 画散点图 200 150 100 选模型 50 0 0 估计参数 3 6 9 12 15 18 21 24 27 30 33 36 39 假设线性回归方程为 :ŷ=bx+a 由计算器得:线性回归方程为y=19.87x-463.73 分析和预测 当x=28时,y=19.87×28-463.73≈ =19.87×28-463.73≈ 当x=28时,y 93 93 所以,一次函数模型拟合效果不太好。 方 法 二 , 二 元 函 数 模 型 问题1 选用y=c1x2+c2 ,还是y=c1x2+cx+c2 ? 问题2 如何求c1、c2? 变换 t=x2 y= c1 x2+c2 非线性关系 问题3 y= c1 t+c2 线性关系 产卵数 400 300 200 气 温 100 -40 -30 -20 0 -10 0 -100 -200 10 20 30 40 平方变换:令t=x2,产卵数y和温度x之间二次函数模型y=bx2+a 就转化为产卵数y和温度的平方t之间线性回归模型y=bt+a 温度 温度的平方t 产卵数y/个 21 441 7 23 529 11 25 625 21 27 729 24 29 841 66 32 1024 115 35 1225 325 作散点图,并由计算器得: y 和 t 之间的线性回归方程为 y=0.367t-202.54 将t=x2代入线性回归方程得: y=0.367x2 -202.54 当x=28时,y=0.367×282202.54≈85, 所以,二次函数模型比一次函数 模型较好。 产卵数y/个 350 300 250 200 150 100 t 50 0 0 150 300 450 600 750 900 1050 1200 1350 方 法 三 : 指 数 函 数 模 型 -10 产卵数 450 400 350 300 250 200 150 100 50 0 -5-50 0 y c3e c4 x 气 温 5 10 15 变换 20 25 30 y=bx+a 对数 非线性关系 线性关系 35 40 ln y ln c3 ln e c4 x ln c3 c4 x ln e ln c3 c4 x 令 ln c3 a, c4 b, ln y z, 则有z bx a 温度x/ 21 23 25 27 29 32 35 Z=lny 1.94 6 2.39 8 3.40 5 3.178 4.19 0 4.74 5 5.784 产卵数y/ 个 7 11 21 24 66 115 325 c 由计算器得:z关于x的线性回归方程 因此y关于x的非线性回归方程为 当x=28 ^ z 0.272 x 3.849 ^ y e0.272 x 3.849 C 时,y ≈44 ,指数回归模型比二次函数模型更好 【题后点评】作出散点图,由散点图 选择合适的回归模型是解决本题的关 键,在这里线性回归模型起了转化的 作用. 上节例2中最好的 模型是哪个? 函数模型 相关指数R2 线性回归模型 0.7464 二次函数模型 0.802 指数函数模型 0.98 显然,指数函数模型最好! 建立回归模型的基本步骤: (1)确定研究对象,明确哪个变量是解释变量,哪 个变量是预报变量; (2)画出确定好的解释变量和预报变量的散点图, 观察它们之间的关系(是否存在线性关系); (3)由经验确定回归方程的类型(如观察到数据呈线 性关系,则选用线性回归方程y=bx+a); (4)按一定规则估计回归方程中的参数(如最小二 乘法); (5)得出结果后分析残差图是否异常(个别数据对 应残差过大,或残差呈现不随机的规律性等),若存 在异常,则检查数据是否有误,或模型是否合适等. 建立回归模型的基本步骤 1)确定解释变量和预报变量; 2)画出散点图; 3)确定回归方程类型; 4)求出回归方程; 5)利用相关指数或残差进行分析. 小 实际问题 y = f(x) 结 抽样 回归模型 y = f(x) 样本分析 y = f(x) 变式训练 某运动员训练次数与运动成绩之间的数据关系如 下: 次数(x) 30 33 35 37 39 44 46 50 成绩(y) 30 34 37 39 42 46 48 51 (1)作出散点图; (2)求出线性回归方程; (3)作出残差图; (4)计算R2,并作出解释; (5)试预测该运动员训练47次及55次的成绩. 解:(1)作出该运动员训练次数(x)与成绩(y)之间 的散点图,如图所示: 由散点图可知,它们 之间具有线性相关 关系. 8 (2)可求得 x =39.25, y =40.875, x2i =12656, i= 1 8 8 2 yi =13731, xiyi=13180, = i 1 i= 1 8 8 xi- x yi- y xiyi-8 x ^ ∴b = i= 1 y i= 1 = 8 xi- x 2 i= 1 ≈1.0415, 8 x2i -8 x i= 1 ^ ^ a = y -b x =-0.003875, ^ ∴线性回归方程为y =1.0415x-0.003875. 2 (3)残差分析 将这 8 名运动员依次编号为 1,2,3,…,8,因残差 ^ ^ ^ ^ e 1≈-1.24,e 2≈-0.37,e 3≈0.55,e 4≈0.47, ^ ^ ^ ^ e 5≈1.39,e 6≈0.18,e 7≈0.09,e 8≈-1.07,于是 可作残差图如图所示: 由图可知,残差点比较 均匀地分布在水平带状 区域中,说明选用的模 型比较合适. (4)计算相关指数R2 计算相关指数R2=0.9855.说明了该运动的成绩的 差异有98.55%是由训练次数引起的. (5)作出预报 由上述分析可知,我们可用回归方程=1.0415x- 0.003875作为该运动员成绩的预报值. 将x=47和x=55分别代入该方程可得y≈49和y≈57. 故预测运动员训练47次和55次的成绩分别为49和 57. 预报精度 变量的线性 模型 1.相关指数R2 n (y i R2 = 1 - i=1 n n 2 - yi ) 2 (y y) i i=1 在含有一个解释 = (y i=1 n 2 i - y) 2 (y y) i i=1 中R2=r2(相关关系) 判断xi确定差异 百分数 2.残差e 随机误差e = y - y,它的估计值为 e = y - y . (xn ,yn )它们随机误 对于样本点(x1 ,y1 ),(x1)衡量预报精度 2 ,y2 ), , 差的估计值ei = yi - y2)确定样本的异常点. i = yi - bxi - a 称相应残差. 1 n 1 2 方差 σ = (yi - bxi - a) = Q(a,b)(n > 2) n - 2 i=1 n-2 2 作 业 教材P36 2