Transcript ppt
第4章 単回帰分析 単回帰分析:xとyについて直線的な関係を前提として解析する方法 単回帰分析:xが1変数 重回帰分析:xが多変数 第5章 y=ax+b y:被説明変数,目的変数,外的基準 X:説明変数 4.1 適用例と解析ストリー 表4.1 成分Aの含有率xと収率y サンプルN o.含有量x 収率y 1 2 3 4 5 6 7 8 9 10 2.2 4.1 5.5 1.9 3.4 2.6 4.2 3.7 4.9 3.2 71 81 86 72 77 73 80 81 85 74 85 y = 4.523x + 61.853 2 R = 0.934 80 75 70 0 2 4 図4.1 散布図 6 (2) 解析ストリー 1. 1. 単回帰モデル yi 0 1 xi i (誤差εiは互いに独立にN(0,σ i~N (0, 2 ) 2 )に従う)を想定し,回帰母数(回 帰パラメター)β0, β1を最小2乗法により推定する 2. 寄与率や自由度調整済寄与率を求めて上記の回帰式の性能を 評価する. 3. 回帰係数β1について検定・区間推定を行う. 4. 残差とテコ比の検討を行い,得られた回帰式の妥当性を検討する. 5. 得られた回帰式を利用して,任意に指定した値x0に対して母回帰 β0+β1x0を推定し, y0=β0+β1x0の値を予測する. 4.2 解析方法 (1)最小二乗法による回帰式の推定 観測値 予測値 残 差 yi 0 1 xi i i~N (0, ) yˆ i 0 1 xi i yi yˆi yi (0 1 xi ) 2 (4.1) (4.3) (4.4) 残差平方和 n n 2 S ( y ( x )) 残差平方和 e i i 0 1i i 1 2 i 1 (4.5) 残差平方和を最小になるβ0, β1を求める n Se 2 ( yi 0 1 xi ) 0 0 i 1 n Se 2 xi ( yi 0 1 xi ) 0 1 i 1 (4.6) (4.7) 単回帰モデルの推定(1) 0n 1 xi yi (4.8) 0 xi 1 xi xi yi (4.9) 2 (4.8)より 0 y i n x 1 i これを(4.9)に代入すると y ( n i 1 1 ( xi 2 n y 1 x (4.10) x ) x x i n ( xi ) 2 n i 1 ) xi yi i 2 xi yi xy i n i (4.11) (4.12) 単回帰モデルの推定(2) 偏差積和 S xy x y (4.13) ( y y )( x x ) y x n ( x ) (4.14) (x x) x i i i i i i 2 平方和 S xx 2 2 i 1 ( xi 2 i i ( xi ) 2 ) xi yi n 1S xx S xy S xy 1 S xx n xy yˆ i 0 1 xi y 1 x 1 xi y i i n (4.12) (4.15) S xy S xx ( xi x ) (4.16) 単回帰モデルの推定(3) 残差平方和 2 S e yi ( 0 1 xi ) yi y 1 ( xi x ) 2 ( yi y ) 2 2 1 ( xi x )( yi y ) 1 S yy 2 1S xy 1 S xy S xx 2 2 ( x x ) i S xx S yy 1S xy (4.17) Se 誤差の母分散ˆ Ve e n 2 2 Se (4.18) (2)寄与率と自由度調整済み寄与率 平方和の分解 S yy yi y 2 ( yi ( 0 1 xi ) ( 0 1 xi ) y ) 2 ( yi ( 0 1 xi ) ( 0 1 xi ) y 2 2 2 ( yi ( 0 1 xi )( 0 1 xi ) y ( yi ( 0 1 xi ) ( 0 1 xi ) y 2 Se S R S R :誤差平方和 S R :回帰による平方和 2 ( y ( i 0 1 xi )(0 1 xi ) y 0 n Se 2 ( yi 0 1 xi ) 0 0 i 1 n Se 2 xi ( yi 0 1 xi ) 0 1 i 1 ( y i E(i) ,0 V(i) 2, C(i, j) 0(i j) (4.6) (4.7) ( 0 1 xi )( 0 1 xi ) y ei ( 0 1 xi ) y ( 0 y ) ei 1 ei xi 0 寄与率 寄与率 R2 S SR 1 e S yy S yy S R R S yy 2 2 S xy / S xx S yy ( S xy S xx S yy ) 2 rxy 2 自由度調整済み寄与率 R*2 1 Se / e S yy / T T n 1 e T R (n 1) 1 n 2 (3)回帰係数の検定と推定 βˆ1は統計量であり,以下の分布に従う βˆ ~N( , 2 / S ) 1 1 xx 標準化を行うと βˆ1 1 u ~N(0,12 ) 2 / S xx uの分母の 2にその推定量ˆ 2 Veを代入すると βˆ1 1 t ~t(e ) Ve / S xx (3)回帰係数の検定と推定 t検定 t検定:パラメータが意味を持つかどうかの検定 帰無仮説 H0 : 1 0, 対立仮説 H0 : 1 0 βˆ1 統計量 t 0 を,有意水準αで検定する(t検定) Ve / S xx t 0 t (e , )(e n 2)なら有意水準で有意と判定する t ( , )2 F (1,; )の関係があるので,t 0 t (e , )と次式は同じ βˆ1 SR F0 t F (1, e ; ) 分散比 Ve / S xx Ve Ve ˆ 1の信頼率95%の信頼区間は,β1 t (e ;0.05) S xx 2 0 (4.31) (4)残差とテコ比の検討 (1) 残差 残差の標準化 残差 ek yk yˆ k ek ek ' 近似的にN(0,12 )に従う Ve 「ek’≧3.0ならば注意」, 「ek’≧2.5ならば留意」 サンプルの異常値をチェック xk’ (4)残差とテコ比の検討 (2) 残差のt値 ek tk (1 hkk )Ve テコ比:各データの予測値に対する影響度を示す値 1 ( xk x ) 2 hkk n S xx 4.3 行列とベクトルによる表現 (1) 単回帰モデル 単回帰モデルを以下のように表す yi 0 1 xi i 0 1 ( xi x ) i 0 0 1 x (4.42) (4.43) i~N (0, 2 ) (4.44) n個のサンプルに対して具体的に書き並べると y1 0 1 ( x1 x ) 1 , 1~N (0, 2 ) y2 0 1 ( x2 x ) 2 , 2~N (0, 2 ) yn 0 1 ( xn x ) n , n~N (0, 2 ) y1 1 y 1 2 yn 1 x1 x 1 x2 x 0 2 1 xn x n y Xβ ε (1) 単回帰モデル 誤差に関しては,以下の仮定を用いている E( i ) 0, V( i ) 2 , C( i , j ) 0(i j) (4.47) これをベクトルと行列で表記すると 2 0 0 0 2 0 E (ε) 0, V (ε) 0 0 0 0 0 2I n 2 (4.48) 以上により,単回帰モデルは,以下のように表現できる y Xβ ε, ε~N(0, 2I n ) (4.49) (2) 最小2乗法による回帰式の推定 残差ベクトル ( AB )' B' A' ˆ ˆ ˆ )' ( Xβˆ )' y βˆ ' X' y ( y ' X β ˆ 0 1 ( x1 x ) ˆ 0 1 ( x2 x ) y Xβˆ (4.50) ˆ ˆ 0 1 ( xn x ) e1 e2 2 2 2 2 S e ei e1 e2 en [e1 , e2 , en ] e'e (y Xβˆ )' (y Xβˆ ) (y 'βˆ ' X' )( y Xβˆ ) en e1 y1 e y2 2 e en yn 残差平方和 (y ' y y ' Xβˆ βˆ ' X' y βˆ ' X' Xβˆ ) (y ' y 2βˆ ' X' y βˆ ' X' Xβˆ ) (4.51) (2) 最小2乗法による回帰式の推定 残差平方和をパラメータベクトルで微分したものを0とおく S e 2X' y 2X' Xβˆ 0 (4.52) ̂ X' Xβˆ X' y βˆ ( X' X) 1 X' y (4.53) 1 x1 x 1 1 1 1 x2 x X' X [ ] x1 x x2 x xn x 1 x x n n ( xi x ) n 0 1/ n 0 1 [ ] [ ] ( X' X) [ ] 2 ( x x ) ( x x ) 0 S i i xx 0 1/S xx (4.54) (2) 最小2乗法による回帰式の推定 ei 0 y X[( X' X) 1 X' y ] [I n X( X' X) 1 X' ]y (4.55) Se e'e y '[I n X( X' X) 1 X' ]' [I n X( X' X) 1 X' ]y y '[I n X( X' X) 1 X' ]y y ' y y ' X( X' X) 1 X' y (4.56) (3) 統計量の分布 単回帰モデルを行列とベクトルで表すと y Xβ ε, ε~N(0, 2I n ) E (y ) E ( Xβ ε) E ( Xβ) E (ε) Xβ V (y ) V ( Xβ ε) V ( Xβ) V (ε) V (ε) 2I n y AXが成り立つとき E (y ) E ( AX ) AE ( X) Aμ V (y ) AΣΣ ' (3.50) (3.51)が成り立つ (3) 統計量の分布 E (βˆ ) E (( X' X) 1 X' y ) ( X' X) 1 X' E (y) V (βˆ ) V (( X' X) 1 X' y ) ( X' X) 1 X'V (y ) X( X' X) 1 ( X' X) 1 X' 2 I n X( X' X) 1 1 ( X' X) X' Xβ β 2 ( X' X) 1 βˆ ~N(β, 2 ( X' X) 1 ) 1/ n 0 ( X' X) [ ] 0 1/S xx 1 (4.54)より αˆ 0~N( 0 , 2 / n) βˆ ~N( , 2 / S ) 1 1 Cov(αˆ 0 , βˆ1 ) 0 xx