b - nifty | slideum.com

b - nifty

Transcript b - nifty

社会統計
第10回：単回帰分析（第８章）
寺尾敦
青山学院大学社会情報学部
[email protected]
第８章：２つの連続変数間の関係を
推定する－２変量回帰と相関
• 単回帰分析
– 独立変数，従属変数ともに量的変数（間隔尺度
あるいは比率尺度）
– 回帰分析では，独立変数のことを説明変数，従
属変数のことを目的変数と呼ぶことが多い．
– 回帰分析の目的：説明変数と目的変数との間に，
直線的な関数関係があると想定し，その関数を
求める（記述統計）．母集団での関係に関する推
測を行う（推測統計）．
• 8.6.4節以降は，講義で扱わない．テスト範囲
外．
8.1 回帰や相関の手法を用いた
分析例
• Roland Liebert による，市政の機能の変化に
ついての研究．
– 1970年代の財政危機による，市政の運営に対す
る関心の高まりが背景．
• 自治体の活動範囲（市当局が行う施策や
サービスの範囲）を決める要因
– 歴史的要因：伝統や政治文化，制度の形態
– 国全体の複雑化と相互依存性
– 都市部の人口増加と居住地の郊外化
• 自治体の活動範囲の９指標：福祉（連邦政府
による援助），司法，医療，教育，福祉（自治
体独自），保健，施設整備（公園など），衛生，
下水整備
• 独立変数として，
– 都市の歴史（人口が１万人に達してからの年数）
– 都市の人口規模
– 居住地の郊外化の度合い
• 得られた知見
– 歴史があり，かつ，規模の大きな都市ほど，より
多くの機能を果たしている．
– 郊外型の都市は，中核的な都市に比べて，少数
の機能しか果たしていない．
• リーバートが行った分析は，回帰と相関の手
法．
• ６３都市（表8.1は，ワシントンD.C.を除く62都
市）のデータを用いて，彼の分析の一部をな
ぞる．
– リーバートは668都市を分析
– 人口と歴史は1970年時点でのデータ．都市機能
の指標は1960年のデータ．
• 命題
– P1：都市の歴史が古いほど，自治体の活動範囲
は広い．
– P2：都市の規模が大きいほど，自治体の活動範
囲は広い．
• 操作仮説
– H1：人口１万人を超えてから経た年数（X1）が多
いほど，市の果たす機能（Y）が多い．
– H2：1970年の人口（X2）が多い都市ほど，市の果
たす機能が多い．
8.1.1 自治体の活動範囲についての
記述統計
> city62 <- read.csv("city62.csv")
> head(city62)
NUM REGION CITYAGE FUNCTION POPULAT
1
1
3
86
4
275
2
2
1
146
5
116
3
3
2
46
4
127
4
4
2
106
4
497
5
5
4
66
4
117
6
6
2
86
4
301
平均
標準偏差
> lapply(city62, mean)
$NUM
[1] 31.51613
> lapply(city62, sd)
$NUM
[1] 18.06976
$REGION
[1] 2.5
$REGION
[1] 1.097688
$CITYAGE
[1] 87.12903
$FUNCTION
[1] 4.66129
$POPULAT
[1] 584.8387
X1
Y
X2
$CITYAGE
[1] 39.25974
$FUNCTION
[1] 1.828226
$POPULAT
[1] 1123.421
8.2 散布図と回帰直線
• ２つの連続変量の関係を図示するには，散布
図（scatter plot）を描く．（次のスライド）
• ２変数の関係は線形で，正の相関が認めら
れる．
• ２変数の関係を直線の式で記述できそう．
– 完全な線形関係にはほど遠いが，ランダムな散
布状態というよりは線形に近い．
線形関係
（linear relationship）
• 回帰モデル（regression model）：i番目の都市
における，変数 X1 （都市の歴史）と Y （機能
の数）の関係を，以下のように記述する．
Yi  a  bX i1  ei
• 予測式としての回帰直線（regression line）
は，
Yî  a  bXi1
参考：図8.2
Yi
ei
Yî
Yî  a  bXi1
Xi
 Y1   a   X 11   e1 
  
    
 Y2   a   X 21   e2 


b

  
    
  
    
Y   a   X   e 
 63     63,1   63 
切片 a と傾き b の値が決まれば，
回帰直線がひとつに定まる．
• 誤差 ei に関する仮定
– 独立性：互いに独立
– 正規性：正規分布に従う
– 不偏性： ei の期待値は０
E[ei ]  0
– 等分散性： ei の分散は，X の値によらず同一．
V [ei ]   e2
Y
（母集団での）
回帰直線

N 0,  e2

N 0,  e2 
X
• 説明変数（独立変数） X は，確率変数ではな
く，調査者が決められる値であるとする．
– どの X の値に対して目的変数（従属変数）の値を
測定するか，決められる．
– 回帰分析についての理論的なテキストのほとん
どが，この設定をしている．
– 実際には， X も確率変数と考えた方が自然な
データは多い．理論的には，X を確率変数として
も，同じ回帰分析を実行できる．
8.3 線形回帰式
• 直線の決め方：予測誤差（予測値と実測値の
ずれ）を，データ全体にわたって最小にする．
• 最小２乗法（OLS: ordinary least square）：予測
誤差の２乗和を最小にするように，パラメータ
（ここでは切片と傾き）を決める．
N
N

ˆ
e

Y

Y
i  i i
i 1
2
i 1
N

2
  Yi  a  bX i 
i 1
2
関数 F(a,b) の値を最小にする，パラメータ a と b の値を決める．
N
F a, b    Yi  a  bX i 
2
i 1
N
  a  bX i   Yi 
2
i 1
パラメータ b を定数（あるいは，うまく決定できた）と考え，a だ
けが変数であるとすると，下に凸の２次関数とみなせる．
N
F a, b    a  bX i  Yi 
2
F(a,b)
i 1
N

  a 2  2bX i  Yi a  bX i  Yi 
i 1
2

a
関数 F(a,b) の値が最小になるところ（曲線の一番下）では，
接線の傾きがゼロとなる．つまり，関数 F(a,b) を a で微分（偏
微分と呼ばれる）して得られる導関数の値がゼロとなる．
N

F a, b    a 2  2bX i  Yi a  bX i  Yi 
i 1
2
F a, b  N
  2a  2bX i  Yi 
a
i 1
N
 2 a  bX i  Yi 

接線
i 1
0
注意：最初に式を展開しなくても，合成関数の
微分法を使えば，偏微分を簡単に実行できる．
得られた式を整理する．
N
2 a  bX i  Yi   0
i 1
N
N
N
 a   bX   Y
i 1
i
i 1
i 1
N
N
i 1
i 1
i
0
Na  b X i   Yi
正規方程式（normal equation）
と呼ばれる連立方程式を構成
する方程式のひとつ．
両辺を N で割ると，
1
ab
N
N
1
Xi 

N
i 1
a  bX  Y
N
Y
i 1
i
a  Y  bX
b がわかれば，この式で a を求めことができる
パラメータ a を定数（あるいは，うまく決定できた）と考え，b だ
けが変数であるとすると，やはり下に凸の２次関数とみなせ
る．
N
F a, b    bX i  a  Yi 
2
i 1
N

F(a,b)
  X i2b 2  2 X i a  Yi b  a  Yi 
i 1
2

b
関数 F(a,b) の値が最小になるところ（曲線の一番下）では，
接線の傾きがゼロとなる．つまり，関数 F(a,b) を b で微分（偏
微分と呼ばれる）して得られる導関数の値がゼロとなる．
N

F a, b    X i2b 2  2 X i a  Yi b  a  Yi 
i 1
2

F a, b  N
  2 X i2b  2 X i a  Yi 
b
i 1

N


 2 bX i2  aX i  X iYi

i 1
0
注意：最初に式を展開しなくても，合成関数の
微分法を使えば，偏微分を簡単に実行できる．
得られた式を整理する．
N


2 bX i2  aX i  X iYi  0
i 1
N
N
N
i 1
i 1
i 1
N
N
N
i 1
i 1
i 1
a  X i  b X i2   X iYi  0
a  X i  b X i2   X iYi
正規方程式（normal equation）
と呼ばれる連立方程式を構成
する方程式のひとつ．
正規方程式
N
N

 Na  b X i   Yi  (1)

i 1
i 1
 N
N
N
2
a X  b X 
X iYi  (2)


i
i
 
i 1
i 1
i 1
b がわかれば，この式で a
を求めことができる
(1) より，
a  Y  bX
b を求めたいので，b に
ついてまとめた式にする
これを (2) に代入すると，
Y  bX  X
N
i 1
N
i
N
 b X   X iYi
i 1
2
i
i 1
N
N
N
 N 2

  X i  X  X i b   X iYi  Y  X i
i 1
i 1
i 1
 i 1

両辺を N で割ると，
1

N
1

N
1 N
1

X i b   X iYi  Y

N i 1
N
i 1

N
N
1

2
2
X

X
b   X iYi  XY

i
N i 1
i 1

N
1
X X

N
i 1
N
2
i
N
X
i 1
i
X の分散 S2X ，および， X と Y の共分散 SXY について，
1
2
SX 
N
1

N
 X
N
i 1
i
N
X
i 1
X
2
2
i
X
2
S XY
1

N
1

N
 X
N
i 1
i
 X Yi  Y 
N
 X Y  XY
i 1
i i
したがって，
S X2 b  S XY
S XY
b 2 
SX
1
N
 X
N
i 1
1
N
i
 X Yi  Y 
 X
N
i 1
X
2
i
不偏分散を使えば，
1 N
X i  X Yi  Y 

N  1 i 1
b
1 N
2
X i  X 

N  1 i 1
• 回帰係数（regression coefficient） b の推定値
1 N

X i  X Yi  Y 

S XY N i 1
ˆ
b 2 
N
1
2
SX
X i  X 

N i 1
• 切片（intercept） a の推定値
aˆ  Y  bX
• けっきょく，回帰直線の式は，
S XY
Yi  2 X i  X   Y
SX
SY S XY
X i  X   Y

S X S X SY
SY

rXY X i  X   Y
SX
• 回帰直線からわかること．
– 回帰係数は，X が１単位変化したときの，Y の変
化である．
b( X  1)  a  bX  a  b
– 回帰直線は（X の平均，Y の平均）という座標点
を通る（次のスライド参照）．
– 測定値を標準化すれば，直線の傾きは２変数の
相関係数に等しい．
S
Yi 
Y
SX
rXY X i  X   Y
Y
X
8.3.1 線形回帰を自治体の活動範囲
の例に適用する
> summary(lm(FUNCTION ~ CITYAGE))
Call:
lm(formula = FUNCTION ~ CITYAGE)
Residuals:
Min 1Q Median 3Q Max
-2.6265 -0.8193 -0.1649 0.7196 3.3735
次のスライドに続く
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.979696 0.430569 4.598 2.25e-05 ***
CITYAGE 0.030777 0.004512 6.822 5.03e-09 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.383 on 60 degrees of freedom
Multiple R-squared: 0.4368, Adjusted R-squared:
0.4274
F-statistic: 46.54 on 1 and 60 DF, p-value: 5.034e-09
> plot(CITYAGE, FUNCTION)
> abline(lm(FUNCTION~CITYAGE))
8.4 連関の測度
• 線形回帰分析は，２変数の量的関係を示す
式を推定するだけでなく，２変数間の連関の
強さを明らかにするためにも活用できる．
• 観測されたデータ点が，回帰直線の近くにあ
るほど，連関は強いと考えられる．
• 従属変数 Y の値を，体系的成分（回帰式に
よって予測される）と，誤差の成分に分解す
る．
– 体系的成分は，独立変数 X の値によって説明で
きる成分．
• 従属変数 Y の値を，独立変数の値によって
説明できる成分と，誤差の成分に分解する．
Y i Y  (Yî  Y )  (Yi  Yî )
Y  Y  (Yˆ  Y )  (Y  Yˆ )
i
i
参考：図8.3
i
i
Yi  Yî
Yî  Y
• 従属変数 Y の変動は，分散分析の場合と同
様に，２つに分解することができる．
• 回帰平方和（regression sum of squares）：回
帰によって説明できる変動
• 誤差平方和（error sum of squares）：回帰に
よって説明できない変動
 Y  Y    Yˆ  Y    Y  Yˆ 
N
i 1
2
i
N
i 1
2
i
N
i 1
SSTOTAL  SSREGRESSION  SSERROR
2
i
i
8.4.1 決定係数
• 従属変数の変動のうち，回帰によって説明で
きる変動の割合を，決定係数（coefficient of
determination）と呼ぶ．
2
Y .X
R
SSREGRESSION

SSTOTAL
SSERROR
 1
SSTOTAL
誤差減少率としての決定係数
• 回帰式についての情報がまったくないとき
に，従属変数 Y の値を予測せよと言われた
ら，平均値を答えるしかない．平均値は，下
の式で表される偏差平方和を最小にする θ
の値である．このとき，誤差は Y の変動
（SSTOTAL）だけある．
N
2
 Yi   
i 1
• 回帰式を得ることで，特定の X の値に対して，
Y = a + bX という予測が可能となる．このとき，
予測誤差がどれだけ減少するかを考える．こ
れは誤差減少率（Proportional reduction in
error）の測度である．
SSTOTAL  SSERROR
PRE 
SSTOTAL
非決定係数
（coefficient of
SSERROR
2
 1
 RY . X
nondetermination）
SSTOTAL
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.979696 0.430569 4.598 2.25e-05 ***
CITYAGE 0.030777 0.004512 6.822 5.03e-09 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.383 on 60 degrees of freedom
Multiple R-squared: 0.4368, Adjusted R-squared: 0.4274
F-statistic: 46.54 on 1 and 60 DF, p-value: 5.034e-09
• 単回帰分析の場合の決定係数は，２変数の
相関係数の２乗に等しい．
• 決定係数の最小値は０，最大値は１である．
• 社会統計演習で説明した，変数をベクトルと
してとらえる見方は，ここでも使える．
変数のベクトル
• 変数ベクトル：ある変数に関する各測定値を
並べたものは，ベクトルとみなすことができ
る．
• 偏差ベクトル：変数ベクトルの各要素から，平
均値を引いてできるベクトル．
 x1  x 


 x2  x 
 
x  x3  x 


 x4  x 


 x5  x 
偏差ベクトルの大きさと標準偏差
• 偏差ベクトルの大きさ

x 
n
 x  x 
i 1
2
i
1 n
2
xi  x 
 n

n i 1
 n
「ｘの標準偏差」
2
x  n
「 xの分散」
相関係数
• 相関係数は２つの偏差ベクトルが作る角度の
コサイン

y
θ
rxy  cos

x
 

x  y
cos   
x y
n

 x  x  y
i 1
n
i
 y
n
2




x

x
y

y
 i
 i
i 1

i
2
i 1
1 n
xi  x  yi  y 

n i 1
1 n
1 n
2
2
xi  x    yi  y 

n i 1
n i 1
 rxy
相関係数の値
• 相関係数はコサインなのだから，
最小値は-1，最大値は+1
• ２つの偏差ベクトルが，
– 同じ方向を向くとき，相関係数は+1
– 直交するとき，0
– 正反対の方向を向くとき，-1
• 従属変数の予測値のベクトルは，独立変数
のベクトルを伸縮させて作る
– 従属変数（実測値）のベクトルの正射影．
– この伸縮率は，回帰直線の傾き b である．
Yî  Y  bˆX i  X 
 Yˆ1  Y   X 1  X 

 

 Yˆ2  Y  ˆ X 2  X 

  b


   

 Yˆ  Y   X  X 

 n
  n
従属変数の変動

Y
2
2
Y   (Yi  Y )
回帰によって説明
できない変動
(Y  Yˆ ) 2

回帰によって説明できる
（X によって説明できる）変動
2
ˆ
(
Y

Y
)

i

X
伸縮
i
R2 
2
ˆ
(
Y

Y
)
 i
2
(
Y

Y
)
 i
 rxy2
8.5 標準回帰係数
• 従属変数，独立変数の単位が明確な場合
は，回帰係数の解釈を自然に行うことができ
る．
– 例：都市の歴史が１年長くなると，都市が果たす
機能の数は0.03増える．
• しかし，社会科学では，単位が明確でない変
数も多い．
– 産業化，信仰の強さ，社会経済的地位，など
• この場合，変数の標準化がしばしば行われ
る．
• ２変数を標準化してから回帰分析を行った場
合の回帰直線の傾きは，標準回帰係数ある
いはベータ係数と呼ばれる．これは２変数間
の相関係数に等しい．このとき，回帰直線は
原点を通る（切片がゼロ）．標準化してもしな
くても，２変数間の相関係数は変化しない．
SY
Yi 
rXY X i  X   Y
SX
  rXY
*
X Y 0
S X  SY  1
• 標準化された独立変数 ZX の値が１（X の標
準偏差１つ分）増えると，標準化された従属
変数 ZY の値が β* （Y の標準偏差１つ分 ×
β* ）増える．
• つまり，標準回帰係数 β* の値は，「X の値が
１標準偏差だけ異なると，Y において（Y の）
標準偏差の β* 倍の差異が生じる」と解釈で
きる．
8.5.1 平均への回帰
• 予測値（回帰直線上の値）の分散は，従属変
数（実測値）の分散よりも小さい．
– 変動の分解を思い出そう
• 変数を標準化してから回帰分析を実行すると，
傾きは相関係数に一致する．
– つまり，独立変数 X が１標準偏差だけ変化したと
き，従属変数 Y の変化は（Y の）１標準偏差よりも
小さい．
• したがって，予測値は平均値の方に回帰す
る．
＝
＝
回帰直線よりも
上の値と下の値
が同程度ある．
• 回帰効果は，相関が±1でない限り，必ず生
じる．
– ２年目のジンクスは，この回帰効果で説明でき
る．（次のスライド）
– いくつかのさいころを投げて，もっとも大きな値を
出したさいころに「新人賞」を与えるゲームをす
る．このさいころは，次のゲームでも「活躍する」
だろうか？（これは１年目と２年目の相関が０の
ケース）
多くの人が期待する，２
年目の成績
実際は，平均的には
この成績になる．
この直線よりも上の
人と下の人が同程度
いる．
8.6 回帰と相関の有意性検定
• 標本から計算されるパラメータの値，および
決定係数は，母集団での本当の値の推定値
である．
– 標本をとりなおせば異なった値になる．
• 得られた推定値が意味のあるものだと考える
ためには，その母集団での値が０でないとい
うことを示す必要がある．
8.6.1. 決定係数の有意性検定
• 回帰平均平方（mean square regression）：回
帰平方和をその自由度（１）でわったもの
MS regression 
SS regression
1
• 誤差平均平方（mean square error）：誤差平
方和をその自由度（N-2）でわったもの
MS error
SS error

N 2
• 帰無仮説：母集団での決定係数は０
• 検定統計量：回帰平均平方と誤差平均平方
の比率は，帰無仮説が正しいとき，自由度 1,
N-2 の F 分布に従う．
F1, N 2 
MSregression
MSerror
• 回帰平方和の自由度（=1）の説明
– 回帰平方和において Y を固定し，予測値を自由
に作ることを考える． SS regresion   Yî  Y 2
– 予測値 Yî はすべて直線上に並ぶ．
– 回帰直線は，（Xの平均，Yの平均）という点を必
ず通る．
– したがって，ある X に対する予測値をひとつ決め
ると，直線が決まり，他の X に対する予測値はす
べて決まってしまう．すなわち，自由度は１である．
• 誤差平方和の自由度（N-2）の説明
– 全平方和＝回帰平方和＋誤差平方和
– 自由度も，平方和と同様に分解される．
– 全平方和の自由度は N-1 である．
– 回帰平方和の自由度は１である．
– したがって，誤差平方和の自由度は N-2 となる．
N  1  1  ( N  2)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.979696 0.430569 4.598 2.25e-05 ***
CITYAGE 0.030777 0.004512 6.822 5.03e-09 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.383 on 60 degrees of freedom
Multiple R-squared: 0.4368, Adjusted R-squared:
0.4274
F-statistic: 46.54 on 1 and 60 DF, p-value: 5.034e-09
8.6.2. a と b の有意性の検定
• 傾きについての帰無仮説：母集団での傾きは
０（b=0）
• 検定統計量：傾き b の点推定値（𝑏）を，その
推定値の標本分布における標準偏差（標準
誤差）で割る．帰無仮説が正しいとき，自由度
N-2 の t 分布に従う．
bˆ
t N 2 
MS error
 X
N
i 1
X
2
i
• 切片 a の検定も可能だが，興味外のことも多
い．変数を標準化すれば， a  Y  bX  0
8.6.3. F と t2 の関係
• 単回帰分析では，決定係数の有意性検定
と，傾きの有意性検定は，同一のものであ
る．
– 回帰によって説明できる変動が０ということは，回
帰直線の傾きが０であること同じである．
– 傾きの有意性検定での t 統計量の２乗を計算し，
それが決定係数の有意性検定における F 統計
量と一致することを確かめよ．
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.979696 0.430569 4.598 2.25e-05 ***
CITYAGE 0.030777 0.004512 6.822 5.03e-09 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.383 on 60 degrees of freedom
Multiple R-squared: 0.4368, Adjusted R-squared: 0.4274
F-statistic: 46.54 on 1 and 60 DF, p-value: 5.034e-09
練習問題
• 傾き b の推定値の分散は以下の式で与えら
れる．傾きの推定値を安定させる（推定値の
分散を小さくする）ために実行可能な手段は
何か？
2
e
ˆ
V (b) 
NS X2
– ここで，N は標本の大きさ．σe2は誤差 ei の母集
団分散． 2
1 N
2
ˆ e  MSerror S X   X i  X 2
N
i 1
理解確認のポイント
• 単回帰分析の概要を説明できますか？
– 量的な目的変数および説明変数
– 直線的な相関関係
– 回帰モデル
– 最小２乗法による，回帰直線の傾きと切片の推
定
• 回帰直線が必ず通る点はどこですか？
• 回帰直線の傾きと相関係数はどのような関
係にありますか？
• 回帰係数および標準回帰係数の意味を説明
できますか？
• 決定係数の定義式を書き，その意味を説明
できますか？
• 回帰効果とは何か説明できますか？
• データが与えられたとき，決定係数の有意性
検定を実行できますか？
• データが与えられたとき，傾きの有意性検定
を実行できますか？
– 傾きの推定値の分散を計算する式は覚えなくて
よい．
2
e
ˆ
V (b) 
2
NS X

b - nifty

Transcript b - nifty

Directory