Transcript URL

富山大学知能情報工学科
「統計学」第13回
ホーエル『初等統計学』
第9章 相関と回帰
高 尚策 (コウ ショウサク) 准教授
Email: [email protected]
先週の復習(1)
• 2つの平均値の差の検定
注意:2群のスコアは,2つの母集団から,そ
れぞれ独立に抽出したものでなくてはならな
い.
定理:標本平均の差 𝑥1 − 𝑥2 の分布: N (1  2 ,
z
( x1  x2 )  ( 1   2 )
 12
n1

 22
12
n1

 22
n2
)
①標準正規分布を用いた両側検定
~𝑁(0,1)
n2
標準化
P=0.025
z=-1.96
P=0.025
z=+1.96
②標準正規分布を用いた方側検定
1)母集団分散𝜎1 , 𝜎2 が既知の場合、そのまま代入
2)母集団分散が未知の場合
 大標本(目安として n1 > 25, n2 > 25)では,
P=0.05
標本分散(𝑠12 , 𝑠22 )で代用する.
 小標本でも標本分散で代用するが,
正規分布のかわりに t 分布を用いた検定を行う(t検定)
z=+1.64
先週の復習(2)
• t検定
仮定0:2群の母平均が等しい(検定の帰無仮説)
仮定1:2群の母分散が等しい
仮定2:母集団の分布は正規分布
t検定統計量
t
x1  x2
(n1  1) s1  (n2  1) s2  1 1 
  
n1  n2  2
 n1 n 2 
2
2
~ 𝑡(𝑛1 + 𝑛2 − 2)
面積=有意水準
t分布(自由度m=n-1)
棄却限界値
先週の復習(3)
• 2つの標本割合の差の検定
p1q1 p2 q2
定理:標本割合の差 𝑝1 − 𝑝2 の分布: N ( p1  p2 ,

)
n1
n2
( pˆ1  pˆ 2 )  ( p1  p2 )
z
p1q1 p2 q2

n1
n2
①標準正規分布を用いた両側検定
~𝑁(0,1)
P=0.025
標準化
k k
pˆ  1 2
n1  n2
1)母集団割合𝑝1 , 𝑝2 が既知の場合、そのまま代入
2)母集団割合が未知の場合
 大標本(目安として n1 > 25, n2 > 25)では,
𝑘 +𝑘
2群を合併して母集団割合𝑝 = 𝑛1+𝑛2 で代用する.
1
 小標本では分割表の検定(第10章)
z=-1.96
P=0.025
z=+1.96
②標準正規分布を用いた方側検定
P=0.05
2
z=+1.64
演習課題の答え
(章末問題36):次のデータは被覆鋼管と裸鋼管を種々の土壌条件でテストしたときの腐食
効果を示すものである.対をなしている各データの差をとって,このような差の平均が0である
という仮説をt分布を用いて検定せよ.
土壌条件1
土壌条件2
土壌条件3
土壌条件4
土壌条件5
土壌条件6
土壌条件7
土壌条件8
土壌条件9
土壌条件10
土壌条件11
土壌条件12
裸鋼管
42
37
61
74
55
57
44
55
37
70
52
55
被覆鋼管
39
43
43
52
52
59
40
45
47
62
40
27
差
3
-6
18
22
3
-2
4
10
-10
8
12
28
平均𝜇1
平均𝜇2 𝑥 = 𝜇1 − 𝜇2
裸鋼管 被覆鋼管
差
42
39
3
土壌条件1
37
43
-6
土壌条件2
61
43
18
土壌条件3
74
52
22
土壌条件4
55
52
3
土壌条件5
57
59
-2
土壌条件6
44
40
4
土壌条件7
55
45
10
土壌条件8
37
47
-10
土壌条件9
70
62
8
土壌条件10
52
40
12
土壌条件11
55
27
28
土壌条件12
=AVERAGE(D2:D13)
7.5
差の平均
11.2774917
差の標準偏差 =STDEV(D2:D13)
=(D15/D16)*SQRT(12) 2.30377134
検定統計量t
=COUNT(D2:D13)-1
自由度
11
棄却限界値(片側95%)
1.796
統計的仮説検定の手順
1.帰無仮説と対立仮説を設定する.
H0: 𝜇1 − 𝜇2 = 0
H1: 𝜇1 − 𝜇2 > 0
2.帰無仮説が正しいという仮定の
下で,検定に用いる検定統計量の
分布を導く.
𝑥 = 7.5, 𝑠 = 11.28
𝑥−0
𝑛 = 2.3 ~𝒕(𝒏 − 𝟏)
𝑠
3.帰無仮説を棄却する有意水準
を設定する. α = 0.05(5%)
𝑡=
t分布
(自由度m=n-1=11)
面積=
P{t≧1.796}
=0.05
1.796
4.標本から検定統計量を計算し,その値よりも極端な値が出現する確率が有意水準より
も小さければ(計算された統計量が棄却域に落ちれば),帰無仮説を棄却し,対立仮説を
採択する. z=2.3>1.796, 棄却域に落ちる, 𝐻0 を棄却する。
裸鋼管は,被覆鋼管に比べ,腐食効果が大きいといえる
本日の内容
1.線形相関
2.相関係数rの意味
3.直線回帰
4.最小2乗法
5.回帰の錯誤
1.線形相関
• これまでに述べてきた統計的方法は,いずれ
も1つの変数とその分布に関係するもの.
• しかし,現実の問題では,2つ以上の変数の
相互関係に興味があることが多い.
– 喫煙と心臓病
– 音楽鑑賞能力と科学的素質
– 無線受信と太陽黒点の活動
– 美貌と頭の良さ
• ある変数の値の変動が,別の変数の値の変
動と連動する関係(共変動の関係)にあるとき,
これらの変数間には相関(correlation)がある
と言う.
• あるひとつの変数(結果)が,いくつかの変数
(原因)によって決まる関係があるとき,その
関係を数学的な関数によって記述する統計
手法を回帰分析(regression analysis)と呼ぶ.
• 2変数の間の関連を調べるには,データを xy 平面
上の点として図示し,関連のだいたいの形を把握す
ることから始める.これを散布図(scatter diagram)と
呼ぶ.
– 例:テキスト表1は,30人の学生についての,高校の評定
平均(x)と,大学1年時での評定平均(y)である.これを散
布図に表したものが図1.
– 相関に関心のあるデータは,必ず対応のあるデータであ
る.
大 3.4
学
定 1 2.4
平年
均 次 1.4
の
2
評
2.5
3
3.5
高校の評定平均
図1:評定平均の散布図
4
散布図の読み取り
大 3.4
学
定 1 2.4
平年
均 次 1.4
の
2
評
2.5
3
3.5
高校の評定平均
図1:評定平均の散布図
4
• 図1の散布図からは,おおよそ右上がりの直線的関
係を読み取ることができる.
• 高校の評定平均が高いと,大学1年次の評定平均
も高い.散布図を見る観点として,
–
–
–
–
何らかの関係がありそうか.
関係があるとき,それは直線的か,曲線的か.
その関係はどれくらい明確か
はずれ値はないか
相関係数
• 2つの変数の間の,直線的な関係の強さを表す指標と
して,相関係数(correlation coefficient)がある.アル
ファベット r で表す.
• 相関の強さ
–
–
–
–
–
正の相関: 一方の値が増すとき,他方の値も増す関係
負の相関: 一方の値が増すとき,他方の値が減る関係
𝑟 が大きいほど直線的関連が強い
𝑟 が小さいほど直線的関連が弱い
散布図において,すべての点が右上がりの直線上にあると
き,𝑟 = 1. 散布図において,すべての点が右下がりの直線
上にあるとき,𝑟 = −1
– 𝑟 = ±1のとき、すべての標本は一直線に並ぶ。一方の値が
与えられれば、もう一方の値も定まる。最も強い直線関係。
– 2変数が無関係のとき,r=0
– 相関係数は曲線的な関連性を表現することができない
相関の強さ(例)
𝑟=1
𝑟=0
相関係数は直線的な関係の強さの指標である.明確
な曲線関係があっても,高い相関係数にはならない.
平均値を原点とした散布図
多い
3.9
大
学
1
年
次
の
評
定
平
均
少ない
3.4
2.9
2.4
少ない
1.9
多い
1.4
2
2.5
3
高校の評定平均
3.5
4
• 平均値を原点とした散布図を描くと,右上がりの直線関係があるときには,第1
象限(右上)と第3象限(左下)の点が多くなる.
• 右下がりの直線関係があるときには,第2象限(左上)と第4象限(右下)の点が
多くなる.
• 関係がはっきりしないときには,どの象限にも同じぐらいの数の点がある.
• もとの散布図での各点: xi , yi 
• 平均を原点とした散布図での各点: xi  x , yi  y 
• 平均を原点とした散布図で,座標値の積
を考えると, xi  x  yi  y 
– 第1,第3象限の点では正
– 第2,第4象限の点では負
共分散
• 共分散(covariance)
1 n
xi  x  yi  y 

n i 1
• 共分散の値は,
– 右上がりの直線関係では正の値で,関係が明確になるほど,絶対値
は大きくなる.
– 右下がりの直線関係では負の値で,関係が明確になるほど,絶対値
は大きくなる.
• 直線的な関係の強さの指標として,共分散を使えそう.
• しかし,共分散は測定単位の影響を受ける.
– 測定値を何倍かしたり,定数を加えたりすると,共分散は変化してし
まう.これは望ましくない.
– こうした操作は座標軸の位置や目盛り幅を変えているだけで,散布
図に表される関係はまったく変化していない.
• 共分散を,それぞれの変数の標準偏差で割ると,測
定単位に依存しない指標を得ることができる.これ
が相関係数.
r
1 n
xi  x  yi  y 

n i 1
n
1 n
1 n
2
2
xi  x    yi  y 

n i 1
n i 1

 x  x  y
i
i 1
n
i
 y
n
 x  x    y
2
i 1
i
i 1
i
--注意:テキスト(p.194)では, n でなく n – 1
--実は、rの公式は同じ!
𝒓=
𝑛
𝑖=1(𝑥𝑖
𝑛
𝑖=1(𝑥𝑖
− 𝑥)(𝑦𝑖 − 𝑦)
=
(𝑛 − 1)𝑠𝑥 𝑠𝑦
(𝑛 − 1)
=
𝑛
𝑖=1(𝑥𝑖
𝑛
𝑖=1(𝑥𝑖
− 𝑥)(𝑦𝑖 − 𝑦)
− 𝑥)
2
𝑛
𝑖=1(𝑦𝑖
− 𝑦)
2
𝑛
𝑖=1(𝑥𝑖
− 𝑥)(𝑦𝑖 − 𝑦)
2
− 𝑥)
𝑛−1
𝑛
𝑖=1(𝑦𝑖
2
− 𝑦)
𝑛−1
 y
2
相関係数の求め方(Excel関数:CORREL)
• 例:20歳の女性の「安静時の最高血圧」と「排尿直後の最高
血圧」との相関係数を求める
答え:
相関係数の定義
𝑛
𝑖=1(𝑥𝑖
𝒓=
𝑛
𝑖=1(𝑥𝑖
− 𝑥)(𝑦𝑖 − 𝑦)
2
− 𝑥)
𝑛
𝑖=1(𝑦𝑖
1.各変数の平均値:𝑥 = 108, 𝑦 = 138
2.相関係数の分母の計算
3.相関係数の分子の計算
4.相関係数
2
− 𝑦)
相関係数のとりうる値
• 相関係数はマイナス1からプラス1までの値
をとる.
• その代数的証明は少しややこしい(テキスト
p.195 の脚注参照).
• ベクトルを利用した証明を示す.
 n 個の測定値を n 次元ベクトルとみなす.
• 変数ベクトル:ある変数に関する各測定値を並べてできるベ
クトル.
• 偏差ベクトル:変数ベクトルの各要素から,平均値を引いて
できるベクトル.
x  x 
 1
 x2

x   x3

 x4

 x5

 x
x

 x

x
• 偏差ベクトルの大きさ

x 
n
 x  x 
i 1
2
i
1 n
2
xi  x 
 n

n i 1
 n 「xの標準偏差」
2
x  n
「xの分散」
相関係数
• 相関係数は2つの偏差ベクトルが作る角度のコサイ
ン
 

x  y
cos 
 
x y
rxy  cos

y
θ
n

 x  x  y
i 1
n

x
i
 y
n
2




x

x
y

y
 i
 i
i 1

i
2
i 1
1 n
xi  x  yi  y 

n i 1
1 n
1 n
2
2




x

x
y

y


i
i
n i 1
n i 1
 rxy
相関係数の大きさと関連の強さ
•
•
•
•
相関係数の絶対値は0から1の間の値
直線的な関連の強さは相関係数0.5が中間といえるか?
実際に散布図を描くと,相関係数0.7程度が中間 と考えられる
相関係数がどの程度大きくなったときに,直線的な関連性を見て取
れるか?
相関係数の大きさと散布図
2.r の意味
• 2変数間に相関関係があることは,それらの
変数間に因果関係があることを意味しない.
相関関係があることは,因果関係があること
の必要条件にすぎない.
教師の給料
みかけの
相関関係
景気
酒類の
消費量
3.直線回帰
• あるひとつの変数の値を,他のいくつかの変数の値
から予測あるいは説明したいことは,しばしばある.
• 予測したい変数を目的変数,予測に利用する変数
を説明変数と呼ぶ.ここでは,説明変数がひとつだ
けの場合を取り上げる.
– 例:高校での評定平均から大学での成績を予測したい.
• 2変数間に直線的な関係があると考えられるなら
ば,これら2変数間の関係は一次関数で記述できる
はずである.説明変数を x,目的変数を y として,
• 2変数の直線的な関係を想定し,その直線の式を求
めることを,(単)回帰分析(regression analysis)と呼
ぶ.
図:灌漑給水量の関数としての干し草の収量
• 給水量(x)と収量(y)との間に,母集団で y = 4 + 0.1x と
いう関係があるとすると,x = 30 に対する理論値は y = 7
となる.
– y の実測値は 7.21 なので,予測値とは +0.21 の誤差がある.
– 給水量 x = 30 という条件において実験を多数回繰り返せば,
収穫量の平均は 7 となると考える.
図:灌漑給水量の関数としての干し草の収量
• 給水量のデータは範囲は12から48である.この範
囲の給水量の関しては,データがなくても,収量を
予測できる.
• 給水量のデータ範囲外では,この直線を用いた予
測を行うことは避けるべき.
大
学
1
年
次
の
評
定
平
均
3.9
y  0.11 0.83x
3.4
2.9
2.4
1.9
1.4
2
2.5
3
高校の評定平均
3.5
4
4.最小2乗法
• 回帰モデル(regression model):学生の評定
データにおいて,i番目の学生の,高校の評
定平均 xi と大学での評定平均 yi の関係を,
以下のように記述する.
yi  a  bxi  ei
• 右辺の最終項 ei は,xi では説明できない誤
差を表す.
 y1

 y2


y
 30

 x1
a


 

 x2
a
      b 


 
a

x
 

 30
  e1
 
  e2
  
 
 e
  30







• 回帰モデルの右辺から誤差項を除くと直線の式とな
る.この式を,y のx への回帰直線(regression line of
y on x)と呼ぶ.
• 回帰直線は,x の値に対する y の予測値を与える.
この予測値を y の上に ^ (ハット)をつけて表し,実
測値 y と区別する.
yˆi  a  bxi
テキストでの表記(p.202)は,
yi  a  bxi  x 
yˆ 4  0.11 0.83 3.6
 0.11 2.988
x4 , y4   3.6, 3.9
 3.10
大
学
1
年
次
の
評
定
平
均
3.9
e4  3.9  3.1  0.8
3.4
2.9
2.4
1.9
1.4
2
2.5
3
高校の評定平均
3.5
4
最小2乗法
• 直線の決め方:予測誤差(予測値と実測値の
ずれ)を,データ全体にわたって最小にする.
• 最小2乗法(method of least square):予測誤
差の2乗和を最小にするように,パラメータ
(ここでは切片と傾き)を決める.
n
e
i 1
i
2
n
   yi  yˆ i 
2
i 1
n
  yi  a  bxi 
i 1
2
• 回帰係数(regression coefficient) b の推定値
1 n

xi  x  yi  y 

s xy n i 1
b 2 
1 n
sx
2
xi  x 

n i 1
• 切片(intercept) a の推定値
a  y  bx
• 回帰直線の式を変形すると,
yˆ i 
s xy
s
2
x
xi  x   y

s y s xy

sy
sx sx s y
sx
xi  x   y
rxy  xi  x   y
sx 
n
2
1
xi  x 

n i 1
2
1 n
 yi  y 
sy 

n i 1
回帰直線の計算(表3)
xi
yi
xi  x
yi  y
12
18
5.27
5.68
-18
-12
-1.81
-1.40
24
30
36
6.25
7.21
8.02
-6
0
6
-0.83
0.13
0.94
42
48
8.71
8.42
12
18
1.63
1.34
x  30
7 s  1008
2
x
y  7.08 7 s xy  103 .68
103.68
x  30  7.08
yˆ 
1008
 0.10x  3.99
回帰直線の性質
• 回帰係数は,x が1単位変化したときの,y の
変化である.
a  b( x  1)  a  bx  b
• 回帰直線は (x の平均,y の平均)という座標
点を通る.
• 2変数をそれぞれ標準化してから回帰直線を
求めると,傾きは相関係数に等しい.
5.回帰の錯誤
• 異なる2つの時点でなんらかの測定を行い,1回
目の測定結果(説明変数)から2回目の測定結
果(目的変数)を予測する.
• 回帰効果:予測値は,目的変数での平均の方向
に回帰する.すなわち,
– 説明変数の値が大きかった集団の,目的変数の予
測値は,説明変数での値に比べて低めになる.
– 説明変数の値が小さかった集団の,目的変数の予
測値は,説明変数での値に比べて高めになる.
• 回帰効果の例:
– 1回目の試験で高(低)得点を取ったグループの,2回目
のテストの得点は,1回目ほどは高く(低く)ない.
– 背の高い父親の息子たちは,父親ほどには背が高くな
い.
• 回帰効果は偶然の変動によって必然的に生じる.
• 説明変数の値には偶然の要素が含まれている.
例:高校での評定平均が高い集団には,偶然よい
成績をとった人が含まれる.
• 幸運が2回連続する保証はまったくない.
回帰効果
• 回帰効果は,相関が±1でない限り,偶然の
変動によって必ず生じる.
– 2年目のジンクスは,この回帰効果で説明できる.
(参考:テキスト p.205 会社の利益の例)
– いくつかのさいころを投げて,もっとも大きな値を
出したさいころに新人賞を与えるゲームをする.
このさいころは,次のゲームでも活躍するだろう
か?(これは1年目と2年目の相関が0のケース)
• 回帰の錯誤:回帰効果は必然的な現象なの
で,これに偶然変動以外のもっともらしい説
明を行うことは,誤りとなる.
– 偶然変動以外に,回帰効果を強める(あるいは
弱める)要因はもちろん存在するが,偶然変動で
説明できるものに対して,それ以外の説明をする
ことはおかしい.回帰効果に言及した上で,それ
らの要因について検討する.
本日のまとめ
1.線形相関
𝒓=
𝑛
𝑖=1(𝑥𝑖
𝑛
𝑖=1(𝑥𝑖
− 𝑥)(𝑦𝑖 − 𝑦)
2
− 𝑥)
𝑛
𝑖=1(𝑦𝑖
2
− 𝑦)
2.相関係数rの意味
3.直線回帰
4.最小2乗法
yˆi  a  bxi
回帰係数:
1 n
xi  x  yi  y 
s xy n 
b  2  i 1 n
1
sx
2


x

x
 i
n i 1
切片: a  y  bx
5.回帰の錯誤
演習課題
• 問題1(章末問題1)
12人の大学生の身長(x)と体重(y)とを示した次のデータか
ら,(a)散布図を描け,(b)観察によりrの値を推量せよ,(c)rの値
を計算せよ.
x
65
73
70
68
66
69
75
70
64
72
65
71
y
124
184
161
164
140
154
210
164
126
172
133
150
• 問題2(章末問題2)
次のデータは学生の入学試験の点数(x)と学期末の点数
(y)の関係を示したものである.(a)回帰直線を求めよ.(b)この
直線を散布図の上に図示せよ.
x
129
179
347
328
286
256
477
430
327
245
286
326
y
370
361
405
302
496
323
374
332
435
165
375
466
注意点:
1.詳細な答えをレポート用紙に書いてください。結果だけは不可。
2.レポートに表紙を付けてください
名前と学籍番号をご記入のうえ、レポート用紙(A4)を提出する。
提出先:工学部大学院棟7階
締め切り時間:
NO.7708室のドアのポストに入れてください
来週月曜日(7月27日) 午後5時まで
尚、講義用パワーポイントは
http://www3.u-toyama.ac.jp/tanglab/content51/content51.html か ら ダ ウ ン
ロードできる。(ダウンロードパスワードは“2015SS” です)
42