PPT - 静岡大学

Download Report

Transcript PPT - 静岡大学

データ解析
http://coconut.sys.eng.shizuoka.ac.jp/data/
静岡大学工学部
安藤和敏
2005.10.12
多変量データ
個体名
個
体
社員
No
1
2
3
4
5
6
7
変数名
社交
性
7
4
6
5
6
6
4
変数名
…
勤勉性 企画力 判断力 判断力
6
5
8
5
6
5
4
7
5
4
5
4
6
6
8
4
4
5
5
6
6
10
4
8
8
6
7
8
多変量データ
個体
変数 x
変数 y
変数 z
変数 w
1
x1
y1
z1
w1
2
x2
y2
z2
w2
…
…
…
…
…
n
xn
yn
zn
wn
平均値 x
個体名
変数 x
1
x1
2
x2
…
…
n
xn
x1  x2   xn 1
x
  xi
n
n i1
n
同じ平均値を持つ3つのデータ
No
x
1
2
3
4
5
6
7
8
9
10
平均
No
50
50
50
50
50
50
50
50
50
50
50
y
1
2
3
4
5
6
7
8
9
10
平均
No
60
45
50
30
60
50
40
45
70
50
50
z
1
2
3
4
5
6
7
8
9
10
平均
20
45
50
95
80
55
5
15
50
85
50
左端の資料の分布
x
平均
9
8
7
6
5
4
3
2
1
90
の
級
次
80
70
60
50
40
30
0
20
50
50
50
50
50
50
50
50
50
50
50
10
1
2
3
4
5
6
7
8
9
10
10
0
No
中央の資料の分布
ヒストグラム
4
3
2
1
9
次 0
の
級
80
70
60
50
40
30
20
0
10
平均
分散
60
45
50
30
60
50
40
45
70
50
50
115
0
1
2
3
4
5
6
7
8
9
10
右端の資料の分布
1
2
3
4
5
6
7
8
9
10
平均
分散
20
45
50
95
80
55
5
15
50
85
50
835
ヒストグラム
4
3
2
1
0
0
10
20
30
40
50
60
70
80
90
級
の
次
分散 sx2
変数 x
1
x1
2
x2
…
…
2
sx
個体名
n
xn
n
1
2
  xi  x 
n i1
標準偏差 sx
sx  sx2 
1 n
2
xi  x 

n i 1
sx
x
標準化
xi  x
x'i 
i  1,, n
sx
標準化された変数の平均は0,分散は1になる.(証明せよ.)
x'  0, sx'  1
ちなみに偏差値とは
xi  x
10 50
i番目の個体の偏差値 
sx
No
y
1
2
3
4
5
6
7
8
9
10
平均
60
45
50
30
60
50
40
45
70
50
50
偏差値
59.32505
45.33748
50
31.3499
59.32505
50
40.67495
45.33748
68.6501
50
50
データのもつ情報量
xi  x  i番目のデータがもつ情報量
•もし毎日が晴れの天気であったならば,「明日は晴れる」という
天気予報は何の情報もあたえない.
•毎日,爆弾テロが起こっていては「爆弾テロが発生した」という
ニュースは,情報としての価値はない.
•珍しい事ほど,あるいは,平均から離れているデータほど,情
報量が大きいと考えられる.
n
1
2
2
分散 sx   xi  x 
n i1
はデータの平均の情報量をあらわすと考えられる.
変動
変数 x
偏差
1
x1
x1 -
2
x2
…
…
…
x  x 
個体名
n
xn
xn -
2
x
x2 - x
x
n
 x2  x    xn  x    xi  x 
2
2
i 1
はデータの総情報量をあらわすと考えられ,変動
と呼ばれる.
2
2変数データのもつ情報量
個体名
変数 x
変数 y
1
x1
y1
2
x2
y2
…
…
…
n
xn
yn
平均
x
y
xi  x    yi  y 
2
2
 i番目のデータがもつ情報量
2変数データのもつ情報量
xi  x    yi  y 
2
2
 i番目のデータがもつ情報量
xi , yi 
x, y
2変数データ全体の情報量
個体名
変数 x
変数 y
1
x1
y1
2
x2
y2
…
…
…
n
xn
yn
n

2
2 
データの全体の情報量   xi  x    yi  y  

i 1 
n
n
i 1
i 1
  xi  x 2   yi  y 2
共分散 sxy
個体名
1
2
変数 x
x1
x2
変数 y
y1
y2
…
…
…
n
xn
yn
n
sxy
1
  xi  x  yi  y 
n i1
社員に関する4つの調査項目
社員No
1
2
3
4
5
6
7
8
9
10
身長(x)
170.5
176.7
175.5
160.1
174.5
180.5
176.6
170.1
178.3
169.4
体重(y)
63.0
65.2
61.5
58.0
63.8
72.0
68.0
56.5
61.5
63.0
営業成績(u) 遅刻回数(v)
55
35
72
64
75
79
60
47
60
86
5
12
0
2
1
0
3
5
2
1
身長と体重の相関図(散布図)
社員No
1
2
3
4
5
6
7
8
9
10
身長(x)
170.5
176.7
175.5
160.1
174.5
180.5
176.6
170.1
178.3
169.4
体重(y)
63.0
65.2
61.5
58.0
63.8
72.0
68.0
56.5
61.5
63.0
身長と体重の相関図
80.0
60.0
体
40.0
重
20.0
0.0
155
160
165
170
身長
175
180
185
身長と体重の相関
身長と体重の相関図
身長(x)と体重
(y)との間には,
正の相関がある.
80.0
60.0
体
40.0
重
20.0
0.0
155
160
165
170
身長
175
180
185
sxy = 16.6
身長と営業成績の相関図(散布図)
社員No
1
2
3
4
5
6
7
8
9
10
身長(x)
170.5
176.7
175.5
160.1
174.5
180.5
176.6
170.1
178.3
169.4
営業成績(u)
55
35
72
64
75
79
60
47
60
86
身長と営業成績の相関図
100
80
営
業 60
成 40
績
20
0
155
160
165
170
身長
175
180
185
身長と営業成績の相関
身長と営業成績の相関図
身長(x)と営業成績
(u)との間には,相関
がない(無相関).
100
80
営
業 60
成 40
績
20
0
155
sxu = 0.02
160
165
170
身長
175
180
185
営業成績と遅刻回数の相関図(散布
図)
社員No
1
2
3
4
5
6
7
8
9
10
営業成績(u) 遅刻回数(v)
55
35
72
64
75
79
60
47
60
86
5
12
0
2
1
0
3
5
2
1
遅刻回数と営業成績の相関図
16
12
遅
刻
8
回
数
4
0
0
20
40
60
営業成績
80
100
営業成績と遅刻回数の相関
遅刻回数と営業成績の相関図
16
遅刻回数(v)と
営業成績(u)と
の間には,負の
相関がある.
12
遅
刻
8
回
数
4
suv = -44.3
0
0
20
40
60
営業成績
80
100
相関係数
rxy
n
sxy
1
  xi  x  yi  y 
n i 1
共分散は,単位のとりかたの影響を受けるので,
その大きさを単純に比較できない.
sxy
rxy 
sx s y
相関係数の性質
1  rxy  1
相関係数の例
身長と体
重
身長と営
業成績
共分散
16.594
0.024
営業成績
と遅刻回
数
44.33
相関係数
0.6941
0.000
-0.888
相関係数の解釈
1  rxy  1
|相関係数|
意味
0~0.2
相関はない
0.2~0.4
ほとんど相関はない
0.4~0.7
弱い相関がある
0.7~1
強い相関がある
分散共分散行列
例えば,3変数 x, y, z についての分散と共分
散を
 sx2 sxy sxz 


2
sxy s y s yz 
s
2
s
s
xz
yz
z 


のように行列にまとめたものを分散共分散行
列と呼ぶ.
相関行列
どうように,共分散の代わりに相関係数を並
べたものを相関行列と呼ぶ.
 1 rxy rxz 


r
1
r
xy
yz 

rxz ryz 1 


分散共分散行列も相関行列も対称行列であ
る.
本日のまとめ
• 平均値,分散,標準偏差の定義,及び,それ
らの意味.
• 相関図,共分散,相関係数の定義,及び,そ
れらの意味.
• 平均値,分散,標準偏差,相関図,共分散,
相関係数をExcelを用いた計算.