Transcript PPT - 静岡大学
データ解析 http://coconut.sys.eng.shizuoka.ac.jp/data/ 静岡大学工学部 安藤和敏 2005.10.12 多変量データ 個体名 個 体 社員 No 1 2 3 4 5 6 7 変数名 社交 性 7 4 6 5 6 6 4 変数名 … 勤勉性 企画力 判断力 判断力 6 5 8 5 6 5 4 7 5 4 5 4 6 6 8 4 4 5 5 6 6 10 4 8 8 6 7 8 多変量データ 個体 変数 x 変数 y 変数 z 変数 w 1 x1 y1 z1 w1 2 x2 y2 z2 w2 … … … … … n xn yn zn wn 平均値 x 個体名 変数 x 1 x1 2 x2 … … n xn x1 x2 xn 1 x xi n n i1 n 同じ平均値を持つ3つのデータ No x 1 2 3 4 5 6 7 8 9 10 平均 No 50 50 50 50 50 50 50 50 50 50 50 y 1 2 3 4 5 6 7 8 9 10 平均 No 60 45 50 30 60 50 40 45 70 50 50 z 1 2 3 4 5 6 7 8 9 10 平均 20 45 50 95 80 55 5 15 50 85 50 左端の資料の分布 x 平均 9 8 7 6 5 4 3 2 1 90 の 級 次 80 70 60 50 40 30 0 20 50 50 50 50 50 50 50 50 50 50 50 10 1 2 3 4 5 6 7 8 9 10 10 0 No 中央の資料の分布 ヒストグラム 4 3 2 1 9 次 0 の 級 80 70 60 50 40 30 20 0 10 平均 分散 60 45 50 30 60 50 40 45 70 50 50 115 0 1 2 3 4 5 6 7 8 9 10 右端の資料の分布 1 2 3 4 5 6 7 8 9 10 平均 分散 20 45 50 95 80 55 5 15 50 85 50 835 ヒストグラム 4 3 2 1 0 0 10 20 30 40 50 60 70 80 90 級 の 次 分散 sx2 変数 x 1 x1 2 x2 … … 2 sx 個体名 n xn n 1 2 xi x n i1 標準偏差 sx sx sx2 1 n 2 xi x n i 1 sx x 標準化 xi x x'i i 1,, n sx 標準化された変数の平均は0,分散は1になる.(証明せよ.) x' 0, sx' 1 ちなみに偏差値とは xi x 10 50 i番目の個体の偏差値 sx No y 1 2 3 4 5 6 7 8 9 10 平均 60 45 50 30 60 50 40 45 70 50 50 偏差値 59.32505 45.33748 50 31.3499 59.32505 50 40.67495 45.33748 68.6501 50 50 データのもつ情報量 xi x i番目のデータがもつ情報量 •もし毎日が晴れの天気であったならば,「明日は晴れる」という 天気予報は何の情報もあたえない. •毎日,爆弾テロが起こっていては「爆弾テロが発生した」という ニュースは,情報としての価値はない. •珍しい事ほど,あるいは,平均から離れているデータほど,情 報量が大きいと考えられる. n 1 2 2 分散 sx xi x n i1 はデータの平均の情報量をあらわすと考えられる. 変動 変数 x 偏差 1 x1 x1 - 2 x2 … … … x x 個体名 n xn xn - 2 x x2 - x x n x2 x xn x xi x 2 2 i 1 はデータの総情報量をあらわすと考えられ,変動 と呼ばれる. 2 2変数データのもつ情報量 個体名 変数 x 変数 y 1 x1 y1 2 x2 y2 … … … n xn yn 平均 x y xi x yi y 2 2 i番目のデータがもつ情報量 2変数データのもつ情報量 xi x yi y 2 2 i番目のデータがもつ情報量 xi , yi x, y 2変数データ全体の情報量 個体名 変数 x 変数 y 1 x1 y1 2 x2 y2 … … … n xn yn n 2 2 データの全体の情報量 xi x yi y i 1 n n i 1 i 1 xi x 2 yi y 2 共分散 sxy 個体名 1 2 変数 x x1 x2 変数 y y1 y2 … … … n xn yn n sxy 1 xi x yi y n i1 社員に関する4つの調査項目 社員No 1 2 3 4 5 6 7 8 9 10 身長(x) 170.5 176.7 175.5 160.1 174.5 180.5 176.6 170.1 178.3 169.4 体重(y) 63.0 65.2 61.5 58.0 63.8 72.0 68.0 56.5 61.5 63.0 営業成績(u) 遅刻回数(v) 55 35 72 64 75 79 60 47 60 86 5 12 0 2 1 0 3 5 2 1 身長と体重の相関図(散布図) 社員No 1 2 3 4 5 6 7 8 9 10 身長(x) 170.5 176.7 175.5 160.1 174.5 180.5 176.6 170.1 178.3 169.4 体重(y) 63.0 65.2 61.5 58.0 63.8 72.0 68.0 56.5 61.5 63.0 身長と体重の相関図 80.0 60.0 体 40.0 重 20.0 0.0 155 160 165 170 身長 175 180 185 身長と体重の相関 身長と体重の相関図 身長(x)と体重 (y)との間には, 正の相関がある. 80.0 60.0 体 40.0 重 20.0 0.0 155 160 165 170 身長 175 180 185 sxy = 16.6 身長と営業成績の相関図(散布図) 社員No 1 2 3 4 5 6 7 8 9 10 身長(x) 170.5 176.7 175.5 160.1 174.5 180.5 176.6 170.1 178.3 169.4 営業成績(u) 55 35 72 64 75 79 60 47 60 86 身長と営業成績の相関図 100 80 営 業 60 成 40 績 20 0 155 160 165 170 身長 175 180 185 身長と営業成績の相関 身長と営業成績の相関図 身長(x)と営業成績 (u)との間には,相関 がない(無相関). 100 80 営 業 60 成 40 績 20 0 155 sxu = 0.02 160 165 170 身長 175 180 185 営業成績と遅刻回数の相関図(散布 図) 社員No 1 2 3 4 5 6 7 8 9 10 営業成績(u) 遅刻回数(v) 55 35 72 64 75 79 60 47 60 86 5 12 0 2 1 0 3 5 2 1 遅刻回数と営業成績の相関図 16 12 遅 刻 8 回 数 4 0 0 20 40 60 営業成績 80 100 営業成績と遅刻回数の相関 遅刻回数と営業成績の相関図 16 遅刻回数(v)と 営業成績(u)と の間には,負の 相関がある. 12 遅 刻 8 回 数 4 suv = -44.3 0 0 20 40 60 営業成績 80 100 相関係数 rxy n sxy 1 xi x yi y n i 1 共分散は,単位のとりかたの影響を受けるので, その大きさを単純に比較できない. sxy rxy sx s y 相関係数の性質 1 rxy 1 相関係数の例 身長と体 重 身長と営 業成績 共分散 16.594 0.024 営業成績 と遅刻回 数 44.33 相関係数 0.6941 0.000 -0.888 相関係数の解釈 1 rxy 1 |相関係数| 意味 0~0.2 相関はない 0.2~0.4 ほとんど相関はない 0.4~0.7 弱い相関がある 0.7~1 強い相関がある 分散共分散行列 例えば,3変数 x, y, z についての分散と共分 散を sx2 sxy sxz 2 sxy s y s yz s 2 s s xz yz z のように行列にまとめたものを分散共分散行 列と呼ぶ. 相関行列 どうように,共分散の代わりに相関係数を並 べたものを相関行列と呼ぶ. 1 rxy rxz r 1 r xy yz rxz ryz 1 分散共分散行列も相関行列も対称行列であ る. 本日のまとめ • 平均値,分散,標準偏差の定義,及び,それ らの意味. • 相関図,共分散,相関係数の定義,及び,そ れらの意味. • 平均値,分散,標準偏差,相関図,共分散, 相関係数をExcelを用いた計算.