Transcript 統計学

統計学入門2
関係を探る方法
講義のまとめ
今日の話

変数間の関係を探る





クロス集計表の検定:独立性の検定
散布図、相関係数
講義のまとめ と キーワード
「統計学入門」後の関連講義・実習
社会調査士
多変量データ
性別
男性
男性
男性
男性
男性
男性
男性
男性
男性
男性
年齢
28.50
40.33
31.08
31.17
41.92
29.50
28.00
28.75
27.42
52.92
現給与 就学年数 就業年数
16080
16
0.25
41400
16
12.50
21960
15
4.08
19200
16
1.83
28350
19
13.00
27250
18
2.42
16080
15
3.17
14100
15
0.50
12420
15
1.17
12300
12
26.42
職種
専門職
管理職
管理職
専門職
管理職
専門職
事務員
事務員
事務員
警備員
データの型と関連を探る道具

質的・質的 ・・・
クロス集計表

量的・量的 ・・・
散布図・相関係数

質的・量的 ・・・
条件付分布
グループ別平均
相関比
クロス集計表の例
職種
性別 管理職 技術職 警備員 事務員
女性
2
0
0
117
男性
30
6
27
110
計
32
6
27
227
計
119
173
292
クロス集計表
A
B
C
計
1
10
15
10
35
2
15
10
5
30
3
5
15
5
25
計
30
40
20
90
条件付き分布

2つの変数X, Yがあり、X = x となる場合に
のみYの分布を考えたとき、その分布を
X = x があたえられたときの
Yの条件付き分布という
条件付き分布
変数X
Y
変
数
A
B
C
計
1
10
15
10
35
2
15
10
5
30
3
5
15
5
25
計
30
40
20
90
X=Bが与えられたときの、Yの条件付き分布
周辺分布
A
B
C
計
1
10
15
10
35
2
15
10
5
30
3
5
15
5
25
計
30
40
20
90
同時分布
A
B
C
計
1
10
15
10
35
2
15
10
5
30
3
5
15
5
25
計
30
40
20
90
独立

2つの変数が独立であれば、
周辺分布は、いかなる条件付き分布とも
同じになる
クロス集計表
A
B
C
計
1
18
18
9
45
2
12
12
6
30
3
10
10
5
25
計
40
40
20
100
クロス集計表:()内は%
A
B
C
計
1
18(45)
18(45)
9(45)
45
2
12(30)
12(30)
6(30)
30
3
10(25)
10(25)
5(25)
25
計
40(100) 40(100) 20(100)
100
クロス集計表
A
B
C
計
1
18(40)
18(40)
9(20)
45(100)
2
12(40)
12(40)
6(20)
30(100)
3
10(40)
10(40)
5(20)
25(100)
計
40
40
20
100
練習問題:独立になるように...
A
B
C
計
1
15
2
35
3
50
計
40
20
40
100
積事象の確率
P(AB)

P(A|B) :


= P(A) P(B|A)
= P(B) P(A|B)
Bの下でのAの条件付確率
P(B|A) :

Aの下でのBの条件付確率
事象AとBが独立
P(AB) = P(A) P(B)
P(A|B) = P(A)
P(B|A) = P(B)
独立期待度数
nin j
eij 
n..
独立期待度数
nin j
eij 
n..
ni n j

n..
n.. n..
独立であるという仮定の下での(i,j)セルの確率
独立性の検定

観測度数と独立期待度数の比較
a
2
b ( nij  eij )
   
2
i 1 j  1
ただし、
eij
nin j
eij 
n..
独立性の検定

観測度数と独立期待度数の比較
a
2
b ( nij  eij )
   
2
i 1 j  1
eij
独立であるという前提で計算された値と
どの程度離れているかを評価する
p 値の計算と検定結果


検定統計量の分布は、自由度(a-1)(b-1)の
2分布
2分布の分布点を求める関数
=CHIDIST(2 , df)
p値を設定された有意水準(通常は5%)と比
較し、p値が小さい場合は独立でないと判
断する
量的データの関連を探る

散布図

相関係数 (-1から1の範囲の値)

直線的な関係を表す尺度

符号 ・・・ 関係の向き

絶対値 ・・・ 関係の強さ
散布図
Y
yi
( x i , yi )
xi
X
番号 身長 体重
1 170 65
2 164 60
3 180 76
4 167 58
5 175 65
6 173 60
身長と 体重
80
70
60
50
160
170
180
散布図
点の散らばり具合をみて、変数間の関連を
探る
45
35
25
本塁打

15
5
-5
20
40
60
80
100
三振
120
140
160
45
本塁打
35
25
15
5
-5
-1
1
3
5
三塁打
7
9
11
相関係数

2つの量的変数の直線的関係の


向き (符号)
強さ (絶対値)
をあらわす
Excelでの相関係数の計算

ワークシート関数(XとYの相関を求める)


=CORREL(Xの配列,Yの配列)
分析ツール
分析ツール:相関
入力範囲に分析するデータの範囲を指定
3つ以上の変数を指定することも可能
相関係数の解釈上の注意点

相関があっても因果があるとは限らない

非線形の関係は表現できない

第3の変数の存在を意識すること

外れ値に対し、頑健でない
確認のための演習


ITLSの下記のページにアクセスして、頑健
性のなさをチェックしてみよう!
http://www.sci.kagoshimau.ac.jp/~itls/JAVA/java_ss/1746e/
注意:アプレットの下の方に提示されている
coefficient of determination
は、相関係数の2乗の値
量的データと質的データの関連

一般的な方法


質的データが与えられた下での、連続データ
の条件付分布を比較する
条件付分布が同じであれば(似ていれば)、無
関係であると判断する
層別グラフ
96
84
72
度数
60
48
36
24
12
0
15 20 25 30 35 40 45 50 55 60 65 70 15 20 25 30 35 40 45 50 55 60 65 70
性別: 男性
性別: 女性
データの型と関連を探る道具

質的・質的 ・・・
クロス集計表

量的・量的 ・・・
散布図・相関係数

質的・量的 ・・・
条件付分布
グループ別平均
相関比
3つ以上変数がある場合の分析

多変量解析

2・3年次以降の関連科目





社会調査法
データサイエンス
社会調査実習
多変量解析
(オペレーションズ・リサーチ)
講義のまとめ:キーワード

確率と分布




2項分布、正規分布(*)
母集団と標本
標本分布(*)
統計的推定


標本誤差(*)
推定



点推定、区間推定(*)
信頼区間、信頼度
統計的検定




2種類の過誤(*)
有意水準(*)
有意確率(p値)(*)
平均と比率の検定
社会調査士



2003年度 認定機構 設立
社会調査士資格認定機構
http://wwwsoc.nii.ac.jp/jcbsr/
指定された科目の単位習得と卒業が資格
取得の条件
必要とされる科目

社会調査法A, B
統計学入門(1), (2)

データサイエンス・多変量解析から1科目

社会調査実習
