Transcript 比率・相関の検定と推定
比率・相関の検定と推定
1.1標本の比率の検定
H0:頻度に差がない、と言えるか?⇒χ2乗適合度検定
A
B
計
観測度数O
8
12
20
期待度数E
10
10
20
χ2乗適合度検定
χ2値
2
(O E)2
E
0.8
自由度df
df=カテゴリ数-1
P値(上側確率)
P(χ2≧検定統計量)
=chidist(χ2, df)
1
0.371
二項検定
二値変数:
2つの値を取る変数(勝ち負け、裏表、成功・失敗など)
二項検定:
二項分布(標本数Nのときの確率pの分布)に基づく検定
試行数が多いとき(各期待度数≧5)、
二項分布は正規分布 N(p, n*p*(1-p))に近似できる
↓
H0: p = p0 (母比率p=特定の比率p0)の検定
成功回数x、試行回数nのとき、
x Np0
z
N * po * (1 p0 )
~N(0, 12)
z分布を用いた1標本の比率検定
A
(成功、支持など)
B
(失敗、不支持など)
計
8
12
20
H0: p = 0.5の検定
検定統計量 u=(8-20*0.5) / sqrt(20*0.5*(1-0.5))=-0.894
有意確率P P(z≦-0.894)=normsdist(-0.894)=0.186
(注意:z<0のときnormsdist(z), z>0のとき1-normsdist(z))
検定統計量 u
有意確率P
-0.894
0.186
検定統計量 χ2
自由度
有意確率P
0.799
1
0.371
(「H0: p = 0.5」を棄却できない。)
u2は、自由度1のχ2乗分布に従う
(比率の検定は、χ^2検定と同じ)
2.1標本の比率の区間推定
20人を調査したところ、8人が内閣を支持している。
母集団での支持率はどれくらいか推定したい。
母比率の95%信頼区間を求めよ。
大標本の下で、統計量pはz分布に従う。
標準誤差SE=sqrt( p^*(1-p^) / n )
下限値: p^ - 1.96 * SE
上限値: p^ + 1.96 *SE
SE=sqrt(0.4*(1-0.4)/20)=
95%信頼区間は、0.185 ≦p ≦0.615
Q:40人中16人が支持しているときの母比率を95%で
推定せよ。
2.1標本の比率の区間推定
40 人を調査したところ、16人が内閣を支持している。
母集団での支持率はどれくらいか推定したい。
母比率の95%信頼区間を求めよ。
大標本の下で、統計量pはz分布に従う。
標準誤差SE=sqrt( p^*(1-p^) / n )
下限値: p^ - 1.96 * SE
上限値: p^ + 1.96 *SE
SE=sqrt(0.4*(1-0.4)/40)=0.1095
母比率の95%信頼区間は、0.185 ≦p ≦0.615
(20人調査の時と比べると、信頼区間の範囲が狭い
=調査人数nが大きくなると、精度の高い推定がで
きる)
3. 2標本の比率差の検定
確率変数x1, x2がそれぞれ独立にB(n1, P1), B(n2, P2)に従うとき、
(P^1-P^2)=x1/n1 – x2 /n2は近似的に次の正規分布に従う。
(P^1-P^2 ) ~ N(P1-P2=0, Ppooled*(1-Ppooled)*(1/n1+1/n2) )
ここで、Ppooled= ( x1+x2 ) / ( n1+n2 )
検定統計量 u0=(p^1-p^2) / sqrt( Ppooled*(1-Ppooled)*(1/n1+1/n2))
は、標準正規分布N(0, 12)に従う。
検定の際の条件:
1.各セルの期待値が10以上
2.母集団は各標本数の10倍以上ある。
3. 2標本の比率差の検定
男性社員の昇進率と女性社員の昇進率の間に有意な差が
あるだろうか?
昇進
昇進しない
計
男
196 (0.06)
3,074
3,270
女
4 (0.10)
36
40
計
200
3,110
3,310
2標本のサイズをn1, n2、yesの数をx1, x2とすると、
推定比率をP^1=x1/n1, p^2 =x2/n2。
2標本を併せた比率をプールした比率Ppooled = (x1+x2)/(n1+n2)とするとき、
検定量 u0 = ( p^1 – p^2 ) / sqrt( Ppooled * (1-Ppooled) * (1/n1 + 1/n2 ) ) は
標準正規分布N(0, 1^2)に従う。
3. 2標本の比率差の検定
男性社員の昇進率と女性社員の昇進率の間に有意な差が
あるだろうか?
2標本のサイズをn1, n2、yesの数をx1, x2とすると、
推定比率をP^1=x1/n1, p^2 =x2/n2。
2標本を併せた(プールした)比率
Ppooled = (x1+x2)/(n1+n2)とするとき、
検定量 u0 = ( p^1 – p^2 ) /
sqrt( Ppooled * (1-Ppooled) * (1/n1 + 1/n2 ) ) は
標準正規分布N(0, 1^2)に従う。
3. 2標本の比率差の検定
男性社員の昇進率と女性社員の昇進率の間に有意な差が
あるだろうか?
(男性の母集団の推定比率)P^1 = 0.06
(女性の母集団の推定比率)p^2 = 0.10
(2つの標本をプールした比率)Ppooled=200/3310 = 0.060
検定量 u0 = (0.06-0.10) /
sqrt( 0.060*(1-0.060)*(1/ 3270+ 1/40 ) ) = -1.059
検定量u0 =-1.059>-.196より、H0を棄却できない。
(正確な有意確率 P( u <=-1.059 ) = 0.145)
したがって、男性と女性の昇進率に有意な差があるとは
言えない。
4.2標本の比率の差の推定
母比率の差の95%信頼区間
下限値: ( p^1 – p^2 ) – 1.96 * SE
上限値: ( p^1 – p^2 ) + 1.96 * SE
SE= sqrt ( ( p^1 * ( 1 – p^1 ) ) / n1 + ( p^2 * ( 1 – p^2 ) ) / n2 )
= sqrt(0.06*(1-0.06)/3270 + 0.10*(1-0.10)/40 )
= 0.048
前問の95%信頼区間を計算
(-0.133, 0.053) (信頼区間が0を含む=差が有意でない)
5.順位データの相関係数
スピアマンの順位相関係数ρ
もとのデータを順位に変換し、Xiの順位とYiの順位との
差Dとすると、
6 ΣD2
ρ= 1 - --------------N3 – N
JSTAT.exeを利用する
(NはX, Yの対の数)
ある意見に対し、次のような調査結果を得た。男性=0、女性=1、
賛成=0、反対=1というスコアを与えて、スピアマンの順位相関係数
を求めよ。
賛成
反対
計
男性
20
10
30
女性
15
10
25
JSTATを用い、
1.性別と意見の列変数に、0,1を入力して、データ作成(保存も可)
2.「データ設定」メニューから「1因子2群データ」を選択して、OK
3.「相関」メニューから「Spearmanの順位相関係数」を選択
4.分析結果が表示される。(保存も可)
ρ
無相関検定
P値
0.069
0.612
最終課題=函教大プチ社会調査
(個人または2.3人のグループ)
1.ランダム抽出された函教大生を対象に、質問紙法などによっ
て、何らかの社会(意識、実態)調査を行う。
(30人以上が望ましい)
2.個票データ、集計データを作成する。
3.調査項目について、統計的に図表にまとめる。(記述統計)
4.調査項目間の関係、差を統計的に分析する。(検定と推定)
5.調査に関してPPTでレポートを作成する。
(目的、方法、結果、考察)
6.資料に基づいて、プレゼンテーションを行う。
調査項目
1.性別 2.学年 3.専攻
4.Q1: あなたは最近1年間でボランティア活動をしたことがあり
ますか? はい いいえ
Q2: そのボランティア活動は有意義でしたか?
1.無意味 2.やや無意味 3.やや有意義 4.有意義
Q3: あなたは今後の1年間のうちに、何らかのボランティア活
動をするつもりがありますか? はい いいえ
5.Q1: あなたは函館校の専門の授業に満足していますか?
1.不満 2.やや不満 3.やや満足 4.満足
Q2: あなたが今一番力を入れているのは何ですか?
1.勉強 2.サークル 3.アルバイト 4.その他
6.Q1: あなたは1日にどのくらい携帯メールを送信しますか?
1.0通 2.1~5通 3.6~10通 4.11通以上
Q2: あなたは授業中に携帯メールを送信したことがあります
か? はい いいえ