クリック - ODN

Download Report

Transcript クリック - ODN

データ分析入門(10)
第10章 クロス集計表と仮説検定
廣野元久
1
本章の概要

モザイク図、クロス集計表により2変量の関係を調
べる



比率に着目して、変量間の関連を調べる
統計量による要約とその解釈
仮説検定の考え方


集団の一部を調べて全体を推測する
偶然誤差の回避
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
2/46

1.クロス集計表と仮説検定(1)

今までの話は、得られたデータを要約、グラフに
して各自で考察した


ビッグクラス.jmp, 車の調査.jmp
食好み,衆議院選挙得票
結論はまちまち

車の調査.jmpは、すでに調査した米国303人
(標本)に対する自家用車の集計からの考察

その考察を、標本が偏りなく取られたとして、
全米、あるいは、ある州の状況の推測として利用
できないか?
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
3/46
1.クロス集計表と仮説検定(2)
ƒ`ƒƒ
[ƒg
N
ほとんどの人が、
・Sportyは年代が上がるほど
購入されない
・Familyは年代が上がるほど
割合が多い
・Workの割合は年代と関連しない
1
type
Family
2
type by AgeGroup
Sporty
3
この303人に対する
データの見方は一致している
Work
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
4/46
1.クロス集計表と仮説検定(3)
標本抽出
303人
母
集
団
標本
グラフ化
計測
データ
統計処理
アクション
情報
評論
偶然誤差
の排除
考察
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
5/46
1.1 クロス集計表



カテゴリーにそって、得られたデータ
カテゴリカルデータ
2つのカテゴリカルデータの関連を見る
モザイク図、クロス集計表
目的は、標本ではなく、その背後にある、もっと
大きな集団、たとえば、全米市場
市場のシェアと、販売戦略の作成
間違いは許されない;統計の神様にお願いする
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
仮説検定
6/46
1.2 社会調査データの分析
分析の流れ




調査対象の決定;定義、制約など
標本の抽出
測定と集計
カテゴリ変量間の関連を視覚的に把握する


数値で確認する


グラフ、モザイク図(どちらをX,Yにするか重要)
クロス集計表、出現比率も調べる
仮説検定で確認

カイ二乗検定で、偶然誤差の排除
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
7/46
2 モザイク図とクロス集計表(1)

JMPの登場、再び車の調査.jmpを利用
1.車の調査.jmpをロードする
2.二変量の関係を選択
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
8/46
2 モザイク図とクロス集計表(2)
1.既婚/未婚
をクリック
5.Y目的変数をクリック
3.Yに指定される
7.OKを
クリック
4.タイプ
をクリック
2.x説明変数をクリック
3. xに指定される
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
9/46
2 モザイク図とクロス集計表(3)
1.00
ƒ
[ƒN

ƒ^ƒCƒv
0.75
0.50
0.25
0.00
既婚と未婚では
選ぶタイプが違う
ƒtƒ@ƒ~ƒŠ
[
ƒXƒ|
[ƒc
Šù
¥
–¢
¥
帯の太さが,
既婚・未婚の割合
を表している
Šù
¥/–¢
¥
Šù
¥/–¢
¥
ƒ^ƒCƒv
“x
” ƒXƒ|
[ƒc
ƒtƒ@ƒ~ƒŠ
[ƒ
[ƒN

‘S‘Ì%
—ñ%
s%

Šù
¥
45
119
32
14.85
39.27
10.56
45.00
76.77
66.67
22.96
60.71
16.33
–¢
¥
55
36
16
18.15
11.88
5.28
55.00
23.23
33.33
51.40
33.64
14.95
100
155
48
33.00
51.16
15.84
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
196
64.69
107
35.31
クロス集計表で
読むと数値的に
理解できる
303
10/46
Šù
¥/–¢
¥
2 モザイク図とクロス集計表(4)
“x
” ƒXƒ|
[ƒc
‘S‘Ì%
—ñ%
s%

Šù
¥
45
14.85
45.00
22.96
–¢
¥
55
18.15
55.00
51.40
100
33.00
ƒ^ƒCƒv
ƒtƒ@ƒ~ƒŠ
[ƒ
[ƒN

119
39.27
76.77
60.71
36
11.88
23.23
33.64
155
51.16
32
10.56
66.67
16.33
16
5.28
33.33
14.95
48
15.84
196
64.69
107
35.31
303
全体に対するパーセント
119/303*100
縦方向に見たパーセント
119/155*100
横方向に見た比率
119/196*100
和が100%
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
11/46
3 クロス表の検定

3.1仮説検定の論理
2つの仮説
 背理法


3.2有意水準とp値


3.3検定結果からの結論の導き方


有意水準とリスク
命題の支持と真とは違う
3.4クロス表の検定
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
12/46
3.1 仮説検定の論理(1)


母集団全体で推測されること(命題)を標本から得
られたデータから統計的に判断する
2つの仮説を用意する
帰無仮説:H0捨てたい仮説
命題がまったく生じないという状態を考える
未婚既婚と車のタイプは関連がまったくない
対立仮説:H1帰無仮説と反対の仮説
命題の程度は分からないが、帰無仮説が誤りならば、必ず対立
仮説は正しい

背理法

捨てたい仮説が生じる状態を想定して、その状態から データ
(標本)が得られる確率で判断する
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
13/46
3.1 仮説検定の論理(2)
命題:犬は白い
 いくら、白い犬をたくさん連れて来ても、命
題を証明できない
 しかし1匹、黒い(白くない)犬を連れてくれ
ば、命題を否定できる

これが背理法
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
14/46
3.1 仮説検定の論理(3)
2000年度はチョコレート実験をやりました
命題:同程度の甘さのチョコレートA,Bでは、食べる順番で
甘さの感じ方が違う
Hoでない
対立仮説H1
母集団
程度が分からないので
帰無仮説Ho
食べる順番で甘さの感じ方が
変わらない
Hoにそう
母集団
背反事象
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
標本
どっちの経路から
標本が得られたか
判定する
15/46
3.2 有意水準とp値(1)


ここでは
有意水準αとは、帰無仮説を捨てるための基準と
なる確率




通常、5%、1%などを使う
コイントスで続けて何回表が出たらいかさまと感じるか
P値は、帰無仮説Hoが真として標本が、
そのような母集団から得られる上側確率
αとp値から帰無仮説を捨てるかどうか決める
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
16/46
3.2 有意水準とp値(2)
10000人(非常に多数という意味)を母集団として、
チョコレート実験は、仮にこのような結果
(提示する順番に関係ない)だとする
統計の神様
A~B
B~A
計
の世界
Aが甘い
3106
3283
6389
Bが甘い
計
1755
4861
1856
5139
3611
10000
ここから、標本として、72人抜き取って
A~B
Aが甘い
Bが甘い
計
18
17
35
B~A
28
9
37
計
46
26
72
実際の
実験結果
が標本として得られる上側確率を計算
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
17/46
3.2 有意水準とp値(3)

まず、有意水準α=0.05とする
•ªŠ„•\
ƒ‚ƒUƒCƒN}
“ x
”
1
‘S‘Ì%
—ñ%
s%

1
1.00
2
—ñ1
—ñ2
0.75
2
0.50
—ñ2
2
18
25.00
51.43
39.13
17
23.61
48.57
65.38
35
48.61
28
38.89
75.68
60.87
9
12.50
24.32
34.62
37
51.39
46
63.89
26
36.11
P値、
.05より小さい
帰無仮説を棄却
72
ŒŸ’è
0.25
1
0.00
1
2
—ñ1
—vˆö
ƒ‚ƒfƒ‹
Œë
·
‘S‘Ì(
C
³
Ï‚Ý)
N
ŒŸ’è
–Þ“x”ä
Pearson
Ž©—R“x(-1)*‘΍
” –Þ“x
R2
æ(U)
1
2.318867 0.0465
70
47.559948
71
49.878816
72
ƒJƒC2
æ p’l(Prob>ChiSq)
4.638
0.0313
4.583
0.0323
Fisher‚̍
³ŠmŒŸ’è

¶
‰E
—¼‘¤ŒŸ’è
Šm—¦
‘ã‘ւ̉¼
à’l
0.0286—ñ1=1‚̍
ê
‡‚Ìp’l(—ñ2=2)‚͍
A—ñ1=2‚̍
ê
‡‚æ‚è‚à‘å‚«‚¢
0.9918—ñ1=2‚̍
ê
‡‚Ìp’l(—ñ2=2)‚͍
A—ñ1=1‚̍
ê
‡‚æ‚è‚à‘å‚«‚¢
0.0491Šm—¦(—ñ2=2)‚͍
A—ñ1‚̊ԂňقȂé
ƒJƒbƒp•W
€Œë
·
-0.24043 0.109659
ƒJƒbƒp‚͈ê’v“x‚Ì‘ª“x
B
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
18/46
予防率の違いの検定、どうしたらよいの
でしょうか?
タミフル群
 プラセボ群
2人 / 155人 1.3%
13人 / 153人 8.5%

二項分布
二項分布
0.30
0.15
0.25
0.20
0.10
0.15
0.10
0.05
0.05
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
30
28
26
24
22
20
18
16
14
12
8
10
6
4
2
0
30
28
26
24
22
20
18
16
14
12
8
10
6
4
2
0.00
0
0.00
19/46
3.3 検定結果からの結論の導き方(1)

帰無仮説が棄却された


帰無仮説が棄却できない(p値が5%より大)




積極的に命題(対立仮説)の正当性を主張
対立仮説を捨てれない
標本の数やデータの品質に依存
つまり、いまあるデータからは分からない
検定結果と命題が真であるかは別、

知見にあった(一般常識に照らして)結論する
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
20/46
3.3 検定結果からの結論の導き方(2)
命題を立てる
仮説の設定
帰無仮説
対立仮説
有意水準αを設定
検定を実行
α>p値
帰無仮説を
棄却
α<p値
帰
無
仮
説
を
棄
却
で
き
な
い
標本数、分析方法の見直し
結論
命題は正しい
命題は
正しくない
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
再調査
21/46
3.4 クロス集計の検定(1)
車の調査.jmpに戻る
 帰無仮説Ho



対立仮説H1


未既婚の別と車種の好みとは無関係
未既婚の別と車種の好みとは関係がある
有意水準を決めるα=.05
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
22/46
3.4 クロス集計の検定(2)

Testのブロックを見る
ŒŸ’è
—vˆö
ƒ‚ƒfƒ‹
Œë
·
‘S‘Ì(
C³
Ï‚Ý)
N
Ž©—R“x(-1)*‘΍
”–Þ“x
R2
æ(U)
2
13.38280 0.0441
299
289.81268
301
303.19548
303
ŒŸ’è
ƒJƒC2
æ p’l(Prob>ChiSq)
–Þ“x”ä 26.766
<.0001
Pearson 26.963
<.0001
未既婚と車種は統計的に
関係がある
PearsonのProb>ChiSq
を見る
.0001以下であることが
分かる
つまり、万に1回も
無関係であるような
標本は得られない
データが教えてくれた
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
23/46
課題






食好み.JMPをダウンロードしなさい.
このデータは,仮に20前後の日本の若者の食の嗜好を代
表するものであるとします
出身地域と性別で分類したとき,食品の好みが違うものが
あるかを調べよ.
この結果は,あなたが,先に提出した課題(第4章)で感じた
ことと一致していたかどうかを考察しなさい.
統計的検定について,感じたことを述べなさい.
以上のことをリポートにまとめて,提出しなさい
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
24/46
データの揺らぎ、臨床データの揺らぎ

高橋 行雄
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
25/46
1.クロス集計表と仮説検定
標本抽出
303人
母
集
団
標本
グラフ化
計測
データ
統計処理
アクション
情報
評論
偶然誤差
の排除
考察
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
26/46
クロス集計表
カテゴリーにそって、得られたデータ
カテゴリカルデータ
 2つのカテゴリカルデータの関連を見る
モザイク図、クロス集計表
 目的は、標本ではなく、その背後にある、
もっと大きな集団、たとえば、全米市場

市場のシェアと、販売戦略の作成
間違いは許されない;統計の神様にお願いする
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
仮説検定
27/46
予防率の違いの検定、
どうしたらよいのでしょうか?
タミフル群
 プラセボ群
2人 / 155人 1.3%
13人 / 153人 8.5%

二項分布
二項分布
0.30
0.15
0.25
0.20
0.10
0.15
0.10
0.05
0.05
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
30
28
26
24
22
20
18
16
14
12
8
10
6
4
2
0
30
28
26
24
22
20
18
16
14
12
8
10
6
4
2
0.00
0
0.00
28/46
伝統的な有意差検定
ŒŸ’è
—vˆö
ƒ‚ƒfƒ‹
Œë
·
‘S‘Ì(
C
³
Ï‚Ý)
N
–ò
Ü
•ªŠ„•\
—\–hŒø‰Ê
“x
”
0
1
ƒ^ƒ~ƒtƒ‹
2
153
155
ƒvƒ‰ƒZƒ{ 13
140
153
15
293
308
ŒŸ’è
–Þ“x”ä
Pearson
Ž©—R“x(-1)*‘΍
”–Þ“x
R2
æ(U)
1
4.789088
0.0799
306
55.170318
307
59.959406
308
ƒJƒC2
æ p’l(Prob>ChiSq)
9.578
0.0020
8.631
0.0033
Fisher‚̍
³ŠmŒŸ’è

¶
‰E
—¼‘¤ŒŸ’è
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
Šm—¦
0.0028
0.9997
0.0032
29/46
臨床試験の計画

実験結果はどのくらい揺らぐのか
2005年度の○○製薬の社員全員 5016名
 インフルエンザ・ワクチンの予防試験(仮想)
 2 群に分けプラセボと実薬の接種

 プラセボの予防率が
10 %
 新ワクチンの予防率が 5 %

各群 200例の比較試験をしたとする

各群の予防率はいかに?
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
30/46
「揺らぎ」は、統計学の原点

浜田本、p16、エンドウの 実験、表 3


2項分布、p19、式(1)
揺らぎを体験してみよう
プラセボの真の予防率は 10%
 JMPで 2項乱数を使ってみる

第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
31/46
実験結果は、予防効果は何例?
「実験結果」に、
2項乱数を選択
nは、実験数
pは、真の予防率
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
32/46
クラスのメンバーの結果は?
発表結果をJMPのシートに入力
分布をJMPで書いてみる
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
33/46
100回実験をしてみよう
テーブル変数の利用
各群の予防人数を2項乱数で計算
人数の追加は、メニューの「行」の「追加」で
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
34/46
実験結果の揺らぎ
‚ˁ
d
‡‚킹ƒvƒ
ƒbƒg
Y‚́
d ‚ˁ
‡‚킹
0.15
Y
0.10
0.05
0.00
0
Y
1:ƒvƒ‰ƒZƒ{
10
20
30
40
50
60
ŽÀŒ±”ԍ
†
70
80
90
100
2:ŽÀ–òƒ
ƒNƒ`ƒ“
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
35/46
100回の実験の揺らぎの分布
ˆê•Ï—Ê‚Ì•ª•z
1:ƒvƒ‰ ƒZƒ{
ƒ‚
[ƒ
ƒ“ƒg
•½‹Ï
0.1002
•W
€•Î
·
0.0181314
•½‹Ï‚Ì•W
€Œë
·
0.0018131
•½‹Ï‚̍
㑤95%
M—ŠŒÀŠE 0.1037977
•½‹Ï‚̉º‘¤ 95%
M—ŠŒÀŠE
0.0966023
N
100
.02 .04 .06 .08 .10 .12 .14 .16
2:ŽÀ–òƒ
ƒNƒ`ƒ“
ƒ‚
[ƒ
ƒ“ƒg
•½‹Ï
0.049
•W
€•Î
·
0.01367
•½‹Ï‚Ì•W
€Œë
·
0.001367
•½‹Ï‚̍
㑤95%
M—ŠŒÀŠE 0.0517124
•½‹Ï‚̉º‘¤ 95%
M—ŠŒÀŠE
0.0462876
N
100
.02 .04 .06 .08 .1 .12 .14 .16
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
36/46
メンデルの実験の場合
種の形で ‐19 から +19 の外になる
回数をカウントしてみよう (図 2)
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
37/46
オッズ比の信頼区間

浜田本、p136
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
38/46
「モデルのあてはめ」
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
39/46
ロジスティック回帰分析
–¼‹`ƒ
ƒWƒXƒeƒBƒbƒN‚Ì‚ ‚Ă͂߃Cƒxƒ“ƒg_01
“x
”: n
ƒ‚ƒfƒ‹‘S‘Ì‚ÌŒŸ’è
ƒ‚ƒfƒ‹ (-1)*‘΍
”–Þ“x
Ž©—R“x ƒJƒC2
æ p’l(Prob>ChiSq)
·
0.917071
1
1.834142
0.1756
Š®‘S
52.359822
k

¬
53.276893
R2
æ(U)
0.0172
ƒIƒuƒUƒx
[ƒVƒ‡ƒ“(‚Ü‚½‚͍
d‚݂̍
‡Œv)
200
オッズ比はオプションで指定
Œù”z‚É‚æ‚éŽû‘©
ƒpƒ‰ ƒ
[ƒ^

„ ’è’l
€

„’è’l

•W
€Œë
· ƒJƒC2
æ p’l(Prob>ChiSq)
ƒIƒbƒY”ä
Ø•Ð

-2.9444379 0.4588312 41.18
<.0001
.
–ò
Ü_01 0.74721332 0.5671307 1.74
0.1877 2.11110883
„’è’l‚ÍŽŸ‚̑΍

”ƒIƒbƒY‚ɑ΂·‚é‚à‚Ì‚Å‚·
F 0/1
Œø‰ ʂɑ΂·‚éWaldŒŸ’è
—vˆö
ƒpƒ‰ƒ
[ƒ^

”
Ž©—R“xWaldƒJƒC2
æp’l(Prob>ChiSq)
–ò
Ü_01
1
1
1.73589283
0.1877
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
40/46
オッズ比の信頼区間
浜田本の p142 の計算式を参照
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
41/46
100回の臨床実験
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
42/46
オッズ比の95%信頼区間
Y‚́
d ‚ˁ
‡‚킹
2.5
2.0
Y
1.5
1.0
0.5
0.0
0
10
20
30
40
50
60
ŽÀŒ±”ԍ
†
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
70
80
90
100
43/46
症例数を変えた実験

症例数を 1 群 400 例にしてみよう


オッズ比の 95%信頼区間が1を超える実験の
数は何回発生するのだろうか
症例数を 1 群 100 例にしてみよう

オッズ比の 95%信頼区間が1を超える実験の
数は何回発生するのだろうか
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
44/46
画期的なワクチン

予防率を 相対リスク(RR)で 30%と期待


テーブル変数を 0.30 としなさい
症例数を150としてみよう

オッズ比の 95%信頼区間が1を超える実験の
数は何回発生するのだろうか
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
45/46
安価なワクチン

しかし、予防効果は相対リスクで 60%

症例数を 300 としてみよう

オッズ比の 95%信頼区間が1を超える実験の
数は何回発生するのだろうか
第10章 クロス集計表と仮説検定
廣野元久 &高橋行雄
46/46