3/1特別講演 統計の授業の資料5(PPT)

Download Report

Transcript 3/1特別講演 統計の授業の資料5(PPT)

データ解析は難しくない。
パソコンを使った
やさしい統計解析入門
農研機構
動物衛生研究所 ウイルス・疫学研究領域
山根逸郞
データの種類
 質的データ
個体をある定性的な特性によって分類した データ
雄・雌、陽性・陰性、ワクチン有り・無し、1,0
歯切りあり・なし
 量的データ
それぞれの個体ごとに量的な大きさで表されるデータ
順序尺度
ボデイコンデションスコア (1,2,3,4,5)
間隔尺度
出荷枝肉重量、離乳頭数、飼料価格
本日の統計解析の作業
記述的な解析
 データの平均、95%信頼区間、中央値・・・。
 データの分布の検討、正規性の検定
分析的な解析
 相関
 回帰分析
 対応のないt検定
 対応のあるt検定
カイ2乗検定
 フィッシャーの直接確率法
 その他

体重(導入 体重導入 体重(出荷
時測定)
後(1週間) 時測定)
牛のID
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
280
300
310
309
295
293
300
310
286
296
293
250
320
330
310
290
260
287
290
300
317
298
269
330
320
290
295
300
320
310
289
304
312
312
293
293
310
319
282
291
295
253
320
328
317
293
261
285
299
300
315
307
276
339
316
287
293
307
329
313
650
660
700
720
685
660
604
704
740
689
670
800
760
753
753
654
678
725
657
724
710
728
790
690
689
710
714
702
736
698
枝肉金額
865000
808000
940000
937000
890500
808000
725200
905200
902000
815700
821000
1020000
928000
973900
928900
800200
801400
912500
894100
911200
923000
976400
1127000
877000
825700
925000
998200
962600
986800
990000
診断結果 ボデイコン
(陽性1陰 デションスコ
性0)
ア
駆虫薬A 雄雌
1
0
1
1
1
0
1
1
0
1
0
1
1
1
0
1
0
1
1
0
0
0
1
0
1
1
0
1
0
1
1
0
0
0
1
1
1
0
1
0
1
0
1
1
1
0
1
0
1
1
0
1
0
1
1
1
1
0
1
0
1
0
0
1
1
0
0
0
0
1
0
1
0
1
0
1
0
0
1
1
0
1
0
1
0
1
0
0
0
1
3.5
4
4.5
4.5
4
3.5
3
3.5
4.5
4
3.5
5
4
4
4.5
3.5
4
3.5
3.5
4
4
3.5
4
3
3.5
4.5
4
3
4.5
3.5
実習で使うデータセット 肉牛の導入と出荷のデータ
①
②
③
基本統計量を求める手順1
①
②
③
基本統計量を求める手順2
①
②
③
母豚の体重の基本統計量
推定と検定の概念
推定: 得られた標本の平均値(点推定)や
95%信頼区間を作成することにより、対象と
する母集団の平均値などを推定する。
検定: 観察された標本をもとに、母集団の
平均が特定の値と差があるかを調べる。
推定
ある集団から標本を抽出し、統計学的処理によって、その集団の
状況や特徴(平均や有病率)を要約すること


点推定:データから得られる一点にて推定
区間推定:サンプリングの誤差が生じることを仮定して、一定
の幅(信頼区間)をもって推定


通常95%信頼区間を用いる
信頼区間の範囲



サンプル数が大きいと狭まる
「サンプル数は多いほどよい」ということと必ずしも同義ではない
適切なサンプリング方法については、調査目的・予算等に応じて異なる
推定の前提

サンプルは母集団からランダムに抽出された


95%信頼区間を算出する母集団は正規分布(が仮定できる)


対象とした母集団をよく代表しているか
中心極限定理:明らかに分布が異常でない母集団では、サンプル数
が十分大きい場合は正規分布にしたがっているとしてよい
サンプルは同一母集団から抽出され、互いに独立である


同じ個体を2回抽出していないか
母集団の中で影響しあう個体はいないか
平均値の区間推定(いわゆる量的変数)
95% 信頼区間=χ±t0.05 (n-1)*
 χ:データの平均値
s
n
 n:データ数
 s:データの標準偏差
 t0.05 (n-1) :t分布表から求められるt値
データ数が30以上の場合は:
95% 信頼区間=χ±1.96*
としてよい
標準誤差
s
n
割合の区間推定(有病率など)
(いわゆる質的変数)
95% 信頼区間= p+1.96
*
p (1-p) / n
 p:データから得られた割合
 n:データ数
ただし、np、n*(1-p)はともに5より大
きいこと
正規分布
変数の分布が平均を中心に左右対称で、
両端に向かって釣り鐘型に広がる分布
95%
デ
|
タ
の
頻
度
68.26%
-1.96σ
-σ
データの値
μ
+σ
+1.96σ
検定
 ある事象を観察したときに、それは「どのくらい珍し
いことなのか」、を検討ないし判断すること
 一般的な手順
 帰無仮説・対立仮説の設定
 帰無仮説の棄却基準の設定
 統計量を算出
 その統計量は帰無仮説が正しいとき、「どれくらいの確
率」で得られる量なのかを調べる
 「どれくらい」の値と棄却基準の大小で帰無仮説もしくは
対立仮説のいずれかを採択する
例えば

ある農場で、母牛に異なる飼料を給与した以外は同
一条件で飼育したA区画とB区画における、ある一定
期間に生まれた子牛の出生時体重を評価したい
ステップ
例
設問
農場Aと農場Bの出荷体重に差があるか?
仮説の設定
帰無仮説: 出荷体重に差がない
対立仮説: 出荷体重に差がある
統計量を求める
それぞれの農場の出荷体重の差や、標準偏差など
を用いて、データをひとつの統計量(今回の例では
t検定の数値)としてまとめる。
確率を求める
判定
帰無仮説が正しかった場合(今回の例では、出荷体重
に差がない)に、2つの農場から実際に得られたデータ
(出荷体重の差や標準偏差)がどの程度珍しい事象
であるか、確率pを用いて計算する。
得られた確率pが有意水準α(通常は5%を用いる)より大
→ 出荷体重に差があるとは言えない
得られた確率pが有意水準α(通常は5%を用いる)より小
→ 出荷体重に有意な差がある
検定のフローチャート
実際に手を動かしてみよう
 添付のデータで基本統計量を求めて見よう
Excelの統計のアドインソフトをオンにする
ファイル → オプション→アドイン→Excel
アドイン設定→分析ツール分析ツールVBA
オン
EZRのインストーhttp://www.jichi.ac.jp/saitamasct/SaitamaHP.files/download.html
からwindows 標準版をインストール
EZRを使ってデータの分布を書い
てみよう
EXCELデータの保存
(必ず英語名でのファイル保存)
EZRの立ち上げ → データのインポ
ート
(注 データの保存名は必ず英文字で
例 Example01)
EZR にデータをインポートする --1-1.
2.
3.
Excelファイルを ”CSV” 形式のファイルに変換
する。
EZR を起動する。
(自分のPC が 32bit 版か 64bit 版で
アイコンが異なる)
EZR に データをインポート
「ファイル」 → 「データのインポート」
→ 「ファイルまたはクリップボード、
URLからテキストデータを読み込む」
を選択
EZR にデータをインポートする --2--
「OK」 をクリック
→ 該当の CSV ファイルを選択
データをインポートしたら・・・
1.
まず、解析を行うデータが正規分布に従って
いるか調べよう。 ⇒ 「正規性の検定」
2.
正規分布に従っているかどうかでこの後行う
解析の方法が異なる。
正規性の検定 --1-R コマンダーから
「統計解析」 → 「連続変数の解析」
→ 「正規性の検定(Kolmogorov-Smimov検
定)」 を選択
1.
正規性の検定 --2-「体重(導入時測定)」
を選択
→ 「OK」
正規性の検定の解析結果 --1-One-sample Kolmogorov-Smirnov test
data: Dataset$体重.導入時測定.
D = 0.1217, p-value = 0.7661
alternative hypothesis: two-sided
P値:この数値が重要!!
P値 ≦ 0.05 のとき、仮説は棄却される
P値 > 0.05 のとき、仮説は棄却されない。
正規性の検定の場合
仮説H0:
変数は正規分布に従う
対立仮説H1:変数は正規分布に従っていない
検定の解釈の注意
P値 = 0.7661 ⇒ 仮説H0 は棄却されない。
⇒ 「分布は正規分布に従う」 と解釈してはダメ!
「仮説H0 は棄却される」 ⇒ 「分布は正規分布に従って
いない」 これはOK
「仮説H0 は棄却されない」 ⇒ 正確には
「分布は正規分布に従っていないとはいえない」 ⇒
正規分布かどうかは不明である。
他の検定についても同様
正規性の検定の解析結果 --2-同時に出力されるグラフでも
確認してみよう
正規性の検定 --3-「体重.導入時測定.」
を選択
→ 「雄雌==1」 と入力
→ 「OK」
(雄雌 ==1 , 雄のみの
グループでの正規性
を調べる)
注): “= “ の場合は “==”
と重ねないと結果は得
られない
同様に、雄雌==0 の場合も調べる
データは
1種類か?
Yes
正規分布を
しているか?
Yes 平均と95%信頼区間を
求める
No
No
組または対の
データか?
Yes
範囲、中央値、最大・
最小値などを求める。
あり
Yes
データは異種で
あるか?
正規性
ピアソンの
相関係数
• 回帰分析
なし
No
次のスライドへ
•
スピアマンの
順位相関係数
No
あり
正規性
量的データの解析方法
遠藤和男、山本正治:医統計テキスト、
西村書店 (1992) より改変
対応のある
t検定
なし
ウィルコクスンの
順位相関係数
組または対の
データか?
Yes
No
平均値は
2つだけか?
等分散性の
検定
あり
Yes
対応のない
t検定
正規分布に
従うか?
なし
No
次のスライドへ
ウェルチの
t検定
No
• マンフィットニーの検定
• コルモゴロフスミルノフの検定
平均値は
2つだけか?
あり
正規性
No
Yes
k × l 表に
おさまるか?
データは互いに
独立であるか?
Yes
Yes
要因は
2つか?
No
No
正規性
一元配置
分散分析
なし
クリスカル・
ウォリスの検定
あり
くり返しのない
2元配置分散
分析
No
なし
反復測定分散分析
より複雑な統計解析へ
フリードマンの
検定
「対の異種データ」 (正規分布あり)
知りたいこと
ID
体高(cm)
体重(kg)
1
118
300
2
120
329
3
114
275
4
119
310
5
110
270
6
116
268
7
126
320
8
125
300
9
119
310
10
120
285

体高と体重はどのような
関係か?

体高が上がると体重も上
がると言ってよいか?

体高から体重が予測で
きないか?
ピアソンの相関係数を使う
牛のID
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
体重(出
体重(導入 体重導入
荷時測 枝肉金額 駆虫薬A 雄雌
時測定) 後(1週間)
定)
280
289
650
865000
1
300
304
660
808000
0
310
312
700
940000
1
309
312
720
937000
1
295
293
685
890500
1
293
293
660
808000
0
300
310
604
725200
1
310
319
704
905200
1
286
282
740
902000
0
296
291
689
815700
1
293
295
670
821000
0
250
253
800 1020000
1
320
320
760
928000
1
330
328
753
973900
1
310
317
753
928900
0
290
293
654
800200
1
260
261
678
801400
0
287
285
725
912500
1
290
299
657
894100
1
300
300
724
911200
0
317
315
710
923000
0
298
307
728
976400
0
269
276
790 1127000
1
330
339
690
877000
0
320
316
689
825700
1
290
287
710
925000
1
295
293
714
998200
0
300
307
702
962600
1
320
329
736
986800
0
310
313
698
990000
1
1
0
0
0
1
1
1
0
1
0
1
0
1
1
1
0
1
0
1
1
0
1
0
1
1
1
1
0
1
0
診断結果
(陽性1陰
性0)
1
0
0
1
1
0
0
0
0
1
0
1
0
1
0
1
0
0
1
1
0
1
0
1
0
1
0
0
0
1
「対の異種データ」 (正規分布なし)
ID
A
B
1
3
3
2
8
10
3
6
7
4
9
8
5
2
1
6
11
12
7
12
11
8
5
2
9
7
6
10
1
4
11
10
9
12
4
5

前のスライドとどこが違
うか?

A と B の関係は?

A の数値が大きいなら
ば、B も大きいといえる
か?
スペアマンの順位相関係数を使う
方針
 「散布図」を描いて変数間の関係を視覚
で確認
 変数間に因果関係が想定できるか?
 Yes→回帰分析
 No→相関係数の確認
実態は同じだが、
考え方として
散布図の作成
 グラフウィザードから「散布図」
→「次へ」
散布図の作成
 「データ範囲」の選択→「次へ」
 ラベル等の設定→「完了」
完成した散布図
体高と体重の散布図
350
300
体重(kg)
250
200
なんとなく傾きが
あるような・・・
少なくとも「固まっ
て」いない
150
100
50
0
108
110
112
114
116
118
120
体高(cm)
122
124
126
128
相関と回帰
 相関:変数間の関連の強さ
 回帰:ある変数のばらつきが、他の変数のば
らつきによってどの程度説明されるか
 変数間の関係を予測に使うなら回帰
「相関=因果関係」
ではないことに注意
体重と出荷金額に因果関係はあるか?
 厳密にはない、よって因果関係とはいえない
 両者の関係はどれくらい深いのか、をみる
 相関係数
 -1~+1をとる
 絶対値が1に近いほど強い関係
• ~0.2:「相関はほとんどない」
• 0.2~0.4:「弱い相関」
• 0.4~0.7:「相関関係がある」
• 0.7~0.9:「強い相関関係」
• 0.9~:「極めて強い相関関係」
あくまで目安。
特に疫学データでは弱
い相関でも意義がある
ことがある
相関と因果関係、疑似相関
 有意な相関の存在は因果関係が成立するた
めの必要条件
 疫学的には、より生物学的なアプローチを考
慮する
 アイスクリームの売り上げと川遊び中の溺死
者数の関係は真の相関といえるか??
相関係数の算出 --1-R コマンダーから
「統計解析」 → 「連続変数の解析」
→ 「相関係数の決定 (Pearsonの積率相
関係数)」 を選択
1.
相関係数の算出 --2--
「枝肉金額」 と
「体重.出荷時測定.」
を選択
→ 「OK」
2.
出力結果の保存は
「ファイル」 → 「出力を名前を付けて保存する」
(txt ファイルで保存)
結果の読み方 --1-Pearson's product-moment correlation
data: Dataset$枝肉金額 and Dataset$体重.出荷時測定.
t = 7.6319, df = 28, p-value = 2.587e-08
検定
統計量
自由度
(この検定の場合、
N - 2)
P値:この数値が重要!!
P値 ≦ 0.05 のとき、仮説は棄却される
P値 > 0.05 のとき、仮説は棄却されない。
仮説H0:
無相関である
対立仮説H1: 相関である
この結果は?
結果の読み方 --2-alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
相関係数の推定
(95% 信頼区間)
0.6556405 0.9120395
sample estimates:
cor
これが求める相関係数
0.8217957
回帰分析の結果
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -216962.3 147399.5 -1.472 0.152
体重.出荷時測定. 1592.6 208.7 7.632 2.59e-08 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 48070 on 28 degrees of freedom
Multiple R-squared: 0.6753, Adjusted R-squared: 0.6638
F-statistic: 58.25 on 1 and 28 DF, p-value: 2.587e-08
回帰係数推定値 標準誤差 t統計量
P値
(Intercept)
-216962.290 147399.5005 -1.471934 1.521904e01
体重.出荷時測定. 1592.605 208.6767 7.631923 2.587331e08
> multireg.table <- res$coefficients
> remove(res)
> vif(RegModel.1)
> ###variance inflation factors
> colnames(res$coefficients) <- gettextRcmdr(
colnames(res$coefficients))
> res$coefficients
推定式
枝肉金額 = 1,592×出荷体重 - 216,962
「対の同種データ」
12:00にAを豚に投与した
豚ID
13:00
(℃)
豚ID
15:00
(℃)
1
38.5
1
38.6
2
38.2
2
38.5
3
39.0
3
38.8
4
38.5
4
38.7
5
39.0
5
38.5
6
38.4
6
38.7
7
38.0
7
38.2
8
38.1
8
38.6
9
38.5
9
38.5
10
38.6
10
38.4
(正規分布あり)
知りたいこと
 13:00に比べて15:00はど
れくらい変化したのか?

何をもって比較するのか?
「対でない同種デー
タ」との違いは?
一対の同種の標本の例を紹介
~導入時体重と導入後1週間の体重の比較~
--1-1. R コマンダーから
「統計解析」 → 「連続変数の解析」
→ 「対応のある2群間の平均値の比較
(paired t検定)」 を選択
一対の同種の標本の例を紹介
~導入時体重と導入後1週間の体重の比較~
--2-第1の変数から
「体重.導入時測定.」を選択
→ 第2の変数から
「体重導入後.1週間」 を選択
→「OK」
解析結果は?
「対の同種データ」
牛のID
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
(正規分布あり)
体重(出
体重(導入 体重導入
荷時測 枝肉金額 駆虫薬A 雄雌
時測定) 後(1週間)
定)
280
289
650
865000
1
300
304
660
808000
0
310
312
700
940000
1
309
312
720
937000
1
295
293
685
890500
1
293
293
660
808000
0
300
310
604
725200
1
310
319
704
905200
1
286
282
740
902000
0
296
291
689
815700
1
293
295
670
821000
0
250
253
800 1020000
1
320
320
760
928000
1
330
328
753
973900
1
310
317
753
928900
0
290
293
654
800200
1
260
261
678
801400
0
287
285
725
912500
1
290
299
657
894100
1
300
300
724
911200
0
317
315
710
923000
0
298
307
728
976400
0
269
276
790 1127000
1
330
339
690
877000
0
320
316
689
825700
1
290
287
710
925000
1
295
293
714
998200
0
300
307
702
962600
1
320
329
736
986800
0
310
313
698
990000
1
1
0
0
0
1
1
1
0
1
0
1
0
1
1
1
0
1
0
1
1
0
1
0
1
1
1
1
0
1
0
診断結果
(陽性1陰
性0)
1
0
0
1
1
0
0
0
0
1
0
1
0
1
0
1
0
0
1
1
0
1
0
1
0
1
0
0
0
1
一対の同種の標本の例を紹介
~導入時体重と導入後1週間の体重の比較~
--3-Paired t-test
data: Dataset$体重.導入時測定. and Dataset$体重導入後.1週間.
t = -3.0463, df = 29, p-value = 0.004897
検定
統計量
自由度
P値:この数値が重要!!
P値 ≦ 0.05 のとき、仮説は棄却される
P値 > 0.05 のとき、仮説は棄却されない。
仮説H0:
平均値 = 0
対立仮説H1: 平均値 ≠ 0
この結果は?
一対の同種の標本の例を紹介
~導入時体重と導入後1週間の体重の比較~
--3-alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
差の平均値の推定
(95% 信頼区間)
-4.4570121 -0.8763213
sample estimates:
mean of the differences
差の平均値
-2.666667
「対でない同種データ1」(正規分布あり)
知りたいこと
A農場
牛ID
コレステ
ロール値
B農場 コレステ
牛ID ロール値
1
110
1
120
2
125
2
130
3
100
3
140
4
112
4
120
5
130
5
135
6
100
6
115
7
120
7
124
8
108
8
110
9
104
9
124
10
120
10
111

農場間のコレステロール値
に違いはあるか?

何をもって比較するのか?
「対でない同種データ1」(正規分布あり)
牛のID
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
体重(出
体重(導入 体重導入
荷時測 枝肉金額 駆虫薬A 雄雌
時測定) 後(1週間)
定)
280
289
650
865000
1
300
304
660
808000
0
310
312
700
940000
1
309
312
720
937000
1
295
293
685
890500
1
293
293
660
808000
0
300
310
604
725200
1
310
319
704
905200
1
286
282
740
902000
0
296
291
689
815700
1
293
295
670
821000
0
250
253
800 1020000
1
320
320
760
928000
1
330
328
753
973900
1
310
317
753
928900
0
290
293
654
800200
1
260
261
678
801400
0
287
285
725
912500
1
290
299
657
894100
1
300
300
724
911200
0
317
315
710
923000
0
298
307
728
976400
0
269
276
790 1127000
1
330
339
690
877000
0
320
316
689
825700
1
290
287
710
925000
1
295
293
714
998200
0
300
307
702
962600
1
320
329
736
986800
0
310
313
698
990000
1
1
0
0
0
1
1
1
0
1
0
1
0
1
1
1
0
1
0
1
1
0
1
0
1
1
1
1
0
1
0
診断結果
(陽性1陰
性0)
1
0
0
1
1
0
0
0
0
1
0
1
0
1
0
1
0
0
1
1
0
1
0
1
0
1
0
0
0
1
データは
1種類か?
Yes
正規分布を
しているか?
Yes 平均と95%信頼区間を
求める
No
No
組または対の
データか?
Yes
範囲、中央値、最大・
最小値などを求める。
あり
Yes
データは異種で
あるか?
正規性
ピアソンの
相関係数
• 回帰分析
なし
No
次のスライドへ
•
スピアマンの
順位相関係数
No
あり
正規性
量的データの解析方法
遠藤和男、山本正治:医統計テキスト、
西村書店 (1992) より改変
対応のある
t検定
なし
ウィルコクスンの
順位相関係数
組または対のデータでない場合
組または対の
データか?
Yes
No
平均値は
2つだけか?
等分散性の
検定
あり
Yes
対応のない
t検定
正規分布に
従うか?
なし
No
次のスライドへ
ウェルチの
t検定
No
• マンフィットニーの検定
• コルモゴロフスミルノフの検定
t検定を行う前に・・・
1.
2.
t検定をする2つの分布がともに正規分布に
従っているか。(正規性の検定の実施)
2つの分布の分散値が等しいかどうか。をチ
ェック。(等分散性の検定の実施)
この2つの仮定を満たす必要がある。
等分散性の検定 --1-1.
R コマンダーから
「統計解析」 → 「連続変数の解析」
→ 「2群の等分散性の検定(F検定)」を選択
目的変数から
「体重.出荷時測定.」
を選択
→ グループから
「駆虫薬A」 を選択
→「OK」
等分散性の解析結果 --1-> #####2群の等分散性の検定(F検定)#####
> tapply(Dataset$体重.出荷時測定., Dataset$駆虫薬A, var,
na.rm=TRUE)
分散値
0 1
0 (接種) : 1,064.9
1 (非接種) : 2,432.7
1064.932 2432.706
等分散性の解析結果 --2-F test to compare two variances
data: 体重.出荷時測定. by 駆虫薬A
F = 0.4378, num df = 11, denom df = 17, p-value = 0.1665
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
自由度
(2つある)
0.1525474 1.4365576
検定統計量
sample estimates:
P値
仮説H0:
2つの分散は等しい
ratio of variances
分散比の
対立仮説H1: 2つの分散は等しくない
区間推定
0.4377561
t検定 --1-1.
R コマンダーから
「統計解析」 → 「連続変数の解析」
→ 「2群間の平均値の比較(t検定)」を選択
目的変数から
「体重.出荷時測定.」
を選択
→ グループから
「駆虫薬A」 を選択
→「OK」
t検定の解析結果 --1-Two Sample t-test
P値
仮説H0: 2つの平均値は
自由度
検定統計量
等しい
data: 体重.出荷時測定. by factor(駆虫薬A) 対立仮説H1: 2つの平均値
は異なる
t = 0.0154, df = 28, p-value = 0.9878
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-32.98507 33.48507
平均値の差の区間推定値
t検定の解析結果 --2-sample estimates:
mean in group 0 mean in group 1
705.25
705.00
平均値
0 (非接種) : 705.25
1 (接種) : 705.00
Part2. 等分散性なしのt検定 --1-1.
2.
導入1週間後体重測定 と雄雌 との関係性を
調べる。
正規性の検定
①
②
③
導入1週間後体重 全体では p値 = 0.9845
導入1週間後体重 を 「雄雌==1」 で抽出すると p
値 = 0.9525
導入1週間後体重 を 「雄雌==0」 で抽出するとp
値 = 0.7389
Part2. 等分散性なしのt検定 --2-等分散性の検定
p値 = 0.9346
⇒ 等分散が仮定できるとははっきりとはいえな
い。
どうするか?
3.
Part2. 等分散性なしのt検定 --2-目的変数から
「体重導入後.1週間.」を選択
→ グループから
「雄雌」 を選択
→等分散を考えますか? の
「いいえ(Welch検定)」 の
チェックを ON
→「OK」
解析結果は?
質的データの分析
~ちょっと手を動かそう
質的データの分析

分割表に分けられるデータ
異常産とX病の抗体保有の関係(実測値の2x2分割表)
異常産
正常分娩
合計
抗体陽性
24
9
33
抗体陰性
合計
22
46
51
60
73
106
データベースから
分割表の作成がで
きる?何使う?
検証の順序
 帰無仮説は:
 抗体の有無と異常産発生に関連はない
 対立仮説は:
 抗体の有無と異常産発生に関連がある
事前に宣言
 今回は危険度0.05で検証する
期待値の計算
このような2x2
分割表を考える
a
b
c
d

aの期待値=

bの期待値=

cの期待値=

dの期待値=

ただし、N = a + b + c + d
考え方

期待値:「異常産がもし抗体の有無に全く関係なく起
きるのであれば、どのような値が得られるのか」
期待値に関する2x2分割表
異常産
正常分娩
合計
抗体陽性
14.32
18.68
33
抗体陰性
合計
31.68
46
41.32
60
73
106
実測値とどれくらいかけ離れた値か?
☆離れれば離れるほど実測値は異常産と抗体の有無の関連が強いことを
反映している!、と考える
期待値の大きさ
 <5の場合は上記の方法だとp値が低めに計算
されることがある
本当にそのp値で有意といえるのか?
 対策として:
ちなみに、
フィッシャーの正確確率<0.0001
イェーツ補正後のp=0.0001
フィッシャーの直接確率の算出=より厳密なp値
カイ2乗値のイェーツ補正、など
信頼できるソフトウェアに頼りましょう
分析方法:カイ2乗検定

カイ2乗値:各セルの
これがカイ2条検定
における統計量
の計算値の和
 危険度(α)に応じた下限のカイ2乗値が既知

α=0.05で3.84、0.01で6.63
 計算したカイ2乗値>3.84であれば、p<0.05で
有意に「関連している」という

「関連している」ということ以上の意味はない
• 「どちらがどれくらい高い」ということとは別の事象
• 「分析疫学」で学ぶ
実際に計算してみてください

aのセルから
= 6.54

bのセルから
= 5.02

cのセルから
= 2.96

dのセルから
= 2.27

よってカイ2乗値
= 16.79
結果~解釈 ~行動
 カイ2乗値=16.79は危険度0.05のカイ2乗値
3.84よりも大きい *p値を求めているのではないことに注意
 したがって、帰無仮説は危険度p<0.05で棄却
され、対立仮説を採択する。すなわち:
 異常産と抗体の有無には有意な関連が認め
られる
質的データの解析 --1-1.
R コマンダーから
「統計解析」 → 「名義変数の解析」
→ 「分割表の作成と群間の比率の比較
(Fisherの正確検定)」 を選択
1. 「行の選択」 から 「駆虫薬A」
を選択
2. 「列の選択」 から 「診断結果」
を選択
3. 「仮説検定」 の 「カイ2乗検定」
と 「カイ2乗統計量の要素」、
「期待度数の表示」 のチェック
を ON にする。
4. 「OK」
解析結果 --1-> .Table
診断結果.陽性1陰性0.
駆虫薬A 0 1
2 × 2 の分割表
093
(実施 =1 , 未実施 = 0)
1 8 10
> .Test$expected # Expected Counts
診断結果.陽性1陰性0.
駆虫薬A 0 1
項目ごとの期待度数
0 6.8 5.2
1 10.2 7.8
解析結果 --2-data: .Table
X-squared = 1.6346, df = 1, p-value = 0.2011
カイ2乗検定の結果
自由度
Fisher's Exact Test for Count Data
data: .Table
p-value = 0.1414
alternative hypothesis: true odds ratio is not
equal to 1
95 percent confidence interval:
0.6120095 27.7160114
sample estimates:
odds ratio
3.582872
P値
仮説H0:
「駆虫薬A」と「診断結果」
は独立である
対立仮説H1: 「歯切り」と「診断結果」
は関連がある
この結果は?
解析結果 --4-alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.6120095 27.7160114
オッズ比の95%信頼区間での
推定
sample estimates:
odds ratio
3.582872
この分割表でのオッズ比
事例1の回答
1 2
1 12 16
2 67 102
> fisher.test(.Table)
Fisher's Exact Test for Count Data
data: .Table
p-value = 0.8358
alternative hypothesis: true odds ratio is not
equal to 1
95 percent confidence interval:
0.4611637 2.7574043
sample estimates:
odds ratio
1.141012
> remove(.Table)
事例2の回答
> .Table # Counts
1 2
1 11 8751
2 19 57904
3 5 21983
> fisher.test(.Table)
Fisher's Exact Test for Count Data
data: .Table
p-value = 0.0009183
alternative hypothesis: two.sided
> remove(.Table)
事例3の回答
> .Table # Counts
1 2 3 4
1 118 120 135 119
2 26 24 9 25
> fisher.test(.Table)
Fisher's Exact Test for Count Data
data: .Table
p-value = 0.006569
alternative hypothesis: two.sided