保健統計学第三回 「計量データの解析」

Download Report

Transcript 保健統計学第三回 「計量データの解析」

保健統計学第3回
「計量データの解析」
2007.04.27
前回の復習(1) ~データ解析の基礎~
データの種類
量的データの例
・血圧値
・血清コレステロール値
・その他検査値等
質的データの例 (一般に「計数データ」と呼ばれます)
・性別(単なる名義尺度)
・薬効の有効、無効、著効等
・「1.悪い」「2.普通」「3.良い」 などの順序データ
・確率分布の種類
連続型分布
・正規分布等 (今週はこれが大量に出てきます!)
離散型分布
・二項分布
・ポアソン分布等
前回の復習(2) 検定の原理
2群間に「差がある」ことを証明する方法とは?
Q:どのぐらいの大きさならば「差がある」のか?
A:その大きさがわからないから検定するのです!
「差がある」ことはそのままでは検定できないので、
まずは「差がない」ことを調べましょう。
「差がない」という仮説は「帰無仮説(H0)」
「差がある」という仮説は「対立仮説(H1)」
と呼びます。つまり、H0を否定することにより、H1を
肯定すればよいのです!
前回の復習(3) 実際の事例で考えよう
①墨田区と江東区の住民の体重には差があるのか?どうやって証明する?
②それでは、墨田区と江東区から30人ずつ抽出して、それぞれの体重を平均
して比較してみよう。帰無仮説は「体重に差がない」です
③それぞれの平均体重の差を求め、検定に見合った分布表からそのような差
が発生する確率を求めます。その確率があらかじめ定めた有意水準(通常
0.05)以下であれば「差がない」とする仮設を棄却でき、「墨田区と江東区の住
民の体重には差がある」と結論付けられます
④But・・・抽出した30人が「墨田区は力士ばかり」のような場合、当然「墨田区
と江東区の住民の体重には差がある」という結果になります。意図的ではない
にしても、このようなサンプルの偏りが偶然発生しないとも限りません
有意水準α=0.05とした場合、「本当に差がないのであれば、このような偶然が
発生する可能性は20回に1回ぐらいの割合である」
前回の復習(3)-2
分布表から求められる確率とは、「本当に墨田区と江東区の住
民の体重に差がない場合、平均値の差が偶然このようになる確
率」である。(例えば・・・墨田区からは偶然力士ばかりが30人抽
出されることが無いとも限らない)
当然、平均値の差が大きければその確率は小さくなり、平均値
の差が小さければその確率は大きくなる
こんなに平均体重の差が大きくなるってことは・・・「差がない」と
思っていた私の仮説が間違っていたのだろう。ならば、最初の仮
説(=帰無仮説)は棄てよう
偶然による偏りが発生したとは考えたくない・・・いや、考えてはい
けないのだ!
*検定の原理 (追加2)
第一種の過誤(αエラー)・第二種の過誤(βエラー)
事実 差がない
差がある
検定結果
有意差なし
正しい
βエラー(第二種の過誤)
有意差あり
αエラー(第一種の過誤)
正しい
本当は差がないのに
「差がある」としてしまう
本当は差があるのに
「差がない」としてしまう
αは通常0.05(5%)に設定することで、差がないのに「差がある」としてしまう
ことを20分の1に抑えられます。αとβは両方同時に小さくすることは出来ない
ので、通常はαを5%に設定しつつ、なるべくβエラーを小さくするような方式
が取られている・・・ようです。
前回の復習(4) 分布の種類 ~正規分布~
これは全ての分布の基本であります!
 ( x μ) 2 
1
f ( x) 
exp 

2
2σ 
2σ 
*f(x)=ex のとき、f(x)=exp(x)
(母平均を μ,母分散 をσ2とする)
(ここで、μ=0,σ=1とすると)
1
 1 2
f ( x) 
exp  z 
2
 2 
z
x μ
*(x-平均)/標準偏差
σ
これを「標準化する」といいます!
(標準正規分布)・・・色々なところで使われます!
色々なところ・・・それはT検定、信頼区間推定・・・本日はそ
の「T検定」の詳細です。
2-(7) 演習
Q1(二項分布による検定)
コインを8回投げて表が出たのは1回だけであった。このようなことは十分あり
得るのか?十分あり得る=有意確率(α=0.05)で考えて下さい。
A1:P=po+p1=8C0(1/2)0+8C1(1/2)1×(1/2)7=0.035となるので、P<0.05(片側
検定)となり、答は「あり得ない」。
*ただし両側検定ではP=0.070>0.05となり、「十分にあり得る」。
では「裏が1回だけ」はどう考える?十分ありえるのだ
ろうか?
*検定の原理 (追加1)
片側検定・両側検定
先程の帰無仮説(H0)は、「A群とB群の統計量に差がない」としており
ました。復習ですが、「差がない」ことを否定して「差がある」という対
立仮説(H1)を採択するのはよろしいですね?
医学における検定では、A群とB群のどちらが大きいのかが判ってい
ないことが多いので、圧倒的に両側検定を用います。
が・・・もしもA群の方が大きい(小さい)ことが事実として判っているこ
とであり、それだけを確かめたいのであれば、片側検定を用います。
(当然、両側の2倍有意差が出易くなります。くれぐれも実験終了後に
有意差を出すために用いるようなことはいけません!)
本日のテーマ ~計量データの解析~
データの種類により用いるべき統計手法は異なる!
量的データ
・連続量 or 離散量?
・平均、最大・最小・中央値、分散(標準偏差)は?
・データの分布(グラフの形)は?
・比較しようと思う群の数は?(2つ or 3つ以上?)
・比較しようと思う群の関係は?(独立 or 出所は同じ?)
質的データ?
・順位データ or 単なるカテゴリデータ?
・比較しようと思う群の数は?(2つ or 3つ以上?)
・比較しようと思う群の関係は?(独立 or 出所は同じ?)
ここまで調べることで、ようやく採択すべき検定方法が決定
出来ます!(昔は・・・何でもかんでもt検定だった時代も?)
データの持つ意味を考えよう!
質的データの例
・性別(単なる名義尺度)
・「あり」「なし」等
前回はこのあたりについて学びました
(χ2検定・・・独立性や適合度の検定)
しかし、これらのデータは順番に意味を持ちません!
に対して・・・
・薬効の有効、無効、著効等
・「1.悪い」「2.普通」「3.良い」 などの順序データ
これらデータは、順番に重要な意味を持ちます。
量的データの例
・血圧値
・血清コレステロール値
・その他検査値等
何かの指標(単位)をもって計測する
ことができるデータです。当然、その
順番、大小の違いには重要な意味を
持ちます。
本日は、取り扱うデータの種類により採択すべき統計手法は
変化するということを学びましょう(重要)!
1.医学論文における統計手法の割合
JPET(n=165) EJP(n=196) JJP(n=134)
二群比較
Student T test(unpaired)
Student T test(paired)
Welch T test
Mann-Whitney U test
Wilcoxon signed rank test
Fisher exact test
63
25
1
7
2
4
66
15
0
21
2
6
63
19
4
6
1
0
分散分析
1way ANOVA
2way ANOVA
3way ANOVA
Kluskal-Wallis Test
Friedman Test
58
27
3
5
1
73
7
0
9
2
46
6
0
8
0
よく見るとT検定、分散
分析が圧倒しておりま
すね。それは、これら
の手法を用いるような
データが多いからなの
でしょうか・・・?
(共に計量データ、等
分散、正規性の確認が
求められる検定手法で
ございます)
そんなわけがありません!医学のデータは基本的に等分散、正規性が確認
できるデータなどほぼありません。しかも計量データよりも、圧倒的にカテゴリ
データの扱いの方が多いです。
実はこれ・・・論文のjudgeにT検定や分散分析しか知らない人が多いから、も
しくは、執筆者がT検定しか知らないからこうなったのです。マジですよ!
独立した2群のt検定
そもそも「独立した」とは何か?
まずは難しく考えないで、「別々の人から
得られたデータ」と、考えてみましょう。
その場合は、例えばA群とB群の例数が
違うのが当たり前だったりします。
対応のない(unpaired)とも言いますね!
1-(1) t検定(1) Welchのt検定
2群間に差はあるのか? T統計量を求めて比較しましょう!
T 
XA  XB
2
/
n

S
S B / nB
A
2
A
XA:A群の平均値
XB:B群の平均値
SA:A群の標準偏差
SB:B群の標準偏差
nA:A群の例数
nB:B群の例数
まずはご利用条件の確認をお願い致します!
・計量データですか?
・A群・B群とも正規分布ですか?→正規性の検定
ここまでの条件が合致すれば、Welchのt検定を用いてよろしいです。ただし、A
群、B群とも正規分布していることが条件です。
*時に対数変換することで正規分布になるデータもあります。例えば、糖尿病患
者の血糖値のような、右側の裾が長い場合とか・・・。
1-(2) t検定(2) 正規性/等分散性の検定
2群は正規分布をしているか?=2群の中心は分布の真ん中にある?
群1
群2
まずはどんな形でもいいけど、正規分布しているか確認しましょう!(グラフ化等)
分散は等しいと言えますか? F検定で検定しましょう!(上の図だとダメ!)
F=S22/S12
分散の大きい方を分子にしましょう。(この場合、
群2の分散のほうが明らかに大きいですね)。当
然、Fが1に近いほど分散が等しいということに
なります。
1-(3) t検定(3) Studentのt検定
考え方はWelchと全く同じですが、分散が異なる場合は?
XA  XB
T 
S 1 / n A  1 / nB
XA:A群の平均値
XB:B群の平均値
S:A群及びB群の標準偏差(分散は等しい)
nA:A群の例数
nB:B群の例数
今一度ご利用条件の確認をお願い致します!(ご利用は計画的に)
・計量データ?
・分散は等しい?(SA/SB≒1)→等分散性の検定=F検定
*等分散なので、先程のWelchのT検定でSA=SB=S(共通の分散)とする
・A群・B群とも正規分布?→正規性の検定
ここまでの条件が合致すれば、Studentのt検定を用いてよろしいです。先程の
WelchのT検定以上に推定の精度は高くなります。
1-(4) t検定の原理
①問題意識:データ数nA個とnB個の2組の標本A群・B群がある。これら
の出所(=母集団)は同じなのだろうか?
②上記のA群・B群を合成して共通の母集団を想定する。
③A群・B群の平均値の差を求める。(X=XA-XB)
④上記③を無限に繰り返すと、平均値の差(X)の理論分布が得られる(たくさ
ん繰り返せば、理論分布は正規分布に近づきますね?)
これを「中心極限定理」と申します!
⑤そこで、③で求めた平均値の差(X)は、上記④で求めた理論分布のどのあ
たりに位置するのか調べる。
差がないとした場合、平均値の差(X)は十分に起こり得る大きさなのであろう
か・・・?T分布表で調べるのですが・・・最近は統計ソフトでやってくれます!
<参考>1-(5) t検定の頑強性(robustness)
疑問:先程、医学のデータには正規性・等分散を保障できるデータなどそうは
存在しない・・・と言っておりましたが?
それは事実です。実際にT検定の乱用が目立つのも事実ですし、経験
上もそうそう使える場面はありませんでした。が・・・実は本当に使える
場面も多々あります。
標本数(n数)が小さい場合
正規性・等分散性の検定をパスしやすくなりますので、t検定の適用が正当化
されたりします。
標本数(n数)が大きい場合
データ数が十分大きく、標本分散から母集団の分散をほぼ正確に推定できる
場合、正規検定で2群の平均値の差を調べることが可能になります。
Robustness:ローバスト性、丈夫さ、堅牢性、頑強性、粗暴、厳しさ・・・ということで、
特にn数が大きい場合には有用と思われます。ただし、どれほどn数が大きくとも、計
量データに用いられるべきものであることは変わりません!
1-(6) 演習
N群(n=5)
B群(n=7)
54
49
42
40
35
68
65
60
56
52
47
44
健常人5名(N群)、バセドウ氏病患者7名に糖負荷検
査を行い、30分後の血糖上昇値を求めた。両群間に
差があると考えてよいか?等分散性の検定の後、最
適と思われる検定方法を用いること。(α=0.05におけ
るT値は2.23、F値は6.16とする)
Hint:まずはデータの基本統計量(平均・標準偏差)を
求めましょう!
N群:平均値44 分散56.5 B群:平均値56 分散80.3 より F≒1.44。1.44<6.16で
あるため、分散に差があるとは言えません。等分散とみなして、後はソフトにまかせ
ましょう。両側でもP≒0.035<となるので、差があると言えるでしょう!
t-検定 : 等分散を仮定した2標本による検定
平均
分散
観測数
プールされた分散
仮説平均との差異
自由度
t
P(T<=t) 片側
t 境界値 片側
P(T<=t) 両側
t 境界値 両側
N群(n=5) B群(n=7)
44
56
56.5 80.33333
5
7
70.8
0
10
-2.43561
0.017556
1.812461
0.035112
2.228139
確かに複雑な計算を一瞬でやって
くれますが、ソフトウエアが何を
やってくれるかを理解してから用
いましょう!
残念ながら、それを理解していな
い人々が多過ぎます!
関連した2群のt検定
そもそも「関連した」とは何か?
ここでも難しく考えないで、「同じ人から得
られた、異なる時点のデータ」と、考えて
みましょう。
その場合は、当然A群とB群の例数は等
しいのが当たり前だったりします。
対応のある(paired)とも言いますね!
1-(7) 対応のあるt検定
脈拍(前)
脈拍(後)
98
88
100
96
107
114
86
73
95
92
99
116
例:6人の患者に自律神経遮断剤を投与し、前後の
脈拍を計測した。この薬には効果があると言える
か?
(では、前と後の脈拍に差がないと仮定して・・・T検定
をすればよいのでは・・・?)
そんなことをするよりも、前後の差の平均から検定した方が良いのでは?その
方が計算は楽ですし、簡略化できます。
d
T
 sd 


 n
_
d:平均値の差の平均
Sd:標本分散
n:データ数
何だってそうですが、処理は
複雑よりも簡単な方が良いに
決まっていますね!何よりも
ミスが減少します!
「対応があるデータ」は、ほとんどの場合「前後の値」です。「投与前/後」「使用前/後」
等々、臨床試験で言えば「クロスオーバー法」はこれに該当します。
1-(8) 演習
脈拍(前)
脈拍(後)
98
88
100
96
107
114
86
73
95
92
99
116
平均値の差
12
15
5
4
8
-2
例:6人の患者に自律神経遮断剤を投
与し、前後の脈拍を計測した。この薬に
は効果があると言えるか?検定等計量
Tの値を算出せよ。
平均値の差の平均:d=42/6=7
標本分散:Sd=√{(12-7)2+・・・+(-2-7)2}/(7-1)=6.07
7
T
 6.07

 6



 2.82
T=2.82のとき、P値はP =0.037<0.05とな
る。よって、帰無仮説(この薬の効果はない
=前後の平均値には差がない)は棄却され、
この薬は効果があると言える。
これは手でも計算できます。(原理さえ解っていればですが)わざわざ自由度の計算や
T分布表を確認する必要はなく、その部分はソフトウエアに任せてもよいでしょう。
順序データ等々の検定
順序データ「等々」とは何か?
計量データでない順位データ、もしくは計
量データでも明らかにT検定を用いること
ができない場合などには、どのように検
定すればよいでしょう?
こんなパターンは臨床データには多いで
すね。実際に、近年では一番多く用いら
れつつあるかもしれません。
2-(1) Mann-Whitney検定
この治療法に差はあるのか? どうやって検定する?
悪化
治療法A
治療法B
不変
12
5
軽減
11
11
治癒
6
12
3
9
悪化=1・・・治癒=4として平均値を算出して、治療法Aと治療法BでT検
定・・・?実際にそのようなテキトーな(ムチャクチャな?)統計処理が多く
て困っております!
これは順序データですので、当然のことながらT検定は厳禁ですよ!使ってい
る人がいたら、それは間違いなく誤用です。
ですが、統計パッケージはそれがどのようなデータであれ、セットさえすれ
ば検定してくれます。上記のようなデータですら、T検定の命令を出せばき
ちんと有意差まで出してくれます!
くどいようですが、統計手法はそのデータの形に見合った手法を選択しなけ
ればなりません。非連続データの検定を、連続分布に適合させて検定しても
意味はありません!それで得られたP値がどれほど小さくても、それは何の
意味もなしません!
2-(2) Mann-Whitney検定 続き
ならばどうしましょうか? →順位に注目してみましょう!
悪化
治療法A
治療法B
計
平均順位
不変
12
5
17
9
両群を合わせて下から順番に並べた
場合、「悪化」は1位~17位までを占
有し、平均すると9位となる。
軽快
11
11
22
28.5
治癒
6
12
18
48.5
合計
3
9
12
63.5
順位和
32
903
37
1512
69
順位の期待度数である平均順位に、実際の測定され
た例数を掛けて足し合わせると、治療法Aの順位和
は12×9+11×28.5+6×48.5+3×63.5=903となりま
す。
非常に判り辛いかもしれませんが、頑張りましょう!
この場合の帰無仮説(H0)は「順位にバラツキがない」であり、さらにどちらの
治療法が優れているか不明なので両側検定を用います。
ここまで見た限りでは治療法Aと治療法Bの間の「順位和」には非常に差があ
るように見えますが・・・?
2-(3) Mann-Whitney検定 続き
こちらの検定統計量は以下の流れで示されます!
UA=nAnB+nA(nA+1)/2-TA
UB=nAnB+nA(nA+1)/2-TB
TA:A群の順位和
TB:B群の順位和
nA:A群の例数
nB:B群の例数
UA=32×37+32(32+1)/2-903=809
UB=32×37+32(32+1)/2-1512=375
上記のうち、値の小さいほうがMann-WhitneyU値として採用されます。各群の
例数・順位和を代入してみますとUA>UBなので、UB=Uとなります。さらに、
σU 
Z 0
n A nB (n A  nB  1)
12
U 0 - n1n2 / 2
σU
より、やっとσU=80.136
より、ようやく統計量Z0=2.7079
が求まりました!
2-(4) Mann-Whitney検定 続き
先の検定量Z0=2.7079についてα=0.05の有意水準点は1.96となるので、
Zo=2.709>1.96となり、帰無仮説は棄却される。
よって、治療法Aと治療法Bには差があると言える・・・って。ここまでの計算を
見てどう思われましたでしょうか?
私は疲れました・・・。
私が2時間かかった計算もコンピュータならば1秒で終了します。T検定よりも、
実は複雑怪奇な処理をしているのですが・・・これは順位データを扱うゆえの問
題でございます。
このような計算プロセスを覚える必要はございませんし、統計ソフトに任せてお
けば良いのですが、この考え方をリアルに体感して下さい。こんな複雑な計算
をしても、多くの場合においてt検定よりも検出力は劣ります。
多くの皆様がt検定を用いたがる理由のひとつでもあります!
本日のまとめ
T検定
・基本的に正規分布に従うデータに用いる
・計量データの検定に用いる
・一般に例数が30以上のときに用いる。100を超えるようならばほぼ無
条件に用いられる(当然計量データのみ!)
・realな値そのものを検定統計量に用いるので、多くの場合において
検出力が高い=有意差が出やすい!
Mann-Whitney検定(別名:Wilcoxonの順位和検定)
・計数データ(順位データ等)、正規分布に従わないデータに用いる
・検定統計量は「データの順位」から求められる
・多くの場合においてT検定よりも検出力が低く、有意差は出にくい。そ
れゆえ、この検定法で有意差が出ている場合は基本的にかなり有意で
あると言える
本日のまとめ 続きと次回予告
T検定のように正規分布等々、分布を規定した方法による
検定方法を「パラメトリック検定」と言います。
一方、Mann-Whitney(Wilcoxon順位和検定)のように、分
布に依存しない検定方法を「ノンパラメトリック検定」と言い
ます。
次回は実習のほか講義もあります。必ずしも比較は2群とは
限らない・・・むしろ3群以上の方が多い場合もございますの
で、そちらの手法について学びましょう!
実習は3~4名一組で行います。授業前に決定請う!
誤植などはご遠慮なくこちらまで
[email protected]