Document

Transcript Document

1
２０１３．９．１９
特定保健用食品のヒト試験における
統計解析方法の考え方と注意点
成蹊大学理工学部情報科学科
岩崎学
[email protected]
2
Agenda
• Tea Tasting Lady
• 観測データと確率構造の例
• 統計的データ解析の流れと統計的な考え方
• 代表的な統計手法
• コメント集
3
Tea Tasting Lady - 1
• The most famous lady in the (statistical) world.
• 英国では，ミルクティーを作る際，ミルクを先に入れてから紅
茶を注ぐものとされているようである．
• 昔，英国であるご婦人が「私は，ミルクを先に入れたかあるい
は紅茶を先に入れたかは飲めばわかる」と発言し，その真偽
を確かめるため実験を行なう事になった．
• どういう実験を行ない，どういう結果が出れば
このご婦人はどちらを先に入れたかの「判別力」
ありと判断できるであろうか．
• わが社で開発した商品はトクホとして
有効性があるだろうか（審査を通るだろうか）．
4
Tea Tasting Lady - 2
• 紅茶カップを n 個（偶数）用意し，半分にはミルクを先に入れ，
残りの半分には紅茶を先に入れ，それらをランダムな順序で
そのご夫人に飲んでもらい，どのカップがミルクを先に入れた
ものであるかを判定してもらう．
• その結果，正解となったカップ数を m とする．
• ご婦人が正しく言い当てる確率を p とする．
• 確率は各試行で一定，かつ結果は独立であると仮定．
• ご婦人の判別力が全くないという仮説（帰無仮説）H0 および
判別力があるという仮説（対立仮説）H1 は
H0 : p = 0.5 vs. H1 : p > 0.5
となる．
5
Tea Tasting Lady - 3
• ２つの可能性
(1) n 個中，「ミルク先」がいくつあるかを知らせない．
(2) n 個中，「ミルク先」が n/2 個あることを知らせる．
• 正答数を X とするとき，m 個以上正解する確率
• (1) では試行回数 n，確率 0.5 の二項分布 B(n, 0.5)
p1  Pr(X  m) 
n
 n Ck (0.5) (1  0.5)
k
k m
nk

n
n
C
(
0
.
5
)
n k
k m
• (2) では，超幾何分布 H(m, n/2, n)
p 2  Pr(X  m) 
n
 ( n / 2 Ck / 2 )( n / 2 C(n / 2)(k / 2) ) /(n Cn / 2 )
k m
6
Tea Tasting Lady - 4
• 確率 p1もしくは p2（P値）が
a = 0.05（有意水準）以下のときに
ご婦人の判別力ありと判断（帰無仮説 H0 : p = 0.5 を棄却）
• 帰無仮説が正しい（判断力がない）とすれば，このような結果が起こる
はずがない
• 表：いくつかの n に対し，判別力ありと判断できる m の最小
•
•
•
•
数，およびその時の確率（有意確率）
n = 4 では，すべて正解 (m = 4) であっても判別力ありとは判
断されない
n = 6 では，全部正解であれば判別力ありと判断
n 二項
p1
超幾何
p2
n = 10 のときは，(1) では m = 9
4
4
0.0625
4
0.1667
m = 10 で判別力ありと判断
6
6
0.0156
6
0.0500
8
7
0.0352
8
0.0143
実際上，n は大きくできない
10
9
0.0107
10
0.0040
12
10
0.0193
10
0.0400
7
観測データと確率構造
• N 人を被験食品群，対照食品群にそれぞれ m 人，n 人ずつ
ランダムに割り付け，有効かどうかを調べる
• 仮説： P1 = P2 vs. P1  P2
度数
被験食品
対照食品
計
有効
a
c
s
無効
b
d
t
計
m
n
N
度数
被験食品
対照食品
計
有効
14
10
24
無効
6
10
16
計
20
20
40
確率
被験食品
対照食品
有効
P1
P2
無効
1 - P1
1 - P2
計
1
1
有効率
被験食品
対照食品
有効
0.7
0.5
無効
0.3
0.5
計
1
1
8
この場合はどう判断
• 実験 A
• 実験 B
度数
被験食品
対照食品
計
有効
14
10
24
無効
6
10
16
計
20
20
40
有効率
被験食品
対照食品
有効
0.7
0.5
無効
0.3
0.5
計
1
1
度数
被験食品
対照食品
計
有効
70
50
120
無効
30
50
80
計
100
100
200
有効率
被験食品
対照食品
有効
0.7
0.5
無効
0.3
0.5
計
1
1
9
カイ２乗検定
• 検定統計量：
N (ad  bc)
Y
mnst
2
• D = (ad – bc) は 2  2 行列の行列式（逆行列が存在するための条件
a : b = c : d  a/m = c/n）
• 判断基準：Y  3.84 のとき差ありと判断
• 3.84  (1.96)2 は，自由度１のカイ２乗分布の上側５％点．
度数
被験食品
対照食品
計
有効
a
c
s
無効
b
d
t
計
m
n
N
10
結果の判断
• Y = 1.67 < 3.84
• 被験食品と対照食品とでは有効率に差があるとは言えない
度数
被験食品
対照食品
計
有効
14
10
24
無効
6
10
16
計
20
20
40
• Y = 8.33 > 3.84
• 被験食品と対照食品との間には有効率に差があると言える
度数
被験食品
対照食品
計
有効
70
50
120
無効
30
50
80
計
100
100
200
11
統計的データ解析の流れ
• 研究目的の設定
• データ収集法の立案：実験，観察研究，調査
• データの収集（モニタリング）
• データの電子化
• データのチェック（クリーニング），マージ
• データの集計とグラフ化（予備的検討）：記述統計
• 統計的推測ないしは予測：推測統計
• 分析結果のプレゼンテーション：文書化，口頭発表
• 意思決定（終了もしくは最初に戻る）
12
研究目的の設定
• 「統計」では，研究目的の設定は，具体的に
• 「試験食品の有効性を立証するため」では駄目
• 用量設定試験：関与物質の配合量の決定
• 有効性検証試験：プラセボ食と被験食の比較
• 安全性試験：通常，３倍量の下での安全性
• 何をどう測るか．・・・「統計」では解答不可能な問い
• しかし「統計」は，技術的に，測定項目の（統計的，数学的）性質を評価
できる．
• 食品の特長をうまく表現する．
13
データ収集法の立案
• 比較対照試験：Randomized Controlled Trial
• 並行群間試験 parallel comparative trial
• クロスオーバー試験 cross-over trial
• 評価項目の設定
• 連続型：コレステロール，血糖値，血圧
• カウント型：排便回数，
• ２値型：（有効，無効）
• 摂取前値，摂取後値（１回あるいは複数回）
• 例数設計：有意水準（α），検出力（１－β），効果の大きさ
• プロトコルに詳細に記載！
14
統計的検定の３要素
• 仮説を立てる
• 帰無仮説 (H0)：差はない，偶然的変動に過ぎない
• 対立仮説 (H1)：差がある．偶然的な変動とは言えない
• 片側仮説 H1 : θ > 0
• 両側仮説 H1 : θ ≠ 0
• 検定統計量の選択（パラメトリック，ノンパラメトリック）
• 検定に用いる値（関数） T = T(X1, . . . , Xn) を選択し，データから t* =
T(x1, . . . , xn) を計算
• 標本平均，標本比率，t 統計量，
• 統計的有意性の評価（P値の計算と判断）
• 確率 P = Pr(T ≧ t*) を評価し（P値），P が小さいとき帰無仮説を棄却
• 有意水準 α：P の小ささの基準．α = 0.05 が普通．
• P > α のとき帰無仮説を棄却しない．帰無仮説の正しさの証明ではない
15
信頼区間
• パラメータ θ の信頼係数 95% の信頼区間 (θL, θU)
• データから定義式に基づいて区間 (θL, θU) を作成したとき，
100回中95回はその区間がパラメータの真の値を間に含む
• 信頼係数が高く，区間幅が短いのが理想
• 信頼係数を高くすると区間幅は広がり，区間幅を狭めると信頼係数が
低くなる
• 対応策：計測を精度良く行う．サンプルサイズを増やす
95% 信頼区間がパラメータ値 θ0 を含まない
⇔
H0 : θ = θ0 vs. H1 : θ ≠ θ0 の検定が有意水準 5% で有意
16
連続型データ（２群の比較）
• パラメトリック：２標本ｔ検定
２つの正規母集団間で，分散は等しいが未知の仮定での，
平均値間の検定
• 正規性の仮定は必ずしも厳密でなくてよい．
• ノンパラメトリック：ウィルコクソン検定（マン＝ホィットニー検定）
２つの母集団間で，位置パラメータ（中央値など）の違いを
検定．分布型の仮定は必要ない（ノンパラメトリック検定）
• 共分散分析 (analysis of covariance = ANCOVA)：処置前値
や背景因子を共変量に取った回帰モデルに基づく検定
17
連続データ（多群の比較）
• パラメトリック：分散分析 (analysis of variance = ANOVA)
３つ以上の正規母集団で，分散が等しいという条件の下，
平均値間の差異を検定
• 正規性の仮定は厳密には必要ない
• 有意差が見られても，どこに差があるのかまでは分からない
• ノンパラメトリック：クラスカルのＨ検定
順位に基づく検定で，分布型の仮定は不要
• 多重比較 (multiple comparison)
想定する対立仮説ごとに種々の検定法
シェッフェ法，ダネット法，テューキー法，．．．
18
カウントデータ
• 有効率の比較：２つの二項分布の比較（二項確率の計算に基
づく検定，正規近似による検定）
• ２×２分割表における検定：フィッシャー検定，独立性のピアソ
ンカイ２乗検定（イェーツの補正を入れる・入れない）
• ポアソン回帰（負の二項回帰）：稀な事象の生起確率に回帰モ
デルを想定（一般化線形モデルの枠組み）
• ロジスティック回帰：logit (p) = log {p/(1-p)} に回帰モデルを
想定（一般化線形モデル）
参考：岩崎学 (2010) カウントデータの統計解析．朝倉書店
19
コメント集－１（試験計画関連）
• 試験期間中の生活変動が大きかった者を除外した，とありま
すが，その詳細を，試験計画書における被験者の扱いの規程
と共に示してください．ここでの解析はいわゆる PP (Per
Protocol) 解析ですので，ITT (Intent To Treat) 解析の結果も
示し，両解析間の相違を考察すると共に，試験計画書でどの
解析を主要な解析とするように規定していたのかも含めて説
明してください．
• 資料１には臨床試験の計画ならびに実施に関する詳細が記
載されていません．資料に記載されている事柄を確認するた
めにも，試験計画および試験結果のデータを提出されたい．
20
コメント集－２（統計解析の詳細）
• 実験結果は図示されていますが，せっかくデータ解析をしてい
るのですから，図で示すだけでなく統計数字で示される部分
は示していただきたい．回答文には，「直線の傾きも変化しま
した」とか「直線の傾きの変化が確認されました」といった記述
がありますが，これらに対する数値的な裏付け，たとえば検定
結果とか，求めたパラメータ値の標準誤差の表示などがあっ
てしかるべきであると思います．
• 論文には，統計的な検定結果が p < 0.05 あるいは n. s. のよ
うな形で記載されています．しかし，具体的にどういう検定を
行なったのかの記載がありません．検定法についての詳細を
示してください．
21
コメント集－３（統計解析の詳細）
• 統計的有意差が見られているパラメータも散見されますが，
効果はそれほど大きくないという印象です．多重性の調整を
行なうと結果はどうなるのでしょう．
• 試験はクロスオーバー法によって行なわれていて，△△△に
関しては試験飲料群において統計的有意性が認められてい
る点はそれなりに評価できますが，クロスオーバーによる試験
結果の詳細が不明です．確認のため，キャリーオーバーや時
期効果の有無など，統計解析の詳細が知りたいと考えます．
22
コメント集－４（効果の評価）
• 結論から言えば，試験結果は必ずしもクリアカットなものとは
言い難い．12週の試験において4週と8週でのみ統計的有意
差もしくは有意傾向があったというのでは，何のための12週
の試験であったのかと言いたくなります．また，有意差の見ら
れた測定項目における効果の大きさが臨床上意味のある効
果であるかどうかについては判断の根拠を持ち合わせないの
で，専門の先生方のご判断に委ねます．
• 実施された実験では，当該食品を摂取した結果，摂取前と比
較して○○○が統計的に有意に下降したとのことでした．しか
しこの実験ではプラセボ群が設定されていないため，プラセボ
効果がどの程度であったのかが判然とせず，したがって当該
食品の効果の有無および程度が評価できません．
23
コメント集－５（同等性）
• 統計の立場からは「統計的有意差がなければ同等」という［消
極的な］ロジックは通常受け入れられなくて，「非劣性試験」と
しては，合理的な非劣性限界を設定した上で，それを下回ら
ないことを示すという［積極的な］試験結果をもって同等（非劣
性）と判断します．
• 相応の被験者数を用意した上で，点推定値として既存値を上
回っていれば問題はないと思いますが，点推定値で既存値を
下回った場合には上述のような何らかの理由付けが必要とな
ります（でないと徐々に値が下がる危険性があります）．
• 「同等」と判断した根拠となる論文を見せていただければ，そ
の結果の妥当性が評価できます．
24
コメント集－６（再試験）
• 本来であれば，文献調査や動物実験，そしてヒトを対象とした
試験による用量設定を経て，プラセボ対照の比較試験を実施
するのが筋であることは疑いありません．本申請は，用量設
定があいまいなまま比較試験を実施していたわけで，今回追
加的に用量設定試験を行っています．
• 摂取試験結果を見るに，△△の推移に関して試験食が対照
食に比べその上昇を有意に抑制しているという客観的な証拠
は得られていないと考えます．むしろAUCにおいては対照食
のほうがわずかであるが小さいように見受けられます．部分
集団解析では若干の統計的有意性及び有意傾向を観察して
いますが，証拠不足の感は否めません．対照食を適切に選択
し，統計的有意性を示すことが期待されるだけの被験者数及
び試験手順をもって再度試験をする必要があると考えます．

Document

Transcript Document

Directory