Transcript 研究の

BMC Boot Camp Vol.3
Evidences
(エビデンスに関する基礎知識のまとめ)
Evidences: Menu
第1日
エビデンス総論
第2日
研究デザイン
第3日
バイアスとRAMBO
第4日
データの基本
第1日
エビデンス総論
エビデンスとは?
仮説に対する統計学的根拠
エビデンスとしての研究論文の扱い方
• 仮説の理解:「何を調べているのか」
– PECO(またはPICO)に基づく定式化
• 研究計画の理解:「何がどの程度確実か」
– 研究の設計(対象、研究デザイン、測定手法)
– RAMBOに基づく批判的吟味→妥当性の評価
– 統計の解析(p値の算出 etc)→信頼性の評価
PECO(PICO)に基づく定式化
Patient(患者)
※Participants(参加者)とも
– 何に、どういう状態の人に
Exposure(曝露)/ Intervention(介入)
– どういう条件がある(加わる)と
Comparison(比較)
– 何と比べて
Outcome(アウトカム)
– 何に影響が出るのか
Time(時間)を加えて
‘PECOT’とすることも
• いつの時点で
• どの程度の期間で
PECOTに基づく定式化の例
P
糖尿病患者に
E
スタチンを予防投与すると
C
投与しない場合と比べて
O
脂質異常症の発生率に影響が出るか
T
5年以内に
一般的な統計の取り方
日本(世界)中のB病患者全員
理想的な母集団
A病院のB病患者全員
実際の母集団
そのうち研究に同意した100名
標本
50名ずつの2群に
群
抽出
測定・解析
割り付け
群
エンドポイントを基にして行われる
評価・報告
「割り付け」とは?
対象をそれぞれの群に振り分ける作業
割り付けに関する3つのキーワード
• ランダム化(randomization)
– 乱数表などに基づいて無作為に割り付けを行う
• 隠蔽(concealment)
– 割り付け作業を非関係者が行う
• 盲検化(blinding, masking)
– 割り付けの結果を関係者に隠す
研究の「エンドポイント」
統計処理の対象となるアウトカム
一次エンドポイント Primary endpoint
– 研究目的に沿って測る指標(PECOのOにあたる)
二次エンドポイント Secondary endpoint
– 研究のついでに測る指標
真のエンドポイント True endpoint
– アウトカムを直接反映する指標(発症、死亡など)
代用エンドポイント Surrogate endpoint
– アウトカムを間接的に評価する指標(検査値など)
統計の「解析」とは
• 真の値・誤差の推定
– 標本のデータから全体の平均値や割合を予測
– 予測値の信頼区間(第4日参照)を算出
• 差の検定
– 2群の差が確実(有意、Statistically significant)な
ものであるかどうかを判定
– 判定用の指標としてp値(第4日参照)を算出
– 信頼区間からも判定が可能
解析から導き出されるもの
• 相関関係 correlation
回帰直線と呼ばれる
– 関数(狭義では1次関数=直線)に近似できる関係
– 右上がりなら「正の相関」、右下がりなら「負の相関」
• 因果関係 causality
相関関係に加えて以下のような要素が必要
– 必要性(‘結果’のある人物が必ず‘原因’を伴っている)
– 時間的前後関係(必ず‘原因’が‘結果’に先行する)
– 整合性(既存の事実や他の研究結果と矛盾しない)
– 真の相関性(交絡因子(第3日参照)が間に存在しない)
妥当性と信頼性(再現性)
• 妥当性 validity:「ずれ」の無さ
– 測りたいものを正確に測れているか
– 妥当性を下げる要素:バイアス bias
• 信頼性 reliability:「ぶれ」の無さ
– 繰り返し測定しても同じ値が得られるか
どちらも高い
妥当性が低い
信頼性が低い
第2日
研究デザイン
研究デザインの大枠
記述(非実験的)研究
日本における
糖尿病患者は~人
比較を
行わない
人為的に
手を加えない
比較を
行う
人為的に
条件を調整
観察(準実験的)研究
糖尿病患者は
健常者に比べて~
実験的研究
糖尿病患者に~した群は
~しない群に比べて…
観察研究の分類
現在のOから
過去のEを分析
ケースコントロール研究
過去のEから
現在のOを追跡
コホート研究
病因・危険因子の探索
病因、危険因子の検証
現在のEから
将来のOを追跡
経時的な予後の解析
現在のEとOを
同時に分析
横断研究
検査の性能・精度の評価
それぞれの長所、短所
• ケースコントロール(症例対照)研究
– 因果関係の探索・発見に適している
– 時間と費用が少なくて済むがバイアスが入りやすい
• コホート研究
– 因果関係の検証に適している
– バイアスをある程度減らせるが時間と費用がかかる
• 横断研究
– ある一時点における相関関係の探索に適している
– 因果関係が不明瞭(どちらが原因でどちらが結果?)
介入研究の基本形
母集団
ランダム化の完全度を基に
大きく3つに分類される
対象者
 ランダム化比較試験
Randomized Controlled Trial
介入群
対照群
介入
アウトカム
– 乱数表、業者に委託 etc
 準ランダム化比較試験
Controlled Clinical Trial
– サイコロの目、くじ引き etc
アウトカム  非ランダム化比較試験
介入研究の盲検化
対象者の割り付け結果を関係者に伏せる
• ‘誰に対して伏せるか’に基づく分類
– 一重盲検:患者
– 二重盲検:患者、介入者 (最も一般的)
– 三重盲検:患者、介入者、判定者
– 四重盲検:患者、介入者、判定者、データ解析者
※PROBE法:結果判定者にのみ伏せる
(倫理的な面から、臨床研究では最も現実的)
クロスオーバー研究
• 介入研究の一種
• 一定期間後に条件を交換し、再度経過を観察
• 介入の影響が素早く出て持続しない場合のみ有効
治療A群
評価
治療B群
評価
治療B群
評価
治療A群
評価
無治療(洗い流し期間)
研究デザインと妥当性の階層
複数のRCTの結果を
1つに統合したもの
メタアナリシス
システマティックレビュー
実験的研究
RCT>CCT>非ランダム化
観察研究(準実験的研究)
コホート>ケースコントロール>横断
記述研究(非実験的研究)
専門家の個人的意見、レビューなど
第3日
バイアスとRAMBO
バイアスとは
研究手法に潜み、誤った統計評価を導く要因
どんな研究でもバイアスを完全に除くことはできない!
典型的なバイアスを理解しておくことが不可欠
主なバイアス
– 選択バイアス
– 情報バイアス
– 交絡
– 利害バイアス
– 出版バイアス
選択バイアス
標本抽出・割り付けにおけるバイアス
母集団
抽出や割り付けの際に、
対象者
「母集団」と
質の異なる「対象」
介入群
対照群
介入
アウトカム
アウトカム
や
臨床的特性の異なる
「介入群」と「対照群」
を設定している
代表的な選択バイアス
• 入院バイアス(Berksonバイアス)
入院患者を対象とした研究に付随する見落とし
– 「入院患者は重症例や他疾患の合併例が多い」
• 罹患率バイアス(Neymanバイアス)
有病者を対象とした後ろ向き研究に付随する見落とし
– 「発症早期に死亡した人は対象から抜け落ちやすい」
• 協力者バイアス(自己選択バイアス)
協力者を対象とした研究や調査に付随する偏り
– 「どういう結果を期待している人が研究に協力的か」
情報バイアス
情報を管理・収集する際に生じるバイアス
 データを取る側や
取られる側の心理が
結果に影響を与える
母集団
対象者
介入群
対照群
 データを取る人間や
取り方が均一でない
アウトカム
 データの測り間違い
介入
アウトカム
代表的な情報バイアス
• 想起バイアス
聴取を基にした調査(過去の曝露歴など)の不正確性
– 記憶間違い、適当な回答などに起因する
• 測定バイアス
測定手段や不十分な盲検化に伴う測定の不正確性
– 割り付けを知っている測定者が先入観で判断
– 割り付けを知っている患者の心理が反映される
– 測定者の個人的な技量や判断基準が反映される
– 何回も測定しているうちに測定者・患者が疲れる
交絡(=交絡因子の存在)
「虎の威を借る狐」
「虎を引き連れた狐」を見た動物たちが逃げ出した
– 見た目 「動物たちは狐を見て逃げ出した」
– 真実
「動物たちは虎を見て逃げ出した」
因果関係があるように見える=交絡
動物逃げ出す
狐
関連性あり
(因果関係はなし)
関連性あり
(因果関係)
虎
こういう因子を
交絡因子と呼ぶ
交絡の例
コーヒーをよく飲んでいる人は、飲まない人より
肺癌になる割合が有意に高かった。
↑実はコーヒー好きには喫煙者が多い
本当は因果関係なし
コーヒー
関連性あり
(因果関係はなし)
関連性あり
(因果関係)
喫煙
肺癌
交絡因子:喫煙
その他のバイアス
• 利害バイアス
資金援助を受けている研究に生じるバイアス
– スポンサーの企業や個人に有利な結果を誇張
– スポンサーの企業や個人に不利な結果を隠蔽
• 出版バイアス
成果を世間に報告する際に生じるバイアス
仮説を否定する研究(Negative study)は売れないため…
– 出版社が出版しない、研究者が論文の形にしない
– 有意差が生じるように研究者が結果をこじつける
バイアスへの対策
• 選択バイアス対策
– 参加適格・除外を明確な基準で判断
– 対象のランダム割り付けと追跡
• 情報バイアス対策
– 盲検化の維持、機械による測定手法の均質化
• 交絡対策
– 両群で比較条件以外の因子を揃える(matching)
これらを基にエビデンスの妥当性を系統的に評価
臨床試験の妥当性評価:RAMBO
Recruitment
Allocation
母集団
Blind
Objective
対象者
Maintenance
介入群
対照群
脱落者
アウトカム
アウトカム
RAMBO(1) Recruitment(募集)
研究論文のここに注目
Introduction
Methods
Results
Discussion
読み取りポイント
• 集めた人数は? 参加拒否者の人数と理由は?
• 参加への適格性(eligibility)を判断する基準は?
• 参加からの除外(exclusion)を判断する基準は?
評価ポイント
参加者が母集団に対して代表的(等質)であるか?
RAMBO(2) Allocation(割り付け)
研究論文のここに注目
Introduction
Methods
Results
Discussion
読み取りポイント
• (観察的研究の場合)何を基準に割り付けたか?
• (実験的研究の場合)ランダム化を行ったか?
• 実際の各群の人数と構成要員の臨床的特性は?
評価ポイント
2つの群の比較したい条件以外が揃っているか?
RAMBO(3) Maintenance(維持)
研究論文のここに注目
Introduction
Methods
Results
Discussion
読み取りポイント
• 途中で何人が脱落・中止し、何人が残ったか?
• 脱落・中止の原因は何か?
評価ポイント
参加者の追跡に不備が無かったか?
RAMBO(4) Blind(盲検)
研究論文のここに注目
Introduction
Methods
Results
Discussion
読み取りポイント
• 誰に対して割り付けが隠されているか?
• 盲検化が維持されていたか?(それをどう評価?)
評価ポイント
盲検化が適切に実施されていたか?
RAMBO(5) Objective(客観性)
研究論文のここに注目
Introduction
Methods
Results
Discussion
読み取りポイント
• 介入の内容は? 実際の実施状況は?
• エンドポイントは?(一次/二次、True/Surrogate)
• 測定者や測定機器の測定精度に変化はないか?
評価ポイント
等質かつ客観的な手法で介入・測定が行われたか?
第4日
データの基本
標本数、平均、中央値
• 標本数(標本の総数)は n で表される
• 平均 mean(算術平均 arithmetic mean)
– データ値の総和÷データの総数(n)
– 10, 10, 20, 30, 50, 60なら180÷6=30
• 中央値 median
– データを小さい順に並べた時に中央にくる値
– 10, 10, 20, 30, 50, 60なら20と30の平均(=25)
標準偏差(SD)と標準誤差(SEM)
• 標準偏差 standard deviation(SD)
– {(各データ値-平均)2の総和÷(n-1)}の平方根
– 10, 10, 20, 30, 50, 60 (n=6, 平均=30) なら
2200÷5(=440)の平方根(≒21)
• 標準誤差 standard error of the mean(SEM)
– n個の標本のSDから母集団のSDを推測した値
– nの平方根に反比例し、母集団の数≫nなら
SEM=(標本のSD)÷(nの平方根)
四分位数と四分位範囲
• n個のデータを小さい順に並べた時に
–
–
–
–
1+{(n-1)x(1/4)}番目に来る値=第1四分位数
1+{(n-1)x(2/4)}番目に来る値=第2四分位数(=中央値)
1+{(n-1)x(3/4)}番目に来る値=第3四分位数
第1四分位数~第3四分位数:四分位範囲(IQR) と定義
• 10, 10, 20, 30, 50, 60なら、
– 第1四分位数(2.25番目):10+(20-10)x0.25=12.5
– 第3四分位数(4.75番目):30+(50-30)x0.75=45
– 四分位範囲(IQR):12.5~45
正規分布
中心から両端に向かって
均等に下がっていく分布
2xSD(SEM)
平均
正規分布を対象とした検定は
パラメトリック検定と呼ばれる
• 平均±SD
に約70%
• 平均±2xSD に約95%
の対象者が含まれる
正規分布のデータはn・平均・SD(SEM)で表記
エラーバーグラフ
平均±SEM(SD)で正規分布を表現するグラフ
SEM(またはSD)は上側しか表示しないことも多い
標準誤差
(SEM)
平均
(Mean)
非正規分布
四分位範囲
正規分布以外の分布
左右非対称、山が2つある、…
非正規分布を対象とした検定は
ノンパラメトリック検定と呼ばれる
範囲
中央値
非正規分布のデータは平均値で表現できない
中央値、四分位範囲などを用いて実測値で表現
箱ひげグラフ
中央値・範囲で非正規分布を表現するグラフ
外れ値(1つ1つoなどで表記)
最大値(≦第3四分位数+1.5xIQR)
第3四分位数
中央値
四分位区間(IQR)
第1四分位数
最小値(≧第1四分位数-1.5xIQR)
p値(有意確率)
偶然その結果が生じる確率(信頼性の指標)
• 「p=0.125」の意味とは?
– その結果は12.5%の確率で「偶然の産物」
– その結果は87.5%の確率で意味のあるもの(有意)
• p<有意水準(通常は0.05)→有意差あり
• p値に関する注意点
– p値の大きさと差の大きさは無関係
– p値が十分小さくても実は差が無い可能性もある
●%信頼区間(Confidential Interval)
全ての値の●%を含む範囲(信頼性の指標)
•
結論が逆転する可能性がある=差は有意でない
– 「差」の95%信頼区間が0を含む→p≧0.05と同義
– 「比」の95%信頼区間が1を含む→p≧0.05と同義
•
信頼区間の広さはぶれ幅を表す
– 信頼区間が狭い→信頼性が高い
– 信頼区間が広い→正しく測定できているか怪しい
•
差や比の実質的な大きさが評価できる
p値と信頼区間の例
p = 0.08
*
Hazard Ratio: 0.90
[95%CI: (0.69-1.24)]
*p < 0.05
有意差なし
有意差あり
第Ⅰ種の誤りと第Ⅱ種の誤り
• 第Ⅰ種の誤り(αエラー)≒偽陽性
– 差が無いのに「差がある」と判断
– 第Ⅰ種の誤りの発生率はα(=p値)で表される
– 通常はα < 0.05(p<0.05)が必要
※許容されるαの上限(通常は0.05)を有意水準と呼ぶ
• 第Ⅱ種の誤り(βエラー)≒偽陰性
– 差があるのに「差が無い」と判断(≒見落とし)
– 第Ⅱ種の誤りの発生率はβで表される
– 検出力(1-β):通常は > 0.8(β<0.2)が必要