プロトコルの作成と試験デザイン
Download
Report
Transcript プロトコルの作成と試験デザイン
2005FEB02
臨床試験のデザインと論文への記載法
-臨床試験登録を念頭において-
NPO日本臨床研究支援ユニット(J-CRSU)理事長
東京大学医学系研究科 生物統計学/疫学・予防保健学
大橋靖雄
臨床(試験)研究の目標
バラツキを小さくすること(精度を高くすること)
Clarity Minimizing bias (random error)
偏り(バイアス)を小さくすること
Comparability Minimizing bias, Internal validity
広い対象に適用できる結論を得ること
Generalizability External validity
ある臨床研究
目的:骨粗しょう症に対するI薬のビタミンDとの併用効果を調べる。
方法:…の患者のうち、I薬単独と併用の患者合わせて48例を対象。
観察期間は3年まで。骨量の変化はMD法で評価。
結果:骨量に関しては併用効果有意。骨折は両群とも2例で有意差なし。
・ランダム化されているのか? 時代効果は?
・評価の際のマスキングは?
・骨折の差を見出しうる検出力は? (研究の感度)
・そもそもI薬の骨量増加効果、骨折予防効果はあるのか?
(研究の前提、rationale)
Garbage in, Garbage out
内容
臨床試験の進め方と相の概念
CONSORT
デザインの基本
エンドポイントの設定
対照の選択とランダム化・割り付け
盲検
症例数の決定
非劣性試験
中間解析
臨床試験に必要なもの
研究計画書(プロトコル)
実施システム
統計家のインプットと解析計画書
CRF(調査票)とその標準化
データマネージメントのシステム
モニタリングと監査
評価基準(有効性と毒性)
Planning
Designing
Conducting
Validation
品質保証システム
Publishing
臨床試験の進め方
通常の薬剤
第I相
健常人対象(専門施設)
単回、連投試験
安全性検討、薬物動態
第II相 患者対象、通常並行群
有効性の検討、用法用量の決定
安全性の検討
第III相 患者対象、通常並行群
標準治療との非劣性(優越性)
プラセボとの優越性の検証
抗癌剤
通常は患者対象
複数スケジュール、増量
MTD・推奨用量決定
患者対象、通常単群
腫瘍縮小による有効性の確認
安全性(毒性)の検討
日本では市販後
標準治療との比較
(通常組み合わせで)
MTD: Maximum tolerated dose
第 I 相試験
一般薬
目的
安全性の検討
薬物動態
がん
MTD or 推奨用量決定
薬物動態
デザイン
健常人ボランティア
経口では単回から連投
群毎に増量/並行群ランダム化
普通は単盲検
クロスオーヴァーもあり
連投ではプラセボ入れること多い
十数例-40例
普通は患者(進行がん、普通は既治療)
スケジュールは薬物による
(注射は3週おき単回or5連投, 週1など
経口は連日(休みいれることもあり))
盲検はしない、プラセボもなし
普通は群毎(3-6例)に増量
十数例-40例
第 II 相試験
一般薬
目的
有効性の確認
用量の決定
安全性の検討
がん
有効性の確認
(抗腫瘍効果)
安全性の検討
デザイン
ランダム化並行群
(3群以上)
普通はプラセボ含む2重盲検
100-500例
普通は1群
ランダム化II相
盲検なし
20-100例
第Ⅲ相試験
一般薬
目的
有効性の検証
安全性の検討
がん
有効性の確認
(…Survival)
安全性の検討
デザイン
ランダム化並行群
ランダム化並行群
(2群が多い)
プラセボ対照優越性
実薬対照優越性or非劣性
実薬対照優越性or非劣性
安全性高ければ上乗せで
普通は2重盲検
プラセボ対照もあり
100例以上 1000例以上のことも
Clinical Trial: Design Types
Piantadosi A(1997), Clinical Trials, Wiley
Clinical Pharmacology Study
Phase I
Phase II
Phase I/II
Phase III
Treatment/Mechanism
Dose-finding
Safety and Efficacy
Comparative
Treatment Efficacy
Phase IV
Expanded safety
Statistical Approach in Drug Development
explanatory
Treatment Mechanism*
Dose-finding
Safety and Efficacy
Clinical Pharmacology Study
Phase I
Phase II
Phase I/II
exploratory, decision making
Phase III
Comparative
Treatment Efficacy
Phase IV
confirmatory, regulatory
Expanded safety
Proof of Concept (POC) trial*
プロトコル開発:参考
臨床試験の一般的なテキスト
Pocock(著)・コントローラ委員会訳: クリニカル・トライアル、篠原出版, 1989.
Meinert C : Clinical Trials, Oxford Univ. Press,1986. (大規模試験)
Buyse ME, Staquet MJ and Silvester RJ: Cancer Clinical Trials, Oxford, 1984.
Green S, Benedetti J and Crowley J: Oncology Clinical Trials, 2nd Ed.,
Chapman & Hall, 2003. (福田治彦他訳「がん臨床試験の実際」、医学書院)
プロトコルの構成・デザインのガイドライン
ICH-E3ガイドライン(総括報告書)E9ガイドライン(統計解析)
http://www.nihs.go.jp/ich/ichindex.html
JCOGプロトコルマニュアル
CBI 臨床試験方法論セミナー
http://www.jcog.jp/ (改訂前)
http://cbi.umin.ne.jp/
完全なプロトコルなど存在しない
常に存在するgray zone
常に行われる改正amendment改定revision
完璧な研究など存在しない。
存在するのは不完全さの程度の違いである。
(C.Meinert)
臨床研究報告のガイドライン
Uniform requirements for manuscripts submitted to biomedical journals
(http://www.icmje.org)
The CONSORT statement (http://www.consort-statement.org)
Good publication practice for pharmaceutical companies (http://www.gppguidelines.org)
Reporting of Statistics
Lang TA and Secic M: How to Report Statistics in Medicine -Annotated
Guidelines for Authors, Editors and Reviewers, American College of
Physicians, 1997.
Fukuda H and Ohashi Y: A guideline for reporting results of statistical
analysis in JJCO, Japan. J. Clinical Oncology 27, 121-127, 1997
(http://www.jjco.org/ 英文・日本語とも)
CONSORT
CONSORT statement
Consolidated Standards of Reporting Trials
臨床疫学者、統計学者、主要医学雑誌編集者グループICMJEの活動成果
1996年発表、2001年改訂
150を超える医学雑誌が採用
ランダム化臨床試験(2群)の標準報告様式、しかし概念は共通
フロー図、チェックリスト
他の標準報告様式も
QUOROM(ランダム化試験メタアナリシス)、
MOOSE(観察研究メタアナリシス)、STARD(診断技術)
記載ないものの強く望まれる項目
倫理委員会による承認
資金源
臨床試験登録番号(ISRCTN)
CONSORT
CONSORT statement
1996年版
Begg C, Cho M, Eastwood S et al. : Improving the quality of reporting of randomized
controlled trials, JAMA 1996; 276: 637-9.
2001年版
Moher D, Schulz KF, Altman D for the CONSORT Group, The CONSORT Statement:
Revised recommendations for the improving the quality of reports of parallel-group
randomized trials, JAMA 2001; 285: 1987-91 Lancet 2001; 357: 1197-4. Annals Int.
Medicine 2001; 134: 657-62.(JAMAの日本語版 2002年6月号:118-24)
http://www.consort-statement.org/
(日本語版http://homepage3.nifty.com/cont/consort_statement/menu.html)
詳細な説明もホームページにあり ( Annals Int. Medicine 2001; 134: 663-94)
CONSORT Statement
CONSORT
CONSORT
CONSORT Statement
チェックリスト
CONSORT Statement
タイトルと抄録
参加者はどのように割り付けられたか
はじめに
背景 科学的背景とrationale
方法
参加者
介入
目的
アウトカム
症例数
ランダム化
記号列の作成
Concealment
実施
CONSORT
CONSORT Statement
方法(続き)
盲検化/マスキング
統計的手法
結果
参加者の流れ
募集
ベースラインデータ
解析された人数
アウトカムと効果の推定
補助的解析
有害事象
考察
解釈
一般化可能性
全体としてのエビデンス
CONSORT
内容
臨床試験の進め方と相の概念
CONSORT
デザインの基本
エンドポイントの設定
対照の選択とランダム化・割り付け
盲検
症例数の決定
非劣性試験
中間解析
エンドポイント
臨床試験で何を評価するのか?
有効性
efficacy
何を指標(エンドポイント)に?
安全性
safety
経済性
cost-minimization, cost-effectiveness,
cost-benefit
エンドポイント
Long term endpoints & surrogate(代替) ones
Short-term
Middle-term
Long-term
糖尿病
Blood sugar
HbA1c
Complication
高脂血症
TCH, LDL
Arteriosclerosis
MI/CHD Death
骨粗鬆症
Bone marker
Bone density
Bone Fracture
エンドポイント
エンドポイントの設定
真のエンドポイントかsurrogateか
検証すべき特性
信頼性 (評価者間、評価者内(再現性)) reliability, reproducibility
妥当性
validity
感度
sensitivity
実施可能性
feasibility
複数のエンドポイント
事前に一つのprimaryを選択
事前に検定順序を規定
統計的に総合化 (O’Brien法)
エンドポイント
良いエンドポイントとは?
信頼性(再現性)
妥当性
感度
実施可能性
reproducibility
他者の評価なら inter-rater reliability
validity 測りたいことを測っているか
sensitivity, responsiveness
feasibility
エンドポイント
DCCT研究(血糖コントロールと網膜症)
エンドポイント
DCCT研究(血糖コントロールと網膜症)
DCCT研究(血糖コントロールと網膜症)
エンドポイント
網膜症の判定は信頼できるか?
エンドポイント
エンドポイント
網膜症の判定は信頼できるか?
網膜症の判定は信頼できるか?
エンドポイント
対照の選択とランダム化
臨床試験の基本は「比較」である
クロスオーヴァー試験
クロスオーヴァー試験
クロスオーヴァー試験
個人差を消す試験方法
応用場面
軽い慢性的な疾患、あるいは「もとに戻る疾患」
軽い喘息、安定した糖尿病、睡眠薬
皮膚疾患の貼付剤、眼科領域
生物学的同等性(ジェネリックとブランド品の血中動態の比較)
並行群に比べ症例数少なくてすむ
持ち越し効果が存在すると結果にバイアス(2剤2期)
多剤多期
N-of-1試験
割付けにはバランスをとりバイアスを除去する方法:「ラテン方格法」など
対照の選択とランダム化
どうやって「等質」な対照を選ぶのか?
同一対象に異なる介入 (クロスオーヴァー):使えるのは稀
過去の類似対照 historical control:がんの臨床試験(第II相)
診断同じか?
併用治療同じか?
観察・測定方法同じか?
同時対照
選択の恣意性
ランダム化 randomization
患者さんも医師の判断にもよらない、確率的なメカニズムで
未知の要因についても平均的には等質に
平均的には正確な比較
確率的な評価が可能 p値の根拠 厳密にはp値を使えるのは
ランダム化をしたときのみ
盲検化 blinding, masking
割り付け
割り付け allocation
割り付け:複数の介入の
いずれかを被験者に割り当てる
ランダム化(無作為化):
被験者およびその登録状況(施設・
(順序))を固定したとき、複数治療
のいずれにも割り付けられる可能性
がある割り付け
正しいランダム化(無作為化)
さらに望ましいランダム化(無作為化)
品質管理と品質保証
ランダム化手法が不適切であった例
割り付け
割り付け
割り付け (続き)
ランダムでない割り付けとは
恣意的割り付け (医師あるいは患者による選択)
擬似ランダム化
カルテの番号の偶数・奇数
外来診察日
・・・・・・
正しいランダム化とは
各群に割り付けられる確率が事前に設定した値に正確に等しい(通常
は1:1)
より望ましいランダム化とは
ランダム化の方法
完全ランダム化 complete randomization
小規模ではアンバランスの可能性
random allocation
登録例数が定まらないと実施不可能
置換ブロック法 permuted blocks
組み入れ時期によるバイアス避けられる
ブロックサイズ一定か可変か
予見性からはサイズ大きく、バランスからは小さく
ブロックサイズはプロトコルには書かない(ICHガイドライン)
確率を変化させる方法
予見性小さくできる
バイアスコインbiased coin
壷のモデルurn model
不均等割り付け
根拠:プラセボとの大きな差が想定、対照に関する情報豊富、…
2:1はよく用いられる
割り付け
割り付け
ランダム化の方法(続き)
4例をA、Bに均等に割り付け
完全ランダム化
1例毎にA、Bを1/2で割り付ける AAAAからBBBBまで16通り
Random allocation
同数2例・2例の割り付け6通りから一つを選択
AABB ABAB ABBA BBAA BABA BAAB
置換ブロック
2例づつのブロックに分け、その中でrandom allocation
(AB BA) × (AB BA)
バイアスコイン
まず1例目を1:1。もしAなら次にBに割り付ける確率を増やす(例えば2/3)。同様に、
それまでの割り付け例数の差に応じて確率を変える
(確率の偏りを最初は大きく、次第に1:1に近づけるのが壷モデル)
割り付け
ランダム化の方法(続き)
実際に用いられている方法
盲検可能な場合
施設毎の置換ブロック法 permuted-block
2群ブロックの大きさ4の場合、AAPP,… PPAAの6通りを
施設毎にランダムに順次発生
ブロックの大きさはプロトコルに通常記載しない
盲検を行わないがん臨床試験の場合
層別を行うこともあり
通常は2-4程度の因子を用いた動的割り付け法
どの時点でもバランス取れるように割り付け確率変化させる
施設は因子に含める場合とアンバランス程度の制約を与える
場合あり(Zelenの方法)
割り付け
最小化法 minimization
(Pocock and Simon(1975))
それまでの割り付け結果(背景の分布)に応じて割り付け確率を変える動的
割り付け法の代表
性
年齢
重症度
男
女
<50
>=50
III
IV
群A
20
10
11
19
5
25
群B
19
11
10
20
3
27
次患者 (男 <50 III) どちらに割り振ればバランスとれるか
A:20+11+5=36 B:19+10+3=32
Bに割り振る確率大とする
確率を0、1にする決定論的方法は避けるのが賢明
因子の重みを変える等、さまざまな変形
盲検
盲検化(ブラインド)
マスキングともいう
投与法変更・試験中止、併用治療、評価(有効性・安全性)の偏
りを防止
単盲検、2重盲検(実は3重、4重)
キーは第三者が管理
日本ではかつてはコントローラ、最近はCRO管理も
海外では会社の統計・品質保証部門、CROなど
担当医の判断で緊急開票は可能
センターで24時間管理することもあり
開票前にデータを仮固定することが勧められる
治療を盲検化できない試験でも評価のマスキングが勧められる
実薬 プラセボ プラセボ 実薬
プラセボあるいはダブルダミー
割付け(多因子要因実験)
N-SAS BC02
研究代表者 渡辺亨
ホルモン療法低感受性、n+ 症例に対する術後補助療法
エンドポイント
無病生存期間
神経毒性を中心としたHRQOL
ACの有無、Taxaneの種類に関する2×2要因実験
AC有無に関する非劣性non-inferiority試験、1200例
Randomize
n個数
HER2
腫瘍径
術式
施設
動的割付
AC×4 Paclitaxel×4
AC×4 Docetaxel×4
Paclitaxel×8
Docetaxel×8
割付け(多因子要因実験)
多因子要因実験
Factorial experiments
2×2
A noA
B
noB
Bの効果effect of B
Aの効果 effect of A
AとBの間に交互作用無ければ、2つの実験分の情報量
割付け(多因子要因実験)
2×2要因実験:NSAS BC02
ACなし
PAC
無病生存
0.9
ACあり
0.9×0.8
交互作用無ければ
DOC
0.9×0.85
0.9×0.8×0.85
ACの有無?(非劣性)
ACは0.8
(20%リスク減少)
Taxane
の比較
Dは0.85
(15%リスク減少)
割付け(多因子要因実験)
2×2要因実験:NSAS BC02
正確には
無病生存率の対数
無
病
生
存
率
AC優、T差無
P
P
差なし
D
AC無、T差
P
D
D
Tの効果
AC優、T差
ACなし
ACの効果
交互作用無し
P
ACあり
D
量的交互作用
P
D
質的交互作用
P
D
割付け(多因子要因実験)
多因子要因実験の応用
Application of Factorial experiments
完全実施と一部実施
complete/fractional
工業・農業実験では常識化 線点図と直交表
臨床研究ではこれまでは稀
異なるメカニズムの薬剤、とくに予防研究
Blotによる中国臨県のがん予防研究 cancer prevention trial
a,b,c,d 4薬剤群 0,ab,ac,ad,bc,bd,cd,abcdの1/2実施
異なる疾患(エンドポイント)
Physicians’ Health Study
Aspirin(心筋梗塞MI予防)×β-carotene(癌予防)
推進派と慎重派
割付け(多因子要因実験)
1988Jan27 New York Times
Physicians Health Study
心筋梗塞予防のアスピリン
× 癌予防のβカロテン
22000名の医師が参加
中間解析によって
アスピリン部分の中止
Steering Committee of PHS,
NEJM 1987;321:129-35
割付け(多因子要因実験)
2×2要因実験
交互作用ある場合(量的交互作用)には「平均」した効果を推定
交互作用の存在はエンドポイントをどう取るかに依存
生存時間をエンドポイントにした場合、通常は
無病生存率の対数 ~ 対数ハザード
慎重派と積極派
「交互作用が存在すると厄介、その検出は困難」
「要因実験を行わなければそもそも交互作用判らない」
乳がん補助療法領域では要因実験好まれる
CALGB、NSABP
仮説検定と2種類の過誤
α(第1種)とβ(第2種)
事実 新薬は効く
意思決定
承認
(仮説を捨てる)
承認しない
(仮説を捨てない)
p値と検定・症例数の決定
効かない
1-β
検出力power
sensitivity
α
false-positive
β
false-negative
1-α
specificity
行政側: αの維持
スポンサー:資源の制約下でβを小さく (症例数増やす、誤差的バラツキ小さく)
検定の繰り返し(多重性:多エンドポイント、多サブグループ、多時点での検定、複数の
検定手法)、症例の除外:αの増加
症例数の決定
仮説検定と2種類の過誤
必要サンプルサイズの計算
薬効評価ではαは一定(両側5%が標準)
βを減らすには?
効く薬を
精密なエンドポイントを
サンプルサイズを増やす
必要サンプルサイズの計算 (2群 :α=0.05, β=0.10)
連続量なら
各群 21×(群内SD/群平均差)2
割合なら
各群 21×(平均p(1-p))/差2
症例数の決定
仮説検定と2種類の過誤
必要サンプルサイズの計算
Time-to-eventの場合、情報量はイベント数
ハザード(発生率) 半減することを証明するために必要な
イベント数 = 95
(α=0.05 両側、β=0.10)
(累積)発生率
各群に必要 Number-Needed-to-Treat
コントロール群 治療群
な症例数
(1件のイベント減に対して)
1%
0.5%
6330
200
5%
2.5%
1260
40
20%
10.6% 310
10.6
100% 100%
48
---
症例数の決定
仮説検定と2種類の過誤
必要サンプルサイズの計算
差とは何か?
非劣性の場合はホットな問題
優越性の場合:
期待したい差
(新薬開発の場合)
臨床的に意味のある(最小)差
(標準治療確立の場合)
可能な症例数である程度の検出力が保証される差
慣習による設定
臨床的な有意差と統計的な有意差
症例数の決定・非劣性試験
優越性試験と非劣性試験
治療効果の差と信頼区間: 試験治療と標準治療の効果の差 をδ
優越性:Superior
信頼区間
(通常95%)
これが0を含まなければ
「統計的に(5%)有意」
非劣性:Non-inferior
同等:Equivalent
判断できず: Indeterminate
Lower δ
(upper:通常0)
試験治療優れる
δをどう選択するか?
臨床的に無視できる治療効果の違い
領域の違い、標準治療の特性(毒性・コスト)、・・
誰もが認める決定方式は無い
中間解析
中間解析
試験管理のための中間モニタリング
治験の場合はスポンサー+医学専門家(委員会)
医師主導なら実行委員会
症例登録状況・データ収集状況と質・プロトコル遵守状況検討
毒性(オープンのがん臨床試験)監視と必要なら対策
安全性・倫理確保のためのキーをあけた、独立データモニタリング委
員会による中間解析 interim analysis
治験の場合はスポンサーとは独立な事務局・統計解析チーム
医師主導ならデータセンターによる解析
目的: 安全性の監視
有効性に関する判断
新治療が有効なことが明らか
これ以上続けても優越性・非劣性が検証できそうもない
(futility)あるいは劣っていることが明らか
中間解析
JCOG9511: CPT11+CDDP vs Etpo+CDDP for SCLC
Noda et al., NEJM 2002; 346: 85-91
entry 1995-1998, n=230, 2 interim analyses (O’Brien and Fleming type)
2nd analysis was significant and enrollment was stopped
中間解析
中間解析
有効中止の場合の統計解析
通常は、数回検定を行う群逐次法 group sequential
情報量あるいは時期で実施時期設定
癌補助療法では情報量は通常はイベント数
多重性の調整法
通常は柔軟なLan-DeMets法 α消費関数
回数・時期と検定方法はプロトコル(遅くとも解析計画書)に規定
Futiltyの解析
確率打ち切り stochastic curtailment
ベイズ流の予測検出力
中間解析
中間解析の現実
データ固定の遅れ、どこまで固定するか
中止後の集積データの扱い
公表をどうするか
がん補助療法で治療が終わった場合は? 実態は公表
独立な統計家は必要か
治験はともかく研究者主導研究では?
デザイン上の工夫は? 最近の試み
多因子要因実験
クラスターランダム化
事例:施設×月を単位としたランダム化
ベイズ流アプローチの応用
がんI相試験のCRM Continual Reassessment Method
adaptive design
第II相からIII相への移行、アームの削減
中間解析と症例数の途中見直し
条件付き検出力計算等による症例数増加・期間延長
・・・・・・・・・・・