プロトコルの作成と試験デザイン

Transcript プロトコルの作成と試験デザイン

2005FEB02
臨床試験のデザインと論文への記載法
-臨床試験登録を念頭において-
NPO日本臨床研究支援ユニット（J-CRSU）理事長
東京大学医学系研究科生物統計学/疫学・予防保健学
大橋靖雄
臨床（試験）研究の目標
 バラツキを小さくすること（精度を高くすること）
Clarity Minimizing bias (random error)
 偏り(バイアス）を小さくすること
Comparability Minimizing bias, Internal validity
 広い対象に適用できる結論を得ること
Generalizability External validity
ある臨床研究
目的：骨粗しょう症に対するI薬のビタミンDとの併用効果を調べる。
方法：…の患者のうち、I薬単独と併用の患者合わせて48例を対象。
観察期間は3年まで。骨量の変化はMD法で評価。
結果：骨量に関しては併用効果有意。骨折は両群とも2例で有意差なし。
・ランダム化されているのか？時代効果は？
・評価の際のマスキングは？
・骨折の差を見出しうる検出力は？（研究の感度）
・そもそもI薬の骨量増加効果、骨折予防効果はあるのか？
（研究の前提、rationale）
Garbage in, Garbage out
内容



臨床試験の進め方と相の概念
CONSORT
デザインの基本
エンドポイントの設定
対照の選択とランダム化・割り付け
盲検
症例数の決定
非劣性試験
中間解析
臨床試験に必要なもの







研究計画書（プロトコル）
実施システム
統計家のインプットと解析計画書
CRF（調査票）とその標準化
データマネージメントのシステム
モニタリングと監査
評価基準（有効性と毒性）
Planning
Designing
Conducting
Validation

品質保証システム
Publishing
臨床試験の進め方
通常の薬剤
第I相
健常人対象（専門施設）
単回、連投試験
安全性検討、薬物動態
第II相患者対象、通常並行群
有効性の検討、用法用量の決定
安全性の検討
第III相患者対象、通常並行群
標準治療との非劣性（優越性）
プラセボとの優越性の検証
抗癌剤
通常は患者対象
複数スケジュール、増量
MTD・推奨用量決定
患者対象、通常単群
腫瘍縮小による有効性の確認
安全性（毒性）の検討
日本では市販後
標準治療との比較
（通常組み合わせで）
MTD: Maximum tolerated dose
第 I 相試験
一般薬

目的
安全性の検討
薬物動態

がん
MTD or 推奨用量決定
薬物動態
デザイン
健常人ボランティア
経口では単回から連投
群毎に増量／並行群ランダム化
普通は単盲検
クロスオーヴァーもあり
連投ではプラセボ入れること多い
十数例-40例
普通は患者（進行がん、普通は既治療）
スケジュールは薬物による
（注射は3週おき単回or5連投, 週１など
経口は連日（休みいれることもあり））
盲検はしない、プラセボもなし
普通は群毎（3-6例）に増量
十数例-40例
第 II 相試験
一般薬

目的
有効性の確認
用量の決定
安全性の検討

がん
有効性の確認
（抗腫瘍効果）
安全性の検討
デザイン
ランダム化並行群
（3群以上）
普通はプラセボ含む2重盲検
100-500例
普通は1群
ランダム化II相
盲検なし
20-100例
第Ⅲ相試験
一般薬

目的
有効性の検証
安全性の検討

がん
有効性の確認
（…Survival）
安全性の検討
デザイン
ランダム化並行群
ランダム化並行群
（2群が多い）
プラセボ対照優越性
実薬対照優越性or非劣性
実薬対照優越性or非劣性
安全性高ければ上乗せで
普通は2重盲検
プラセボ対照もあり
100例以上 1000例以上のことも
Clinical Trial: Design Types
Piantadosi A(1997), Clinical Trials, Wiley
Clinical Pharmacology Study
Phase I
Phase II
Phase I/II
Phase III
Treatment／Mechanism
Dose-finding
Safety and Efficacy
Comparative
Treatment Efficacy
Phase IV
Expanded safety
Statistical Approach in Drug Development
explanatory
Treatment Mechanism*
Dose-finding
Safety and Efficacy
Clinical Pharmacology Study
Phase I
Phase II
Phase I/II
exploratory, decision making
Phase III
Comparative
Treatment Efficacy
Phase IV
confirmatory, regulatory
Expanded safety
Proof of Concept (POC) trial*
プロトコル開発：参考

臨床試験の一般的なテキスト
Pocock(著)・コントローラ委員会訳: クリニカル・トライアル、篠原出版, 1989.
Meinert C ： Clinical Trials, Oxford Univ. Press，1986. (大規模試験）
Buyse ME, Staquet MJ and Silvester RJ: Cancer Clinical Trials, Oxford, 1984.
Green S, Benedetti J and Crowley J: Oncology Clinical Trials, 2nd Ed.,
Chapman & Hall, 2003. （福田治彦他訳「がん臨床試験の実際」、医学書院）

プロトコルの構成・デザインのガイドライン
ICH-E3ガイドライン（総括報告書）E9ガイドライン（統計解析）
http://www.nihs.go.jp/ich/ichindex.html
JCOGプロトコルマニュアル

CBI 臨床試験方法論セミナー
http://www.jcog.jp/ （改訂前）
http://cbi.umin.ne.jp/
完全なプロトコルなど存在しない
常に存在するgray zone
常に行われる改正amendment改定revision
完璧な研究など存在しない。
存在するのは不完全さの程度の違いである。
（C.Meinert)
臨床研究報告のガイドライン



Uniform requirements for manuscripts submitted to biomedical journals
(http://www.icmje.org)
The CONSORT statement (http://www.consort-statement.org)
Good publication practice for pharmaceutical companies (http://www.gppguidelines.org)
Reporting of Statistics
 Lang TA and Secic M: How to Report Statistics in Medicine -Annotated
Guidelines for Authors, Editors and Reviewers, American College of
Physicians, 1997.
 Fukuda H and Ohashi Y: A guideline for reporting results of statistical
analysis in JJCO, Japan. J. Clinical Oncology 27, 121-127, 1997
(http://www.jjco.org/ 英文・日本語とも)
CONSORT
CONSORT statement
Consolidated Standards of Reporting Trials







臨床疫学者、統計学者、主要医学雑誌編集者グループICMJEの活動成果
1996年発表、2001年改訂
150を超える医学雑誌が採用
ランダム化臨床試験（2群）の標準報告様式、しかし概念は共通
フロー図、チェックリスト
他の標準報告様式も
QUOROM（ランダム化試験メタアナリシス）、
MOOSE(観察研究メタアナリシス）、STARD（診断技術）
記載ないものの強く望まれる項目
倫理委員会による承認
資金源
臨床試験登録番号（ISRCTN)
CONSORT
CONSORT statement
1996年版
Begg C, Cho M, Eastwood S et al. : Improving the quality of reporting of randomized
controlled trials, JAMA 1996; 276: 637-9.
2001年版
Moher D, Schulz KF, Altman D for the CONSORT Group, The CONSORT Statement:
Revised recommendations for the improving the quality of reports of parallel-group
randomized trials, JAMA 2001; 285: 1987-91 Lancet 2001; 357: 1197-4. Annals Int.
Medicine 2001; 134: 657-62.(JAMAの日本語版 2002年6月号：118-24)
http://www.consort-statement.org/
（日本語版http://homepage3.nifty.com/cont/consort_statement/menu.html）
詳細な説明もホームページにあり（ Annals Int. Medicine 2001; 134: 663-94）
CONSORT Statement
CONSORT
CONSORT
CONSORT Statement
チェックリスト
CONSORT Statement



タイトルと抄録
参加者はどのように割り付けられたか
はじめに
背景科学的背景とrationale
方法
参加者
介入
目的
アウトカム
症例数
ランダム化
記号列の作成
Concealment
実施
CONSORT
CONSORT Statement



方法（続き）
盲検化/マスキング
統計的手法
結果
参加者の流れ
募集
ベースラインデータ
解析された人数
アウトカムと効果の推定
補助的解析
有害事象
考察
解釈
一般化可能性
全体としてのエビデンス
CONSORT
内容



臨床試験の進め方と相の概念
CONSORT
デザインの基本
エンドポイントの設定
対照の選択とランダム化・割り付け
盲検
症例数の決定
非劣性試験
中間解析
エンドポイント
臨床試験で何を評価するのか？
 有効性
efficacy
何を指標(エンドポイント）に？
 安全性
safety
 経済性
cost-minimization, cost-effectiveness,
cost-benefit
エンドポイント
Long term endpoints & surrogate（代替） ones
Short-term
Middle-term
Long-term
糖尿病
Blood sugar
HbA1c
Complication
高脂血症
TCH, LDL
Arteriosclerosis
MI/CHD Death
骨粗鬆症
Bone marker
Bone density
Bone Fracture
エンドポイント
エンドポイントの設定


真のエンドポイントかsurrogateか
検証すべき特性
信頼性（評価者間、評価者内（再現性）） reliability, reproducibility
妥当性
validity
感度
sensitivity
実施可能性
feasibility

複数のエンドポイント
事前に一つのprimaryを選択
事前に検定順序を規定
統計的に総合化（O’Brien法）
エンドポイント
良いエンドポイントとは？

信頼性（再現性）

妥当性
感度
実施可能性


reproducibility
他者の評価なら inter-rater reliability
validity 測りたいことを測っているか
sensitivity, responsiveness
feasibility
エンドポイント
DCCT研究（血糖コントロールと網膜症）
エンドポイント
DCCT研究（血糖コントロールと網膜症）
DCCT研究（血糖コントロールと網膜症）
エンドポイント
網膜症の判定は信頼できるか？
エンドポイント
エンドポイント
網膜症の判定は信頼できるか？
網膜症の判定は信頼できるか？
エンドポイント
対照の選択とランダム化
臨床試験の基本は「比較」である
クロスオーヴァー試験
クロスオーヴァー試験
クロスオーヴァー試験


個人差を消す試験方法
応用場面
軽い慢性的な疾患、あるいは「もとに戻る疾患」
軽い喘息、安定した糖尿病、睡眠薬
皮膚疾患の貼付剤、眼科領域
生物学的同等性（ジェネリックとブランド品の血中動態の比較）





並行群に比べ症例数少なくてすむ
持ち越し効果が存在すると結果にバイアス（２剤２期）
多剤多期
N-of-1試験
割付けにはバランスをとりバイアスを除去する方法：「ラテン方格法」など
対照の選択とランダム化
どうやって「等質」な対照を選ぶのか？


同一対象に異なる介入（クロスオーヴァー）：使えるのは稀
過去の類似対照 historical control：がんの臨床試験（第II相）
診断同じか？
併用治療同じか？
観察・測定方法同じか？

同時対照
選択の恣意性

ランダム化 randomization
患者さんも医師の判断にもよらない、確率的なメカニズムで
未知の要因についても平均的には等質に
平均的には正確な比較
確率的な評価が可能 p値の根拠厳密にはp値を使えるのは
ランダム化をしたときのみ

盲検化 blinding, masking
割り付け
割り付け allocation
割り付け：複数の介入の
いずれかを被験者に割り当てる
ランダム化（無作為化）：
被験者およびその登録状況（施設・
（順序））を固定したとき、複数治療
のいずれにも割り付けられる可能性
がある割り付け
正しいランダム化（無作為化）
さらに望ましいランダム化（無作為化）
品質管理と品質保証
ランダム化手法が不適切であった例
割り付け
割り付け
割り付け（続き）

ランダムでない割り付けとは
恣意的割り付け（医師あるいは患者による選択）
擬似ランダム化
カルテの番号の偶数・奇数
外来診察日
・・・・・・

正しいランダム化とは
各群に割り付けられる確率が事前に設定した値に正確に等しい（通常
は１：１）

より望ましいランダム化とは
ランダム化の方法

完全ランダム化 complete randomization
小規模ではアンバランスの可能性

random allocation
登録例数が定まらないと実施不可能

置換ブロック法 permuted blocks
組み入れ時期によるバイアス避けられる
ブロックサイズ一定か可変か
予見性からはサイズ大きく、バランスからは小さく
ブロックサイズはプロトコルには書かない（ＩＣＨガイドライン）

確率を変化させる方法
予見性小さくできる
バイアスコインbiased coin
壷のモデルurn model

不均等割り付け
根拠：プラセボとの大きな差が想定、対照に関する情報豊富、…
２：１はよく用いられる
割り付け
割り付け
ランダム化の方法（続き）
４例をA、Bに均等に割り付け
完全ランダム化
１例毎にA、Bを1/2で割り付ける AAAAからBBBBまで16通り
Random allocation
同数2例・2例の割り付け6通りから一つを選択
AABB ABAB ABBA BBAA BABA BAAB
置換ブロック
2例づつのブロックに分け、その中でrandom allocation
（AB BA) × （AB BA)
バイアスコイン
まず１例目を１：１。もしAなら次にBに割り付ける確率を増やす（例えば2/3）。同様に、
それまでの割り付け例数の差に応じて確率を変える
（確率の偏りを最初は大きく、次第に１：１に近づけるのが壷モデル）
割り付け
ランダム化の方法（続き）

実際に用いられている方法
盲検可能な場合
施設毎の置換ブロック法 permuted-block
2群ブロックの大きさ4の場合、AAPP,… PPAAの６通りを
施設毎にランダムに順次発生
ブロックの大きさはプロトコルに通常記載しない
盲検を行わないがん臨床試験の場合
層別を行うこともあり
通常は2-4程度の因子を用いた動的割り付け法
どの時点でもバランス取れるように割り付け確率変化させる
施設は因子に含める場合とアンバランス程度の制約を与える
場合あり（Zelenの方法）
割り付け
最小化法 minimization
（Pocock and Simon(1975))
それまでの割り付け結果（背景の分布）に応じて割り付け確率を変える動的
割り付け法の代表
性
年齢
重症度
男
女
<50
>=50
III
IV
群A
20
10
11
19
5
25
群B
19
11
10
20
3
27
次患者（男 <50 III) どちらに割り振ればバランスとれるか
A:20+11+5=36 B:19+10+3=32
Bに割り振る確率大とする
確率を0、1にする決定論的方法は避けるのが賢明
因子の重みを変える等、さまざまな変形
盲検
盲検化（ブラインド）




マスキングともいう
投与法変更・試験中止、併用治療、評価（有効性・安全性）の偏
りを防止
単盲検、２重盲検（実は3重、4重）
キーは第三者が管理
日本ではかつてはコントローラ、最近はCRO管理も
海外では会社の統計・品質保証部門、CROなど

担当医の判断で緊急開票は可能
センターで24時間管理することもあり
開票前にデータを仮固定することが勧められる


治療を盲検化できない試験でも評価のマスキングが勧められる
実薬プラセボプラセボ実薬
プラセボあるいはダブルダミー
割付け（多因子要因実験）
N-SAS BC02
研究代表者渡辺亨


ホルモン療法低感受性、n+ 症例に対する術後補助療法
エンドポイント
無病生存期間
神経毒性を中心としたHRQOL


ACの有無、Taxaneの種類に関する2×2要因実験
AC有無に関する非劣性non-inferiority試験、1200例
Randomize
n個数
HER2
腫瘍径
術式
施設
動的割付
AC×4 Paclitaxel×4
AC×4 Docetaxel×4
Paclitaxel×8
Docetaxel×8
割付け（多因子要因実験）
多因子要因実験
Factorial experiments
2×2
A noA
B
noB
Bの効果effect of B
Aの効果 effect of A
AとBの間に交互作用無ければ、２つの実験分の情報量
割付け（多因子要因実験）
２×２要因実験：NSAS BC02
ACなし
PAC
無病生存
0.9
ACあり
0.9×0.8
交互作用無ければ
DOC
0.9×0.85
0.9×0.8×0.85
ACの有無？（非劣性）
ACは0.8
(20%リスク減少）
Taxane
の比較
Dは0.85
(15%リスク減少）
割付け（多因子要因実験）
２×２要因実験：NSAS BC02
正確には
無病生存率の対数
無
病
生
存
率
AC優、T差無
P
P
差なし
D
AC無、T差
P
D
D
Tの効果
AC優、T差
ACなし
ACの効果
交互作用無し
P
ACあり
D
量的交互作用
P
D
質的交互作用
P
D
割付け（多因子要因実験）
多因子要因実験の応用
Application of Factorial experiments
完全実施と一部実施
complete/fractional
工業・農業実験では常識化線点図と直交表
臨床研究ではこれまでは稀
異なるメカニズムの薬剤、とくに予防研究
Blotによる中国臨県のがん予防研究 cancer prevention trial
a,b,c,d ４薬剤群 0,ab,ac,ad,bc,bd,cd,abcdの1/2実施
異なる疾患（エンドポイント）
Physicians’ Health Study
Aspirin（心筋梗塞MI予防）×β-carotene（癌予防）
推進派と慎重派
割付け（多因子要因実験）
1988Jan27 New York Times
Physicians Health Study
心筋梗塞予防のアスピリン
× 癌予防のβカロテン
22000名の医師が参加
中間解析によって
アスピリン部分の中止
Steering Committee of PHS,
NEJM 1987;321:129-35
割付け（多因子要因実験）
２×２要因実験


交互作用ある場合（量的交互作用）には「平均」した効果を推定
交互作用の存在はエンドポイントをどう取るかに依存
生存時間をエンドポイントにした場合、通常は
無病生存率の対数～対数ハザード

慎重派と積極派
「交互作用が存在すると厄介、その検出は困難」
「要因実験を行わなければそもそも交互作用判らない」

乳がん補助療法領域では要因実験好まれる
CALGB、NSABP
仮説検定と２種類の過誤
α(第１種)とβ(第2種）
事実新薬は効く
意思決定
承認
（仮説を捨てる）
承認しない
（仮説を捨てない）
p値と検定・症例数の決定
効かない
1-β
検出力power
sensitivity
α
false-positive
β
false-negative
1-α
specificity
行政側： αの維持
ｽﾎﾟﾝｻｰ：資源の制約下でβを小さく（症例数増やす、誤差的バラツキ小さく）
検定の繰り返し（多重性：多エンドポイント、多サブグループ、多時点での検定、複数の
検定手法）、症例の除外：αの増加
症例数の決定
仮説検定と２種類の過誤
必要サンプルサイズの計算


薬効評価ではαは一定（両側5%が標準）
βを減らすには？
効く薬を
精密なエンドポイントを
サンプルサイズを増やす
必要サンプルサイズの計算（2群：α=0.05, β=0.10）
連続量なら
各群 21×（群内SD/群平均差）2
割合なら
各群 21×（平均p(1-p））/差2
症例数の決定
仮説検定と2種類の過誤
必要サンプルサイズの計算
Time-to-eventの場合、情報量はイベント数
ハザード（発生率）半減することを証明するために必要な
イベント数 = 95
（α=0.05 両側、β=0.10）
（累積）発生率
各群に必要 Number-Needed-to-Treat
ｺﾝﾄﾛｰﾙ群治療群
な症例数
（1件のｲﾍﾞﾝﾄ減に対して）
1%
0.5%
6330
200
5%
2.5%
1260
40
20%
10.6% 310
10.6
100% 100%
48
---
症例数の決定
仮説検定と２種類の過誤
必要サンプルサイズの計算

差とは何か？
非劣性の場合はホットな問題

優越性の場合：

期待したい差
（新薬開発の場合）
臨床的に意味のある（最小）差
（標準治療確立の場合）
可能な症例数である程度の検出力が保証される差
慣習による設定
臨床的な有意差と統計的な有意差
症例数の決定・非劣性試験
優越性試験と非劣性試験
治療効果の差と信頼区間: 試験治療と標準治療の効果の差をδ
優越性：Superior
信頼区間
（通常95%）
これが0を含まなければ
「統計的に（5%）有意」
非劣性：Non-inferior
同等：Equivalent
判断できず: Indeterminate
Lower δ
(upper：通常0)
試験治療優れる
δをどう選択するか？
臨床的に無視できる治療効果の違い
領域の違い、標準治療の特性（毒性・コスト）、・・
誰もが認める決定方式は無い
中間解析
中間解析

試験管理のための中間モニタリング
治験の場合はスポンサー＋医学専門家（委員会）
医師主導なら実行委員会
症例登録状況・データ収集状況と質・プロトコル遵守状況検討
毒性（オープンのがん臨床試験）監視と必要なら対策

安全性・倫理確保のためのキーをあけた、独立データモニタリング委
員会による中間解析 interim analysis
治験の場合はスポンサーとは独立な事務局・統計解析チーム
医師主導ならデータセンターによる解析
目的：安全性の監視
有効性に関する判断
新治療が有効なことが明らか
これ以上続けても優越性・非劣性が検証できそうもない
（futility)あるいは劣っていることが明らか
中間解析
JCOG9511: CPT11+CDDP vs Etpo+CDDP for SCLC
Noda et al., NEJM 2002; 346: 85-91
entry 1995-1998, n=230, 2 interim analyses (O’Brien and Fleming type)
2nd analysis was significant and enrollment was stopped
中間解析
中間解析

有効中止の場合の統計解析
通常は、数回検定を行う群逐次法 group sequential
情報量あるいは時期で実施時期設定
癌補助療法では情報量は通常はイベント数
多重性の調整法
通常は柔軟なLan-DeMets法 α消費関数
回数・時期と検定方法はプロトコル（遅くとも解析計画書）に規定

Futiltyの解析
確率打ち切り stochastic curtailment
ベイズ流の予測検出力
中間解析
中間解析の現実



データ固定の遅れ、どこまで固定するか
中止後の集積データの扱い
公表をどうするか
がん補助療法で治療が終わった場合は？実態は公表

独立な統計家は必要か
治験はともかく研究者主導研究では？
デザイン上の工夫は？最近の試み



多因子要因実験
クラスターランダム化
事例：施設×月を単位としたランダム化
ベイズ流アプローチの応用
がんI相試験のCRM Continual Reassessment Method

adaptive design
第II相からIII相への移行、アームの削減
中間解析と症例数の途中見直し
条件付き検出力計算等による症例数増加・期間延長
・・・・・・・・・・・

プロトコルの作成と試験デザイン

Transcript プロトコルの作成と試験デザイン

Directory