20140108_001

Download Report

Transcript 20140108_001

2014/1/8
臨床統計学セミナー
臨床研究の不正行為につながる要因
西本尚樹1
1.
北海道大学 探索医療教育研究センター(北海道臨床開発機構)
1
バルサルタン:臨床試験疑惑 試験責任者
資格停止 医学会が勧告
2013.11.07 毎日新聞 東京朝刊 28頁 社会面
降圧剤バルサルタン(商品名ディオバン)の臨床試験疑惑を受けて、日本医学会
(高久史麿会長)は6日、所属する118の医学系学会に対し、論文が撤回され
た試験責任者の会員資格を停止するよう勧告した。責任者が役員
の場合は、辞任を求めた。「わが国の臨床研究に対する不信が世界的に広がってい
る」として問題の広がりを重く捉え、異例の厳しい対応に踏み切った。
一連の疑惑では、京都府立医大、東京慈恵会医大で論文作成の過程でデータの不
正操作が判明し、一流医学誌に掲載された論文が撤回された。滋賀医大でも10月末
に大学の調査委員会が論文の科学性を否定し、「撤回した方が良い」との見解を示し
た。千葉大、名古屋大も調査を進めている。
バルサルタン:臨床試験疑惑 データ
5年保存義務化 厚労省方針
2013.12.14 毎日新聞 中部朝刊 22頁 社会面 (全270字)
バルサルタン疑惑を受け、厚生労働省は13日、薬や医療機器の効果を調
べる臨床試験で使うデータについて、研究終
了から最低5年の保存を義務付ける方針を明ら
かにした。大学などの倫理委員会には、研究計画を事前に審査する際、研
究者と企業の間に利害関係で問題がないかの確認も求めることになった。
人が対象の医学研究の新たな倫理指針に関する厚労省などの検討会で
報告された。新薬の承認が目的である「治験」にはデータの保存義務がある
が、臨床研究には無く、研究不正が起きる背景の一つと指摘されていた。厚
労省は、法整備の必要性についても検討を始める。
研究に関する不正行為を起こさないために
Wells FO, Farthing MJG. Fraud and misconduct in
biomedical research / edited by Frank Wells,
Michael Farthing. 4th ed. London ; Ashland, OH:
Royal Society of Medicine Press; 2008.
Fraud and Misconduct in Biomedical
Researchから
Al-Marzoukiらの研究
• 目的
– どのような種類の不正行為(Scientific
misconduct)が臨床試験の結果に影響を与えると
考えられるかを明らかにする
• 方法
– 40名の臨床試験専門家に依頼状を送付
• 専門家はMRC Clinical Trials for TomorrowというMRC
のreview機関の外部専門委員
– 専門家の集団(panel)を構成
– 3段階(round)のディスカッション
結論を収束させる方法
• デルファイ法(Delphi method)
– 1950年代に米国のシンクタンクであるランド・コーポレーション
が開発した手法。
– 専門家グループなどが持つ直観的意見や経験的判断を反復
型アンケートを使って、組織的に集約・洗練する。
– 対象のテーマや設問について参加者に個別に回答してもら
い、得られた結果をして他の参加者の意⾒を⾒てもらった後、
再度同じテーマについて回答してもらう。この過程を何度か繰
り返すことにより、ある程度収束した組織的な⾒解を得ることを
⽬指す⽅式である。
技術革新や社会変動などに関する未来予測を行う
定性調査によく用いられる。
デルファイ法(続き)
• 意見の集約は、中央値/四分位範囲を使うことが多い。
• 得られた回答を数値順に並べ、その中央値の確からしさを1、上位
の四分位値(第1四分位値)と下位の四分位値(第3四分位値)の
確からしさを0.5として、上下それぞれ4分の1の部分に入る“外れ
値”を除いたものを集約された意見として、各回答者にフィードバッ
クする。
• 中央値/四分位範囲で意見を集約する
実際にやったこと
• 1st round(26/32※)
– 臨床試験のデザイン、実施、解析、報告の4領域
に対して不正行為の要因を列挙を40人の専門家
に依頼
• 2nd round(27/32※)
– 1 roundの結果リストに、
① 臨床試験での起こりやすさ
② 結果のゆがめやすさ
– 順位付けをしてもらう
※40人中、32人が参加を表明
実際にやったこと
• 3rd round(25/32)
– 2nd roundで作成したリストと得点分布、自分が付
けた点数を提示した
– 修正するか否かを求めた
結果
結果
結果
結果
考察と結論
• 結果の不正な報告に影響を与えるのは、
Selective reportingと不適切なサブグループ
解析
• デルファイ法は、バイアスの入りづらい手法
であるが、panel sizeの大きさやサンプリング
に関してのおすすめがない
• 限界
– 1st roundで引き出した不正行為につながう意見
が曖昧
– 重複の判定が困難
2014/1/8
臨床統計学セミナー
放射線技術学研究における
統計解析手法の集計と検出力について
西本尚樹1、伊藤陽一2
1.
2.
北海道大学 探索医療教育研究センター(北海道臨床開発機構)
北海道大学 大学院医学研究科 先端医学講座 臨床統計学分野
16
統計手法を使うために
• ガイドラインは出ている
– 福田治彦、大橋靖雄.Japanese Journal of Clinical
Oncology投稿に際しての統計解析結果のレポー
トに関するガイドライン.Japanese Journal of Clinical
Oncology 1997; 27(3): 121-127.
– ICH E9臨床試験のための統計的原則
– 各学会が出している統計手法のガイドライン
倫理委員会について(疫学研究の倫理指針)
(1) 倫理審査委員会の責務及び構成
[2]倫理審査委員会は、学際的かつ多元的な視点から、様々な
立場からの委員によって、公正かつ中立的な審査を行えるよ
う、適切に構成されなければならない。
<
倫理審査委員会の構成に関する細則>
倫理審査委員会は、医学・医療の専門家、法律学の専門家
等人文・社会科学の有識者及び一般の立場を代表する者から
構成され、外部委員を含まなければならない。
また、男女両性で構成されなければならない。
生物統計の専門家が参画し、研究デザインや症例数の設計
について指摘している。
統計の誤用
•
The Lancet's statistical
review process: areas for improvement by authors.
S.M. Gore, G. Jones, S.G. Thompson.
Lancet, 340(8811), 100-102,1992.
– 1990.11-1991.6の190本の論文
– 統計家によるレビュー
• 54%の論文がacceptableまたはacceptable after revision
• 32%が追加のrevisionまたは再査読
• 14%がrejectを推奨
The
統計手法の集計
薬理学研究での統計手
法の実態─典型的な誤用とその解決方法─. 日本薬
• 浜田知久馬,赤澤理緒,西沢友恵.
理学会雑誌, 133,2009. 306-310.
統計手法の誤用
薬理学研究での統計
手法の実態─典型的な誤用とその解決方法─. 日本
• 浜田知久馬,赤澤 理緒,西沢 友恵.
薬理学会雑誌, 133,2009. 306-310.
検出力1-βについて
• 有意水準αは気にするが・・・検出力が言及されることは少
ない。
• 検出力:真に差があるときに、検定で差があると結論する確
率。1-βで表される。
• データを取る前に、期待される効果の差とば
らつきの大きさ(標準偏差)から見積もってお
く。
• 慣例では80%以上にすることが多い。
– 例えば、検出力が50%→本当に差があっ
たとしても、検定で差があると結論できる
可能性は五分五分。
問題点と目的
• 疑問
– 医療情報学に関する領域で、どのような統計手法が用
いられているのだろうか?
– それら、統計手法の利用に問題はないのだろうか?
• 目的
– 医療情報学に関する領域で使われている統計手法を
集計し、問題点を探る
– 検出力が確保されているか、現状を明らかにする
対象と方法
• 対象
– 医療情報学と密接な関係もち、論文数の多い学会誌として日
本放射線技術学会雑誌を選択した
– 2011年1月から2011年12月までの日本放射線技術学会雑誌
(日本語)の原著論文32本を対象とした
– 統計解析手法に関する記述および倫理に関する記述を対象と
した
• 方法
1. 論文から倫理に関する項目(同意取得)を抽出し集計を行っ
た。
2. 論文から統計解析手法に関する記述を抽出し集計を行った
3. 検出力を算出した
検出力の算出について
• nQuery Adviser7.0#1を使用して、effect
size=0.2, 0.5として算出した。
効果の差𝛿
Effect size =
標準偏差𝜎
• 例:Studentのt検定の場合の検出力の計算式
n=
2 𝑧1−𝛼 + 𝑧1−𝛽
𝑑
𝜎
2
2
𝑧1−𝛽 =
𝑑 𝑛/2
𝜎 − 𝑧1−𝛼
#1 Statistical solutions社
結果
カウント
2群の比較
– t検定:33%(student, Paired, Welch )
•
離散値の解析
– χ2検定:13.1%
累積割合
•
統計手法
カウント
同意取得の記述
累積割合
物理実験・細胞を使った実験が多い(44%)
書面同意は1件(3%)
上記以外(53%)
t検定の検出力分布
Effect size=0.2
検出力
検出力=1-β
Effect size=0.5
検出力
効果の差𝛿
Effect size =
標準偏差𝜎
考察
考察1:手法の頻度について
• 2群の比較が33%
– student, Welch, paired-t検定
• 連続量に対する2群の比較に使われるが・・・
• 背景の検定で使われていることが多い(5/13=38.4%)
• 臨床的な大きさの議論ができるため適切な利用と考えらえ
る
– Mann-whitneyのU検定
• 外れ値には頑健であるが、大きさの議論ができない
• 離散値の関連性の検定13.1%
– χ2検定
• 背景の方よりをみるために利用されている
考察2:物理実験的な研究について
• 同意取得:人を対象としない物理実験のため、記述な
しという論文で、12件(12/31=38.7%)
• ファントム実験等で、記述統計がメイン
• ばらつきに対する考え方がヒトを対象としたデータの
解析とは異なるが・・・
• 推定値の範囲(信頼区間など)を算出すべき
考察3:検出力について
• 検出力を再計算
– 効果の差とばらつきの比
を0.5以下に設定したとこ
ろ、論文中のサンプルサイ
ズでは、検出力が足りな
い。
考察4:同意取得の有無について
• 同意取得の有無
– 倫理委員会で承認を得た
• HPなどに研究内容を公開?
• 口頭同意?
• 書面で同意?
• 全部書面で取る必要はないと思うが・・・
– 記述がなくてもよい?
考察5:記述の項目にばらつきがみられる
• 学会が統計解析に関する記述のガイドライン
を出していない、他のガイドラインを引用して
いない
• 検証的or探索的な解析か
• 症例数の設計をしているか
• どの指標に対して、どの解析を行うのか?
– 対応のある指標については、対応のあるt検定を
行った・・・どれですか?
再解析ができるように記述されていない
結論
• 医療情報学に関する領域で使われている統計手法を集
計し、問題点を挙げた
–
–
–
–
有意水準をいくつにしたのか、記述がない
検証的研究か、探索的研究による利用か区別されていない
学際領域ゆえに、ばらつきへの考え方が異なる
しかし、推定値の範囲だけでも示すべき
• 倫理委員会の記述はあるが、同意取得に関する記述は曖
昧である
• 検出力について
– 足りていない研究がある
– リソースの無駄使いをしている可能性
• 差があったとしても、検出できるかどうか