グレードダウン - GRADEシステム

Transcript グレードダウン - GRADEシステム

診断検査にGRADEを適用する
Applying GRADE to
diagnostic tests
相原守夫 Morio Aihara, M.D.
(member of the GRADE Working Group)
相原内科医院青森県弘前市青山3-8-2
TEL: 0172-33-0055
[email protected]
2012/10/23
2012/08/01
1
Morio aihara, M.D.
Hirosaki, Japan
http://www.facebook.com/morio.aihara
2012/08/01
2
本資料の作成および、改訂情報
今後の内容改訂については、このセクションで重要な変更のまとめを示す。
今後は、本資料の新しいバージョンをダウンロードするたびにこのセクションを参照していただきたい。
 2012.10.23 web公開
 2012.07.18： Holger Schunemannより許可を得て、診断検査に関するGRADE論文の翻訳を臨床評価誌に投
稿
GRADEの適用：診療ガイドラインにおいて診断検査に関する根拠に基づく推奨を作成する
臨床評価 2012; 40(1): 199-212. http://homepage3.nifty.com/cont/40_1/p199-212.pdf
 2012.06.01: Holger Schunemann, Jan Brozekら、海外のGRADEメンバーにppt (ver.20120510) 送付
 2012.05.10: 「診断検査にGRADEを適用する」ppt (ver. 20120510) 作成開始
I have had the support and encouragement of Holger J Schunemann, Jan L Brozek, Gordon Guyatt and Yngve
Falck-Ytter. I would like to appreciate their support very much.
GRADEハンドブック翻訳版（ハンドブック情報 *）に記載してあるが、エビデンスの質と推奨の強さをグレーディングする
ためのGRADEハンドブックを複製および翻訳する場合は、編集者からの許可を得ること（Holger J Schunemann, Jan
Brozek, Andrew Oxman)。
2012/08/01
3
GRADE：Grading of Recommendation
Assessment, Development and Evaluation
http://www.gradeworkinggroup.org/index.htm
online learning modules: http://cebgrade.mcmaster.ca/
GRADEシステムに関する日本語の情報源
相原内科医院 webサイトにて公開しています。
http://www.grade-jpn.com/
■診療ガイドラインのためのGRADEシステム（相原他、凸版メディア出版、2010）
http://homepage3.nifty.com/aihara/grade-cover.html
■GRADEハンドブック (version 3.2 翻訳版、Free）
http://homepage3.nifty.com/aihara/GRADEproHelp.html
■GRADEシステムの使い方（PPT, free）
http://homepage3.nifty.com/aihara/how_to_use_grade_aihara_20120426.ppt
■GRADEガイドライン作成の流れ：解説 http://www.grade-jpn.com/grade_gl_flow_aihara.pdf
本解説は、http://www.grade-jpn.com/grade_gl_flow_20120717_2.pdf の項目に対応した内容です。
2012/08/01
4
診断GRADEのワークショップ資料
診断検査・診断戦略を扱うGRADEは、治療介入のGRADEと基本的には同じであ
るが、検査精度は患者にとって重要なアウトカムの代理アウトカムである。診断検査
・診断戦略のエビデンスの質の判断は治療介入とは異なる点がある。
http://homepage3.nifty.com/aihara/GRADE-Dx_workpackage_20101016_j.pdf *
* Holger Schunemann教授作成のGRADE-Dx_workpackage 20101016.doc を許可を得て日本語翻訳したものです。
2012/08/01
5
診断GRADEに関する資料
翻訳論文
GRADEの適用：診療ガイドラインにおいて診断検査に関する根拠に
基づく推奨を作成する
臨床評価 2012; 40 (1): 199-212*
http://homepage3.nifty.com/cont/40_1/p199-212.pdf
*Open access論文（Hsu et al.: Application of GRADE: Making evidence-based
recommendations about diagnostic tests in clinical practice guidelines. Implementation
Science 2011 6:62）をHolger Schunemann教授の許可を得て日本語翻訳したものです。
2012/08/01
6
翻訳
GRADEの基本は、JAMA Users’ Guide to the Medical
Literatureに記載されているEBMであり、本書を日本語翻
訳したものが「医学文献ユーザーズガイド、根拠に基づく診
療のマニュアル」である。
http://homepage3.nifty.com/aihara/jama_evidence.html
2012/08/01
7
診断GRADEのkey論文*
•GRADE guidelines: Applying GRADE to diagnostic tests (JCE series #14; not published yet)
•Jonathan Hsu, Jan L Brozek, Luigi Terraciano, Julia Kreis, Enrico Compalati, Airton TETELBOOM Stein,
Alessandro Fiocchi and Holger J Schunemann.
Application of GRADE: Making Evidence-Based Recommendations about Diagnostic Tests in Clinical
Practice Guidelines.
Implementation Science 2011, 6:62 (*)
•Brozek JL, Akl EA, Jaeschke R, Lang DM, Bossuyt P, Glasziou P, Helfand M, Ueffing E, Alonso-Coello P,
Meerpohl J, Phillips B, Horvath AR, Bousquet J, Guyatt GH, Schünemann HJ; GRADE Working Group.
Grading quality of evidence and strength of recommendations in clinical practice guidelines: Part 2 of
3. The GRADE approach to grading quality of evidence about diagnostic tests and strategies.
Allergy. 2009 Aug;64(8):1109-16.
•Schünemann HJ, Oxman AD, Brozek J, Glasziou P, Jaeschke R, Vist GE, Williams JW Jr, Kunz R, Craig J,
Montori VM, Bossuyt P, Guyatt GH; GRADE Working Group.
Grading quality of evidence and strength of recommendations for diagnostic tests and strategies.
BMJ. 2008 May 17;336(7653):1106-10
(*) 臨床評価誌 2012; 40(1): 199-212
出版、翻訳公開は、Schunemann教授より許可を得た。
http://homepage3.nifty.com/cont/40_1/p199-212.pdf
2012/08/01
8
内容
Part-1 診断とは
Part-2 診断検査にGRADEを適用する
Part-3 診断検査のGRADEガイドライン
（エビデンスから推奨へ）
Part-4 その他
The Rational Clinical Examination: Evidence-Based Clinical Diagnosis
GRADE JCEシリーズ
JCEシリーズの introductionの翻訳文
注意：
本資料で利用しているシステマティックレビューやガイドラインのデータ解釈
に関しては、診断GRADEを解説するために個人的にデータを作成したもの
が多く、正確な理解のためにはオリジナル論文を読んでいただきたい。
2012/08/01
9
Part 1
診断とは
(diagnosis)
2012/08/01
10
診断 Dia-gnosis
The word diagnosis is derived through Latin
from Greek:
■”dia” meaning apart, and “gnosis”
meaning to learn.
［ギリシャ語diágnōsis（diá-離して＋gnōsis知ること＝区別すること）］
2012/08/01
11
2012/08/01
12
診断の過程
次のような診断状況を考えてみよう
1. 43才の女性が、左胸部のT3 皮膚分節に集族性有痛性水疱の塊を伴って来院し、あなた
は帯状疱疹ウイルスの再活性化による帯状疱疹だと認識した。
2. 78歳の男性が、高血圧の経過観察で再受診する。彼は、4ヵ月前の最後の通院以降、
10kg体重が落ちている。患者は食欲減退を訴えたが、それ以外の局在症状はなかった。
あなたは、患者の奥さんが1年前に亡くなったことを思い出し、可能性としてのうつ病を考
えるが、患者の年齢と曝露歴（たとえば喫煙）から、他の可能性も示唆された。
2012/08/01
13
診断の過程
診断の過程は、論理的な認識とパターン認識の両方を含む複雑な認知的な過程である。
パターン認識が成立しない場合、臨床医は確率論的な診断思考を採用できる。この場合、臨床医
は考えられる一連の診断を列挙し、各診断の確率を推定して検査を行い、検査結果に基づいて各
診断の確率を増減させ、最終的には、確実な診断がみつかったという確信に至る。
2012/08/01
14
検査前確率を推定することが診断過程を
円滑にする
診断への確率論的アプローチにおいては，各標的状態の確率である検査前確率pretest probability
を推定する。
すべての候補診断の確率の合計は1 に等しくなるべきである。
どのようにして検査後確率を推定できるか？
臨床医の直感
バイアスやランダム誤差
検査結果によって確率がどの程度増減するかについて確信を持つためには、系統的な研究が必
要となる。
治療や害についてと同様に、特定の問題に関する診断検査の論文すべてのシステマティック・レビ
ューが最も強力な推測を可能にする。
2012/08/01
15
疾患確率の推定値はどれくらい精確か
研究が妥当なものであったときでも、研究サンプルにおける疾患頻度は標的集団における疾患の真の確率の
推定値にすぎない。これらの推定値の精確さは、著者らによって提示された信頼区間 confidence intervals
(CIs) によって検討することができる。
著者らがそれらを提示していない場合、次の公式を使って自身で信頼区間を計算できる。
CI が十分に精確だと考えられるかどうかは、あなたの検査閾値test thresholds または治療閾値treatment
thresholds に対して推定された割合とCIがどのような関係にあるかによるだろう。もし推定された割合と95％CI
全体があなたの閾値の同じ側にあるならば、結果は精確で、検査や治療の計画のために使う疾患確率について
確実な結論を可能にする。逆に、もし推定値を取りまく信頼限界があなたの閾値をまたぐならば、結果は十分に
精確ではなく、疾患確率について確定的な結論を下すことはできないだろう。妥当だが不精確な確率が示されて
いる場合でも、その不確実性と検査や治療への意味を念頭におきながら、結果を利用することは可能だろう。
2012/08/01
16
検査後確率と閾値確率の関係が臨床行動
を決める
例：それまでは健康だった運動選手が、野球でファウルボールに当たる事故に遭い、胸郭側面に痛みを訴えて
いる。経験を積んだ臨床医なら臨床問題（外傷後の側胸部痛）を認識し、主仮説（肋骨打撲）と他の有効な選択
肢（肋骨骨折）を特定し、後者を確認するための検査（レントゲン写真）を計画するだろう。臨床医は、要請があれ
ば、確率が低すぎるためにさらなる検討としない疾患（心筋梗塞など）を列挙することもできるだろう。言い換える
と、肋骨打撲の確率ほどは高くはないが、肋骨骨折の確率は検査閾値を上回っているのに対し、心筋梗塞の確
率は検査閾値を下回っている。
2012/08/01
17
検査の２つの特性
精確性 Precision (reliability, reproducibility)
--所見は反復検査しても一定か？
正確性 Accuracy (validity)
--所見は疾患を正確に予測するか？
2012/08/01
18
Precision and Accuracy
Precision: Some researchers will use the words reliability, observer
variability, and precision interchangeably.
In the context of The Rational Clinical Examination series, these terms all
refer to whether or not the findings remain consistent with repeated
examinations, either for the same examiner or for different examiners.
Accuracy: The characteristics of screening tests can be discussed
through a variety of terms including sensitivity, specificity, likelihood
ratios (LRs), and positive or negative predictive value. Accuracy is a
global measure of a test that expresses a simple concept: how often did
the screening test get it “right”? In other words, what percentage of the
time was the target condition present when the test result was positive or
absent when the test result was negative.
2012/08/01
19
Precision and Accuracy
You can use the framework of a dartboard to
illustrate the concepts of precision and accuracy. If
one were aiming at the center of the dartboard, an
accurate throw would hit the center of the board.
An accurate and precise dart player would hit
center every time. Ask your learners to comment
on the next 3 slides.
2012/08/01
20
Precision and Accuracy
This set of results is neither precise (similar results
with each throw) nor accurate (near the center of
the board).
This pattern highlights an important point about
precision. While the observers in this study
showed poor agreement, some observers got very
close to the bull’s-eye. Tests that show low
precision should not be automatically discarded as
useless. The astute investigator (or clinician)
should explore the causes of poor agreement and
see if they can be remedied. For example, the
poor precision illustrated in this slide may have
been attributable to poor technique (eg, listening
for a third heart sound with the diaphragm of the
stethoscope rather than the bell) or simply indicate
the need for practice.
2012/08/01
21
Precision and Accuracy
As the results come more close to the center, the
results are more precise and more accurate. This
slide could also be used to describe random error in
that there does not seem to be a systematic
deviation from the bull’s-eye.
2012/08/01
22
Precision and Accuracy
This set of results is both accurate and precise.
This reflects a precise but inaccurate set of results.
In contrast to the earlier slide, this one could be
used to describe systematic error to introduce the
concept of bias.
2012/08/01
23
Precisionを定量化する
Intra-observer agreement（観察者内一致率）：1人の検査者が２回検査を行って、その結果
がどのくらい一致するかを示すもの。
Inter-observer agreement（観察者間一致率）：複数の検査者が同じ検査を行ったときに、そ
の結果がどのくらい一致するかを示すもの。
Kappa (K)：偶然を超えた一致率
K値の解釈 (*)
•
•
•
•
•
•
2012/08/01
0：一致不良（偶然の一致）
0～0.2：やや一致
0.2～0.4：まあまあの一致
0.4～0.6：中程度の一致
0.6～0.8：かなりの一致
0.8～1.0：ほぼ完璧な一致
24
Kappa統計量
2012/08/01
25
2x2表を使ったKappa値の計算は、
http://homepage3.nifty.com/aihara/2x2.htmlでも可能である。
2012/08/01
26
偶然に依存しない一致であるファイ（φ）
2012/08/01
27
Accuracyを定量化する
•
•
•
•
2012/08/01
感度と特異度
尤度比
陽性適中率と陰性適中率
診断オッズ比
28
感度と特異度、尤度比
２ｘ２表
疾患あり
疾患なし
検査(＋)
真陽性(TP)
偽陽性(FP)
検査(－)
偽陰性(FN) 真陰性(TN)
感度とは、標的状態を持つ患者の
うち、検査陽性の患者の割合のこと
を指す。
SnNOut (*)
特異度とは、標的状態を持たない
患者のうち、検査陰性の患者の割
合のことを指す。
SpPIn (*)
Accuracy = (TP + TN)/(TP + FP + FN + TN)
2012/08/01
29
例：
認知症のSIS検査
参照基準（DSM-IV, ICD-10)
認知症あり
認知症なし
SIS >=3
278
28
306
SIS <3
67
278
345
345
306
感度＝ 0.81 (278/345)
LR+＝ 8.8
特異度＝ 0.91 (278/306)
LR- ＝ 0.21
2012/08/01
30
尤度比（LR)
疾患の可能性をオッズで表わすと、ベイズの定理 Bayes’ theoremと呼ばれる公式が成り立つ。
検査前オッズｘ尤度比＝検査後オッズ
LR をどう解釈したらよいのか。LR は、得られた診断検
査の結果が、どの程度まで標的疾患の検査前確率を上
げるか、または下げるかを示す．LR 1 は、検査後確率が
検査前確率とちょうど同じであることを意味している。LR
が1.0 よりも大きいと、標的疾患が存在する確率を増加さ
せる。つまり、LR が高いほど、この増加は大きくなる．逆
に、LR が1.0 より小さいと、標的疾患の確率を減少させ、
LR が低いほど、確率の減少は大きくなる。
• LR が，＞ 10あるいは＜ 0.1の場合，検査前確率から検査後確率へ，大きな，そしてしばしば決定的変化をもたらす．
• LR が，5 〜10あるいは0.1 〜0.2の場合，検査前確率から検査後確率への，中程度の変化をもたらす．
• LR が，2 〜5と0.5 〜0.2の場合，確率に小さな（しかし，時として重要な）変化をもたらす．
• LR が，1 〜2と0.5 〜1の場合，確率にはわずかな（そして，めったに重要でない）変化しか生じない．
2012/08/01
31
意思決定のための閾値
精密検査
が必要
2012/08/01
32
診断オッズ比
The diagnostic odds ratio is
another global measure of test
accuracy.
Diagnostic odds ratio is a single
indicator of test performance (like
accuracy and Youden's J statistic)
but which is independent of
prevalence (unlike accuracy) and
is presented as an odds ratio
感度、特異度、尤度比、診断オッズ比、Yorden’s Jなどは、
オンラインで計算可能である。
http://homepage3.nifty.com/aihara/2x2.html
2012/08/01
33
Part ２
診断検査にGRADEを適用する
2012/08/01
34
GRADEを使う論拠
結果は妥当か？
例：慢性疼痛の患者にお
いて、ある治療介入の効果
はNNTとして６だった
（systematic review）
GRADE system
患者はランダム割付されていたか？
ランダム割付は隠蔽されていたか？
研究はどの程度盲検化？
追跡は完了しているか？
試験は早期終了されたか？
結果は何か？
効果の大きさは？
risk of bias
(or limitations)
imprecision
どの程度精確か？
各研究結果は似ているか？
結果を適用できるか？
研究患者は自身の患者と似ている
か？
患者にとって重要なアウトカムは全
て考慮されたか？
2012/08/01
レビューに含まれていない報告は
ないか？
inconsistency
Publication bias
indirectness
35
2012/08/01
36
検査には多くの目的がある
臨床医は一般的に「診断的」と称される検査（徴候や症状、画像検査、生化学検査、病理検査、心理
検査を含む）を使う。これらの目的は、生理学的障害の特定、予後の把握、疾患や治療反応の監視、
スクリーニングや診断を含む。
ガイドラインパネルやシステマティックレビューの著者は、診断検査または診断戦略の
確にすべきである。
目的を明
そのためには、標的集団における標準的な診断手順を１つまたは複数決定し、その診断手順にか
限界を同定すべきである。
かわる
2012/08/01
37
新しい診断検査の目的
to minimize use of an invasive or
expensive test
to replace test that is harmful or costly
to improve diagnosis beyond what is already
done
選別
（triage）
新しい検査は従来の診断手順の前に追加され、選別検査によりある特定の結果
が出た患者だけが次の検査手順に進む。選別検査は必ずしもより正確である必
要はないが、一般により簡単かつ低コストで実施できる。
置換
（replacement）
新しい検査はより精度が高く、侵襲性が低く、患者にとってのリスクや不快感が少
なく、技術的に困難が少なく、迅速に結果が得られ、解釈が容易で、コストが低い
などの理由で、従来の検査に取って代わる。
追加
（add-on）
新しい検査が従来の診断手順の後に追加され、従来の診断手順を経た後に、偽
陽性や偽陰性結果の件数を制限するために使用される。追加検査は一般により
正確だが、それ以外の点では従来の検査ほどの魅力はない。
2012/08/01
38
JAMA医学文献ユーザーズガイド根拠に基づく診療のマニュアル
年）
2012/08/01
（相原守夫、他凸版メディア、2010
39
患者と臨床医の考え方の違い
What do patients want?
1
患者が本当に知りたいのは、提供される診断
や治療処置の利益と不利益である。正確な診
断（すなわち、いかにその検査が疾患がある
患者とない患者を正確に分類できるか）に
よって、患者にとって重要なアウトカムが影響
されるというわけではない。
What do clinicians want?
2
臨床医は診断検査を検討する際に、検査精度
に焦点をあてる。これは、標的状態があるかな
いかを正確に評価することが優れた患者マネ
ジメントやアウトカムの改善をもたらすと想定さ
れるためである。
利用できる管理選択肢のうちで、どれが利益が最大で不利益が最小なのか。望ましい帰結
と望ましくない帰結のバランスについてどれほど確信
(confidence) をもてるか。
Clinical practice guidelines should offer answers to these questions by advising about the most
appropriate actions for ‘typical’ patients
2012/08/01
40
検査精度(accuracy)は患者にとって重要なア
ウトカムの代理アウトカムである。
つまり、その後に実施される治療が患者にとっ
て重要なアウトカムに影響を与えるエビデンス
としては非直接的である。
有効な治療がないような疾患の診断検査を考えてみる・・・
2012/08/01
41
「ハンチントン病」（Huntington's Disease）
進行性の不随意運動、認識力低下などが現れる遺伝性疾患であり、根本的な治療法や
進行を防止する治療法は現在のところ確立されていない。
2012/08/01
42
不治の病であるハンチントン病の遺伝子検査の結
果は、病気ではないという喜ばしい安心感を患者
に与えるか、不幸にも病気になることを知りながら
将来設計をする機会を患者に与えるかのいずれ
かである。
2012/08/01
将来設計という利益と早期診断による不利益のバ
ランスを考える必要がある。
つまり、意思決定には価値観と好みが重要な役割
をもつ。
43
2012/08/01
44
診断精度研究
標的集団
検査陽性（TP・FP）
検査陰性（TN・FN)
疾患があるかないかを正確にあるいは不正確に分類された
患者のマネジメントについて推論
２ステップ推論
新しい検査＋標準検査
患者にとって重要なアウトカムに
関する推論
患者にとっての重要なアウトカムとは？
2012/08/01
45
診断精度研究における患者にとって重
要なアウトカム
GRADEシステムでは、以下のアウトカムについて患者にとっての重要度を判定
する。
• 真陽性 (TP): 疾患があると正しく分類された患者
• 真陰性 (TN)：疾患がないと正しく分類された患者
• 偽陽性 (FP)：疾患があると誤って分類された患者
• 偽陰性 (FN)：疾患がないと誤って分類された患者
• 不確かな結果 (inconclusive results)
• 合併症
• コスト
（1000人あたり）
2012/08/01
46
Sensible clinical question
Question 1
triage
Should skin prick tests be used for the diagnosis of
IgE-mediated cows milk allergy (CMA) in patients
suspected of CMA?
Population: patients suspected of CMA
Intervention: skin prick test (SPT)
Comparison: oral food challenge
Outcomes:
2012/08/01
47
GRADEの重要度分類
７～９：重大
４～６：重要だが重大ではない
１～３：重要ではない
2012/08/01
48
アウトカム
帰結
真陽性
TP
TPの小児に対してはOFCが実施され、陽性結果となることから、管理された環境下ではあるが、アナ
フィラキシーのリスクを伴う。家族には時間や不安の面で負担がかかる。牛乳が除去され、アレルギー
用ミルクが使用される。疾患の検査前確率“高”、または負荷試験中にアナフィラキシーショックを起こ
すリスクの高い小児については負荷試験を省略して治療を行う。その場合の治療の帰結は食物負荷試験
を受けた小児と同様である。
真陰性
TN
TNの小児は家庭で牛乳を摂取してもアレルギー反応はなく、牛乳の除去は行われず、家族に時間的負担
はなく、資源の利用 (負荷試験の実施やアレルギー用ミルクの使用) を削減できる。小児や家族が抱える
不安は家庭によって異なるだろう。症状の他の原因の究明が行われる。
偽陽性
FP
FPの小児にはOFCが実施され、陰性となる。家族には時間や不安の面で不要な負担がかかる。経口負荷
試験のために不要な時間と資源が費やされる。CMAの検査前確率が高い小児では負荷試験が省略される
ことから、牛乳を除去した食事やアレルギー用ミルクによる不要な治療が行われ、栄養不足に陥る可能
性がある (例: 発育不全、くる病、ビタミンDまたはカルシウム欠乏症)。また家族はストレスを抱え、高
額な負担となりうる自己注射が可能なエピネフリン製剤を不要に携帯することとなり、症状の本来の原
因の診断が遅れる。
偽陰性
FN
FNの小児は帰宅を許され、家庭で牛乳へのアレルギー反応 (場合によってはアナフィラキシー) を起こす
ことになる。両親は大きな不安を抱え、未知の食材を取り入れることに消極的になる。いくつもの食品
目が除去された食事を摂取することになりかねない。症状の本来の原因 (すなわち、CMA) が見逃される
ため、不要な検査や治療につながる。
不確かな結
果
陰性の陽性対照、または陽性の陰性対照のいずれかに相当する。小児には再度SPTが実施されるため、
子供と親には精神的苦痛を伴うかもしれない。看護師が費やす時間や外来予約の反復から、資源への影
響も考えられる。また、小児に対してはsIgE測定または食物経口負荷試験が実施される。
検査の合併
症
SPTは不快感や湿疹の悪化を引き起こし、それが原因で精神的苦痛を伴う場合や、両親の不安をあおる
場合がある。食物負荷試験はアナフィラキシーや他の症状の悪化を引き起こす場合がある。
資源の活用
(コスト)
SPTでは外来に費やされる時間が増えるがSPT adds extra time to clinic appointment however、OFCの方が
資源への影響ははるかに大きい。
2012/08/01
49
GRADE評価は原則として
Systematic reviewを対象とする
システマティック・レビューとは、「明確に定式化された疑問について、関連する研究の特定・
選択・批判的吟味、および採用研究からのデータを集めて解析する、系統的で明確な方法
を用いるレビュー」である。
GRADE working groupは、ガイドライ
ンパネルが、システマティックレビュー
を実施できならば、既存の質の高い最
新のシステマティクレビューを利用する
ことを勧めている
現在のRevMan5では、感度や特異度の統合は
不可能であり、診断検査のメタアナリシスのた
めには他のツールを利用する必要がある。
2012/08/01
50
附：
診断検査精度のメタアナリシス
How does metaanalysis of diagnostic test accuracy differ from metaanalysis of
interventions?
Evaluating test accuracy requires knowledge of two quantities, the test sensitivity and
specificity.
Meta‐analysis methods for diagnostic test accuracy thus have to deal with two summary
statistics simultaneously rather than one (as is the case for reviews of interventions).
Methods for undertaking analyses which account for both sensitivity and specificity, the
relationship between them, and the heterogeneity in test accuracy, require fitting hierarchical
random effects models, which is beyond the analytical abilities of RevMan. Although
exploratory analyses can be undertaken in RevMan, the definitive analyses needs to be
undertaken in commercial software packages and sophisticated statistical programming
environments such as SAS, Stata, S‐Plus, R, MLwiN or winBUGS/OpenBUGS, for which
collaboration with a statistical expert is highly recommended .
RevMan is not able to do the complex statistical models that are required to meta-analyze data in systematic reviews of diagnostic test
accuracy. More advanced statistical software packages are needed to do these meta-analyses. Specific statistical parameters from the
models run can be input into RevMan in order to draw appropriate graphical displays of the data.
2012/08/01
51
附：
RevManを使って各研究
の感度と特異度が計算可
能である。
しかし、感度、特異度を
それぞれ独立して重み付
け平均をしてはならない
（感度、特異度はカット
オフ値の関数として変化
する）。
2012/08/01
52
附：
メタアナリシスのためのソフトウエア
2012/08/01
53
附：
2012/08/01
54
附：
2012/08/01
55
附：
2012/08/01
56
Diagnostic research: an introductory overview
http://www.teachepi.org/documents/courses/diagrx/Lecture1_Pai_Intro_Diagnostic%20studies.pdf
2012/08/01
57
Diagnostic research: an introductory overview
http://www.teachepi.org/documents/courses/diagrx/Lecture1_Pai_Intro_Diagnostic%20studies.pdf
2012/08/01
58
2012/08/01
59
2012/08/01
60
2012/08/01
61
統合された感度・特異度を
TP, TN, FP, FN (/1000人)に変換する
参照基準
疾患あり
疾患なし
陽性
TP = 感度
x 200
FP = （1 – 特異度）
x 800
陰性
FN = （1 – 感度）
x 200
TN = 特異度
x 800
新しい
検査
有病率: 20 %
200
800
1000
診断精度にかかわるエビデンスの質を解釈するためには、検査前確率の他に臨床医の検
査閾値や治療閾値を考慮する必要がある。感度や特異度の値を、検査を受けた患者1,000
人あたりのTP、TN、FP、FNに分類される患者数として表わし、さらに、間違って分類された
場合に生じる負担を明確に判断することで、パネルメンバーは審査対象となっている各診断
検査の臨床的影響をより容易に把握することができる。
2012/08/01
62
エビデンスの質（定義）
■システマティック・レビュー
「ある効果推定値(estimate of effect) が正しいという確信(confidence) が、
どの程度か」
診断精度研究に関するシステマティックレビューのエビデンスの質評価は、基本的には治療介入研究に関する
エビデンスの質評価と似ている
すなわち、
研究デザインと、エビデンスの質を下げる５つの要因
（質を上げる３つの要因）
2012/08/01
63
GRADEによるエビデンスの質評価
治療介入のエビデンスの質評価
2012/08/01
64
エビデンスの質のGRADE分類
効果推定値に対する“確信の程度”は連続的なものであるが、“エビデンスの質
“を４つのカテゴリーに分類する。
J clinical Epidemiology 64(4): 401-406, 2011
エビデンスの質
最新の定義
以前の定義
High
真の効果が効果推定値に近いという
確信がある(*)。
今後の研究によって効果推定値に対する
確信性が変わる可能性は低い(very
unlikely)
Moderate
効果推定値に対し、中等度の確信が
ある。真の効果が効果推定値に近い
と考えられるが、大幅に異なる可能
性もある。
今後の研究によって効果推定値に対する
確信性に重要な影響がおよぶ可能性が
高く(likely)，推定値が変わる可能性があ
る(may)
Low
効果推定値に対する確信には限界
がある。真の効果は効果推定値とは
大きく異なるかもしれない。
今後の研究によって効果推定値に対する
確信性に重要な影響がおよぶ可能性が
非常に高く(very likely)，推定値が変わる
可能性が高い(likely)
Very Low
効果推定値に対しほとんど確信がも
てない。真の効果は、効果推定値と
は大きく異なるものと考えられる。
あらゆる効果推定値が不確実である(very
uncertain)
2012/08/01
65
診断精度研究のGRADE評価基準
根底の研究デザイン
診断が不確実な患者において、検査結果を適切な参照基準と直接的に比較した妥当性の
ある診断精度研究（横断研究あるいはコホート研究）は最初、「高」の質のエビデンスと評価
される。しかしこのような研究は稀である。
エビデンスの質を下げるかもしれない５つの要因





研究のデザインや実施における限界（バイアスのリスク）
非直接性（比較対照または集団、新検査、比較検査、およびアウトカム）
研究結果の非一貫性
不精確な結果
出版バイアスの可能性が高い
もしグレードを下げることを正当化する要因があるならば、その限界が深刻か（１段階グレードを下げる）、
または非常に深刻か（２段階グレードを下げる）を検討する。
治療介入のエビデンス評価とどこが同じで、どこが違うのか
2012/08/01
66
診断精度研究のエビデンスの質を決定する要因：
（他の介入の場合との違い）
質を決定する要因
診断以外の介入に関するエビデンスとの違い
研究デザイン
精度研究の、マネジメント試験の場合とは異なる基準
診断が不確実な患者において、適切な参照基準と直接的に比較した横断研究またはコホート研究は、「
高」の質と考えられるが、次の要因によっては、「中」、「低」または「非常に低」になりうる。
研究のデザインや実施
における限界（バイア
スのリスク）
精度研究の、マネジメント試験の場合とは異なる基準
単一のコホートとして連続した患者が組み込まれているべきであり、疾患状態によって分類されるべき
ではなく、選択ならびに紹介プロセスが明確に説明されているべきである。新しい検査法ならびに詳細
に説明された参照基準が、同一の患者集団に属する全患者を対象に実施されるべきであり、代替検査や
参照基準の結果が評価者にわからないようになっているべきである。
エビデンスの非直接性
精度研究の、マネジメント試験の場合と同様の基準
アウトカム
精度研究は患者にとって重要なアウトカムに関する直接的なエビデンスを提供することはない。真陽性、
真陰性、偽陽性、偽陰性の違いが患者にとって重要なアウトカムに与えると想定される影響のバランス
について、検査の合併症やコストと照らし合わせながら、推論しなければならない（診断精度研究は一
般に、治療の代理アウトカムの場合と同様、アウトカムの非直接性により推奨作成のためのエビデンス
としては質が低い）。
患者集団、診断検査・
精度研究の、マネジメント試験の場合と同様の基準
介入、比較検査・介入、以下の場合、エビデンスの質は下げられる。
非直接的な比較
1)研究の集団と推奨の対象集団との間に重要な違いがある（例、疾患の範囲または併存症）。
2)研究の検査、および研究検査を適用する担当者の専門知識と、推奨の対象となる状況との間に重要な
違いがある。
3)比較されている複数の検査が、それぞれ異なる研究の中で参照基準 (ゴールドスタンダード) と比較さ
れており、同一の研究内で直接比較されていない場合は、エビデンスの質は下げられることがある。
結果の非一貫性
精度研究の、マネジメント試験の場合と同様の基準
診断精度研究では、（相対リスクや平均差ではなく）感度、特異度、または尤度比における説明のつか
ない非一貫性により、エビデンスの質を下げることがある。
結果の不精確さ
精度研究の、マネジメント試験の場合と同様の基準
診断精度研究では、検査精度、または真陽性・真陰性・偽陽性・偽陰性の推定値における信頼区間が広
い場合、エビデンスの質を下げることがある。
出版バイアス
2012/08/01
精度研究の、マネジメント試験の場合と同様の基準
出版バイアスのリスクが高い場合（例、新しい介入や検査に関する小規模研究からのエビデンス、また
はファンネルプロット上の左右非対称性）、エビデンスの質を下げることがある。
67
グレードダウン
バイアスのリスク (risk of bias)
研究の限界(limitations) あるいはバイアスのリスク (risk of bias)を評価するために、既存のツール
を使う。（例：コクランが推奨するQUADAS）
QUADASによる診断精度研究の質(risk of bias)
評価基準
QUADAS: Quality Assessment tool for Diagnostic Accuracy Studies
Reitsma JB, Rutjes AWS, Whiting P, Vlassov VV, Leeflang MMG, Deeks JJ,. Chapter 9: Assessing
methodological quality. In: Deeks JJ, Bossuyt PM, Gatsonis C (editors), Cochrane Handbook for
Systematic Reviews of Diagnostic Test Accuracy Version 1.0.0. The Cochrane Collaboration, 2009.
Available from: http://srdta.cochrane.org/.
Cochrane Handbook for DTA Reviews
http://srdta.cochrane.org/sites/srdta.cochrane.org/files/uploads/ch09_Oct09.pdf
2012/08/01
68
QUADAS
項目
#
はい
不明
いいえ






1
患者の範囲は、実際の診療で検査を受けることになる患者を代表していたか？（代表的な範
囲か）
2
参照基準は標的状態を正確に分類できると考えられるか？（参照基準は許容できるか）
3
参照基準と指標検査の間の期間が短く、合理的に考えて、検査と検査の間の期間で標的状態
に変化はなかったといえるか（検査間の遅延は許容できるか）



4
診断の参照基準によって検証されたのは、サンプル全体かまたはサンプルから任意に選択さ
れた者か？（部分的検証が回避されたか）



5
患者は指標検査の結果に関わらず、同じ参照基準による検査を受けたか？（鑑別的検証が回
避されたか）



6
参照基準は指標検査と独立していたか（すなわち、指標検査が参照基準の一貫として行われ
ていなかったか）？（混同は回避されたか）



7
参照基準の結果の解釈は、指標検査の結果がわからない状態で行われたか？（指標検査の結
果は盲検化されたか）



8
指標検査の結果の解釈は、参照基準の結果がわからない状態で行われたか？（参照基準の結
果は盲検化されたか）



9
実際の診療で検査が使われる場合と同様の臨床データが入手可能だったか？（関連する臨床
情報）



10
解釈不能または中間的な検査結果は報告されていたか？（解釈不能の結果は報告されたか）



11
研究からの脱落については説明があったか？（脱落は説明されたか）



http://homepage3.nifty.com/aihara/GRADE-Dx_workpackage_20101016_j.doc
QUADASオリジナルは14個、コクラン版では11個の質問から成っており、それぞれの質問に対して“Yes”か“No”、もしくは
“Unclear”か回答する。判定結果をmethodological quality summary, graphとして提示する。
2012/08/01
69
コクランハンドブックより
QUADAS評価項目
2012/08/01
70
QUADAS-2
http://www.annals.org/content/155/8/529.full.pdf+html
2012/08/01
71
グレードダウン
バイアスのリスク (risk of bias)
WAO_DRACMAガイドラインパネルは、IgE依存性牛乳アレルギーの診断のために、皮膚プリック
テストを使うべきかどうかの疑問をとり扱った。しかし、ほとんどの研究においてアトピー性湿疹また
は消化管症状のある厳選された患者が組み込まれ、指標検査または標準検査の解釈は他の検査
結果がわからない状態で行われたかどうかについて報告したものはなく、ある検査結果を解釈する
人がもう一方の検査結果を知っていた可能性が非常に高い。さらには、1つの研究をのぞいて、患
者の脱落理由について説明した研究はなかった。これらの深刻なrisk of biasによって、ガイドライ
ンパネルはエビデンスの質のグレードを下げる評価をした。
The combined sensitivity in these studies was 0.67(95% CI: 0.64–0.70) and the
specificity was 0.74 (95% CI: 0.72– 0.77).
2012/08/01
72
グレードダウン
エビデンスの非直接性 (indirectness)
非直接性は：
第１に、集団、介入（新しい検査）、比較（標準検査またはゴールドスタンダード）、およびアウトカムに関して評価する。
第２に、２つの検査の診断精度が比較される場合、２つの検査が個別の研究において互いに直接的に比較されてい
たか、または標準検査と比較されていたかを評価する。
第３に、アウトカムに関する直接性の評価は、代理アウトカムとしてのTP, FP, TN, FNへの分類が患者にとって重要な
アウトカムとどのように関連しているかを判断する必要がある。(*)
牛乳アレルギーの患者に関するガイドラインパネルは、当該疾患の確率が比較的低い（約10%）
患者についての皮膚プリックテストは、不要に不安や追加的検査につながる数多くの偽陽性をも
たらすと決定した。さらに、重症アレルギー反応や死亡のリスクのある牛乳アレルギー患者の3%
が見落とされてしまう（検査が実施された患者33/1000人が偽陰性）。
2012/08/01
73
グレードダウン
結果の非一貫性 (inconsistency)
非一貫性：
治療介入のエビデンスの評価と同じ基準
診断精度研究では、（相対リスクや平均差ではなく）、感度、特異度、または尤度比における説明のつかない
非一貫性により、エビデンスの質を下げることがある。
WAO_DRACMAガイドラインパネルは、
「感度の推定値は10～100%で、特異度の推定値は14～100%である。研究の質、使われた検査、
または組み込まれた集団によってこの異質性を説明できなかった」としてエビデンスの質を深刻な
非一貫性ありとした。
2012/08/01
74
グレードダウン
結果の不精確さ (imprecision)
不精確さ：
治療介入のエビデンスの評価と同じ基準
診断精度研究では、検査精度、または真陽性・真陰性・偽陽性・偽陰性の推定値における信頼区間が広い
場合、エビデンスの質を下げることがある。
WAO_DRACMAガイドラインパネルは、
感度や特異度（あるいはTP,TN,FP、FN）の信頼区間の幅は狭く、エビデンスの質を下げることはな
いと評価した。
Imprecision of results. As for therapeutic interventions, wide confidence intervals around estimates of test
accuracy or true and FP and FN results can reduce quality of evidence from diagnostic accuracy studies. In the
example of diagnosis of work-related asthma, the confidence intervals around sensitivity and specificity were
narrow enough to infer that within the range of plausible results, the final recommendation would be the same.
(*)
2012/08/01
75
グレードダウン
出版バイアス (publication bias)
出版バイアス：
治療介入のエビデンスの評価と同じ基準
出版バイアスのリスクが高い場合（例、新しい介入や検査に関する小規模研究からのエビデンス、またはファンネ
ルプロット上の左右非対称性）、エビデンスの質を下げることがある。
牛乳アレルギーの患者に関するガイドラインパネルは、
出版バイアスはなさそうであると評価した。
Publication bias. Publication bias may be suspected, however not proven, when published evidence
is limited to few small studies, in particular, if they support a presumed hypothesis and were funded by a
body with a vested interest in a particular diagnostic method.(*)
2012/08/01
76
グレードアップ
GRADEアップの要因
治療介入のエビデンスの評価と同じ基準
Large effect, Dose dependence, confoundingに相当するグレードアップの要因については、
診断精度研究においてどのようなアプローチが適切なのかをGRADE working group内で検討中である。(*)
2012/08/01
77
Evidence profile
Question 1
牛乳アレルギー(CMA)の疑い患者において、IgE依存性CMAの診断のために皮膚プリックテストを使うべきか。カットオフ値≥3 mm（すべての集団）
エビデンスの質を下げるかもしれない要因
最終の
質
1000人あたりの効
果1
重要度
ありそうに
ない

低
有病率 80%: 536人
有病率 40%: 268人
有病率 10%: 67人
重大
なし
ありそうに
ない

低
有病率 80%: 148人
有病率 40%: 444人
有病率 10%: 666人
重大
深刻３
なし
ありそうに
ない

非常に
低
有病率 80%: 52人
有病率 40%: 156人
有病率 10%: 234人
重大
なし
深刻３
なし
ありそうに
ない

低
有病率 80%: 264人
有病率 40%: 132人
有病率 10%: 33人
重大
–
–
–
–
–
–
–
重要
–
–
–
–
–
–
–
–
重要でない
–
–
–
–
–
–
–
–
重要でない
アウトカム
研究数
研究デザイン
真陽性
（CMAの患者
）
23件
(2302人
）
真陰性
（CMAのない
患者）
限界
非直接
性
非一貫
性
不精確
さ
連続的または
非連続的なシ
リーズ
深刻２
なし
深刻３
なし
23件
(2302人
）
連続的または
非連続的なシ
リーズ
深刻２
なし
深刻３
偽陽性
（CMAがある
と誤って分類
される患者）
23件
(2302人
）
連続的または
非連続的なシ
リーズ
深刻２
深刻４
偽陰性
（CMAがない
と誤って分類
される患者）
23件
(2302人
）
連続的または
非連続的なシ
リーズ
深刻２
５
1件
（310人
）
非連続的なシ
リーズ
合併症
報告なし
コスト
報告なし
不確かな結果
１統合された感度67%（95%CI:
出版バイア
ス
64～70）と特異度74%（95%CI: 72～77）に基づく。
ほとんどの研究において、アトピー性湿疹または消化管症状のある厳選された患者が組み込まれ、指標検査または標準検査の解釈は他の検査結果がわから
ない状態で行われていたどうかについて報告した研究はなく、ある検査結果を解釈する人がもう一方の検査結果を知っていた可能性が非常に高い。1件の研
究を除いて、患者の脱落理由について説明した研究はなかった。
3 感度の推定値は10～100%で、特異度の推定値は14～100%である。研究の質、使われた検査、または組み込まれた集団によってこの異質性を説明できなか
った。
4 これらの患者の帰結に関しては不確実性がある。ある患者では、他の潜在的な重症状態の診断が遅れるかもしれない。
5 12ヶ月未満の小児を対象とした1つの研究において、8%の不確かなチャレンジテスト結果が報告されていたが、不確かな皮膚プリックテストの件数につい
ては報告がなかった。
78
2012/08/01
2
Summary of findings
アウトカム全般に関する全体的なエビデンスの質(QoE)は、
Very low *
2012/08/01
79
Part ３
診断検査のGRADEガイドライン
（エビデンスから推奨へ）
2012/08/01
80
推奨の強さ（推奨度）
推奨度判定
の４要因
2012/08/01
81
強い推奨度の定義と意味
Strong recommendation
定義
介入による望ましい効果（利益）が望ましくない効果（害・負担・コスト）を上回
る，または下回る確信が強い。
患者にとって
その状況下にあるほぼ全員が、推奨される行動を希望し、希望しない人が
ごくわずかである。
臨床医にとって
ほぼ全員(most individuals)が推奨される介入を受けるべきである。ガイドラ
インに準じた推奨を遵守しているかどうかは、医療の質の基準やパフォーマ
ンス指標としても利用できる。個人の価値観や好みに一致した意思決定を
支援するためのフォーマルな意思決定支援は不要だろう。
政策作成者にとって
ほとんどの状況下で、推奨事項をパフォーマンス指標として政策に採用する
ことが可能である。
2012/08/01
82
弱い推奨度の定義と意味
Weak recommendation*
定義
介入による望ましい効果（利益）が望ましくない効果（害・負担・コスト）を上
回る、または下回る確信が弱い
患者にとって
その状況下にある人の多くが提案される行動を希望するが、希望しない人
も多い。
臨床医にとって
推奨される行動を提案し、患者が意思決定できるよう支援することは、医療
の質の基準やパフォーマンス指標として利用できるだろう。意思決定支援
は、患者が自身の価値観や好みに基づいて意思決定を行うのにおそらく有
用だろう。エビデンスやエビデンスの要約を各自で吟味し、患者の意思決
定に影響するような要因を話し合うために準備する。
政策作成者にとって
政策決定のためには、多数の利害関係者を巻き込んで実質的な論議を重
ねる必要がある。パフォーマンス指標においては、管理の選択についての
十分な検討が必要である。
2012/08/01
83
推奨の強さ（推奨度）
推奨度判定の４要因
①
②
③
④
重大なアウトカム全般に関する全体的なエビデンスの質
望ましい効果と望ましくない効果のバランス
価値観や好み
コストや資源の利用
診断精度研究のエビデンスを評価する際は、異なる検査前確率における効果の
違いを検討する必要が大切である。
2012/08/01
84
Decision table
例：
推奨の強さの決定要因
判定
説明
望ましい効果と望ましくない効果のバランスが不確
実（コストは考慮しない
■ はい
利益が不確実である。
正味の利益が少なく、望ましい効果と望ましくない効果のバランスについ
て不確実性が大きいほど、推奨度が「弱い」とされる可能性が高くなる。
□ いいえ
エビデンスの質は「moderate」であ
る。
エビデンスの質が低い
□ はい
全体的なエビデンスの質が低い（または非常に低い）ほど、推奨度が「弱
い」とされる可能性が高くなる。
■ いいえ
患者の価値観や好みの不確実さ、あるいは相違
□ はい
価値観や好みにばらつきがあるほど、または価値観や好みにおける不
確実性が大きいほど、推奨度が「弱い」とされる可能性が高くなる
■ いいえ
死亡リスクを考慮すると治療のマイ
ナス面は少ないことからほとんどの
患者が治療を受け入れると考えら
れる。
正味の利益がコストや資源に見合うかどうか不確実
□ はい
薬剤のコストはそれほど高くない。
介入のコストが高いほど、すなわち消費される資源が多いほど、推奨度
が「強い」とされる可能性が低くなる）
■ いいえ
2012/08/01
85
望ましい効果と望ましくない効果のバランス
Balance of desirable and undesirable outcomes determines the direction
and influences the strength of a recommendation.
This balance depends on the magnitude of the expected desirable and
undesirable effects and how patients value certain outcomes.
2012/08/01
86
QUESTION 1
Should skin prick tests be used for the diagnosis of IgE-mediated CMA in patients suspected of CMA?
2012/08/01
87
QUESTION 1
Should skin prick tests be used for the diagnosis of IgE-mediated CMA in patients suspected of CMA?
OFCが必ず実施され
るセッティング
Skin prick test
（検査閾値が低く、治
療閾値が高い）
Pooled Specificity
= 0.74 (0.72-0.77)
Pooled Sensitivity
= 0.67 (0.64-0.70)
指標検査(Skin prick test) の併用はその精度の限界
からして無意味であり、併用すべきでない。
strong recommendation (against)
/ very low QoE
QoE: quality of evidence
2012/08/01
88
QUESTION 1
Should skin prick tests be used for the diagnosis of IgE-mediated CMA in patients suspected of CMA?
Summary of findings (*)
OFCが全患者に実施
されないセッティング：
High prevalence
Skin prick test
Pooled Sensitivity =
0.67 (0.64-0.70)
Pooled Specificity =
0.74 (0.72-0.77)
High prev群(80%)では prick test陽性により (post test: 91%)、
約50%はチャレンジテスト回避できる。
FP 5%には低い価値をおいた。
weak recommendation / low QoE
QoE: quality of evidence
2012/08/01
89
QUESTION 1
Should skin prick tests be used for the diagnosis of IgE-mediated CMA in patients suspected of CMA?
Summary of findings (*)
OFCが全患者に実施
されないセッティング：
Low prevalence
Skin prick test
Pooled Sensitivity =
0.67 (0.64-0.70)
Pooled Specificity =
0.74 (0.72-0.77)
Low prev群(10%)では prick test陰性により (post test 4%)、
CMA をほぼ除外でき、約70%はチャレンジテスト回避できる。
しかし、3%は偽陰性。
weak recommendation / low QoE
2012/08/01
90
QUESTION 1
Should skin prick tests be used for the diagnosis of IgE-mediated CMA in patients suspected of CMA?
Summary of findings (*)
OFCが全患者に実施され
ないセッティング：
Average prevalence
Skin prick test
Pooled Sensitivity =
0.67 (0.64-0.70)
Pooled Specificity =
0.74 (0.72-0.77)
Average prev群(40%)では prick test陽性(post test 62%)で、FP,
FN結果の患者はチャレンジテストにつながるかもしれなく、チャレンジ
テストを回避するための単独検査としては有用ではない可能性が高
い。偽陽性・偽陰性として不適切に分類される割合が高いことから、
skin prick testを、triage or add-on testとして利用することは推奨せ
ず、チャレンジテストを推奨する。
Strong recommendation (against)
/ very low QoE
2012/08/01
91
WAO_DRACMA guideline
QUESTION 1
Should skin prick tests be used for the diagnosis of IgE-mediated CMA in patients suspected of CMA?
2012/08/01
92
WAO_DRACMA guideline
QUESTION 1
Should skin prick tests be used for the diagnosis of IgE-mediated CMA in patients suspected of CMA?
2012/08/01
93
ガイドライン作成1年後
の影響はどうか？
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3225314/
DRACMA one year after: Which changes have occurred in diagnosis and
treatment of CMA in Italy?
Alessandro Fiocchi, Holger Schunemann,Luigi Terracciano,Marco Albarini,Alberto
Martelli,Massimo Landi,Enrico Compalati and Giorgio Walter Canonica
2012/08/01
94
他の例
replacement
Question 2
冠動脈疾患(CAD)の診断に、従来の冠動脈造影よりもマルチスライススパイラルCTを使用すべきか?
Hamon M et al. Diagnostic performance of multislice spiral computed tomography of coronary arteries as compared with conventi onal
invasive coronary angiography: a meta-analysis. J Am Coll Cardiol 2006;48:1896–1910.
疑問：冠動脈疾患(CAD)の診断に、従来の冠動脈造影よりもマルチスライススパイラルCTを使用すべきか?
患者または集団：冠動脈疾患の疑いの成人患者
セッティング：組み込まれた試験は欧州と北米において実施されたものである。
(Quality assessment for diagnostic accuracy studies)
エビデンスの質を下げるかもしれない要因
アウトカム
研究数
研究デザイ
ン
バイアスのリス
ク
非直接性
出版バイアス
最終の質
非一貫性
不精確さ
深刻な非一貫性
深刻な不精確
さなし
検出されな
い4

中
深刻な不精確
さなし
検出されな
い4

中
深刻な不精確
さなし
検出されな
い4

中
深刻な不精確
さなし
検出されな
い4

低
真陽性
（CADの患者）
21件
(1,570人)
横断研究1
深刻な限界な
し
不確実性はわず
かかほとんどな
い
真陰性
(CADのない患者)
21件
(1,570人)
横断研究1
深刻な限界な
し
不確実性はわず
かかほとんどな
い
偽陽性
(CADありと誤っ
て分類された患者)
21件
(1,570人)
横断研究1
深刻な限界な
し
不確実性はわず
かかほとんどな
い
偽陰性
(CADなしと誤って
分類された患者)
21件
(1,570人)
横断研究1
深刻な限界な
し
いくらかの不確
実性あり2
深刻な非一貫性
不確かな結果
–
–
–
–
–
–
–
–
コスト
–
–
–
–
–
–
–
–
1
3
深刻な非一貫性
3
深刻な非一貫性
3
3
全ての患者が従来の冠動脈造影を受けるように選択されたため、全体的に冠動脈疾患の確率が高かった（組み込まれた研究における有病率の中央値は63.5%、
範囲6.6～100%）。
2 診断の遅れや心筋梗塞による有害な影響を招きかねない偽陰性に関わるエビデンスの直接性にいくらかの不確実性があるため、偽陰性の検査結果の帰結に
関するエビデンスの質を「高」から「中」に下げる。
3 感度（冠動脈造影が陽性でＣＴスキャンが陽性の患者の割合）、特異度（冠動脈造影が陰性でＣＴスキャンが陰性の患者の割合）、尤度比、診断オッズ比
の結果に統計的に有意で説明のつかない異質性があったため、真陽性、真陰性、偽陽性の検査結果の帰結に関するエビデンスの質を「高」から「中」に、偽
陰性の検査結果に関しては
「中」から「低」に下げる13。
95
2012/08/01
4 出版バイアスの可能性が除外されたわけではないが、エビデンスの質のグレードを下げるほどではない。
Question 2
Summary of findings
アウトカム
(Outcomes)
典型的リスク
(95%CI)
CT検査の想定アウトカムー
20%の有病率
参加者数
(研究数）
エビデンスの質1
コメント
真陽性
（冠動脈疾患があると正
しく分類された患者）
1,000人中 192人
1,570人
(21件)

中2
治療、ならびに合併症発生件数の減少によ
る利益。血管造影を受けなければならない
患者もある。
真陰性
（冠動脈疾患がないと正
しく分類された患者）
1,000人中 592人
1,570人
(21件)

中2
安心感、ならびに合併症発生件数の減少に
よる利益
偽陽性
（冠動脈疾患があると
誤って分類された患者）
1,000人中 208人
1,570人
(21件)

中2
不要な治療による害
偽陰性
（冠動脈疾患がないと
誤って分類された患者）
1,000人中 8人
1,570人
(21件)

低2, 3
診断の遅れや心筋梗塞による不利益
合併症
（心筋梗塞、アレルギー
反応、腎不全）
1,000人中 99人
1,570人
(21件)

低2
血管造影の場合、稀な合併症（心筋梗塞や
死亡）の発生率が高く、コストも高い。詳細
なプロフィールが必要。
資源の使用*
（CTおよび血管造影の
コスト）
コメント欄参照
コメント欄参照
コメント欄参照
血管造影の方がコスト高い。
1-
質は1 (非常に低) ～4 (高) の4段階評価。
- 横断研究。幅広い患者層におけるアウトカムの非直接性、ならびに検査の非直接的比較。
3 - これらの患者に負のアウトカムがあるかどうかについては大きな不確実性がある。
* (1) 連日アスピリン= 20% RRR, (2) β遮断薬＝ 18%RRR の想定効果
2
2012/08/01
96
Question 2
Summary of findings – 例
想定された事前確率（有病率）は20%
すべての結果は、有病率20%、ならびに統合された感度と特異度に基づいて、1,000人あたりの患者数として示されている。
薬物療法、血管形成術とステント、バイパス手術の実施が決まるため、重要である。
3 患者が有害作用との関連がある不要な介入をうけなくてもすむため、重要である。
4 患者が薬物や侵襲性の高い処置により不要な有害作用にさらされるため、重要である。
5 患者が有効な治療を受けないことで冠動脈イベントのリスクが増加するため、重要である。
6不確かな結果とは、解釈不能、不確定、あるいは中間的な検査結果のことを指す。これが原因で、不安、対処方法についての不確実
性、精査、治療の実施または非実施によるマイナスの帰結の可能性が生じるため、重要である。
7 これらの帰結に関する結果については、入手可能なデータの観点からは厳密には確かでないため報告されていないが、重要である。
1
2
2012/08/01
97
Question 2
Recommendation
In patients suspected of coronary disease we suggest that multi-slice CT is not
used instead of conventional angiography.
(weak recommendation | low quality evidence)
Underlying values and preferences
This recommendation places a relatively high value on likely detrimental effects of
delayed diagnosis of coronary disease in patients incorrectly classified as not
having CAD and resource expenditure, and a relatively low value on complications
of conventional angiography.
2012/08/01
98
•GRADE アプローチ
- simple, transparent, explicit
- NOT guarantee consistency in assessment
2012/08/01
99
Part 4
その他
• The Rational Clinical Examination: Evidence-Based Clinical Diagnosis
• GRADE JCEシリーズ
• JCEシリーズの introduction (Gordon Guyattら）翻訳文
2012/08/01
100
翻訳
アウトカムの考え方が異なるため、GRADE
システムとは異なるエビデンスの質評価方法
を使っている。
2012/08/01
101
GRADE JCEシリーズ
GRADE JCEシリーズとは
2008年のBMJシリーズ6篇の後、システマティック・レビューや医療技術を評価する著者、ガイドラインパネリストやガイド
ラインパネルをサポートする方法論学者などにGRADEアウトプット（エビデンスプロファイル、SoFテーブル、グレード付
けされた推奨など）を作成するための詳細な指針を提供することを目的とした新シリーズとして、2011年よりGRADEJCE論文が連載発表されています（Box 1[1], 2012年9月現在、第12編まで発表）。
2012/08/01
102
GRADE JCEシリーズ
GRADE guidelines: A new series of articles in the Journal of Clinical Epidemiology
(Journal of Clinical Epidemiology 64 (2011) 380-382)
Introduction （一部を翻訳）
****************
世界各国の医療専門家、研究者、ガイドライン作成者により結成されるGrades of Recommendation, Assessment, Development,
and Evaluation (GRADE) Working Group は2000年、エビデンスの質を評価し、診療ガイドラインにおける推奨の強さを判断する
ための最適なシステムの開発に向けて一丸となり取り組みを開始した。GRADE Working Groupは現在200名を超えるメンバーを抱
え、10年間の取り組みを経た現在もなおGRADEの方法を改善し、拡大するために会合している。これまでに開催された25回に及ぶ
1～2日間の会合と数え切れないほどのメールのやり取りは、診療や医療判断のための研究エビデンスを解釈する方法を開発・改善
し、そのエビデンスを臨床医、患者、政策決定者に最適な形で提示するためのラボのような存在となっている。
～(略)～
今のところ、このシリーズの最終編では観察研究にみられる特別な課題に関する論文を１つ、グループプロセス、GRADEのバリエー
ション、今後のGRADEの展開予想についてのGRADE Working Groupの見解を示す論文を2つ紹介する予定である。今後の展開
に関しては、このシリーズに掲載される方法論がGRADE適用に関する不変の決定的指針として存続するものと期待すべきではなく、
またそうなることはありえない。このシリーズは数多くの方法論的問題にアプローチするためのアドバイスを提供する。中でも革新的
アプローチの一例としては、代理エンドポイントへの対処方法、不精確さに起因する限界に関する判断基準、サブグループ解析の信
頼性評価基準、診断検査に関するエビデンスの質の判断、連続変数の効果の大きさに関する要約があげられる。
革新的アプローチには固有の不安定性があり、すべてではないにしてもその一部のアプローチについては改善が必要不可欠である。
また、将来的には革新的方法のみでなくすでに確立されている概念についても方法論的進展や改善があるだろう。われわれはシス
テム適用のための一連の不変の基準を提示することはできないが、GRADE の利用者にはどうか落胆しないでいただきたい。この
シリーズで紹介する広範かつ包括的な基礎知識は現時点または今後システマティック・レビューやガイドライン、医療技術評価に
GRADEを適用する際に多いに役立つものであることに違いはないからだ。本誌編集者らは、本シリーズがゆくゆくは臨床疫学の発
展の１つの節目として認められることになることを自負している。
****************
2012/08/01
103

グレードダウン - GRADEシステム

Transcript グレードダウン - GRADEシステム

Directory