Прогностическая эффективность биомаркеров

Download Report

Transcript Прогностическая эффективность биомаркеров

Прогностическая эффективность
биомаркеров
Рубанович А.В.
Институт общей генетики им. Н.И. Вавилова РАН,
лаборатория экологической генетики
[email protected]
 Ну, вот, опять статистика!
Это не статистика!
Это методология представления
данных по сопряженности
качественных признаков
Тревожные заголовки последних лет:
Маркеры с воспроизводимыми значимыми OR могут быть
плохими классификаторами
Относительная полезность OR и RR
Капля
в океане:
Хорошая
ассоциацияis
обычно
необходимое,
Good
association
usually
a necessary,но
не not
достаточное
условие
для
хорошей
…брешь
между статистической
значимостью
и классификации
but
aдиагностической
sufficient,
condition
for
good
classification
дискриминацией
Ограниченная
полезность
OR при
диагностических и
Проще говоря,
даже
р <использовании
10-10 не гарантирует
прогностических маркеров
возможность практического использования
По ту сторону OR – риск
обнаруженных
эффектов
заболеваемости на основе
генетических профилей
Прогноз генетического риска – умеем ли мы уже это делать ?
Пример,
сильный
не
Этокогда
не означает,
что маркер эффект
плох.
Он «плохой классификатор»,
но «хороший диагност».
обеспечивает
эффективность
прогноза
Ведь с другой стороны 50/5591% носителей маркера больны!
Популяционное обследование:
1000 человек
Заболеваемость – 50%
500 здоровых
500 больных
Суперэффект!
50 с маркером
450 без маркера
5 с маркером
495 без маркера
У больных частота маркера в 10 раз выше, чем у здоровых:
p=710-11
Сколько раз тест сработал? Вероятность того, что случайно
выбранный человек будет правильно идентифицирован равна:
50  495
 0.545
1000
- почти монета!!!
Как и было
Тревожные заголовки последних лет:
Маркеры с воспроизводимыми значимыми OR могут быть
плохими классификаторами
Относительная полезность OR и RR
Капля в океане:
…брешь между статистической значимостью
и
Odd
диагностической дискриминацией
Ratio ???
Ограниченная полезность OR при использовании диагностических и
прогностических маркеров
По ту сторону OR – риск
заболеваемости на основе
генетических профилей
Прогноз генетического риска – умеем ли мы уже это делать ?
Показатели степени сопряженности признаков
 Количественные признаки
r - коэффициент корреляции

Качественные признаки
OR - отношение шансов
Сопряженность качественных признаков
Таблица сопряженности 22
Больные
Case
Здоровые
Control
D
D
Носители
маркера
M
a
b
Свободны от
маркера
M
c
d
Отношение шансов (Odd Ratio):
ad
OR 
bc
Случаи, когда маркер
не сработал
Случаи, когда
маркер сработал
Упражняемся …
10 больных
10 здоровых
7 9
OR 
 21
3 1
Больные Здоровые
Носители
маркера
Свободны
от маркера
D
D
M
7
M
3
1
9
Заодно посчитаем значимость:
р = 0.02
WinPepi Portal
http://www.brixtonhealth.com/pepi4windows.html
Огромное разнообразие современных тестов. Ежегодные обновления.
Free!
Свойства показателя OR
 OR = 1 - нет эффекта (маркер не сопряжен с заболеванием)
 OR >> 1 - сильный эффект, сильная положительная
ассоциация (маркер сопряжен с заболеванием)
 OR << 1 - сильный эффект, сильная отрицательная ассоциация
(маркер сопряжен со здоровьем).
Например, в случае генетического маркера, говорят о
протективном действии гена
И все-таки, что такое OR ? И почему шансы?
Отношение
шансов
и относительный риск
Карточный
термин:
вероятность выиграть к
Вероятность
и проиграть
шанс – в чем разница?
вероятности
Частота (доля)
Шанс (odd)
Больные Здоровые
Носители
маркера
Свободны
от маркера
D
D
Сумма
Частоты
Шансы
M
a
b
a+b
р1=a/(a+b)
a/b
M
c
d
c+d
р0=c/(c+d)
c/d
Отношение рисков
(Risk Ratio)
Отношение шансов
(Odd Ratio)
OR  RR при p0, p1< 0.1
FAQ: почему OR, а не RR ?
 Отношение рисков наглядно, но не симметрично
Частота Частота
гибели выживания
Погибли
Выжили

Облучение
5
95
100
0.05
0.95
Контроль
1
99
100
0.01
0.99
По смертности:
отношение рисков RR = 0.05/0.01=5
По выживаемости: отношение рисков RR = 0.99/0.95=1.04
Отношение шансов в любом случае равно OR = 599/951 =5.21
Кстати, всегда OR ≥ RR
 Но главная причина не в этом. Дело в том, что в ассоциативных
генетических исследованиях берут выборки больных и здоровых
(т.н. «case-control»). В этом случае непосредственно оценить RR
невозможно
Вернемся к теме нашего разговора…
Чего от нас еще хотят?
Мы всегда считали достоверность различий,
и все было в порядке
Почему бы не обойтись привычным набором
показателей ассоциирования – r, OR, p и т.п. ?
ФЦП «Исследования и разработки по приоритетным
направлениям развития научно-технологического
комплекса России на 2007-2012 годы»
Лот № 2. 2011-1.2-512-014. Разработка постгеномных методов для молекулярно-генетической диагностики
соматических заболеваний
17
22
32
НИИ общей патологии и
патофизиологии РАМН
ГНИИ генетики и селекции
промышленных
микроорганизмов
Российский онкологический
научный центр имени Н.Н.
Блохина РАМН
Разрабатываемая молекулярно-диагностическая тест-система для ранней
диагностики генетической предрасположенности к развитию особо опасных
и распространенных заболеваний обеспечит следующие диагностические
характеристики:
1. специфичность - не менее 80%;
2. чувствительность - не менее 83%;
3. точность - не менее 90%;
высокий (до 98%) уровень информативности
(чувствительность/специфичность) создаваемых систем полиморфных
маркеров, основанных на идентификации этиологических вариантов геновкандидатов; высокая чувствительность создаваемого нового способа
диагностики предрасположенности к сахарному диабету типа 1 (95% или
более).
-создание списка генов-кандидатов и их «горячих точек» - мутаций и
значимых полиморфных вариантов, вовлеченных в канцерогенез
наследственных и спорадических форм рака молочной железы, рака
яичников и рака щитовидной железы;
-определение чувствительности и специфичности применяемых методик
О чем это они?
Лот № 6. 2011-1.2-512-027. Исследование вариантов генов, ассоциированных с устойчивостью и
чувствительностью человека к воздействию радиации
57
ГНИИ генетики и селекции
промышленных
микроорганизмов
Высокий (до 98%) уровень информативности
(чувствительность/специфичность) создаваемых молекулярногенетических систем, основанных на идентификации вариантов геновкандидатов. Высокая чувствительность нового способа диагностики
устойчивости человека к воздействию радиации (95% или более).
Чувствительность – специфичность:
старые добрые медицинские понятия
Чувствительность (SE) – это доля носителей маркера среди больных
(тест сработал!)
SE  P(M D)
Специфичность (SP) - это доля здоровых, которые не являются носителем
маркера (тест сработал!)
SP  P(M D)
Случаи, когда
маркер сработал
10 больных
10 здоровых
7 9
OR 
 21
3 1
при p  0.02
Случаи, когда
Чувствительность
= 0.7
маркер не сработал
Специфичность = 0.9
Таблица сопряженности 22
Больные
Case
Здоровые
Control
D
D
Носители
маркера
M
a
b
Свободны от
маркера
M
c
d
a
Чувствительность  SE  P(M D) 
ac
d
Специфичность  SP  P(M D) 
bd
SE vs. SP:
противоборство показателей
Маркер у всех,
и все больны!
SE=1, SP=0
Маркер
Все без маркера,
и все здоровы!
SE=0, SP=1
Специфичность
Чувствительность
Выигрывая в чувствительности,
обычно теряем специфичность (et converso)
Так что важнее:
чувствительность или специфичность?
Тест должен быть высокочувствительным, если
важно не пропустить ни одного больного (пусть
даже будет гипердиагностика).
Тест должен быть высокоспецифичным, если важно
не объявлять здорового больным (серьезная
психологическая травма либо сильные побочные
эффекты лечения – гипердиагностика нежелательна)
Все зависит от ситуации, но лучше всего
ориентироваться на среднее. Это простой и
эффективный показатель прогностических
возможностей маркера (отличать больного от
здорового):
1
SE  SP
AUC 
2
Area Under Curve?
SE
AUC
0
1 - SP
1
Почему величина AUC=(SE+SP)/2 характеризует
прогностическую эффективность маркера?
Берем
1 здорового и 1 больного

Без использования маркера
вероятность угадать,
кто есть кто = 1/2

Используем тест и носителя маркера объявляем больным
вероятность угадать, 1
1

SE

SP
кто есть кто = AUC
2
2
В качестве больного выбираем:
- любого
AUC – это вероятность
любого
отличить больного-от
здорового, ориентируясь
на маркер! - с маркером
AUC>1/2, если OR>1
AUC
Прогностическая ценность
0.5
Случайный классификатор
0.5-0.6
Плохой классификатор
0.6-0.7
Средний классификатор
0.7-0.8
Хороший классификатор
>0.8
Отличный классификатор
Двойственность показателей по столбцам и по строкам
D
M
M
a
c
D
b
d
a
SE=
 P(M D)
ac
Доля носителей маркера
среди больных
Positive Predicted Values:
вероятность заболеть при
носительстве маркера,
диагностическая ценность
a
 P(D M)=PPV
ab
Доля больных среди
носителей маркера
Доля дур среди
блондинок, это не то же
самое, что доля
блондинок среди дур!
Двойственность показателей по столбцам и по строкам
D
M
M
D
Positive Predicted Values:
вероятность заболеть при
носительстве маркера,
диагностическая ценность
b
a
 P(D M)=PPV
ab
c
d
d
 P(D M) =NPV
cd
a
ac
d
bd
a
P(M D)
P ( M D)
SE
SP
Negative Predicted Values:
вероятность не заболеть при
отсутствии маркера,
диагностическая ценность
И это еще не все!
Универсальный показатель ассоциирования OR 
D
M
M
D
- это не относительный риск!
Risk Ratio - это во сколько раз
возрастает вероятность заболеть
при наличии маркера
b
a
 P(D M)=PPV
ab
c
d
d
 P(D M) =NPV
cd
a
ac
d
bd
a
ad
bc
P(D M)
P(M D)
P ( M D)
PPV
RR 

P(D M) 1  NPV
SE
SP
Всегда OR > RR
OR
может
сильно
завышать
оценку
Если
ген сильно
ассоциирован
(OR=10)
с широко
распространенным
заболеванием
pD=0.5), то это не
относительного
риска (напр.,
при высокой
значит, что носители
этого гена заболевают в 10 раз чаще.
заболеваемости
На самом деле только в 2 раза чаще.
RR слабо зависит от
частоты маркера
1
0.8
… и уменьшается
0.8
при увеличении
заболеваемости
0.6
RR OR 0.6
RR/OR
0.4
0.2
0
RR
1

OR 1  pD  pD OR
0.4
0.2
0.4
pD D
0.2
0.6
0.8
pMM
Не слишком ли много показателей
для таблички из 4 чисел?
Ну а где же показатели прогностической эффективности?
Их два, и к сожалению они редко бывают хороши одновременно
 Показатель прогностической ценности (по столбцам)
SE  SP
AUC 
2
Маркер-классификатор
Прогнозы в эпидемиологии,
скрининг, подбор групп риска,
профессиональный отбор
Балансовая точностью прогноза (Balanced Accuracy)
 Показатель диагностической ценности (по строчкам)
Маркер-диагност
PPV  NPV
BAD 
2
Индивидуальный пост-тестовый
прогноз, клиническая практика
Балансовая точностью диагноза (Balanced Accuracy)
Маммография – «маркер-классификатор»
Диагностическая ценность
положительного результата всего
Рак молочной
лишьжелезы:
14% !!! pD=0.006
Маммография:
pM=0.037
OR=197
p=10-300
D
D
M
629
3 885
PPV=0.14
M
97
117 744
NPV=0.999
SE=0.87; SP=0.97
RR=169
AUC=0.92 ценность
Диагностическая
отрицательного результата
почти 100%
Banks E., Reeves G., Beral V., et. al. Influence of personal characteristics of individual
women on sensitivity and specificity of mammography in the Million Women Study:
cohort study. 2004, BMJ; 329; 477
Leiden V – «маркер-диагност»
Тромбоз вен:
Мутация
Arg506Gln
Leiden V:
pM=0.072
pD=0.32
D
D
M
41
26
PPV=0.61
M
260
604
NPV=0.70
OR=3.7
SE=0.14; SP=0.96
p=510-7
AUC=0.547
RR=2.0
Относительный риск
существенно меньше OR.
Это типично при высокой
заболеваемости
A. Folsom, M. Cushman, M. Tsai, et al. A prospective study of venous
thromboembolism in relation to factor V Leiden and related factors
BLOOD, 2002, 99, 8
Не слишком ли много показателей
для таблички из 4 чисел?
Важный момент: не все эти показатели поддаются
непосредственной оценке – все зависит от дизайна
эксперимента
Во всех случаях можно оценить только
универсальный показатель ассоциирования отношение шансов OR!
Дизайн ассоциативных исследований
Выборка 1 Выборка 2
D
Выборка 1
M
Выборка 2
M
D
Набираем выборку,
a
b
заранее не зная, кто
болен и кто носитель
c маркера d
P(M D)
P ( D M)
P ( D M)
P(M D)

Case-control study:
подбор групп «больные-здоровые»

Cohort study:
подбор групп «с маркером – без маркера»

Population study:
случайная выборка без подбора групп
Основной вариант
OR,ассоциативных
SE, SP, AUC
исследований
Обычно
OR,
RR, PPV, NPV
«экспонированные
контроль»
Редкий вариант
любые
(дорого!)
Возможность непосредственной оценки зависит
pD – встречаемость
(распространенность)
заболевания
от дизайна
эксперимента!
pM – популяционная встречаемость (частота) маркера
Study
Case-control
OR
RR
√
Cohort
√
Population
√
SE
SP
√
√
PPV
NPV
pD
pM
?
?
√
√
√
При case-control мы не можем оценить
и√ частоту
√ заболеваемость
√
√
√ маркера
√
√
непосредственно в своем эксперименте
Однако в большинстве случаев в отношении pD и pM
имеется априорная информация (эпидемиологические
сводки, базы данных PubMed, HapMap и т.д.)
Зная OR, pD и pM можно оценить все остальные показатели
PPV pD
Например, из соотношения

SE
pM
На что можно рассчитывать, используя
бинарный маркер?
Какими могут быть чувствительность, специфичность и риски
для бинарного теста? .... Рассмотрим крайности:
Идеальный маркер
D
D
0
d
В общем случае показатели эффективности
теста зависят от
OR=RR=∞
заболевания и маркера.
Mчастотaвстречаемости
0
SE=SP=AUC=PPV=NPV=1
Притом весьма нетривиальным
образом!
M
Маркер не
При OR > 1:
В каждой клетке
произведения
вероятностей
работает
(например,
фамилияSEс >гласной
буквы)
SE и PPV
больше
нуля
pM и PPV
> pD
«встретить – не встретить»
D
M
M
pM pD
даже в отсутствии
ассоциаций
D
OR=RR=1, AUC=1/2
pM (1- pD)
SE=pM, SP=1-pM
(1- pM) pD (1- pM) (1- pD)
PPV=pD, NPV=1-pD
Зависимость AUC = (SE+SP)/2 от pD и pM
Величина максимально
возможного AUC не зависит
от pM и pD и равна OR /  OR  1
OR
OR  1
1
0.9
AUC
AUC
1
0.8
0.7
0.6
0.5
0
0.75
OR=20
OR=10
OR=5
0.5
D
0.25
pM 
1
OR  1
В этой точке
pM
SE=SP
0.25
0.5
M
pD
0.75
0
1
Зависимость (PPV+NPV)/2 от pD и pM
Величина максимально
возможного AUC не зависит
от pM и pD и равна OR /  OR  1
0.8
0.6
0.4
0.8
0.2
0.6
0
0.2
0.4
0.4
pM
0.2
0.6
0.8
pD
При каких OR маркер является хорошим
классификатором?
Когда OR>5, а частота маркера не менее 30%:
1
1
OR
При
OR>5
маркер
«хорошим
но0.3
OR >
5.4 при pклассификатором»,



max
AUC

 0.7может быть
M
OR  1
5.44  1
ORлишь
 1 при высокой частоте встречаемости
При низких OR (< 2.5) маркер является заведомо плохим
классификатором при любых частотах заболевания и маркера:
max AUC 
OR
 0.6
OR  1
OR < 2.4
При OR<2 маркер является
«плохим классификатором»,
и это уже не зависит от
заболеваемости и частоты
встречаемости маркера
OR
OR  1
0.9
0.8
AUC
0.7
0.8
0.6
0.6
0.5
D
0.2
0.4
0.4
1
pM 
OR  1
0.2
0.6
M
0.8
1
Распределение значений OR для рисковых аллелей
ассоциированных с одним из 16 широко распространенных заболеваний
(92 SNP, подтвержденные в нескольких GWAS - исследованиях)
В подавляющем большинстве случаев
SNP, выявляемые в ассоциативных
исследованиях являются заведомо
«плохими классификаторами»: OR<2.5
N. Wray, M. Goddard, P. Visscher. Prediction of individual genetic risk of complex
disease. Current Opinion in Genetics & Development 2008, 18:257–263
Рассмотрением «комбинированных» генотипов
можно увеличить OR
Обычно по числу рисковых аллелей в подтвержденных SNP:
GWAS на 1172 больных раком простаты – 7 SNP
rs4242382 (8q24)
pM
OR
rs6983267 (8q24)
rs4430796 (HNF1B)
rs10993994 (MSMB)
rs10896449 (11q13)
rs4962416 (CTBP2)
rs10486567 (JAZF1)
10-12 < p < 10-6
3.0
0.23
2.0
0.15
1.0
Генотипы с высоким OR
имеют низкую частоту
0.08 встречаемости
0.00
3
4
5
6
7
8
Число рисковых аллелей
9
Thomas, G. et al. Multiple loci identified in a genome-wide association study of
prostate cancer. Nature Genet. 40, 310–315 (2008).
George Poste, chief scientist at the Complex Adaptive Systems
Initiative, and Regents professor of health innovation
at Arizona State University
Нашествие
«Bring
on theбиомаркеров
biomarkers»
Nature , v 469, 2011
Капля в океане:
Не более 100
биомаркеров
рутинного
использования
в клиниках
150 000
работ,
претендующих на
открытие биомаркеров
Проф. Алексей Кондрашов,
Life Sciences Institute, University of Michigan
Мегагрант-2010 (МГУ). Лекция в Полит.РУ (2010)
«Эволюционная биология человека и охрана здоровья»:
Надежды 90-х не оправдались: эпоха GWAS буксует
«У меня 10-15 генов предрасположенности?
В этой информации очень мало проку!»
Почему высокое OR не всегда гарантирует
эффективность прогнозов,
и когда подобное происходит?
Суперэффект!
50 с маркером
5 с маркером
450 без маркера
D
D
M
50
5
M
450
495
D
M
D
pM
M
pD-pM
pD
Возьмем крайний
случай: OR=∞
pM
0
1-pD 1-pM
1-pD
495 без маркера
OR велико
(=11) потому,
что это число
мало
Почему высокое OR не всегда гарантирует
эффективность прогнозов,
и когда подобное происходит?
При низкой частоте встречаемости маркера
тест прогностически неэффективен. Точнее …
даже при очень больших OR маркер является плохим
классификатором, если pM/ pD<0.2 (тогда AUC<0.6). Но при
этом он идеальный «диагност»: PPV=1.
Вычисляем AUC 
1
1  pM 1  pD  1  pM 
  1 

SE  SP    
2
2  pD 1  p D  2 
pD 
M
D
pM
M
pD-pM
pD
D
pM
0
1-pD 1-pM
1-pD
AUC1/2
при pM0,
хотя OR=∞
Два варианта высоко значимых эффектов
Маркер-классификатор
Маркер-диагност
pM > pD
pM < pD
Соотношение
частот
 pD

 0
Вид таблицы
сопряженности
Графическое
представление
pM  pD 

1  pM 
 pM

 p D  pM
0 

1  pD 
M
D
D
M
D
D
Причинность
М – почти необходимое
условие заболевания
М – почти достаточное
условие заболевания
(SE+SP)/2
(PPV+NPV)/2
Высокая
Низкая
Низкая
Высокая
Наличие
Массовый скрининг,
дополнительных
Использование
профессиональный отбор симптомов, родословная
Примеры
маркеров
Маммография
BRCA
Бинарные и количественные маркеры (тесты)

Бинарный тест:
маркер «есть-нет»
M
M
Количественный тест:
маркер является
количественным
показателем
приходим к
таблице 2х2
0.25
D
b
d
Контроль
Больные
0.2
Частота

D
a
c
0.15
0.1
0.05
0
0
После выбора
порогового
значения маркера
5
10
15
Признак - маркер
20
Количественный тест: выбор порога
Частота
0.25
Контроль
Больные
0.2
0.15
низкая
0.1
специфичность
высокая
чувствительность
0.05
Признак маркер
0
Низкий
порог
Количественный тест: выбор порога
Порог
Частота
0.25
Контроль
Больные
0.2
высокая
специфичность
Специфичность
0.15
Чувствительность
низкая
чувствительность
0.1
0.05
Признак маркер
0
Низкий
порог
Высокий
порог
Как выбрать порог, чтобы соотношение
чувствительность/специфичность было оптимальным?
ROC – анализ
Receiver Operator Characteristics
Термин времен 2-ой мировой
войны, который придумали
операторы первых радарных
установок
Как отличить шум и помехи от
вражеского самолета?
Современные применения ROC-анализа:
Медицинская диагностика, радиология и
физиология
Распознавание образов,
машинное обучение
Погода и любые
прогнозы по
приметам
Борьба со спамом
ROC – кривая: зависимость SE от (1-SP)
при плавном изменении порога
Частота
SE
0.25
0.2
Контроль
Больные
1
0.15
0.5
0.1
0.05
0
Пороговое
значение
Признак - маркер
0
0.5
1
1 - SP
Оптимальный выбор порога: выбирается точка на ROC-кривой,
которая ближе всех к левому верхнему углу (0,1), т.е.
(1  SP) 2  (1  SE ) 2  min
Форма ROC-кривых
1

Маркер не работает
SE
0
1 - SP
1
0
1
1 - SP
1
0
1 - SP
1
1


Идеальный маркер
1-ый тест лучше, чем 2-ой
SE
SE
AUC – интегральный показатель
прогностической эффективности маркера
1
AUC - это площадь под ROC-кривой
(Area Under Curve)
SE
AUC = Вероятность того, что значение
признака-маркера у случайно выбранного
больного больше, чем у случайно
выбранного здорового
AUC
0
1 - SP
1
AUC
0.5
Случайный классификатор
0.5-0.6
Плохой классификатор
0.6-0.7
Средний классификатор
0.7-0.8
Хороший классификатор
>0.8
Отличный классификатор
U=N1·N2·AUC - непараметрический критерий Манна-Уитни
ROC-анализ используют для проверки
эффективности внедрения новых маркеров
Мы их не знаем, но они должны
быть,простаты:
судя по «близнецовой
5241 больных раком
PSA + 35 подтвержденных SNP, в основном:
наследуемости»
8q24: OR=1.40; p<10-4
19q13: OR=1.31; p<10-4
Гипотетическая модель, включающая
1.0
неизвестные генетические
маркеры:
AUC0.8 (дальше не улучшить)
0.8
Традиционные маркеры
(PSA, семейная история):
AUC=0.64
0.6
Традиционные + генетические
маркеры: AUC=0.67
0.4
0.2
0.0
0.2
0.4
0.6
0.8
1.0
Aly M,et al. Polygenic Risk Score Improves Prostate Cancer Risk Prediction: Results from the
Stockholm-1 Cohort Study. Eur Urol (2011), doi:10.1016/j.eururo.2011.01.017
Вычисления при ROC-анализе
Значения признака-маркера
3
2
1
0
Контроль
Больные
Вычисления при ROC-анализе
Контроль
25
Больные
Частота, %
20
15
10
5
0
0- 0.25- 0.5- 0.75- 1- 1.25- 1.5- 1.75- 2- 2.25- 2.5- 2.75- 30.25 0.5 0.75
1
1.25 1.5 1.75
2
2.25 2.5 2.75
3
3.25
Значения признака (маркера)
Все делается в Excel:
Интервал
0-0.25
0.25-0.5
0.5-0.75
0.75-1
1-1.25
1.25-1.5
1.5-1.75
1.75-2
2-2.25
2.25-2.5
2.5-2.75
2.75-3
3-3.25
Контроль
#
Доля
22
0.22
22
0.22
14
0.14
19
0.19
11
0.11
7
0.07
5
0.05
0
0
0
0
0
0
0
0
0
0
0
0
Больные
# Доля
0
0
3
0.03
9
0.09
15 0.15
11 0.11
15 0.15
16 0.16
10 0.10
11 0.11
5
0.05
3
0.03
2
0.02
0
0
SE
SP
0.88
0.58
Все делается в Excel:
Чувствительность
Интервал
0-0.25
0.25-0.5
0.5-0.75
0.75-1
1.0
1-1.25
1.25-1.5
0.8
1.5-1.75
0.61.75-2
2-2.25
0.4
2.25-2.5
2.5-2.75
0.2
2.75-3
0.03-3.25
0.0
0.2
Контроль
#
Доля
22
0.22
22
0.22
14
0.14
19
0.19
11
0.11
7
0.07
5
0.05
0
0
0
0
0
0
0
0
0
0
0
0
0.4
0.6
1-Cпецифичность
Больные
# Доля
0
0
3
0.03
9
0.09
15 0.15
11 0.11
15 0.15
16 0.16
10 0.10
11 0.11
5
0.05
3
0.03
2
0.02
0
0
0.8
1.0
SE
SP
1
0,97
0,88
0,73
0,62
0,47
0,31
0,21
0,1
0,05
0,02
0
0
0,22
0,44
0,58
0,77
0,88
0,95
1
1
1
1
1
1
1
Все делается в Excel:
Чувствительность
Интервал
0-0.25
0.25-0.5
0.5-0.75
0.75-1
1.0
1-1.25
1.25-1.5
0.8
1.5-1.75
0.61.75-2
2-2.25
0.4
2.25-2.5
2.5-2.75
0.2
2.75-3
0.03-3.25
0.0
0.2
Контроль
#
Доля
22
0.22
22
0.22
14
0.14
19
0.19
11
0.11
7
0.07
5
0.05
0
0
0
0
0
0
0
0
0
0
0
0
0.4
0.6
1-Cпецифичность
Больные
SE
SP
# Доля
1
0,22
0
0
3
0.03 0,97 0,44
0.09
(91  SP
) 2  (10,88
 SE ) 20,58
15 0.15 0,73 0,77
11 0.11 0,62 0,88
15 0.15 0,47 0,95
16 0.16 0,31
1
10 0.10 0,21
1
11 0.11
0,1
1
5
0.05 0,05
1
3
0.03 0,02
1
2
0.02
0
1
0
0
0
1
0.8
1.0
L(0,1)
Все делается в Excel:
Чувствительность
Интервал
0-0.25
0.25-0.5
0.5-0.75
0.75-1
1.0
1-1.25
1.25-1.5
0.8
1.5-1.75
0.61.75-2
2-2.25
0.4
2.25-2.5
2.5-2.75
0.2
2.75-3
0.03-3.25
0.0
0.2
Контроль
#
Доля
22
0.22
22
0.22
14
0.14
19
0.19
11
0.11
7
0.07
5
0.05
0
0
0
0
0
0
0
0
0
0
0
0
0.4
0.6
1-Cпецифичность
Больные
# Доля
0
0
3
0.03
9
0.09
15 0.15
11 0.11
15 0.15
16 0.16
10 0.10
11 0.11
5
0.05
3
0.03
2
0.02
0
0
0.8
1.0
SE
SP
L(0,1)
1
0,97
0,88
0,73
0,62
0,47
0,31
0,21
0,1
0,05
0,02
0
0
0,22
0,44
0,58
0,77
0,88
0,95
1
1
1
1
1
1
1
0,780
0,561
0,437
0,355
0,398
0,532
0,690
0,790
0,900
0,950
0,980
1,000
1,000
Наименьшее
расстояние до
точки (0,1)
Все делается в Excel:
Контроль
Больные
SE
#
Доля
# Доля
1
0-0.25
22
0.22
0
0
Оптимальное
0.25-0.5
22пороговое
0.22
3
0.03 0,97
значение
0.5-0.75
14
0.14
9
0.09 0,88
0.75-1
19
0.19
15 0.15 0,73
1-1.25
11
0.11
11 0.11 0,62
1.25-1.5
7
0.07
15 0.15 0,47
При выборе
этого
мы
1.5-1.75
5
0.05 этого
16 порога,
0.16 0,31
правильно
идентифицируем
73%
1.75-2
0
0
10 0.10 0,21
больных и 77% здоровых
2-2.25
0
0
11 0.11
0,1
2.25-2.5
0
0
5
0.05 0,05
2.5-2.75
0
0
3
0.03 0,02
2.75-3
0
0
2
0.02
0
3-3.25
0
0
0
0
0
Интервал
SP
L(0,1)
0,22
0,44
0,58
0,77
0,88
0,95
1
1
1
1
1
1
1
0,780
0,561
0,437
0,355
0,398
0,532
0,690
0,790
0,900
0,950
0,980
1,000
1,000
Наименьшее
расстояние до
точки (0,1)
Все делается в Excel:
Чувствительность
Интервал
0-0.25
0.25-0.5
0.5-0.75
0.75-1
1.0
1-1.25
1.25-1.5
0.8
1.5-1.75
0.61.75-2
2-2.25
0.4
2.25-2.5
2.5-2.75
0.2
2.75-3
0.03-3.25
0.0
0.2
Контроль
#
Доля
22
0.22
22
0.22
14
0.14
19
0.19
11
0.11
7
0.07
5
0.05
0
0
0
0AUC
0
0
0
0
0
0
0
0
0.4
0.6
1-Cпецифичность
Больные
# Доля
0
0
3
0.03
9
0.09
15 0.15
11 0.11
15 0.15
16 0.16
10 0.10
11 0.11
5
0.05
3
0.03
2
0.02
0
0
0.8
1.0
SE
SP
L(0,1)
 AUC
1
0,97
0,88
0,73
0,62
0,47
0,31
0,21
0,1
0,05
0,02
0
0
0,22
0,44
0,58
0,77
0,88
0,95
1
1
1
1
1
1
1
0,780
0,561
0,437
0,355
0,398
0,532
0,690
0,790
0,900
0,950
0,980
1,000
1,000
0,220
0,217
0,130
0,153
0,072
0,038
0,020
0
0
0
0
0
0
0.85
AUC =
Пример из радиационной генетики:
Лаборатория экологической генетики ИОГен РАН
Частоты хромосомных аберраций в зависимости от генотипов по
кандидататным генам у ликвидаторов аварии на ЧАЭС и в контроле
Контроль :
98 курсантов
Ликвидаторы :
84 человека
Тщательный
цитогенетический
анализ
Генотипирование по 20 генам
репарации, оксидативного стресса и
детоксикации ксенобиотиков
Частоты хромосомных аберраций в зависимости от генотипов по
кандидататным генам у ликвидаторов аварии на ЧАЭС и в контроле
Рисковый
генотип:
Детоксикация
Оксидативный стресс,
ксенобиотиков
цикл
Репарация ДНК
минорные аллели в сайтах XPD
и функциональные
аллеликлеточный
генов GST
Контроль :
98 курсантов
Сайты
GSTM1
Ins/Del
GSTT1
Ins/Del
Ген
Сайты
C589T
G1996A
XPD
T2251G
(ERCC2) G862A
ERCC1 G262T
T354C
APEX1 T444G
XRCC1
T3801C
CYP1A1 T606G
A4889G
Ликвидаторы :
84 человека
Частота аберраций хромосомного
типа
Ген
CYP1B1 G1294C
Генотипы
по XPD
Генотипы по GSTM1-GSTT1
RAD23B
C746T
Ассоциации
с
0,010
"нулевой" по обоим локусам
Число минорных
OGG1
частотами
"положительный"
по одному из локусовCYP2D6 A1934G
аллелей в сайтах
XPD C977G
обоим локусам
аберраций для
обеих выборок
"положительный" по
0,008
0,006
0,004
Частоты
0,002хромосомных
аберраций
0,000
0
1
2
Контроль
0
1
0
GSTP1
A313G
COMT
G1947A
NAT2
G590A
2
Ликвидаторы
0 1
1
2
3
ATM
2 3
Контроль
4
4
Ген
Сайты
SOD2
C47T
CAT
T21A
GCLC
C129T
MTHFR C677T
Tp53
G5557A
0 1
2 3
Ликвидаторы
4
G215C
Распределения
частот аберраций хромосомного типа
Что можно считать повышенным уровнем хромосомных аберраций?
у ликвидаторов и в контрольной группе
60
Частота, %
50
0,0021±0,0003
100
0,0071±0,0006
Контроль (96)
Ликвидаторы (83)
80
р = 3,710-14
60
по тесту Манна-Уитни
SE, %
70
ROC-кривая
40
40
20
30
0
0
20
40
60
80
100-SP, %
20
10
0
0-0.0025 0.0035
0.0025- 0.0050.005
0.0075
0.00750.01
0.010.0125
0.01250.015
0.0150.0175
0.01750.02
Примем
за граничное
значение
Частота
аберраций
хромосомного
типа
«повышенного уровня аберраций»
0.020.0225
100
Частота «рискового
генотипа» среди лиц с
Частота
повышенным
и пониженным
рискового
SE, %
SP,уровнем
%
AUC аберраций
OR
P
генотипа, %
Контроль
63.5
Ликвидаторы
67.5
Хотя бы один минорный аллель в сайтах XPD
90.0 бы одна
43.4инсерция
0.67 в GSTM1-GSTT1
6.9
0.008
плюс хотя
76.6
63.2
0.70
5.6
Частота рискового генотипа, %
Частота аберраций хромосомного типа
<0.0035
Что есть норма?
>0.0035
Более половины из нас
предрасположены к повышенной
частоте аберраций хромосом!
RR=5.3
100
80
Специфичность
60
Чувствительность
40
20
0
Ликвидаторы
Контроль
0.002
Всем спасибо, и еще раз напомню - не ORом единым!

Необходимо также оценивать чувствительность (SE), относительный
риск (RR), диагностическую ценность (PPV) и прогностическую
эффективность маркера (AUC )

Чувствительность теста (SE) всегда мала при pM<<pD.
Диагностическая ценность теста (PPV) заведомо мала при pM>>pD.

С удовольствием предоставлю презентацию
Хороший классификатор
– это когда OR>5,
а частота маркера не
заинтересованным
слушателям
менее 30%

Всегда
вашплохим классификатором
При OR<2.5 маркер является
заведомо
(AUC<0.6 при любых частотах заболевания
Александри маркера)
Рубанович

Редкие мутации - малоэффективные классификаторы. Если частота
маркера мала (pM<0.2pD ), то прогностическая эффективность теста
(AUC) крайне низка даже при OR>>1

В ситуации «case-control» не надо думать про OR, что это
относительный риск. Оцените RR как OR/(1-pD+pDOR)