ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН [email protected] тел. (499) 132-8958

Download Report

Transcript ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН [email protected] тел. (499) 132-8958

ОСНОВЫ БИОСТАТИСТИКИ
Александр Владимирович Рубанович
зав. лаб. экологической генетики ИОГен РАН
[email protected]
тел. (499) 132-8958
Темы для обсуждения
 Оценка ассоциаций «генотип-фенотип» и их значимости
 Факторы, влияющие на значимость оценок
 Объединение выборок и метаисследования
 Учет множественности сравнений
Выявление ассоциаций «генотип-фенотип»:
минимальный набор действий
 Фенотип - качественный признак
Кроме этого в обоих случаях можно
(например: «здоровый - больной», «русский - татарин»)
строить различные регрессионные модели:
Зависимая переменная – признак (фенотип),
независимыми переменные – генотипы.
Например
так: A/A по
- 0,точному
A/T - 1, T/T
- 2Фишера
Вычисляем
OR; значимость
тесту
 Фенотип - количественный признак
(например: вес, содержание кальция, частота аберраций)
Вычисляем средние значения признака для разных генотипов;
значимость по критерию Манна-Уитни
OR – количественная мера предрасположенности
(Odd Ratio)
OR – непременный атрибут «case-control association study»
(выявление «генов предрасположенности» к заболеванию
путем сопоставлений частот генотипов у больных и здоровых)
OR показывает во сколько раз повышена вероятность
заболеть для носителя «плохого» генотипа
Группа больных
Рбольные
OR =
Контроль (здоровые)
>>
Р
- генотип,
указывающий на
предрасположенность
к заболевания
Рконтроль
(1- Р
)
больные
контроль
______________________
Рконтроль (1- Рбольные)
OR>1 – генотип связан с болезнью
OR=1 – нет связи между генотипом и болезнью
OR<1 – протективный генотип
Soft для вычисления OR
и проведения матаисследований
WinPepi Portal (2010) - computer programs for epidemiologists

Free!

30 дней
Статистический анализ сопряженности генотипов и
количественных признаков
Частота аберраций хромосом
 Самое простое и необходимое: вычисление средних
значений признака для носителей различных генотипов.
Далее сравнение по непараметрическому тесту
(не по Стьюденту!)
Обычно стараются рассмотреть две группы
0.04
0.03
0.002
0.01
0.00
A/A
Гомозигота поРецессивная
мажорному аллелюмодель
+
A/G
+
G/G
ДоминантнаяГомозигота по
модельминорному аллелю
Статистический анализ сопряженности генотипов и
количественных признаков
 Самое простое и необходимое: вычисление средних
значений признака для
носителей
генотипов.
Далее
вычисляетсяразличных
OR
Далее сравнение
по непараметрическому
тесту
и значимость
по точному критерию Фишера.
В данном примере риск возникновения
(не по Стьюденту!)
аберраций у носителей минорного аллеля G
равен OR=2,1 и р=0,015
 Сравнение частот генотипов для групп с низким
(или высоким) значением признака
40
30
20
40
G/G
A/G
30
A/G
20
A/A
10
0
G/G
50
Частота, %
, %
Частота,
60
Группа людей с
нулевым уровнем
аберраций
50
A/A
10
0-1
1-2
2-3
3-4
4-5
5-6
Частота аберраций на 100 клеток
>6
0
0
1
Частота аберраций на 100 клеток
Статистический анализ сопряженности генотипов и
количественных признаков
 Самое простое и необходимое: вычисление средних
значений признака для носителей различных генотипов.
Далее сравнение по непараметрическому тесту
(не по Стьюденту!)
 Сравнение
частот
генотипов
для (р),
групп с низким
Зависимая
переменная
– признак
(или высоким)
значением
признака
независимыми
переменные
– генотипы (xi).
Нелинейные
многомерные
Например так:
A/A - 0, A/T регрессии,
- 1, T/T - 2
реализованные в пакетах Statistica и SPSS
 Логистическая и пуассоновская регрессии
p
1
1  e a1x1 ...  an xn
р – частота аберраций
xi – генотип i-го локуса
аi – коэф. регрессии
Для логиcтической
регрессии ai =ln(ORi)
p  e a0  a1x1 ...  an xn
Soft для работы
с генотипами и гаплотипами
 WinStat for Excel

Free!
X. Sole, E. Guino, J. Valls, R. Iniesta1, V. Moreno (2006)
http://bioinfo.iconcologia.net/index.php?module=Snpstats

http://www.bios.unc.edu/~lin/hapstat/ Free!
Темы для обсуждения
 Оценка ассоциаций «генотип-фенотип» и их значимости
 Факторы, влияющие на значимость оценок
 Объединение выборок и метаисследования
 Учет множественности сравнений
Чуть-чуть об ошибках статистических тестов
биологпредположение
ориентирован наобконтроль
Нулевая Традиционно
гипотеза – обычно
отсутствии
I рода
значимости),
различий =ошибки
2 выборки
из(через
однойуровень
генеральной
совокупности
т.е. на гарантии отсутствия ложных открытий,
Ошибка I рода ()
Вероятность отвергнуть правильную нулевую гипотезу =
Вероятность обнаружить различия там, где их нет =
Вероятность совершить фальшивое открытие
Ошибка II рода ()
Вероятность принять неправильную нулевую гипотезу =
Вероятность не обнаружить существующие различия =
Вероятность упустить открытие
Мощность
1- Ошибка
II рода о= возможности
… теста
и при =этом
мало заботится
Вероятность правильно
нулевуюIIгипотезу
упустить отвергнуть
открытие (ошибка
рода)
Вероятность не упустить открытие
От чего зависят ошибки статистических тестов?
 От размаха реально существующих отличий и разброса
данных
 От объемов выборок
Ошибка
I рода (вероятность
фальшивого
открытия)
С увеличением
объема выборки
мощность
теста
слабо зависитнеотупустить
объемовоткрытие)
выборок,
(вероятность
 Ошибки I и II рода однозначно не связаны. В целом
они
сравнимы
по величине
всегда
возрастает
ошибкаесли
II рода
растет
при
уменьшении
ошибки I рода
Крайний случай:
«критерий» св. Фомы Неверующего (0033)
Ошибка I рода = 0  Ошибка II рода = 1
Сравнение частот при уровне значимости 0.05
Объемы выборок в опыте и контроле одинаковы
Стьюдент
2
Фишер
0
2
4
5
1
6
7
7
18
2
8
9
9
16
больше
5
Если в контроле
нет мутаций,
то при
от объемов
4 независимо
12отличий
12
значимости
в12
опытевыборок
их должно
быть13
5
13(100 или 1000)
13
24
22
Число событий в опыте
Минимальное число событий в опыте
при значимом отличии от контроля
Число
событий в
контроле
20
3
10
11
10
Фишер
6
15
15
15
u-тест
7
16
16
16
Хи-квадрат
8
18
18
18
9
19
19
19
10
21
21
20
20
35
35
33
30
47
47
46
14
12
10
8
6
4
2
0
0
2
4
6
8
10
Число событий в контроле
12
Темы для обсуждения
 Оценка ассоциаций «генотип-фенотип» и их значимости
 Факторы, влияющие на значимость оценок
 Объединение выборок и метаисследования
 Учет множественности сравнений
Проверка однородности материала и
вычисление OR для нескольких выборок
 Индекс рассеяния для биномиальных выборок
Можно ли объединить k независимых выборок и оценить частоту как
Объем
выборки
Число
мутаций
Частота
N1
n1
p1
N2
n2
p2
….
….
….
Nk
nk
pk
 Mantel-Haenszel test
n
p
N
i
i
i
Выборки можно объединять, если
i
Mantel-Haenszel test
Значимость
гетерогенности
выборок
Вычисление OR для
совокупности выборок
Объединение выборок с незначимыми
эффектами
Если это принять за 4-ое
превышение, то р=0.015
частота гетерозигот в выборках HIV+ и HIV- по данным различных авторов
30,0%
Только в 3 выборках из 18 частота
гетерозигот w/d у HIV+ выше, чем у HIV-
25,0%
20,0%
HIV+
15,0%
Eugen-Olsen et al.,
1997
Parczewski et al.,
2009
Visco-Comandini et
al., 1998
Zimmerman et al.,
1997
Barber et al., 2001
Stewart et al., 1997
Samson et al., 1996
Bogner et al., 2004
Liu et al., 2004
Oh et al., 2008
Balotta et al., 1997
Монета достоверно несимметрична!
Гетерозиготы w/d чаще встречаются среди HIVНо какое OR?
Reiche et al., 2008
Ruiz et al., 2001
Zimmerman et al.,
1997
Meyer et al., 1997
0,0%
Zimmerman et al.,
1997
5,0%
Phillpot et al., 2003
10,0%
Adojaan et al.,
2007
HIV-
Если ассоциации нет, то случаи «больше-меньше» должны появляться с вероятностью ½
Вероятность выпадения 3 (и менее) орлов в 18 бросаниях монеты равна
18
18
18
18
1
1
1 1
0 1
p  C183    C182    C18

C
 
18    0.0038
2
2
2
2
Протективное
гетерозиготы
Mantel-Haenszel
testдействие
with WinPepi:
результаты
w/d CCR5 достоверно, но не велико: OR=1.15
Мета-анализ
OR
RR = f+ / f-
f = f- - f+
Mantel-Haenszel оценка
0.87 (1.15)
0.887
0.016
Unadjusted оценка
(по всем данным)
0.78
0.801
0.027
95%-довер. интервал
0.77 - 0.97
0.81 - 0.98
0.007-0.023
Значимость
гетерогенности (р)
0.131
0.236
0.451
Число «null»-статей (OR=1)
7
2
для ликвидации значимости
Значимость корреляции
0.188 (Regression asymmetry test, Egger)
объемов выборок
0.211 (Adjusted rank correlation, Begg&Mazumdar):
и эффектов (д.б. > 0.1 )
Итоговая
значимость различий
0.014
(Fisher’s two-tailed)
Темы для обсуждения
 Оценка ассоциаций «генотип-фенотип» и их значимости
 Факторы, влияющие на значимость оценок
 Объединение выборок и метаисследования
 Учет множественности сравнений
Как это распределенные
бывает?
Генерируем две одинаково
выборки
по 100 особей
с 20-локусными
генотипами
Наблюдаем
появление
фальшивых
ассоциаций
Частоты минорых
аллелей (в среднем 0.1)
Ген
111
222
333
444
555
666
777
888
999
10
10
10
11
11
11
12
12
12
13
13
13
14
14
14
15
15
15
16
16
16
17
17
17
18
18
18
19
19
19
20
20
20
Больные 1
Выборка
gen case
case
gen
gen
case
6
14
710
12
12
10
12
8
15
17
12
9
8
13
10
9
5
12
11
9
9
713
10
7
12
10
8
10
12
14
8
12
13
14
7
10
914
12
12
17
13
14
998
15
812
10
10
7
815
7
6
11
14
912
9
17
10
10
11
11
11
8
10
13
10
15
16
7
11
11
12
Должно быть
OR=1
Здоровые2
Выборка
gen control
control
gen
gen
control
7
897
9
5
210
7
14
513
9
12
16
9
8
11
13
11
10
13
6
410
12
12
9811
9
9
812
14
12
11
9
12
910
9
510
14
7
910
13
9
8910
6
96
12
11
10
716
9
14
7
13
9
7
810
10
10
13
10
6
865
23
41
OR
OR real
real
OR
OR
real
0.85
2.2
0.87
1.1
1.4
2.6
5.4
1.2
1.2
1.1
3.9
0.91
1.0
0.64
1.1
0.58
1.0
0.61
1.1
0.83
0.80
0.89
1.0
0.68
1.0
1.2
3.3
0.81
0.70
0.81
1.6
1.6
0.88
1.4
1.1
1.9
0.46
0.81
1.3
0.73
1.4
1.0
1.8
1.5
0.78
1.6
1.9
0.61
1.2
2.3
0.88
0.74
1.0
0.76
1.8
1.0
1.2
1.0
1.2
1.2
1.1
0.52
0.89
2.7
1.1
0.68
1.6
0.83
1.2
1.1
1.2
1.3
1.3
1.0
1.2
1.7
1.4
1.9
1.9
1.6
p
ppp
0.782
0.127
0.796
0.819
0.513
0.0896
0.0209
0.670
0.796
0.853
0.0105
0.841
1.00
0.371
0.841
0.239
1.00
0.405
0.835
0.683
0.655
0.819
1.00
0.467
1.00
0.782
0.0455
0.670
0.491
0.670
0.371
0.297
0.808
0.513
0.841
0.201
0.127
0.670
0.549
0.513
0.513
1.00
0.178
0.394
0.637
0.297
0.285
0.670
0.0881
0.808
0.532
1.00
0.617
0.221
1.00
0.782
1.00
0.655
0.695
0.835
0.162
0.819
0.0412
0.819
0.414
0.346
0.683
0.655
0.827
0.796
0.637
0.532
1.00
0.705
0.239
0.564
0.225
0.225
0.371
Значимо!
Сразу 3 локуса
«ассоциированы»
с заболеваемостью!
Как избежать фальшивых открытий?
 Правило Карло Бонферрони (1935):
При проведение m независимых статистических тестов
значимы только те результаты, для которых
 False Discovery Rate control: FDR - контроль
 Permutation test
(компьютерная перестановка лэйблов «case-control»)
Зависимость ошибки II рода от числа тестов (SNP)
при использовании поправки Бонферрони
При 100 сравнениях ради того, чтобы гарантировать
Вероятность
пропустить
с OR=2.7
отсутствие
хотя быгенодного
на выборках 100 (case) и 100 (control)
ложного результата, мы упускаем 88% открытий!
Ошибка II рода
0,8
При m=100 ошибка равна 0.88
0,6
При 5тесте
сравнениях
упускаем 50%
В отдельном
вероятность
упустить открытиеоткрытий
равна 0.2
0,4
0,2
0
0 1
5
10
15
Число тестов
20
Новый принцип проверки статистических гипотез:
FDR-контроль
False Discovery Rate control: Benjamini, Hochberg (1995)
Вероятность хотя бы одного
фальшивого открытия < Уровня значимости
Ошибка I рода < 0.05
Традиционный принцип
заменяется на
105 статей в базе
Средняя доля фальшивых открытий < Выбранный уровень
Пример: множественные сравнения по 10 тестам
Располагаем тесты в
Коррекция Коррекция по
порядке увелечения p
Bonferroni
FDR
Значимые различия
после коррекции по
0,005
0,005
FDR
0,005
0,010
Тест
pi
1
0,001
2
0,0055
3
0,005
0,01
В первой клетке
0,005
0,015
как
у Бонферрони,
во второй
клетке
0,005
0,02
вдвое
втрое больше,
больше
0,04и т.д ….0,005
0,005
0,3
4
5
6
7
8
9
10
0,015
Поправка Бонферрони
0,020
оставляет
значимым лишь
первое сравнение
0,025
0,030
0,035
И это
все!!!
0,005
0,040
0,5
Значимые
различия
без
Для 6-ого теста p больше
на
0,005 поправок0,045
0,6этого значения
множественность
0,005
0,050
0,8
Что делать, если FDR не помогает?
Permutation tests:
случайные перестановки пометок «case-control»
в компьютерных симуляциях по алгоритму:
 В исходной базе данных делаем случайную перестановку
лейблов case-control
Тем самым
мыp-уровни
отказываемся
от попыток
 Вычисляем
заново
для каждого
гена (pperm)
Точный тест Фишера – это тоже permutation test,
вычислить значимость различий.
только
реализованный
аналитически
(р
вычисляется

Повторяем
N раз (минимум
10000), фиксируя
Вместо
этогопроцедуру
мы ее «измеряем»
экспериментально,
по случаи,
формулам
комбинаторной
теориизначения
вероятностей)
когда
p
меньше
исходного
разыгрывая
perm ситуацию на компьютереp
 Вычисляем откорректированное p как
p' 

Число случаев p perm  p
N

Permutation test применительно к данным об
ассоциации заболеваемости с 10 SNP
Переставляем отметки «case-control» 10000 раз. В результате получаем коррекцию p
Частота минорного
аллеля
SNP
Case (100)
Control (100)
1
62
26
2
19
3
31
4
20
OR
4,6
0,0001
0,000
3,7
0,009
0,010
2,8
0,011
0,007
2,9
0,023
0,025
3,0
0,071
0,109
2,0
0,096
0,098
1,8
0,103
0,058
1,8
0,120
0,067
53
1,3
0,571
0,476
41
1,0
0,911
1,000
6
Значимо по
Бонферрони
14
8
Совсем маленькая программка
11 Значимо
по4без
FDR
Значимо
sumDif Table 0, Length frCase
;
коррекции
Do l RandomPermutation
2
volSample
;
6
23 множественность
13 на
tot Join ill, health ;
ill tot Take l, volSample
7
44 ; ;
30
health tot Take l, volSample
5
simNum
10000;
genCase1
one.ill;
8
genControl1
xiSq
p1
sumDif
simp
one.health;
genCase1
1
Но так
p бывает неp`всегда
Indulgentia
54
genControl1
2
39
genCase1
genControl1
CDF ChiSquareDistribution 1 , xiSq ;
9
sumDif
sumDif simNum
10
59p1 ,
UnitStep p
N;
40
simNum
;
N;