ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН [email protected] тел. (499) 132-8958
Download ReportTranscript ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН [email protected] тел. (499) 132-8958
ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН [email protected] тел. (499) 132-8958 Темы для обсуждения Оценка ассоциаций «генотип-фенотип» и их значимости Факторы, влияющие на значимость оценок Объединение выборок и метаисследования Учет множественности сравнений Выявление ассоциаций «генотип-фенотип»: минимальный набор действий Фенотип - качественный признак Кроме этого в обоих случаях можно (например: «здоровый - больной», «русский - татарин») строить различные регрессионные модели: Зависимая переменная – признак (фенотип), независимыми переменные – генотипы. Например так: A/A по - 0,точному A/T - 1, T/T - 2Фишера Вычисляем OR; значимость тесту Фенотип - количественный признак (например: вес, содержание кальция, частота аберраций) Вычисляем средние значения признака для разных генотипов; значимость по критерию Манна-Уитни OR – количественная мера предрасположенности (Odd Ratio) OR – непременный атрибут «case-control association study» (выявление «генов предрасположенности» к заболеванию путем сопоставлений частот генотипов у больных и здоровых) OR показывает во сколько раз повышена вероятность заболеть для носителя «плохого» генотипа Группа больных Рбольные OR = Контроль (здоровые) >> Р - генотип, указывающий на предрасположенность к заболевания Рконтроль (1- Р ) больные контроль ______________________ Рконтроль (1- Рбольные) OR>1 – генотип связан с болезнью OR=1 – нет связи между генотипом и болезнью OR<1 – протективный генотип Soft для вычисления OR и проведения матаисследований WinPepi Portal (2010) - computer programs for epidemiologists Free! 30 дней Статистический анализ сопряженности генотипов и количественных признаков Частота аберраций хромосом Самое простое и необходимое: вычисление средних значений признака для носителей различных генотипов. Далее сравнение по непараметрическому тесту (не по Стьюденту!) Обычно стараются рассмотреть две группы 0.04 0.03 0.002 0.01 0.00 A/A Гомозигота поРецессивная мажорному аллелюмодель + A/G + G/G ДоминантнаяГомозигота по модельминорному аллелю Статистический анализ сопряженности генотипов и количественных признаков Самое простое и необходимое: вычисление средних значений признака для носителей генотипов. Далее вычисляетсяразличных OR Далее сравнение по непараметрическому тесту и значимость по точному критерию Фишера. В данном примере риск возникновения (не по Стьюденту!) аберраций у носителей минорного аллеля G равен OR=2,1 и р=0,015 Сравнение частот генотипов для групп с низким (или высоким) значением признака 40 30 20 40 G/G A/G 30 A/G 20 A/A 10 0 G/G 50 Частота, % , % Частота, 60 Группа людей с нулевым уровнем аберраций 50 A/A 10 0-1 1-2 2-3 3-4 4-5 5-6 Частота аберраций на 100 клеток >6 0 0 1 Частота аберраций на 100 клеток Статистический анализ сопряженности генотипов и количественных признаков Самое простое и необходимое: вычисление средних значений признака для носителей различных генотипов. Далее сравнение по непараметрическому тесту (не по Стьюденту!) Сравнение частот генотипов для (р), групп с низким Зависимая переменная – признак (или высоким) значением признака независимыми переменные – генотипы (xi). Нелинейные многомерные Например так: A/A - 0, A/T регрессии, - 1, T/T - 2 реализованные в пакетах Statistica и SPSS Логистическая и пуассоновская регрессии p 1 1 e a1x1 ... an xn р – частота аберраций xi – генотип i-го локуса аi – коэф. регрессии Для логиcтической регрессии ai =ln(ORi) p e a0 a1x1 ... an xn Soft для работы с генотипами и гаплотипами WinStat for Excel Free! X. Sole, E. Guino, J. Valls, R. Iniesta1, V. Moreno (2006) http://bioinfo.iconcologia.net/index.php?module=Snpstats http://www.bios.unc.edu/~lin/hapstat/ Free! Темы для обсуждения Оценка ассоциаций «генотип-фенотип» и их значимости Факторы, влияющие на значимость оценок Объединение выборок и метаисследования Учет множественности сравнений Чуть-чуть об ошибках статистических тестов биологпредположение ориентирован наобконтроль Нулевая Традиционно гипотеза – обычно отсутствии I рода значимости), различий =ошибки 2 выборки из(через однойуровень генеральной совокупности т.е. на гарантии отсутствия ложных открытий, Ошибка I рода () Вероятность отвергнуть правильную нулевую гипотезу = Вероятность обнаружить различия там, где их нет = Вероятность совершить фальшивое открытие Ошибка II рода () Вероятность принять неправильную нулевую гипотезу = Вероятность не обнаружить существующие различия = Вероятность упустить открытие Мощность 1- Ошибка II рода о= возможности … теста и при =этом мало заботится Вероятность правильно нулевуюIIгипотезу упустить отвергнуть открытие (ошибка рода) Вероятность не упустить открытие От чего зависят ошибки статистических тестов? От размаха реально существующих отличий и разброса данных От объемов выборок Ошибка I рода (вероятность фальшивого открытия) С увеличением объема выборки мощность теста слабо зависитнеотупустить объемовоткрытие) выборок, (вероятность Ошибки I и II рода однозначно не связаны. В целом они сравнимы по величине всегда возрастает ошибкаесли II рода растет при уменьшении ошибки I рода Крайний случай: «критерий» св. Фомы Неверующего (0033) Ошибка I рода = 0 Ошибка II рода = 1 Сравнение частот при уровне значимости 0.05 Объемы выборок в опыте и контроле одинаковы Стьюдент 2 Фишер 0 2 4 5 1 6 7 7 18 2 8 9 9 16 больше 5 Если в контроле нет мутаций, то при от объемов 4 независимо 12отличий 12 значимости в12 опытевыборок их должно быть13 5 13(100 или 1000) 13 24 22 Число событий в опыте Минимальное число событий в опыте при значимом отличии от контроля Число событий в контроле 20 3 10 11 10 Фишер 6 15 15 15 u-тест 7 16 16 16 Хи-квадрат 8 18 18 18 9 19 19 19 10 21 21 20 20 35 35 33 30 47 47 46 14 12 10 8 6 4 2 0 0 2 4 6 8 10 Число событий в контроле 12 Темы для обсуждения Оценка ассоциаций «генотип-фенотип» и их значимости Факторы, влияющие на значимость оценок Объединение выборок и метаисследования Учет множественности сравнений Проверка однородности материала и вычисление OR для нескольких выборок Индекс рассеяния для биномиальных выборок Можно ли объединить k независимых выборок и оценить частоту как Объем выборки Число мутаций Частота N1 n1 p1 N2 n2 p2 …. …. …. Nk nk pk Mantel-Haenszel test n p N i i i Выборки можно объединять, если i Mantel-Haenszel test Значимость гетерогенности выборок Вычисление OR для совокупности выборок Объединение выборок с незначимыми эффектами Если это принять за 4-ое превышение, то р=0.015 частота гетерозигот в выборках HIV+ и HIV- по данным различных авторов 30,0% Только в 3 выборках из 18 частота гетерозигот w/d у HIV+ выше, чем у HIV- 25,0% 20,0% HIV+ 15,0% Eugen-Olsen et al., 1997 Parczewski et al., 2009 Visco-Comandini et al., 1998 Zimmerman et al., 1997 Barber et al., 2001 Stewart et al., 1997 Samson et al., 1996 Bogner et al., 2004 Liu et al., 2004 Oh et al., 2008 Balotta et al., 1997 Монета достоверно несимметрична! Гетерозиготы w/d чаще встречаются среди HIVНо какое OR? Reiche et al., 2008 Ruiz et al., 2001 Zimmerman et al., 1997 Meyer et al., 1997 0,0% Zimmerman et al., 1997 5,0% Phillpot et al., 2003 10,0% Adojaan et al., 2007 HIV- Если ассоциации нет, то случаи «больше-меньше» должны появляться с вероятностью ½ Вероятность выпадения 3 (и менее) орлов в 18 бросаниях монеты равна 18 18 18 18 1 1 1 1 0 1 p C183 C182 C18 C 18 0.0038 2 2 2 2 Протективное гетерозиготы Mantel-Haenszel testдействие with WinPepi: результаты w/d CCR5 достоверно, но не велико: OR=1.15 Мета-анализ OR RR = f+ / f- f = f- - f+ Mantel-Haenszel оценка 0.87 (1.15) 0.887 0.016 Unadjusted оценка (по всем данным) 0.78 0.801 0.027 95%-довер. интервал 0.77 - 0.97 0.81 - 0.98 0.007-0.023 Значимость гетерогенности (р) 0.131 0.236 0.451 Число «null»-статей (OR=1) 7 2 для ликвидации значимости Значимость корреляции 0.188 (Regression asymmetry test, Egger) объемов выборок 0.211 (Adjusted rank correlation, Begg&Mazumdar): и эффектов (д.б. > 0.1 ) Итоговая значимость различий 0.014 (Fisher’s two-tailed) Темы для обсуждения Оценка ассоциаций «генотип-фенотип» и их значимости Факторы, влияющие на значимость оценок Объединение выборок и метаисследования Учет множественности сравнений Как это распределенные бывает? Генерируем две одинаково выборки по 100 особей с 20-локусными генотипами Наблюдаем появление фальшивых ассоциаций Частоты минорых аллелей (в среднем 0.1) Ген 111 222 333 444 555 666 777 888 999 10 10 10 11 11 11 12 12 12 13 13 13 14 14 14 15 15 15 16 16 16 17 17 17 18 18 18 19 19 19 20 20 20 Больные 1 Выборка gen case case gen gen case 6 14 710 12 12 10 12 8 15 17 12 9 8 13 10 9 5 12 11 9 9 713 10 7 12 10 8 10 12 14 8 12 13 14 7 10 914 12 12 17 13 14 998 15 812 10 10 7 815 7 6 11 14 912 9 17 10 10 11 11 11 8 10 13 10 15 16 7 11 11 12 Должно быть OR=1 Здоровые2 Выборка gen control control gen gen control 7 897 9 5 210 7 14 513 9 12 16 9 8 11 13 11 10 13 6 410 12 12 9811 9 9 812 14 12 11 9 12 910 9 510 14 7 910 13 9 8910 6 96 12 11 10 716 9 14 7 13 9 7 810 10 10 13 10 6 865 23 41 OR OR real real OR OR real 0.85 2.2 0.87 1.1 1.4 2.6 5.4 1.2 1.2 1.1 3.9 0.91 1.0 0.64 1.1 0.58 1.0 0.61 1.1 0.83 0.80 0.89 1.0 0.68 1.0 1.2 3.3 0.81 0.70 0.81 1.6 1.6 0.88 1.4 1.1 1.9 0.46 0.81 1.3 0.73 1.4 1.0 1.8 1.5 0.78 1.6 1.9 0.61 1.2 2.3 0.88 0.74 1.0 0.76 1.8 1.0 1.2 1.0 1.2 1.2 1.1 0.52 0.89 2.7 1.1 0.68 1.6 0.83 1.2 1.1 1.2 1.3 1.3 1.0 1.2 1.7 1.4 1.9 1.9 1.6 p ppp 0.782 0.127 0.796 0.819 0.513 0.0896 0.0209 0.670 0.796 0.853 0.0105 0.841 1.00 0.371 0.841 0.239 1.00 0.405 0.835 0.683 0.655 0.819 1.00 0.467 1.00 0.782 0.0455 0.670 0.491 0.670 0.371 0.297 0.808 0.513 0.841 0.201 0.127 0.670 0.549 0.513 0.513 1.00 0.178 0.394 0.637 0.297 0.285 0.670 0.0881 0.808 0.532 1.00 0.617 0.221 1.00 0.782 1.00 0.655 0.695 0.835 0.162 0.819 0.0412 0.819 0.414 0.346 0.683 0.655 0.827 0.796 0.637 0.532 1.00 0.705 0.239 0.564 0.225 0.225 0.371 Значимо! Сразу 3 локуса «ассоциированы» с заболеваемостью! Как избежать фальшивых открытий? Правило Карло Бонферрони (1935): При проведение m независимых статистических тестов значимы только те результаты, для которых False Discovery Rate control: FDR - контроль Permutation test (компьютерная перестановка лэйблов «case-control») Зависимость ошибки II рода от числа тестов (SNP) при использовании поправки Бонферрони При 100 сравнениях ради того, чтобы гарантировать Вероятность пропустить с OR=2.7 отсутствие хотя быгенодного на выборках 100 (case) и 100 (control) ложного результата, мы упускаем 88% открытий! Ошибка II рода 0,8 При m=100 ошибка равна 0.88 0,6 При 5тесте сравнениях упускаем 50% В отдельном вероятность упустить открытиеоткрытий равна 0.2 0,4 0,2 0 0 1 5 10 15 Число тестов 20 Новый принцип проверки статистических гипотез: FDR-контроль False Discovery Rate control: Benjamini, Hochberg (1995) Вероятность хотя бы одного фальшивого открытия < Уровня значимости Ошибка I рода < 0.05 Традиционный принцип заменяется на 105 статей в базе Средняя доля фальшивых открытий < Выбранный уровень Пример: множественные сравнения по 10 тестам Располагаем тесты в Коррекция Коррекция по порядке увелечения p Bonferroni FDR Значимые различия после коррекции по 0,005 0,005 FDR 0,005 0,010 Тест pi 1 0,001 2 0,0055 3 0,005 0,01 В первой клетке 0,005 0,015 как у Бонферрони, во второй клетке 0,005 0,02 вдвое втрое больше, больше 0,04и т.д ….0,005 0,005 0,3 4 5 6 7 8 9 10 0,015 Поправка Бонферрони 0,020 оставляет значимым лишь первое сравнение 0,025 0,030 0,035 И это все!!! 0,005 0,040 0,5 Значимые различия без Для 6-ого теста p больше на 0,005 поправок0,045 0,6этого значения множественность 0,005 0,050 0,8 Что делать, если FDR не помогает? Permutation tests: случайные перестановки пометок «case-control» в компьютерных симуляциях по алгоритму: В исходной базе данных делаем случайную перестановку лейблов case-control Тем самым мыp-уровни отказываемся от попыток Вычисляем заново для каждого гена (pperm) Точный тест Фишера – это тоже permutation test, вычислить значимость различий. только реализованный аналитически (р вычисляется Повторяем N раз (минимум 10000), фиксируя Вместо этогопроцедуру мы ее «измеряем» экспериментально, по случаи, формулам комбинаторной теориизначения вероятностей) когда p меньше исходного разыгрывая perm ситуацию на компьютереp Вычисляем откорректированное p как p' Число случаев p perm p N Permutation test применительно к данным об ассоциации заболеваемости с 10 SNP Переставляем отметки «case-control» 10000 раз. В результате получаем коррекцию p Частота минорного аллеля SNP Case (100) Control (100) 1 62 26 2 19 3 31 4 20 OR 4,6 0,0001 0,000 3,7 0,009 0,010 2,8 0,011 0,007 2,9 0,023 0,025 3,0 0,071 0,109 2,0 0,096 0,098 1,8 0,103 0,058 1,8 0,120 0,067 53 1,3 0,571 0,476 41 1,0 0,911 1,000 6 Значимо по Бонферрони 14 8 Совсем маленькая программка 11 Значимо по4без FDR Значимо sumDif Table 0, Length frCase ; коррекции Do l RandomPermutation 2 volSample ; 6 23 множественность 13 на tot Join ill, health ; ill tot Take l, volSample 7 44 ; ; 30 health tot Take l, volSample 5 simNum 10000; genCase1 one.ill; 8 genControl1 xiSq p1 sumDif simp one.health; genCase1 1 Но так p бывает неp`всегда Indulgentia 54 genControl1 2 39 genCase1 genControl1 CDF ChiSquareDistribution 1 , xiSq ; 9 sumDif sumDif simNum 10 59p1 , UnitStep p N; 40 simNum ; N;