Мощность

Download Report

Transcript Мощность

Занятие 3

Мощность статистического теста. Величина различий (effect size). Формирование выборок для параметрических критериев.

Тестирование гипотез в статистике:

Формулируем ДВЕ взаимоисключающие гипотезы:

H 0

(

нулевая гипотеза

изменений… , null hypothesis) – её мы собираемся опровергать; обычно говорит, что нет различий, нет эффекта, нет

H 1

(

альтернативная гипотеза

, alternative hypothesis) если удастся отвергнуть H 0 .

– её мы примем, Посчитали статистику критерия, сравнили с критическим значением Отвергли Н 0 или не отвергли («приняли») Повторение предыдущего занятия.

Мощность

Мощность

когда Н 0 вероятность отвергнуть Н 0 действительно неверна.

в эксперименте, М ы « п р и н я л и »

H

0

М ы о т в е р г г л и

H

0

Истинное (но неизвестное нам) положение дел В е р н а

H

0

ПРАВИЛЬНО! 1 α β В е р н а

H

1

О Ш И Б К р о д а А а 2 г г о О Ш И Б К А 1 г г о р о д а з н ( ( у р о в е н ь а ч и м о с т и ) ) α 1 β ПРАВИЛЬНО! (мощность критерия)

Мощность Мощность /ошибка 2-го рода нам почти не подвластны. Но известно, что: 1.

2.

Для заданного N чем меньше α рода) тем больше β (ошибка 1-го (ошибка 2-го рода), и меньше мощность . ( Пример - поправка Бонферрони) Чем больше N, тем меньше ошибок.

вероятность обеих

Мощность Расчёт мощности Например, масса землероек в Заповеднике на самом деле

больше

, чем 90 г. Например, 94 г.

Мощность – вероятность того, что проведённое нами исследование установит этот факт.

H 0

:

μ

H 1

:

μ

≤ 90 г; > 90 г Ошибка 2-го рода + мощность = 1 (это 2 возможных результата теста, ведь в нашем случае Н 0

β

не верна)

+

(1-

β

) =1

Мощность Мощность предполагаемого статистического теста ключевой элемент планирования исследования Во всей мировой популяции землероек

μ

= 90 г.

Пусть « реальное значение » средней массы в заповеднике = 94 г.

Мощность Нарисуем распределения выборочных средних для

μ

= 90 и

μ

= 94 (стандартное отклонение σ = 20).

Размер выборки

n

25 зверей =

Мощность Если мы поймаем 25 землероек в заповеднике, у нас есть вероятность лишь 24%, что мы найдём различия! Т.к. лишь в 24% случаев среднее из нашей будущей выборки попадёт в критическую область.

Мощность

Как увеличить мощность?

Итак, большей

МОЩНОСТИ

критерия способствуют: 2.

3.

4.

5.

1.

Большой размер выборки (делает «уже» распределения выборочных средних) ; Большие различия между популяциями (effect size); Маленькое стандартное отклонение; Большой уровень значимости (

α

=0.05 а не

α

=0.01); Выбор одностороннего теста вместо двустороннего

Мощность Если в действительности средняя масса землероек в заповеднике равна 98 г, мощность теста будет уже 64%.

Мощность Здесь стандартное отклонение уменьшили вдвое, и мощность теста тоже стала 64%.

Единственный способ уменьшить стандартное отклонение – сделать выборку более гомогенной

Effect size ( размер эффекта)

1.

2.

3.

4.

• • •

Общая схема тестирования гипотезы:

Формулируем Н 0 верна : и Н 1 .

Строим распределения такие, как будто Н 0 распределение исследуемой переменной; распределение параметра выборки; распределение статистики критерия.

• • • Устанавливаем условия, при которых мы отвергнем Н 0 – определяем: уровень значимости; односторонний или двусторонний будет тест;

критическое значение

статистики критерия.

Считаем параметр выборки и статистику критерия выборки, сравниваем их с для реальной критическими значениями.

• • Интерпретируем результаты: Можем ли мы отвергнуть Н 0 ? Т.е., достоверны ли результаты статистически?

Если да, достоверны ли они ПРАКТИЧЕСКИ?

Effect size

Статистически

достоверный результат ≠

практически

значимый: статистическую значимость всегда можно «купить» большим размером выборки.

Пример про доктора Nostat, который изобрёл гипнотическое устройство для похудания, которое, если положить его под подушку, за месяц достоверно понижает массу тела на 1 г (доктор испытывал устройство на выборке N=6000).

Effect size

Интерпретация результатов

Предположим, мы отвергли H 0 (нашли отличия) способа ценить

практическую значимость

: . Два  Размер эффекта (effect size = Standardized Effect, Es);  Степень перекрывания выборок.

Про 0, который обрезает реальные распределения

Effect size

Размер эффекта считается для каждого статистического критерия по-разному.

Для критериев Стьюдента

– effect size index d = Cohen’s d (для других критериев рассмотрим в соответствующих разделах).

Считается как разница между средними значениями (реальным и предполагаемым, или в 2-х выборках), делённая на стандартное отклонение.

d

X obs s

 

d

X

1 

X

2

s pooled d

D s obs D

2

s pooled

df

1

s

1

df

1 2  

df

2

s

2 2

df

2

Effect size

По современным требованиям, в статьях рекомендуется приводить не только результаты тестирования гипотезы, но и мощность, и размер эффекта (особенно в сомнительных случаях).

Например: «For comparisons of two means we used Cohen’s

d

as effect size measurement (

d =0.20

for

small

effect size;

large

d =0.50

for

medium

effect size, and effect size; Cohen, 1988, Hurlburt, 2003) »

d =0.80

for

Мощность

Как использовать понятие мощности критерия:

 При

планировании

мощность=

0.8

, исследования мы можем рассчитать размер выборки, необходимый для того, чтобы «разглядеть» предполагаемые различия между выборками с заданной желаемой мощностью (высокая средняя=

0.4

). Реальные различия нам, очевидно, неизвестны, но можно задать минимальные, имеющие биологическое значение .

 Ещё мы можем

после

проведения теста (в котором мы не отвергли Н 0 ) оценить вероятность ошибки 2-го рода, т.е. посчитать мощность Пример про пациентов в больнице: влияют ли тренировки перед операцией на длительность реабилитации? Существенный результат – от 2-х дней. Мощность 0.8, SD=4 дня. Выборки по 64 человека.

Расчёт

размера выборки

для заданных различий и мощности

n

2  2

n nn

1 1 

n

При фиксированном n 1 можно сначала рассчитать общее N, а потом n 2

Расчёт мощности для двухвыборочного t критерия для независимых выборок .

Формирование выборок для параметрических критериев 1.

Случайность измерений

(

randomness

)

Попадание зверя в контрольную или экспериментальную групп должно быть равновероятным

клетка

Формирование выборок для параметрических критериев

Формирование выборок для параметрических критериев

2.

Независимость измерений

(

independence

)

Между измерениями не должно быть корреляций в пространстве и времени, автокорреляций (когда последующее измерение зависит от предыдущего).

Пример: один и тот же зверь вошёл в выборку несколько раз за разные годы; тех животных, которые живут близко с палаткой, наблюдали по утрам, а тех, кто подальше – по вечерам и т. п.

Формирование выборок для параметрических критериев

3.

Необходимо

минимизировать постороннюю дисперсию

Выровнять выборку так, чтобы действие посторонних факторов было сведено на нет, либо в дальнейшем учитывать действие этих факторов.

Например, анализировать изменчивость размеров тела в разных популяциях лучше на особях одного пола и возраста.

Формирование выборок для параметрических критериев

4.

Соответствие

нормальному распределению

Все выборки должны быть взяты из популяций с нормальным распределением ( так, принципиально не подходят последовательные измерения массы зверьков в течение года; НЕЛЬЗЯ использовать ДОЛИ, пропорции, частоты ) В методах: «In all parametrical tests the data conformed to a normal distribution (Shapiro Wilk’s W test, p>0.05)».

Формирование выборок для параметрических критериев

Соответствует ли распределение числа мотыльков на деревьях в лесу

НОРМАЛЬНОМУ РАСПРЕДЕЛЕНИЮ

?

Переменная – N мотыльков на дереве  Тест Колмогорова-Смирнова (Kolmogorov-Smirnov test) D статистика. Маломощный, не рекомендуется (Zar, 2010).

 Lilliefors test – «улучшенный К-С тест» (если неизвестны дисперсия и среднее в популяции) 

Shapiro Wilk’s W test

размер выборки до 5000) – наиболее предпочтительный.

(самый мощный,

Проверка распределения на нормальность

Формирование выборок для параметрических критериев

маленькое

p

говорит о том, что данные не соответствуют нормальному распределению.

Формирование выборок для параметрических критериев

5.

Гомогенность дисперсии

(

homogeneity = homoscedasticity

)

У совокупностей, из которых сформированы выборки,

дисперсии должны быть равны между собой

.

Если дисперсии не равны это называется гетерогенность (

heterogeneity = heteroscedasticity

) Это не столь критичное требование, как прочие. При равенстве размеров выборок ещё менее критично.

Формирование выборок для параметрических критериев Проверка

равенства дисперсий

:

вставлена в Статистике в блоки с соответствующими параметрическими тестами (

t

тест, ANOVA)

Проверка равенства дисперсий

 

F-test

– для двух групп;

Levene’s test

– более надёжный, подходит для двух и более групп; 

Brown & Forsythe's test

– подходит для выборок разного размера 

Barlett ’s test

– для трёх и более групп /Если выборки гетерогенны, есть способы сделать их гомогенными./ В методах: «In all parametrical tests the samples were homoscedastic (Levene's test, p>0.05) ».

Формирование выборок для параметрических критериев

6.

Следует исключить из анализа явные

аутлаеры (outliers).

Они могут быть заменены ближайшими к ним значениями.

В Statistica аутлаеры – значения, лежащие дальше, чем 1,5 межквартильных размахов выше третьей и ниже первой квартилей.

Экстремы – дальше, чем 3 межквартильных размаха.

Аутлаеры – измерения, настолько сильно отличающиеся от остальных, что скорее всего, они не принадлежат к данной выборке. Они сильно сдвигают среднее значение.

Аутлаеры

Аутлаеры

Аутлаеры аутлаер

Формирование выборок для параметрических критериев

В случае t критериев Стьюдента : выборки случайные из популяций с нормальным распределением, равными дисперсиями, N≥10, лучше всего – от 30. НО: 1. небольшие отклонения от нормального распределения допустимы, если:  распределение симметрично;  тест двусторонний (односторонний НЕ рекомендуется)  размеры выборок одинаковы 2. Для двухвыборочных тестов несоблюдение требования равенства дисперсий (приводит к увеличению ошибки 1-го рода) допустимо, если:  распределения соответствуют нормальному;  выборки отличаются по размеру не больше, чем на 10% 3. Двухвыборочные тесты Стьюдента и пр. не просто так названы двухвыборочными – они не подходят для 3-х и более выборок!!

.

http://www.etsy.com/shop/NausicaaDistribution

http://www.etsy.com/shop/NausicaaDistribution