Статистичні висновки

Download Report

Transcript Статистичні висновки

Статистичні висновки
@ Я.Притула
1
Перевірка статистичних гіпотез
Статистичні висновки – це висновки про ВСЮ генеральну сукупність
зроблені на основі вибіркових даних з використанням теорії
ймовірностей.
Генеральна сукупність
Вибірка
@ Я.Притула
+
+
*
*
.
.
-
•* + + .. + * * : .
•++**..-+•. + * - - * *
•- + . . *
2
Центральна гранична теорема
Для випадкової вибірки з n елементів з будь-якої генеральної
сукупності розподіл середнього значення наближається до
нормального при збільшенні n.
Причому, середнє вибірки стає рівним математичному сподіванню
генеральної сукупності, а стандартна похибка середнього значення
X 
@ Я.Притула

n
3
Центральна гранична теорема
Приклад. У супермаркеті в середньому покупець витрачає 20 грн з
стандартним відхиленням 15 грн. За годину магазин обслуговує 500
покупців. Яка ймовірність, що сумарна виручка від 500 покупців
перевищить 10 500 грн?
Маємо, мат.сподівання сумарної виручки = 500*20=10 000 грн.
15
 500 = 335.4 грн
Стандартне відхилення=
500
Тому, ймовірність, що сумарна виручка від 500 покупців перевищить
10 500 грн =1-NORMDIST(10500;10000;335.4;1)=1-0.932=0.068
@ Я.Притула
4
Якщо невідоме стандартне відхилення
Якщо невідоме стандартне відхилення генеральної сукупності, то
його ми можемо апроксимувати через стандартну похибку вибірки,
тобто
s
sX 
n
В такому випадку для аналізу варто використовувати не нормальний
розподіл, а подібний до нього розподіл Стьюдента (t-розподіл). В
Excel відповідні формули: =TDIST чи =СТУДРАСП і обернені формули
=TINV чи =СТУДОБР.
Фактично, t-розподіл подібний до стандартного нормального.
@ Я.Притула
5
Розподіл Стьюдента
1.
2.
3.
4.
5.
Розподіл Стьюдента є симетричним відностно 0.
Параметром розподілу Стьюдента є k –кількість степенів вільності
Математичне сподівання розподілу Стьюдента = 0,
Дисперсія = k/(k-2),
При великих значеннях k, розподіл Стьюдента прямує до
стандартного нормального розподілу.
@ Я.Притула
6
Якщо невідоме стандартне відхилення
Приклад. Якщо б в попередній задачі було невідоме станд.
відхилення генеральної сукупності, а ми його оцінили в 16 грн за
рахунок вибірки, то ймовірність, що сумарна виручка від 500
покупців перевищить 10 500 грн була б рівна
16
 500 ,
=TDIST((10500-10000)/357.8;499;1)=0.0815, де 357.8=
500
а величина (10500-10000)/357.8 – це фактично перехід від
нормального до стандартного нормального розподілу.
@ Я.Притула
7
Інший метод побудови вибірки, стратифікація
Якщо вам наперед відомо, що генеральна сукупність містить певні
групи і ви хочете щоб вони були включені в аналіз, тоді варто робити
статифіковану вибірку. Її отримуємо за рахунок випадкової вибірки в
рамках кожної стратифікаційної групи.
Тоді, середнє та стандартна похибка обчислюються таким чином:
t
N1 X 1  N 2 X 2  ...  N t X t
X 

N1  N 2  ...  N t
 Ni X i
i 1
 Ni
i
sX
1

N
N t2 st2
N12 s12 N 22 s 22
1

 ...

n1
n2
nt
N
N i2 si2
 n
i 1
i
t
Де N – розмір генеральної сукупності, Ni – розмір генеральної
сукупності групи і, ni – розмір вибірки з генеральної сукупності групи
і, X i , si - середнє та стандартна похибка вибірки з і-тої групи.
@ Я.Притула
8
Довірчі інтервали
Коли ми, базуючись на вибірці, робимо судження про всю генеральну
сукупність, то це веде до неточності в оцінках, тому зазвичай
використовують не точкові оцінки, а інтервальні, тобто будують
довірчий інтервал для параметрів генеральної сукупності.
Довірчий інтервал для математичного сподівання рівний
X  t / 2 s X , X  t / 2 s X
Де
t / 2
- значення t-розподілу для двостороннього рівня довіри
- це ймовірність прийняти помилкове рішення, одже
(1   ) - це рівень довіри тесту.

@ Я.Притула
9
Довірчі інтервали: задаємо точність
Як бачимо, при збільшені обсягу вибірки, довірчий інтервал
зменшується, тому задавши наперед неодхідну точність оцінки –
довжину довірчого інтервалу ми можемо знайти необхідний для
цього обсяг вибірки. Формула для знаходження n така
 2  t / 2  s 
N 

e


2
де е – задана довжина довірчого інтервалу.
@ Я.Притула
10
Довірчі інтервали: приклад
Припустимо банк для оптимізації готівкових коштів вирішив оцінити
денну потребу в готівці. Для цього він взяв статистику за випадкових
п’ять днів по кількості готівки, що приносили клієнти (Х) та кількості
готівки, що забирали клієнти (Y), вони отримали такі дані
Чи можна стверджувати на основі цих даних, що з ймовірністю
помилки 5% їм не буде бракувати готівки?
Знайдемо 95% довірчий інтервал для мат.сподівання отримання та
видачі готівки. Маємо
Стандартні похибки для X I Y рівні, відповідно, 8.246 і 7.483.
@ Я.Притула
11
Довірчі інтервали: приклад
Тому 95% довірчий інтервал для мат.сподівання ортимання готівки
рівний
Для мат.сподівання видачі готівки
Оскільки мінімальне значення мат.сподівання отримання готівки
(19.763) менше за максимальне значення мат.сподівання видачі
готівки (22.922), то ми не можемо стверджувати, що з ймовірністю
помилки в 5% банку щоденно буде вистачати готівки.
@ Я.Притула
12
Довірчі інтервали прогнозу
Довірчі інтервали можна використовувати для прогнозу можливого
наступного значення генеральної сукупності.
Для цього достатньо скоректувати стандартну похибку таким чином
1
sпрогнозу  s 1
n
Отже, довірчий інтервал прогнозу складе
1
1
X  t / 2 s 1  , X  t / 2 s 1 
n
n
Зауважте, тут замість s X стоїть s, оскільки нас цікавить не що в
середньому станеться, а ЩО станеться.
@ Я.Притула
13
Довірчі інтервали прогнозу: приклад
Вам потрібно постійно замовляти певні комплектуючі для
виробництва. Ви не хочете замовляти багато наперед, оскільки
сплачуєте відсотки за кредит, тим більше ви не хочете зупинки
виробництва через відсутність комплектуючих. Дані за останні вісім
поставок показали такі терміни виконання ваших замовлень в днях:
10, 9, 7, 10, 3, 9, 12, 5.
Середнє значення = 8.125, стандартне відхилення s=2.94897.
Скоректована стандартна похибка прогнозу рівна = 3.12786.
Тому, 95% двосторонній довірчий інтервал рівний (t-значення =
2.365)
Від 0.728=8.125-2.365*3.12786 до 8.125+2.365*3.12786=15.52.
Оскільки вас цікавить лише верхня межа, то можна порахувати
односторонній довірчий інтервал прогнозу (t-значення = 1.895):
8.125+1.895*3.12786=14.05
@ Я.Притула
14
Тестування гіпотез
Інший спосіб прийняття рішень щодо генеральної сукупності на
основі вибіркових даних.
Якщо ми хочемо порівняти мат.сподівання генеральної сукупності з
наперед заданим числом, то сформулюємо це як гіпотезу:
H0 :   a
H1 :   a
Щоб протестувати таку гіпотезу достатньо обчислити t-статистику
t статистика
X a

sX
І порівняти це значення з критичним (табличним) значенням tрозподілу для заданої точності оцінки (ймовірності помилки).
Якщо t-статистика > t-критичне, то нульова гіпотеза відкидається.
@ Я.Притула
15
Завжди присутня можливість помилки
При статистичних висновках завжди є присутня помилка, вона буває
двох видів:
Ваше рішення
Прийняти
нульову
гіпотезу
Істина
Нульова
гіпотеза
@ Я.Притула
Альтернативна
гіпотеза
Прийняти
альтернативну
гіпотезу
Правильне
рішення
Помилка І типу
(контрольована)
Помилка ІІ типу
(мало
контрольована)
Правильне рішення
16
Інші загальновживані тести
• тест-порівняння двох вибірок
• порівняння рівності середніх значень
• порівняння рівності стандартних відхилень
• тест-порівняння більш ніж двох вибірок – ANOVA аналіз
@ Я.Притула
17