Простая линейная регрессия

Download Report

Transcript Простая линейная регрессия

Лекция 6
Линейная регрессия
Простая линейная регрессия
Неделя
1
2
3
4
5
6
7
8
9
10
Кол-во молока
Цена 1 л (руб.)
(тыс. л)
10
20
6
30
5
26
11
23
10
24
15
18
5
25
12
21
16
16
20
17
Простая линейная регрессия
кол-во молока (тыс. л)
Продажа молока
25
20
15
10
5
0
12
17
22
цена за 1 л (руб.)
27
32
Простая линейная регрессия
r
= -0.88
достаточно тесная
обратная взаимосвязь
Прогнозирование
минимально-
максимальный метод
линейная регрессия
Минимально-максимальный метод
 низкая
точность метода
 Y = 27.43 - 0.71X
25
20
15
прогноз
факт
10
5
0
15
17
19
21
23
25
27
29
31
Простая линейная регрессия
Y   0  1 X  
Генеральная совокупность
^
Y  b 0  b1 X
Выборка
Простая линейная регрессия

метод наименьших квадратов
(наименьшая сумма квадратов
ошибок)
SSE 

^
(Y  Y ) 
2

( Y  b 0  b1 X )
Y   0  1 X  
2
Простая линейная регрессия
b1 
n  XY 
b1 
n X
2
 (Y
 (X
b0 
Y
n
 XY
 ( X )
2

 (X


 X )  (Y  Y )


(X  X )

Y)
2
r

 X)

2
b1  X
n


 Y b1 X
2
Простая линейная регрессия
кол-во молока (тыс. л)
Продажа молока
25
20
15
10
5
0
12
17
22
цена за 1 л (руб.)
27
32
Простая линейная регрессия
Математические ожидания возможных значений У на
одной прямой при изменении Х
Прогнозирование с использованием
линейной регрессии
Два источника неопределенности:
1. неопределенность, обусловленная отклонением
точек данных от выборочной прямой регрессии
2. неопределенность, обусловленная отклонением
выборочной прямой регрессии от регрессионной
прямой генеральной совокупности
Простая линейная регрессия:
ошибки
Ошибка (ε) – расстояние между значением У и его
математическим ожиданием
Стандартная ошибка оценки – степень отличия
реальных значений Y от оценочных
s y*x 
 (Y
^
Y)
2
n2
Стандартная ошибка прогноза - вариативность

около Y для данного значения Х
2
s f  s y* x 1 
1
n

(X  X )
 (X

 X)
2
Простая линейная регрессия
Границы интервала прогноза величины У:
^
Y  ts f
df = n-2
Для большой выборки - 95%-ный интервал:
^
Y  2s f
Простая линейная регрессия
25
20
15
10
5
0
16
-5
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Простая линейная регрессия
Предположения, положенные в основу модели
линейной регрессии:




для заданного значения Х генеральная совокупность значений У
имеет нормальное распределение относительно регрессионной
прямой совокупности
разброс генеральной совокупности точек данных относительно
регрессионной прямой совокупности остается постоянным всюду
вдоль этой прямой (дисперсия генеральной совокупности не
увеличивается и не уменьшается)
слагаемые ошибок ε независимы между собой
в генеральной совокупности существует линейная зависимость
между Х и У
Разложение дисперсии
наблюдение = прогноз + отклонение
^
^
Y  Y  (Y  Y )
или
Y  ( b 0  b1 X )  (Y  b 0  b1 X )
наблюдаемое
значение Y
объясненное
линейной
зависимостью
остаток или отклонение от
линейной зависимости
Разложение дисперсии

 (Y  Y )
SST 
n-1
^
2


 (Y  Y )   ( Y  Y )
2

2
=(Y  Y )SSE

=

^
n–2

^
2
+(Y  YSSR
)
+
1

2
 (Y
Разложение дисперсии
SST
222
=
=
SSR
172.023
+
+
SSE
49.977
SSR/SST = 0.775
77.5% объясняется взаимосвязью Х и У
Разложение дисперсии
Таблица ANOVA для прямолинейной регрессии
Источник
Сумма квадратов
Степени свободы
Регрессия
Ошибки
Общая
SSR
SSE
SST
1
n-2
n-1
MSE 
SSE
n2


^
(Y  Y )
n2
2
 s y* x
2
Среднеквадратичное
значение
MSR = SSR/1
MSE = SSE/(n-2)
Разложение дисперсии
Источник
Сумма квадратов
Степени свободы
Регрессия
Ошибки
Общая
172.023
49.977
222
1
8
9
SST
222
общая
вариация
=
=
SSR
172.023
объясненная
вариация
Среднеквадратичное
значение
MSR = 172.023
MSE = 6.247
+
+
SSE
49.977
необъясненная
вариация
Коэффициент детерминация
35
b0=32.75
30
регрессионная прямая
25
Yпрогноз.-Yср (объясненное
посредством Х)
20
15
Yср=11
10
Y – Yср(всего)
5
0
0
30
Y.-Yпрогноз (необъясненное
посредством Х)
Коэффициент детерминации
Выборочный коэффициент детерминации
измеряет долю изменчивости Y, которую можно объяснить с
помощью информации об изменчивости (разнице значений)
независимой переменной Х

^
r
2

1
объясненна я вариация
общая
SSE
SST
вариация
(Y

1

SST
^
Y)
2

(Y  Y )

SSR
2


 (Y  Y )
 (Y
2
1

Y)
2
необъяснен ная вариация
общая
вариация

Коэффициент детерминации
r
2

SSR
SST

172 . 023
 0 . 775
222
77.5% изменчивости количества
продаваемого молока можно объяснить
разницей в цене за 1 л
Коэффициент детерминации
Для прямолинейной регрессии коэффициент
детерминации равен квадрату
коэффициента корреляции
r
2
 (r )
2
Коэффициент детерминации
Проверка гипотез
H 0 : 1  0
Проверка гипотез
H 0 : 1  0
Проверочная статистика t
t 
b1
s b1
df = n – 2
s b1 
s y*x


(X  X )
2
Проверка гипотез
t расч. = - 5.25
t табл. = 2.306
отклонить нулевую гипотезу
Проверка гипотез
Проверка нулевой гипотезы с помощью таблицы ANOVA
F 
среднеквад ратичное
среднеквад ратичное
значение
значение
регрессии
ошибок
df = 1, n-2
Область отклонения гипотезы: F  F
r (n  2)
2
F 
1 r
2

MSR
MSE
Проверка гипотез
F расч. = 27.54
F табл. = 5.32
отклонить нулевую гипотезу
Анализ остатков
Предположения, сделанные для модели
прямолинейной регрессии




Связь между переменными является линейной
Ошибки являются независимыми
Дисперсии ошибок равны
Значения ошибки нормально распределены
Анализ остатков
Проверка соответствия предполагаемой
модели




Построить гистограмму значений остатков
Расположить остатки по значениям оцениваемых
величин
Расположить остатки по значениям объясняющих
переменных
Расположить остатки по времени их появления,
если исходные данные хронологически
упорядочены
Прогноз объемов продаж молока
Неделя
1
2
3
4
5
6
7
8
9
10
Кол-во молока
Цена 1 л (руб.)
(тыс. л)
10
20
6
30
5
26
11
23
10
24
15
18
5
25
12
21
16
16
20
17
Регрессия
Регрессионная статистика
Множественный R
0,88
R-квадрат
0,77
Нормированный R-квадрат
0,75
Стандартная ошибка
2,50
Наблюдения
10
R
2
adj
 1  1  R
2

n 1
n  k 1
,
Регрессия
Дисперсионный анализ
df
SS
Регрессия
1
172,02
Остаток
8
49,98
Итого
9
222
MS
172,02
6,25
F
Значимость F
27,54
0,00
Регрессия
tКоэффици Стандартная статис
PНижние Верхние
енты
ошибка
тика
Значение
95%
95%
Y-пересечение
32,75
4,22
7,76
0,00
23,02
42,48
Переменная X 1
-0,99
0,19
-5,25
0,00
-1,42
-0,55
S
2

S b0 
2

2
ei
S b1 
n2
S
2

S

( xi  x )
S b0 
2
b0
2
xi
n  ( xi  x )
2
S
2
Регрессия
ВЫВОД ОСТАТКА
Наблю Предсказан
дение
ное Y
1
12,98
2
3,09
3
7,05
4
10,01
5
9,02
6
14,95
7
8,03
8
11,99
9
16,93
10
15,94
Остатки
-2,98
2,91
-2,05
0,99
0,98
0,05
-3,03
0,01
-0,93
4,06
Стандартные
остатки
-1,26
1,23
-0,87
0,42
0,41
0,02
-1,29
0,00
-0,40
1,72