1 - analisis de regresion aplicado

Download Report

Transcript 1 - analisis de regresion aplicado

UNIVERSIDAD NACIONAL MAYOR
DE SAN MARCOS
Facultad de Ciencias Económicas
Unidad de Postgrado
MAESTRIA EN ECONOMIA CON
MENCION EN GESTION Y POLITICA
PUBLICA
ANALISIS DE REGRESION APLICADO FRP FRM MLG
ESTIMACION DE PARAMETROS Y TERMINO DE PERTURBACION
INFERENCIA ESTADISTICA CONSTRUCCION DE INTERVALOS
Mag. Renán Quispe LLanos
PREDICCION
Fuentes de predicción
estratégica
• Económicos
Visión conjunta del proceso de
predicción
Construcción del Modelo
Análisis Estadístico
• Políticos
• Tecnológicos
• Sociales
• Conocimiento de la teoría
Económica
• Especificación del Modelo
• Estimación de los parámetros
• Verificación
• Predicción
Estadística
descriptiva
Estadística
Inferencial
2
ANALISIS DE REGRESION LINEAL
Conceptos
generales
Naturaleza
de análisis de
regresión
Estimación
de parámetros
Propiedad de los
estimadores
Modelos predictivos
Construcción
del Modelo
• Conocimiento de la teoría
Económica
• Especificación del Modelo
• Estimación de los parámetros
• Verificación
• Predicción
Elementos
constitutivos
Ecuaciones
Variables
Parámetros
3
PROCESO DE CONSTRUCCIÓN DE UN MODELO
TEORIA ECONOMICA
MODELO TEÓRICO
Especificación
Modelo Econométrico
Técnicas Estadísticas
Matemáticas
Estadística
Estimación
Datos refinados
Evaluación
Análisis Estructural
Consultoria Virgen del Carmen S.A.
Estimación del modelo
Predicción
Inferencia Estadística
Evaluación de políticas
4
ANALISIS DE REGRESION
La teoría de la regresión pretende hacer un análisis sobre
la relación que existe entre las variables explicativas
dentro de un conjunto de valores observados.
NATURALEZA DEL ANALISIS DE REGRESION
Está relacionado con el estudio de la dependencia de una
variable, la var. dependiente, está en función de una o
más var. explicativas con la perspectiva de estimar y/o
predecir el valor (poblacional) medio o promedio de la
primera en términos de valores conocidos o fijos (en
muestreos repetidos) de las segundas.
Consultoria Virgen del Carmen S.A.
5
Ejemplo: Se efectuó una encuesta de ingresos y gastos a
60 familias, que viven en un centro poblado.
Ingreso de las Familias (X)
Y
Gasto de
consumo
Familiar
por mes
(S/.)
650
800
950
1100
1250
1400
1550
1700
1850
2000
440
520
640
640
800
880
960
1080
1080
1240
480
560
680
680
920
920
1080
1120
1200
1280
520
560
720
760
840
960
1120
1080
1320
1320
560
640
680
720
960
1040
1200
1200
1400
1400
600
680
760
800
880
1080
1160
1240
1440
1440
920
1000
1120
640
960
1320
1480
1360
1560
880
E(y/x)
520
600
696
795
E y  
1480
900
1000
1104
1200
1288
1400
y
n
6
Diagrama de Dispersión
Gasto de Consumo Mensual S/.
1500
E( y / x)  1  2 X
1250
1000
750
500
250
650
800
950
1100
1250
1400
1550
1700
1850
2000
Ingreso Mensual S/.
Consultoria Virgen del Carmen S.A.
7
FUNCION DE REGRESION POBLACIONAL (FRP)
La regresión poblacional nos muestra cómo el valor
promedio de Y varía en relación a las variables de X.
En el ejemplo anterior se trata de los valores promedios de
consumo en cada valor fijo del ingreso.
FRP  E(y/x) = 1 + 2x
Yi = β1 +β2xi + μi
Donde:
1 , 2 son parámetros desconocidos pero fijos que se
denominan coeficiente de regresión (intersección y
coeficiente de la pendiente)
E(y/x = 800) = 600. Valor promedio de y para x =800
8
FUNCION DE REGRESION POBLACIONAL (FRP)
La diferencia entre el valor promedio obtenido y cada
valor observado se debe al término de perturbación (i).
La regresión poblacional para un valor particular de la
variable dependiente es:
FRP  Yi  1  2 Xi  i
La FRP incluye al termino de perturbación
Consultoria Virgen del Carmen S.A.
9
FUNCION DE REGRESION MUESTRAL
• Se obtiene a partir de una muestra de observaciones
• Permite estimar
los parámetros de una FRP, a partir de la
información proporcionada por la muestra.
• Su forma estocástica tiene la siguiente forma:
FRM  Yi  ˆ 1  ˆ 2 xi  ˆ i
Diferencias con la FRP
• En la FRP los valores de los parámetros son de los datos
poblacionales ( )
i
• El término de perturbación (i ) está referido a la diferencia de los
valores promedios poblacionales respecto a cada uno de los
valores mencionados.
Consultoria Virgen del Carmen S.A.
10
FUNCION DE REGRESION MUESTRAL
Podemos afirmar lo siguiente:
ˆ 1
es un estimador de 1
ˆ 2 es un estimador de 2
ˆ i
es un estimador de i
Consultoria Virgen del Carmen S.A.
11
SIGNIFICADO DEL TERMINO DE PERTURBACION (i)
Sea modelo general:
Yi  1  2 X2  3 X3  ......  i
Los valores de los parámetros () son referidos a la
población. Si se tuviera los , faltaría contar el valor del
término de perturbación (ui).
El ui se simboliza como una bolsa donde están las otras
variables respectivas del modelo y que no están
incluidas en el mismo. Representa efectos aleatorios de
la misma naturaleza de las ui
Consultoria Virgen del Carmen S.A.
12
En el caso del consumo por ejemplo ui estaría
representando al efecto de otras variables: riqueza,
tamaño de la familia,etc.
El ui siempre está a partir de los residuales.
Y  1  2 x 2
Sea el modelo:
1=10; 2=2
uiN(0, 25)
X2
Valor Teórico (Yi)
ˆ i
Valor Empírico (Yi)
2
5
4
6
14
20
18
22
-2
5
0
-3
12
25
18
19
Consultoria Virgen del Carmen S.A.
13
MODELO LINEAL GENERAL
Para efectos del cálculo matricial:
Yi  1  2Xi 2  3 Xi3  ...... k Xik  i
 Y1  1 x12
 Y2  1 x 22
 Y  1 x
31
 3  
.
 .  .
.
 .  .
 Yn  1 x n1
x13
x 23
x 33
.
.
x n2
. x1k   1   1 
. x 2k  2   2 
. x 3k  3   3 
x    
. .  .   . 
. .  .   . 
. x nk  k  k 
Yn1 = Xnkk1 + n1
Consultoria Virgen del Carmen S.A.
14
SUPUESTOS DEL MODELO
1. Forma funcional de la relación (supuesto de lineal)
2. Correcta especificación del modelo (es decir, que X es la única
variable explicativa)
3. Las variable X’s no son estocásticas.
4. Identificabilidad de los parámetros. (β1, β2,…. βk) se podrán
estimar de forma única)
5. La
esperanza
de
las
perturbaciones
condicionada
a
la
 
información dada es nula: E i  0nx1
6. Las perturbaciones son esféricas: E'  2 I

7. Las perturbaciones recogidas se distribuyen de forma normal ó
Gaussiana
Consultoria Virgen del Carmen S.A.
15
ESTIMACION DE LOS PARAMETROS
El principio básico para estimar los parámetros es que
se debe de minimizar la suma de los cuadrados de cada
uno de los residuales.
 1 
 2 
2
 i  '   12...n   
 
n 
ˆ  Y  Xˆ
 YY
Consultoria Virgen del Carmen S.A.
16
 μ1  Y1  Yˆ1  Y1  1 x 12 x 13 ....x 1k
        
.  .  .  .  .
.   .   .   .   .
        
.  .  .  .  .
 μ   Y   Yˆ   Y  1 x
n
n
n
n2 x n3 ....x nk
 n
  ˆ1 
 
 . 
 . 
 
 . 
  ˆ 
 k
μ μ  Y  X ˆ Y  X ˆ 
'
'
 Y 'Y  Y ' X ˆ  ˆX 'Y  ˆ ' X ' X ˆ
 Y 'Y  2 ˆ ' X 'Y  ˆ ' X ' X ˆ
Derivando respecto a  donde este es igual a cero.
dμμ
- 2X 'Y  2 X ' X ˆ  0
d ˆ
X ' X ˆ  X 'Y * *
´'
ˆ  X' X  1 X ' Y
Consultoria Virgen del Carmen S.A.
17
ESTIMACION DE
PERTURBACION
LA
VARIANZA
DEL
TERMINO
DE
Un estimador del término de perturbación sería el residual.
La varianza residual podría utilizarse como estimador de la
varianza del término de perturbación.
Sin embargo la esperanza del transpuesto μ’μ es
insesgada.
Se expresa como la suma de las diferencias cuadráticas
entre el valor observado (Y) y el estimado(Ŷ).
2
2
ˆ
( Yi  Yi )
ˆ i


2
2
S  ˆ  

n2
n2
Consultoria Virgen del Carmen S.A.
18
Ejercicio Ilustrativo de Estimación de Parámetros en un Modelo Lineal
Simple (MCO)
Se dispone de información de los ingresos totales y gastos en alimentación
de 12 familias
Familia
Gasto alimentación
(nuevos soles)
Ingreso Total
(nuevos soles)
1
830
2100
2
510
1100
3
420
900
4
560
1600
5
1250
3200
6
840
2300
7
720
1800
8
490
700
9
690
1300
10
850
2400
11
550
1200
12
780
1700
Consultoria Virgen del Carmen S.A.
19
Familia
Yi
Xi
X i Yi
X2
ˆi
Y
ˆi
ˆ i  Yi  Y
1
830
2,100
1,743,000
4,410,000
830.22
-0.22
2
510
1,100
561,000
1,210,000
529.69
-19.69
3
420
900
378,000
810,000
469.58
-49.58
4
560
1,600
896,000
2,560,000
679.95
-119.95
5
1,250
3,200
4,000,000
10,240,000
1160.80
89.20
6
840
2,300
1,932,000
5,290,000
890.32
-50.32
7
720
1,800
1,296,000
3,240,000
740.06
-20.06
8
490
700
343,000
490,000
409.48
80.52
9
690
1,300
897,000
1,690,000
589.79
100.21
10
850
2,400
2,040,000
5,760,000
920.37
-70.37
11
550
1,200
660,000
1,440,000
559.74
-9.74
12
780
1,700
1,326,000
2,890,000
710.00
70.00
Totales
8,490
20,300
16,072,000
40,030,000
8,490
0
Consultoria Virgen del Carmen S.A.
20
Solución
Como los parámetros a estimar son 1 y 2 se establece las ecuaciones
normales siguientes:
 Y  n1  2  Xi
(1)
 YX  1  Xi  2  Xi2
(2)
Y reemplazando, se tiene:
En (1)
En (2)
8490 12ˆ 1  20300ˆ 2
16072000 20300ˆ 1  40030000
ˆ 2
Si se despeja de la primera ecuación el intercepto y se reemplaza dicho
valor en le segunda se obtienen los siguientes estimadores:
ˆ 1
= 199.108
Consultoria Virgen del Carmen S.A.
ˆ 2
= 0.301
21
La función de regresión muestral, es decir la regresión de
Y con respecto a X:
ˆi
Y
 199.108 0.301Xi
Sustituyendo las observaciones muestrales de X en la
ecuación anterior se obtiene la columna 6 de la tabla.
Comparando estos valores con aquellos observados para la
variable
dependiente
hallamos
los
errores
correspondientes a cada observación de la muestra. Se
verifica que la suma de errores estimados es 0. (Columna
i)
Consultoria Virgen del Carmen S.A.
22
MÉTODO MATRICIAL:
Familia
Yi
Xi
X i Yi
X2
ˆi
Y
ˆi
ˆ i  Yi  Y
1
830
2,100
1,743,000
4,410,000
830.22
-0.22
2
510
1,100
561,000
1,210,000
529.69
-19.69
3
420
900
378,000
810,000
469.58
-49.58
4
560
1,600
896,000
2,560,000
679.95
-119.95
5
1,250
3,200
4,000,000
10,240,000
1160.80
89.20
6
840
2,300
1,932,000
5,290,000
890.32
-50.32
7
720
1,800
1,296,000
3,240,000
740.06
-20.06
8
490
700
343,000
490,000
409.48
80.52
9
690
1,300
897,000
1,690,000
589.79
100.21
10
850
2,400
2,040,000
5,760,000
920.37
-70.37
11
550
1,200
660,000
1,440,000
559.74
-9.74
12
780
1,700
1,326,000
2,890,000
710.00
70.00
Totales
8,490
20,300
16,072,000
40,030,000
8,490
0
Consultoria Virgen del Carmen S.A.
23
La ecuación matricial se escribe de la siguiente forma:
 Y1  1 X 21
 Y  1 X
22
 2 
  
 
.
 .  .
 .  .
.
  
Yn  1 X 2 k
.
.

.  1    1 
     
.   2   2 
.    
  
.
.  .   . 
. .  .   . 
    
.     n 
O simplemente:
Y  X  
Consultoria Virgen del Carmen S.A.
24
Para el caso de 2 variables:
(X'X)ˆ  (X'Y)
X
X
n
X' X  
i
  Xi
12
X' X   20300

2
i


 y X' Y  




20300 
40030000 
X' X 1  00.586348323
.000297349

ˆ   0.586348323
 0.000297349
Los

Y
X Y
i
i
y
i





X' Y   8490

16072000


 0.000297349 
1.75773 E  07 
 0.000297349 
1.75773 E  07 
8490
  199.10795 
16072000  0.3005273 
son los mismos obtenidos que el método anterior.
Consultoria Virgen del Carmen S.A.
25
Ejercicio Ilustrativo de Estimación de Parámetros en un Modelo Lineal
General (MCO)
El director de una agencia de viajes quiere estudiar el sector turístico en Perú.
Para ello dispone de información relativa al grado de ocupación hotelera (Y),
número medio de turistas (X2), medido en miles de turistas, y estancia media
(X3), medida en días.
OBSERVACIÓNº
Nº DE OCUPACIÓN
HOTELERA
TURISTAS
(MILES)
DÍAS DE
ESTANCIA
1
5
2
3
2
8
3
4
3
8
5
6
4
9
4
5
5
9
6
7
6
13
2
6
7
6
3
4
8
9
4
5
9
4
5
4
10
3
6
3
Consultoria Virgen del Carmen S.A.
26
Solución
En este caso se tienen 2 variables independientes, por lo que será conveniente
hacer uso de la forma matricial, por lo tanto:
Modelo Lineal General:
Yi  1  2 X 2  3 X3  i
, donde n =10; k=3
 n
(X ' X)   X i 2
 X i 2
X
X
X x
i2
2
i2
i2
X
X X
X


i 2 i3 
2
i3 

i3
i3
  Y1 
X ' Y   X i 2 Yi 
  X i 3 Yi 
Consultoria Virgen del Carmen S.A.
27
los coeficientes del modelo serán:
ˆ 1 
 2.5529 
'

1
'
ˆ  ˆ 2   (X X) X Y   1.0821
ˆ 
 1.9608 
3 
Luego, el modelo estimado es:
ˆ i  ˆ 1  ˆ 2X2  ˆ 3X3  2.55291.0821X2 1.9608X3
Y
Consultoria Virgen del Carmen S.A.
28
OPERACIONES CON MATRICES
En este sección se presentarán las nociones básicas del álgebra
matricial.
Dado los siguientes datos hipotéticos (Periodo 1991-1995)
AÑO
Y
X1
X2
1991
3
3
5
1992
1
1
4
1993
8
5
6
1994
3
2
4
1995
5
4
6
Se desea estimar el siguiente modelo de regresión lineal:
Yt = β1 + β2X1t + β3X2t +μt
Donde:
• Yt es la variable dependiente o endógena.
• X1, X2 son variables independientes o exógenas.
• β1, β2 y β3 son parámetros desconocidos. A β1 se le conoce con el
nombre de intercepto, a los β2 y β3 se les llaman coeficientes de
regresión.
• μt es una variable aleatoria no correlacionada y no observable.
Consultoria Virgen del Carmen S.A.
30
A partir de los datos se crean las siguientes matrices:
3
1
 
Y  8
 
3
5
1
1

X  1

1
1
3 5
1 4
5 6

2 4
4 6
En este caso:
• n = 5 (numero de observaciones)
• k = 3 (numero de parámetros del modelo)
Consultoria Virgen del Carmen S.A.
31
• Matriz.- es un arreglo de números o elementos en filas y en
columnas. Cuando se habla del orden de una matriz se
refiere a la cantidad de elementos ordenados en filas y
columnas, por ejemplo las matrices X es una matriz de orden
(3x5), mientras que la matriz Y es de (5x1).
• Para estimar el modelo se hará uso de

  X' X  X' Y
1
• Por lo que para encontrar esos valores será necesario
realizar ciertos cálculos matriciales previos tales como:
Consultoria Virgen del Carmen S.A.
32
TRANSPUESTA DE UNA MATRIZ
La transpuesta de una matriz X de orden (5x3) la cual se denota por X’, es
una matriz de orden (3x5), la cual es obtenida a partir de cambiar las filas
por las columnas, es decir que por ejemplo la primera fila de X se
convierte la primera columna de X’.
Las transpuestas de X e Y serán:
1 1 1 1 1 


X '  3 1 5 2 4 
5 4 6 4 6
Consultoria Virgen del Carmen S.A.
Y'  3 1 8 3 5
33
MULTIPLICACIÓN DE MATRICES
Cada elemento de esta nueva matriz se obtiene sumando los valores
que resultan de multiplicar los elementos de una fila de la matriz
(por ejemplo de X’) por su columna correspondiente de la otra
matriz (por ejemplo Y), lo que originará que se forme una matriz de
orden (3x1) la cual proviene de que la primera matiz tenga 3 filas y
la segunda 5 columnas.
3
 
1 1 1 1 1  1  1 3  11  1 8  1 3  1 5   20 
X' Y  3 1 5 2 4 8   3  3  11  5  8  2  3  4  5    76 
 
5 4 6 4 6 3 5  3  4 1  6  8  4  3  6  5 109
5
Consultoria Virgen del Carmen S.A.
34
En el Excel:
• Aplicar la función: =mmult(matriz1,matriz2)
• Sombrear el área de la matriz resultante y con las teclas “control” + “
(shif)”, posicionándose en la barra de funciones, teclear “  (enter)”
Consultoria Virgen del Carmen S.A.
35
• De manera similar se calcula:
3
1
 
Y ' Y  3 1 8 3 5 8  3  3  1 1  8  8  3  3  5  5  108
 
3
5
1
1
1
1
1
1
1


X ' X  3 1 5 2 4 1

5 4 6 4 6 1
1
Consultoria Virgen del Carmen S.A.
3 5
1 4  5 15 25 
5 6  15 55 81 

2 4 25 81 129
4 6
36
INVERSA²
La inversa de una matriz origina otra matriz la cual se podrá
calcular solamente cuando tenga la misma cantidad de filas y
columnas, además su determinante debe ser diferente de cero.
Para el calculo de los parámetros se debe calcular la inversa de:
 5 15 25 
X' X  15 55 81 
25 81 129


² La inversa de una matriz puede ser halla por medio de calculadoras matriciales, esto resulta
útil para el ahorro de tiempo en los cálculos.
Consultoria Virgen del Carmen S.A.
37
En el Excel:
• Aplicar la función: =minv(matriz)
• Sombrar el área de la matriz resultante y con las teclas “control” + “
(shif)”, posicionándose en la barra de funciones, teclear “  (enter)”
Consultoria Virgen del Carmen S.A.
38
CALCULO DE LOS PARAMETROS

Utilizando la fórmula   X' X 1 X' Y , se obtiene:
 8   20   4 
26.7 4.5
ˆ   4.5
1
 1.5  76    2.5 
  8  1.5 2.5  109  1.5
Consultoria Virgen del Carmen S.A.
39
2
Valor estimando de la varianza de los términos de perturbación 
ˆ
En el modelo de regresión lineal se obtiene a partir de:
2

  (Y' Y  ' X' Y) /(n  k)

'  4 2.5  1.5
Consultoria Virgen del Carmen S.A.
40
 20 



' X' Y  4 2.5  1.5 76   106.5
109

(Y' Y  ' X' Y) 108 106.5
 

 0.75
nk
53
2
Consultoria Virgen del Carmen S.A.
41
Estimación de la matriz de varianzas y covarianzas de los B:
2
1
ˆ
var()   (X' X)
6 
26.7 4.5  8  20.025 3.375




ˆ
var()  0.75 4.5
1  1.5   3.375 0.75  1.125
  8  1.5 2.5    6
 1.125 1.875 
Consultoria Virgen del Carmen S.A.
42
INFERENCIA ESTADISTICA
Consultoria Virgen del Carmen S.A.
43
INTERVALO
DE
PARAMETROS
CONFIANZA
PARA
LOS
A fin de establecer los intervalos de confianza para los
coeficientes de regresión (I) y teniendo la varianza
poblacional desconocida se construye un intervalo
asumiendo que esta variable tiene una distribución
estadística “t” a partir de las estimaciones de los
parámetros y sus varianzas por ejemplo: para n
Pr ob( ta / 2 £ t £ ta / 2 )  1  a
Pr ob(t a / 2
Consultoria Virgen del Carmen S.A.
ˆ 1  1
£
£ ta/ 2 )  1 a
ˆ 1
44
Multiplicando por –1
Pr ob(t a / 2
Despejando:
1
ˆ 1  1

 ta/ 2 )  1 a
ˆ 1
Prob(
ˆ 1t a / 2  ˆ 1  1  t a / 2
ˆ 1 )  1 a
Sumando:
Prob(ˆ 1  ˆ 1t a / 2  1  ˆ 1  ˆ 1t a / 2ˆ 1 )  1  a
Pr ob( ˆ1  ˆ  1ta / 2 £ 1 £ ˆ1  ˆ  1ta / 2 )  1  a


1  ˆ 1  ˆ  1ta / 2 , ˆ 1  ˆ  1ta / 2 con un nivel de significación a
Consultoria Virgen del Carmen S.A.
45
Ejemplo:
Número de
familia
Ingreso
X
Consumo
Y
1
2
3
4
5
6
7
8
9
10
80
100
120
140
160
180
200
220
240
260
70
65
90
95
110
115
120
140
155
150
Y  X  
Donde :
Y : Consumo
Virgen del Carmen S.A.
XConsultoria
: Ingreso
46
Y
X
70 
1
65 
1



90 
1



.



.
.

.



.

.
150
1



1
ˆ
  ( x ' x ) x' y

1


1

1

1 1 1 ..............1 
1
 .
( x' x) x' y  
 80 100 120 .........260  .


.



Consultoria Virgen del Carmen S.A.
1

80 
 1 
 
β
100 
 2 

 3 
120 


  1 
. 
  .


.

.  2 



. 
.

 
260

 10 
1
80 

100 
120 
n

.   
 x

 i
. 

. 

260 
x
x
1

1700 
  10
1700 322000  
2


1
1
47
1  322000 - 1700   0.975757 - 0.005152 

  

10   - 0.005152 0.0000303
330000  - 1700
 70 


 65 
  1110 
1..........1  .



x ' y  

  205500 
 80....260  .
.



150 


 0.975757
ˆ  
 - 0.005152
Consultoria Virgen del Carmen S.A.
- 0.005152
0.0000303
 1110   24.4545   ˆ1 

  
   
 205500   0.50909   ˆ2 
48
ESTIMACION DE LA VARIANZA DEL TERMINO DE
PERTURBACION
e' e
Y 'Y   ' X 'Y
132,100-131,764
 

 13210010-2
(n  k )
nk
2

 70 


 65 
.

  132100
y ' y  70 65 .........150 
.

.



150 


 1110 
  131764.5
 ' x' y  24.4545* 0.5091
 205500
Consultoria Virgen del Carmen S.A.
49
Reemplazando en la fórmula tenemos:
Calculando Varianza
 0.975757
Var 1  41.9375
 - 0.005152
- 0.005152 

0.0000303
  2  41.93750.975757   40.9209
1
   41.93750.0000303  0.00127
2
2
ˆ   6.3969
1
ˆ  2  0.0356
Consultoria Virgen del Carmen S.A.
50
CONSTRUCCION DE INTERVALOS PARA I

ˆ 
ˆ 
ˆ
ˆita/ 2
Ie
t

1
i a/ 2, 1

Para un nivel de significación del 5% observando en la
tabla “t” de student:
t(n-k)a/2= t (10-2)0.05/2 = t(8)0.025= 2.306
2  0.5091  0.03562306,0.5091  0.03562306
2  0.4268,0.5919 con a  0.05
Consultoria Virgen del Carmen S.A.
51
Otra forma de expresarlo con prob.:
P(0.4268£2 £0.5919)=1-0.05=0.95
Dado un coeficiente de confianza del 95% en el
I.p si se construye cien intervalos repetidos con
los límites siguientes 0.4268 y 0.919, en el 95%
de
ellos
estarían
verdadero
parámetro
poblacional.
Consultoria Virgen del Carmen S.A.
52
Objetivos del tema
• Conocer el proceso para contrastar hipótesis
• Diferenciar entre hipótesis nula y alternativa
• Nivel de significación
• Significación
• Toma de decisiones, tipos de error y cuantificación del
error.
Contrastes de hipótesis
53
Econometría U. de Sevilla
Son
Contrastando una hipótesisdemasiados...
Creo que la edad
media es 40 años...
¡Gran
diferencia!
Rechazo la
hipótesis
Muestra
aleatoria
X  20 años
Econometría U. de
Sevilla
Contrastes de hipótesis
54
Identificación de hipótesis
•
Hipótesis nula Ho
– La que contrastamos
– Los datos pueden refutarla
– No debería ser rechazada sin una buena
razón.
•
Hipótesis alternativa H1
– Niega a H0
– Los datos pueden mostrar evidencia a
favor
– No debería ser aceptada sin una gran
evidencia a favor.
H 0 :

 H1 :
p  50% , £, 
p  50%
 , , 
Contrastes de hipótesis
55
Econometría U. de Sevilla
Razonamiento básico
Si supongo que H0 es cierta...
¿qué hace un
científico cuando su
teoría no coincide
con sus
predicciones?
  40
X  20
... el resultado del experimento sería improbable.
Sin embargo ocurrió.
Econometría U. de
Sevilla
Contrastes de hipótesis
56
Razonamiento básico
Si supongo que H0 es cierta...
Rechazo que H0 sea
cierta.
  40
X  20
... el resultado del experimento sería improbable.
Sin embargo ocurrió.
Econometría U. de
Sevilla
Contrastes de hipótesis
57
Razonamiento básico
Si supongo que H0 es cierta...
• No hay evidencia contra H0
¿Si una teoría hace
predicciones con
éxito, queda
probado que es
cierta?
•No se rechaza H0
•El experimento no es
concluyente
•El contraste no es significativo
  40
X  38
... el resultado del experimento es coherente.
Econometría U. de
Sevilla
Contrastes de hipótesis
58
Región crítica y nivel de
significación
Nivel de significación: a
Región crítica
•
•
•
Valores ‘improbables’ si...
•
Es conocida antes de realizar el
experimento: resultados experimentales
que refutarían H0
•
Número pequeño: 1% , 5%
Fijado de antemano por el
investigador
Es la probabilidad de rechazar H0
cuando es cierta
a=5%
Reg. Crit.
Reg. Crit.
No rechazo H0
Contrastes de hipótesis
59
H0: =40
Región aceptación (1α)
Econometría U. de Sevilla
Contrastes: unilateral y bilateral
La posición de la región crítica depende de la hipótesis alternativa
Bilateral
H1: 40
Unilateral
Unilateral
H1: <40
Econometría U. de
Sevilla
Contrastes de hipótesis
H1: >40
60
Significación: p
a
H0: =40
Econometría U. de
Sevilla
Contrastes de hipótesis
61
Significación: p
No se rechaza
H0: =40
a
H0: =40
Econometría U. de
Sevilla
Contrastes de hipótesis
X  43
62
Significación : p
El contraste es estadísticamente significativo cuando p<a
Es decir, si el resultado experimental discrepa más de “lo tolerado” a priori.
El p-valor es el menor nivel de significación al que rechazaríamos H0
a
P
Se rechaza H0: =40
Se acepta H1: >40
a
P
X  50
Econometría U. de
Sevilla
Contrastes de hipótesis
63
Resumen: a, p y criterio de rechazo
• Sobre a

• Sobre p
– Es número pequeño,
preelegido al diseñar el
experimento
– Es conocido tras
realizar el experimento
– Conocido a sabemos
todo sobre la región
crítica
– Conocido p sabemos
todo sobre el resultado
del experimento
Sobre el criterio de rechazo
 Contraste
significativo  p menor que a
Contrastes de hipótesis
64
Econometría U. de Sevilla
Tipos de error al contrastar
hipótesis
Realidad
H0 cierta
No Rechazo H0
Correcto
Probabilidad 1- β
Rechazo H0
Acepto H1
Econometría U. de
Sevilla
Error de
tipo I
Probabilidad α
H0 Falsa
Error de tipo II
Probabilidad
β
Correcto
Probabilidad 1-α
.
Contrastes de hipótesis
65
Conclusiones
•
Las hipótesis no se plantean después de observar los datos.
•
En ciencia, las hipótesis nula y alternativa no tienen el mismo papel:
–
–
H0 : Hipótesis científicamente más simple.
H1 : El peso de la prueba recae en ella.
•
α debe ser pequeño
•
Rechazar una hipótesis consiste en observar si p<α
•
Rechazar una hipótesis no prueba que sea falsa. Podemos cometer error de tipo I
•
No rechazar una hipótesis no prueba que sea cierta. Podemos cometer error de
tipo II
•
Si decidimos rechazar una hipótesis debemos mostrar la probabilidad de equivocarnos.
Contrastes de hipótesis
66
Econometría U. de Sevilla