Régression linéaire multiple : hypothèses et interprétation

Download Report

Transcript Régression linéaire multiple : hypothèses et interprétation

Régression linéaire multiple :
hypothèses & interprétation
M1 2013/2014
Régression linéaire multiple

Comparaison SLR / MLR
Le terme d’erreur u représente tous les autres facteurs inobservés qui déterminent y
Le terme d’erreur d’une SLR contient les variables explicatives d’une MLR. Le modèle MLR est donc plus
riche et conduit à une meilleur estimation du modèle.

Interprétation en termes d’effet marginal

Variantes du modèles
 logarithme de la variable expliquée

Non linéarité de l’effet des variables explicatives (problème de spécification du modèle)
Régression linéaire multiple:
Modèles et interprétation
 Modèle 1
 Forme du modèle
 Interprétation
 Modèle 2
 Forme du modèle
 Interprétation
 Modèle 3
 Forme du modèle
 Interprétation
Régression linéaire multiple
 Forme fonctionnelle
 Terme d’erreur : définition et propriétés
Goodness of fit

Objectif : Mesurer la précision de la régression: à quel point les variables dépendantes
expliquent la variable indépendante.

On utilise le R2 (en %) : ratio de la variation expliquée sur la variation totale, ie
proportion de la variation de y expliquée par les x’s, ou encore la part de la variation de yi
qui est capturée par la variation de y^i.
Rappel

Interprétation graphique : ajustement de la droite OLS.

Un R2 faible (proche de zéro) implique que le pouvoir prédictif est faible. Il n’indique pas
que le pourvoir descriptif est faible, mais qu’il faut utiliser d’autres variables explicatives.
Un R2 élevé (proche de 1) implique que le modèle est bon pour la description et la
prédiction.
Tests de significativité

Test d’hypothèse simple
Hypothèse nulle contre hypothèse alternative
Seuils de significativité : 1% 5 % 10%
Statistique de Student (t-statistic) : on rejette le test si elle supérieure en valeur absolue au
seuil de rejet égal au quantile d’ordre 97.5%

Test d’hypothèse multiple
Hypothèse nulle contre hypothèse alternative
Seuils de significativité: 1% 5 % 10%
Statistique de Fisher (F-statistic) : on rejette le test si elle supérieure au seuil de rejet égal au
quantile d’ordre 95%
NB: faire attention au nombre de degrés de liberté relatif à chaque statistique !
 Intervalles de confiance : un autre moyen de tester des hypothèses
Distributions et tests
Exemple
Méthodologie de l’étude économétrique

On s’intéresse aux déterminants du niveau de salaire.
Étape 1 : le salaire est la variable expliquée y, en l’occurrence le salaire. Etude préalable à l’aide des
statistiques descriptives classiques : boîte à moustache (moyenne, médiane, quartiles, mode, min, max)
taux de non renseignés, histogramme et distribution des salaires.

Étape 2 : choix des variables explicatives, les x_i, en l’occurrence le plus haut niveau d’étude,
expérience professionnelle et formation continue. Utiliser la littérature économique en s’appuyant sur
un ou plusieurs articles de référence (revue de littérature). Etude préalable des variables explicatives à
l’aide des statistiques descriptives à nouveau. Tracer les courbes de la variable expliquée y en fonction
de chacune des variables explicatives x_i pour connaître la forme du modèle (modèle 1, 2 ou 3).

Étape 3 : On pose le modèle. Exemple : log(salaire) = β0 + β1 educ + β2 exp + β3 form +υ

Étape 4 : On estime les coefficients B_j et on interprète les coefficients conformément au modèle
choisi.

Étape 5 : étude du pouvoir descriptif du modèle. On analyse la qualité de la modélisation en utilisant le
R^2, les tests et les intervalles de confiance.
Etape 6 : étude du pouvoir prédictif du modèle . On applique les coefficients estimés sur des individus
qui n’ont pas servis de base à l’étude (qui ne font pas partie de l’échantillon qui a permis d’estimer le
modèle). On compare ainsi la valeur observée du salaire avec la valeur estimé du salaire.
