Introduction à la modélisation statistique.

Download Report

Transcript Introduction à la modélisation statistique.

Modèles statistiques
en sciences humaines et
sociales
1-Introduction sur les modèles
statistiques.
2-Régressions linéaires simples ou bi
variés.
3-Régressions linéaires multiples.
4-Régressions non linéaires.
Plan de l’exposé
1-INTRODUCTION

Statistique descriptive: Tableaux, graphiques,
indicateurs mathématiques,… (AMETICE-TCPRUE11)

Statistique confirmatoire: évalue la probabilité
pour qu’un résultat empirique obtenu soit du au
hasard (Student, Khi2, tests de corrélation,
ANOVA,…) (AMETICE-TCPRUE21)

Statistique exploratoire:
Principales,
Analyse
Correspondances,…

Modélisation Statistique: objet de la présentation…
Analyse Composante
Factorielle
des
Les grands domaines des
statistiques

On étudie un phénomène dont on suppose qu’il
dépend de n variables.

On cherche à exprimer une variable Y (variable
expliquée) en fonction des n-1 autres variables
Xi (variables explicatives).

On part des données empiriques prélevées sur
un échantillon pour établir cette relation.

On établit les lois qui permettent d’étendre le
résultat à toute la population.
C’est quoi un modèle Statistique?

Modèles en sciences exactes

Modèles en sciences humaines et
sociales

Modèles en sciences humaines et
sociales


Quand on veut « modéliser » un phénomène en
SHS il faut commencer par « retenir » les
variables qui agissent sur le phénomène.

On dira qu’il y a des variables « fortes » qui
doivent obligatoirement être prises en compte
dans le modèle et des variables « faibles »
souvent non identifiées qui agiront à travers le
terme aléatoire.
REMARQUE: Variables « fortes »
variables « faibles »

Par exemple une expérimentation conduit à des
prélèvements 2D (xi, yi) auprès de n individus.

A chaque individu est associé en point (xi, yi)
dans le plan. On obtient un nuage de points.

Si ce nuage s’organise autour d’une courbe…
Le nuage de points empirique 2D

… vouloir modéliser le phénomène consiste
d’abord à déterminer l’équation de la courbe qui
représente « au mieux » le nuage de points
empiriques.

Cette courbe est une « courbe moyenne » qui
reflète en moyenne le lien entre les deux variables
pour les points de l’échantillon.

Il arrive que le nuage de point soit très dispersé.
Dans ce cas il n’y a pas de courbe moyenne
représentative et donc pas de lien entre les variables
étudiées.
Nuage de point-Courbe de
régression

Un exemple

Régressions multiples

Régression Linéaire
1-Introduction sur les modèles
statistiques.
2-Régressions linéaires simples ou bi
variés.
3-Régressions linéaires multiples.
4-Régressions non linéaires.
Plan de l’exposé
2- REGRESSION
SIMPLE:
LINEAIRE
2-1 Problème posé dans un échantillon:
2-1-1 Estimation des paramètres de la droite
de régression.
2-1-2 Qualité de la représentation.
2-2
Inférence
de
la
régression
d’échantillon
sur
l’ensemble
de
la
population.
Plan de la partie 2.

Prélèvement et nuage de point

(∆)
𝑦
(𝑦 − 𝑦𝑖 ) =𝑑𝑖
𝑦𝑖
X 𝑀𝑖
𝑥𝑖
Principe: Méthode MCO

Expression des estimateurs

On cherche la relation qui existe, dans une
région donnée, entre le prix des terrains
(PRIX=Y) et la superficie des terrains
(SUPERF=X)
SUPERF
PRIX
1100
167
850
130
700
154
950
190
1300
201
400
110
Exemple: fil rouge…
Exemple: Fil rouge
Les points du nuages ne sont généralement
pas sur la droite. On définit le résidu
empirique.
(∆)
𝑦𝑖
(𝑦𝑖 − 𝑦𝑖 ) =𝑒𝑖
𝑦𝑖
X
𝑀𝑖
𝑥𝑖
Résidus empiriques ei

Les résidus

Somme des carrés des résidus
2- REGRESSION
SIMPLE:
LINEAIRE
2-1 Problème posé dans un échantillon:
2-1-1 Estimation des paramètres de la droite
de régression.
2-1-2 Qualité de la représentation.
2-2
Inférence
de
la
régression
d’échantillon
sur
l’ensemble
de
la
population.
Plan de la partie 2.
-
Quel que soit le nuage de point les MCO donnent
toujours une solution.
- Il faut un ou des indicateurs de qualité de la
représentation…
Qualité de la représentation

Pour s’assurer de la qualité de la représentation il
faut répondre à deux questions:

Le lien entre les variables est il « avéré »? En
d’autres
termes:
la
relation
existe-t-elle
vraiment?

Quel est le pourcentage d’explication de l’action
de la variable explicative sur l’évolution de la
variable expliquée?
Qualité de la représentation

Remarque préalable: Une droite
horizontale exprime l’absence totale de
lien entre les deux variables prises en
compte.
Y
Y=0X+b
X
Quelque soit X, Y ne change pas
Le lien entre les variable est il
avéré.

Le lien entre les variable est il avéré?

Le lien entre les variable est il avéré?
x:SUPERF y:PRIX
1100
850
700
950
1300
400
Moyenne x 883,333333
=
=
yprédit
ei
ei^2
xi-xmoy
(xi-xmoy)^2
167
179,25
12,25
150,0625
216,6667 46944,4589
130
155,5
25,5
650,25
-33,3333 1111,10889
154
141,25
-12,75
162,5625 -183,3333 33611,0989
190
165
-25
625
66,6667 4444,44889
201
198,25
-2,75
7,5625
416,6667 173611,139
110
112,75
2,75
7,5625 -483,3333 233611,079
SCR=
1603 nvar(x)=
493333,333
0,00081233
tempirique
t-5%=
3,33316697
2,78

Explicativité du modèle- Coefficient de
détermination

Explicativité du modèleCoefficient de détermination

Remarque à partir de l’analyse de
la variance.

La superficie explique 73,53% de la
variance du prix des terrains dans la région
étudiée…Plus du quart du prix s’explique
autrement. (Calcul EXCEL)
SUPERF
PRIX
1100
850
700
950
1300
400
167
130
154
190
201
110
R= Cor(SUPERF,PRIX) = 0,8574816
= 0,73527469
Exemple: Fil rouge

Représentation plane d’un nuage de points et
équation d’une droite dans un plan.

Notion de moyenne, variance, covariance et
corrélation pour les données expérimentales
prélevées sur un échantillon.

Utilisation d’EXCEL…

C’est le contenu de l’UE11 du M1 recherche
Que faut il maitriser pour en
arriver la?
2- REGRESSION LINEAIRE SIMPLE:
2-1 Problème posé dans un échantillon aléatoire.
2-2 Inférence de la régression d’échantillon sur
l’ensemble de la population.
2-1 Position du problème- échantillonnage aléatoire.
2-2 Estimation des paramètres de régression pour la
population.
2-3 Intervalle de confiance.
Plan de la partie 2.

Nous avons travaillé sur un échantillon pris au
hasard.

Si l’on avait choisit un autre échantillon les
paramètres obtenus (a, b, SCR) auraient été
différents.

On doit admettre que le «l’échantillonnage» a
influencé le résultat.

On doit introduire la notion de « statistique
d’échantillonnage » due au hasard de
l’échantillonnage.
Position du problème (1)

Statistique d’échantillonnage.
2- REGRESSION LINEAIRE SIMPLE:
2-1 Problème posé dans un échantillon aléatoire
2-2 Inférence de la régression d’échantillon sur
l’ensemble de la population.
2-1 Position du problème- échantillonnage aléatoire.
2-2 Estimation des paramètres de régression pour la
population.
2-3 Intervalle de confiance.
Plan de la partie 2.

ON A a, b ,SCR dans l’échantillon…on met
quoi si l’on veut étendre à toute la
population….

Quel est le prix à payer

Régression dans la population

Valeurs de Y pour un x donné pour des échantillons différents
- Si l’estimation est sans biais la valeur tourne autour de la valeur cible
- Si l’estimation est biaisée la valeur tourne autour d’une autre valeur
x xx
xx
x
x
x
x
x
x
x
x
Estimation sans biais…biaisée

Hypothèses sur la distribution des
erreurs aléatoires

Conséquences des hypothèses H1, H2, H3
H1: Les distributions sont centrées
H2: Les distribution ont même variance
H3: Les distributions sont indépendantes


Des compléments de calcul
2- REGRESSION LINEAIRE SIMPLE:
2-1 Problème posé dans un échantillon aléatoire
2-2 Inférence de la régression d’échantillon sur
l’ensemble de la population.
2-1 Position du problème- échantillonnage aléatoire.
2-2 Estimation des paramètres de régression pour la
population.
2-3 Intervalle de confiance.
Plan de la partie 2.

Position du problème:

T de Student…
T de Student tend vers la LNCR

T Student


Intervalle de confiance de la
droite de régression
Y
Intervalle de confiance à 5%
x+
Intervalle de confiance à 3%
X0
X
Intervalle de confiance de la droite de
régression de la population
Hyperboles de confiances

Exemple: fil rouge
1-Introduction sur les modèles
statistiques.
2-Régressions linéaires simples ou bi
variés.
3-Régressions linéaires multiples.
4-Régressions non linéaires.
Plan de l’exposé
3-Régressions linéaires
multiples:
3-1 Régression linéaire 3-D
3-2 régression Linéaire Multi-D
3-3 Une ou plusieurs variables explicatives
sont qualitatives
Plan de la partie 3

Dans cette partie nous nous limitons à une
présentation générale du cas 3-D. Suffisante toutefois
pour apprécier les différences de fond avec le cas 2D.

Pour le reste les grandes lignes restent les mêmes
que dans le cas 2-D avec toutefois des difficultés
supplémentaires dues à une plus grande complexité
du formalisme calculatoire.
On cherche une relation du type: z= a x + b y +c
z (variable expliquée), x et y (variables explicatives)

Position du problème
Z=a x + b y + c
x
di
zi
x Mi
yi
xi
Un point du nuage en 3-D

Principe du calcul des paramètres

Calcul des paramètres

Analyse théorique de la variance

Qualité de la représentation
Coefficient de détermination
élèves
z:Math
x:Phys
y:Francais
z=ax+by+c
1
6
6
5
2
8
8
8
cov(x,y)=
4,0617284
3
6
7
11
cov(x,z)=
9,86296296
4
14,5
14,4
15,5
cov(y,z)=
2,65740741
5
14
14
12
6
11
10
5,5
7
5,5
7
14
a=
1,19991178
8
13
12,5
8,5
b=
-0,18374716
9
9
9,5
12,5
c=
-0,24082915
moyenne
9,66666667
9,82222222
10,2222222
variance
11,3888889
8,8417284
12,0617284
Math=1,1999xPhys-0,1837xFrancais- 0,2408
R2=
R2 corrigé=
Exemple 3D
0,99627
0,99502501
z:Math
1
2
3
4
5
6
7
8
9
moyenne
variance
x:Phys
y:Francais z:Math
6
6
5
6
8
8
8
8
6
7
11
6
14,5
14,4
15,5
14,5
14
14
12
14
11
10
5,5
11
5,5
7
14
5,5
13
12,5
8,5
13
9
9,5
12,5
9
9,66666667 9,82222222 10,2222222
11,3888889 8,8417284 12,0617284
z:Math
Axis Title
élèves
16
14
12
10
8
6
4
2
0
z:Math
y = 0.2203x + 7.4145
R² = 0.0514
0
x:Phys
Axis Title
20
R2 cumulé=
Math
15
x:Phys
10
y = 0.866x + 1.4507
R² = 0.966
5
0
0
10
Phys
10
Linear
(x:Phys)
20
1,0174
Linear
(z:Math)
20
3-Régressions linéaires
multiples:
3-1 Régression linéaire 3-D
3-2 régression Linéaire Multi-D
3-3 Une ou plusieurs variables explicatives
sont qualitatives
Plan de la partie 3

Régression Multi-D

Régression multi-D

Détermination des paramètres de
la régression

Formalisme matriciel

La qualité de la représentation s’apprécie de
la même façon avec le coefficient de
détermination ou avec sa version corrigée.

L’inférence s’effectue de la même façon…

Mais la complexité et la lourdeur des calculs
impose l’utilisation de logiciels
spécialisés…pas toujours évidents à
manipuler car les démos son peu claires….
3-Régressions linéaires
multiples:
3-1 Régression linéaire 3-D
3-2 régression Linéaire Multi-D
3-3 Une ou plusieurs variables explicatives
sont qualitatives
3-3-1 Cas de variables dichotomiques
3-3-2 Cas de variables Polytomiques
Plan de la partie 3

Cas 2-D variable explicative
quantitative.

Cas 3-D une variable explicative
est qualitative dichotomique
Jugement
SCORE

Cas 4-D deux variables qualitatives
dichotomiques

Débat sur pouvoir explicatif…pp123
Cas 4-D deux variables qualitatives
dichotomiques-Pouvoir explicatif
3-Régressions linéaires
multiples:
3-1 Régression linéaire 3-D
3-2 régression Linéaire Multi-D
3-3 Une ou plusieurs variables explicatives
sont qualitatives
3-3-1 Cas de variables dichotomiques
3-3-2 Cas de variables Poly-tomiques
Plan de la partie 3

Dans le cadre de la même étude sur le jugement
(J) porté par les enseignants sur les élèves les
premières variables prises en compte étaient: le
score (S), le retard scolaire (R).

On prend à présent en compte l’origine sociale
au travers de la CSP du père qui comprend 6
modalités.

ARTI, INTER, EMPL, OUVR, AUTR, CADRE/PROF
LIB
Variables polytomiques
ARTI
INTER
EMPL
OUVR
AUTR
Art/commerçant
1
0
0
0
0
Intermédiaire
0
1
0
0
0
Employé
0
0
1
0
0
Ouvrier
0
0
0
1
0
Autre
0
0
0
0
1
Cadre sup/prof lib
0
0
0
0
0
(6-1) Variables
muettes
6 Modalités
On définit (6-1)=5 variables muettes la 6ieme
modalité sert de « référence »

On doit procéder de la sorte car sinon les 6
variables muettes sont dépendantes linéairement
et cela n’est pas toléré par le modèle.

La 6ième modalité intervient indirectement par le
fait que les réponses aux 5 premières variables
muettes dépendent des réponses à la sixième
modalité: « imaginer le cas limite où tous les
pères sont cadre ou profession libérale »
Variables polytomiques

On obtient 6 plans parallèles un
par CSP

On obtient 6 plans // un par CSP
1-Introduction sur les modèles
statistiques.
2-Régressions linéaires simples ou bi
variés.
3-Régressions linéaires multiples.
4-Régressions non linéaires.
Plan de l’exposé
4-Régressions non linéaires.
4-1
4-2
4-3
4-3
Par changement de variable
Moindres carrés pour dépendance polynomiale
Traitement par morceaux linéaires.
Notion d’interaction-Variable modératrices
Plan de la partie 4

Changement de variables
4-Régressions non linéaires.
4-1
4-2
4-3
4-4
Par changement de variable
Moindres carrés pour dépendance polynomiale
Traitement par morceaux linéaires.
Notion d’interaction-Variable modératrices
Plan de la partie 4

Dépendance polynomiale bivariée
4-Régressions non linéaires.
4-1
4-2
4-3
4-4
Par changement de variable
Moindres carrés pour dépendance polynomiale
Traitement par morceaux linéaires.
Notion d’interaction-Variable modératrices
Plan de la partie 4

Il y a « interaction » quand l’effet d’une
variable sur une autre est sous l’influence
d’une 3ième variable.
X1
X2
Y
Interaction /Variables
modératrices

Interaction /Variables modératrices