Rappel de notions

Download Report

Transcript Rappel de notions

Programmes de maîtrise et de doctorat en démographie
Modèles de risque et de durée
Cours 1
Séance du 10 janvier 2014
Benoît Laplante, professeur
Plan
 Présentation du cours
 Rappel de notions de statistique
 Population, échantillon, distribution d’échantillonnage d’une statistique,
théorème de la limite centrale
 Le modèle linéaire généralisé
 Un exemple de ce que les modèles de risque permettent de faire
 « Quand fiston quittera-t-il la maison ? »
Présentation du cours
 L’histoire de ce cours
 La place du cours dans le programme et dans l’enseignement de la
démographie
 Le contenu du cours
 Les principaux ouvrages à utiliser
Ce cours dans le programme et dans l’enseignement
de la démographie
 Approfondissement de l’approche longitudinale
 Approfondissement de l’approche « individualiste »
 Phénomènes démographiques et événements démographiques
 Apprentissage de la programmation à des fins de recherche
scientifique
 Approfondissement de la compréhension de l’usage de la
modélisation statistique probabiliste en sciences sociales
 Approfondissement de la connaissance du symbolisme
mathématique
Contenu du cours
 Les enquêtes et les données biographiques
 L’analyse de données recueillies au moyen d’enquêtes à plan
complexe
 Les fondements de l’analyse des données longitudinales
 Les variables indépendantes fonction du temps
 Le modèle de Poisson
Contenu du cours




Les modèles de risque proprement dits I
 en temps discret : le modèle logit (et peut-être le probit)
 semi-paramétrique en temps continu : le modèle de Cox
L’analyse de la causalité
La méthode du maximum de vraisemblance
Les modèles de risque proprement dits II
 Les modèles paramétriques en temps continu
 Les modèles de risque proportionnels : modèle exponentiel, de
Weibull, de Gompertz
 D’autres modèles : log-normal, log-logistique, gamma
 L’approximation de la fonction de risque à variation non monotone
au moyen de modèles de risque proportionnels : le modèle
exponentiel par parties
Contenu du cours
 L’approximation de la fonction de risque à variation non monotone
au moyen de modèles de risque proportionnels : les modèles à
spline cubique
 La censure et la troncation
 Les risques concurrents
 L’hétérogénéité non observée
 Les événements renouvelables
 La vulnérabilité, les effets aléatoires et l’approche multiniveau
Principaux ouvrages à utiliser
Les documents écrits par le professeur
– Hazard models for the social sciences
– Notes
– L’estimation du modèle linéaire par la méthode du maximum de vraisemblance
Allison, Paul D. 1984. Event history analysis. Regression for longitudinal event
data. Newbury Park: Sage Publications. 87 pages.
Blossfeld, Hans-Peter, Katrin Golsch et Götz Rohwer. 2007 Event History
Analysis with Stata. Mahwah NJ: Lawrence Erlbaum.
Box-Steffensmeier, Janet M. et Bradford S. Jones. 2004. Event history
modeling. A Guide for social scientists. Cambridge UK: Cambridge
University Press.
Cleves, Mario, William W. Gould, Roberto Gutierrez et Yulia V. Marchenko.
2010. An introduction to survival analysis using Stata, third edition. College
Station TX: Stata Press. An Introduction to Survival Analysis Using Stata,
Third Edition
Stata Corp. 2011. Survival Analysis and Epidemiological Tables Reference
Manual, Release 12. College Station TX: Stata Press.
Rappel de notions




La population
L’échantillon
La distribution d’échantillonnage d’une statistique
Le théorème de la limite centrale
Rappel de notions
La population
 Au sens de l’inférence statistique, une population – ou univers
statistique – est un ensemble d’objets, par exemple tous les
résidents d’un pays, duquel on souhaite connaître quelque chose.
 Un échantillon est un sous-ensemble de la population auprès
duquel on recueille de l’information en supposant que celle-ci sera
suffisante pour connaître la population.
 Un échantillon probabiliste est un échantillon tiré d’une population
de manière à ce que, en suivant les principes de la théorie de
l’échantillonnage, on puisse en inférer à la population avec une
marge d’erreur connue.
 On ne peut obtenir un échantillon probabiliste que par
échantillonnage aléatoire. L’échantillon probabiliste le plus simple et
l’échantillon aléatoire simple. Nous verrons plus tard qu’il existe
d’autres types d’échantillons probabilistes.
Rappel de notions
L’échantillon
 Le sondage est l’opération par laquelle le sondeur (ou enquêteur)
recueille de l’information auprès des membres d’un échantillon au
moyen d’un instrument, habituellement un questionnaire.
 L’échantillon d’un sondage doit être probabiliste.
 Selon les objectifs de la recherche, la population peut être
l’ensemble des personnes qui vivent dans un pays ou dans une
ville, ou encore l’ensemble de celles qui partagent une qualité, par
exemple toutes celles qui exercent une profession donnée ou vivent
dans un certain type d’habitat.
 Toujours selon les objectifs de la recherche, on peut également
s’intéresser à une population d’organisations, par exemple
l’ensemble des organisations d’un territoire quelconque, ou encore
l’ensemble des entreprises de service d’un pays quelconque.
Rappel de notions
La moyenne de la variable X
dans la population
La moyenne de la variable X
dans un échantillon
La moyenne de la variable X
dans la population estimée à
partir des données d’un
échantillon aléatoire simple tiré
de cette population
1 N
 X   xi
N i 1
1 n
X   xi
n i 1
1 n
ˆ X   xi
n i 1
Rappel de notions
La variance de la variable X
dans la population
La variance de la variable X
dans un échantillon
La variance de la variable X
dans la population estimée à
partir des données d’un
échantillon aléatoire simple
tiré de cette population
N
1
2
2
 X    xi   X 
N i 1
n
2
1
2
s X    xi  X 
n i 1
ˆ 
2
X
1

n
  xi  ˆ X 
i 1
2
Rappel de notions
Le théorème de la limite centrale
 Tout l’appareil scientifique des sondages, c.-à-d. ce qui permet
d’inférer d’un échantillon à la population, repose sur un théorème
de statistique, le théorème de la limite centrale.
 Selon ce théorème, la probabilité que les valeurs de certaines
statistiques — par exemple la moyenne d’une variable comme le
revenu — calculées dans des échantillons aléatoires tirés d’une
population s’approche de la valeur de cette statistique dans la
population — dans ce cas-ci, le revenu moyen dans la population
— varie en fonction de la taille de ces échantillons.
 Plus ces échantillons sont grands, plus la probabilité que la
statistique calculée dans les échantillons s’approche de la
statistique calculée dans la population est grande.
Rappel de notions
Le théorème de la limite centrale
 Le théorème est en fait plus précis.
 Il précise la loi statistique que suit la statistique calculée à partir des
valeurs de la variable échantillonnée ainsi que la relation exacte
entre la taille des échantillons et le degré de précision de
l’approximation.
 Selon le théorème, peu importe la loi que suit la variable à partir de
laquelle on calcule la statistique, les valeurs de certaines familles
de statistiques calculées à partir d’échantillons aléatoires suivent la
loi de Gauss — autrement dit, la loi normale — et sont centrées sur
la valeur de cette statistique dans la population dont les échantillons
sont tirés.
Rappel de notions
Le théorème de la limite centrale
 Autrement dit, les valeurs de la moyenne du revenu calculées à
partir d’une série d’échantillons aléatoires sont distribuées
symétriquement de part et d’autre du revenu moyen de la
population suivant la forme « en cloche » de la fonction de densité
de la loi normale même si les valeurs du revenu dans la population
et dans les échantillons ne sont pas distribuées de manière
symétrique et ne suivent pas du tout la loi normale.
 Le théorème précise également que la dispersion de la loi normale
que suivent les valeurs d’une statistique calculée à partir de
plusieurs échantillons de même taille tirés de la même population
diminue en raison de la taille de ces échantillons.
Rappel de notions
La variance de la distribution
d’échantillonnage d’une
statistique
 X2 
 X2
n
L’estimation de la variance de la
distribution d’échantillonnage d’une
statistique obtenue à partir d’un
échantillon aléatoire simple tiré d’une
population
ˆX2 
L’estimation de l’erreur-type de la
distribution d’échantillonnage d’une
statistique obtenue à partir d’un
échantillon aléatoire simple tiré
d’une population
ˆ X  ˆ 2X
ˆX2
n
Vocabulaire
 En français, on utilise le mot « estimation » pour nommer
 l’action d’estimer et
 le résultat de cette action.
 En anglais, on utilise
 le mot « estimation » pour nommer l’action d’estimer et
 le mot « estimate » pour nommer le résultat de cette action.
Le modèle linéaire généralisé
 On nomme « modèle linéaire généralisé » la conception synthétique
des modèles linéaires proposée par deux mathématiciens
britanniques :
 McCullagh, P. et J. A. Nelder .1989. Generalized linear models, second
edition. Chapman and Hall.
 Tout modèle est composé de trois éléments :
 la composante systématique ou déterministe, qui est linéaire, c.-à-d.
proportionnelle et additive;
 la composante aléatoire, qui est une loi de probabilité;
 la fonction de lien (ou fonction de liaison, l’usage français n’est pas fixé)
qui relie le membre de droite à la variable dépendante.
Le modèle linéaire généralisé
Le cas de la régression linéaire
Composante aléatoire
Composante systématique
Fonction de lien
 1 
f ( )  


2



i xiβ
 
e
1    
 

2  
2
,  0
Représentation graphique de la régression linéaire simple
Rabe-Hesketh, Sophia et Anders Skrondal. 2008. Multilevel and longitudinal modeling using
Stata. College Station TX : Stata Press.p. 12
Un exemple de ce que les modèles de risque permettent de
faire
Tendances sociales canadiennes, Hiver 2006, nº 82