Les modèles paramétriques

Download Report

Transcript Les modèles paramétriques

Programmes de maîtrise et de doctorat en démographie
Modèles de risque et de durée
Cours 8
Séance du 21 mars 2014
Benoît Laplante, professeur
Plan
1. Les modèles paramétriques
 Aperçu de quelques lois de probabilité utilisées dans les modèles
paramétriques en temps continu.
 Les modèles à risques proportionnels :
 exponentiel, de Weibull, de Gompertz.
 D’autres modèles :
 log-normal, log-logistique, gamma.
 L’approximation de la fonction de risque à variation non monotone
au moyen de modèles à risques proportionnels :
 le modèle exponentiel par parties.
Plan
2. Compléments
 La pseudo-paramétrisation de la fonction de risque
 Les modèles à risques concurrents
Aperçu de quelques lois de probabilité utilisées dans
les modèles paramétriques en temps continu
 Voir le fichier Excel.
Les modèles paramétriques
 Les modèles paramétriques sont des modèles linéaires
« ordinaires ».
 Contrairement au modèle semi-paramétrique de Cox, les modèles
paramétriques sont faits des trois éléments d’un modèle linéaire
généralisé :
 la composante déterministe (ou systématique);
 la composante aléatoire représentée par une loi de probabilité;
 la fonction de liaison (ou de lien).
Les modèles paramétriques
 La composante aléatoire
 La loi exponentielle, de
Weibull, de Gompertz, lognormale, etc.
 La composante systématique
 La fonction de liaison
ηi xiβ
ηi ln h(t )








La loi exponentielle
 La loi exponentielle représente un processus de changement d’état
dont le risque est constant.
 La loi exponentielle n’a qu’un seul paramètre.
 On peut exprimer la loi exponentielle de différentes manières,
notamment
 de manière à ce que son paramètre représente le risque instantané
(ou incidence instantanée), que l’on note λ et
 de manière à ce que son paramètre représente le temps moyen
passé dans l’état d’origine (la « durée » moyenne), que l’on note μ.
La loi exponentielle
 Dans la loi exponentielle, le temps moyen passé dans l’état
d’origine (l’espérance de T) est égal à l’inverse multiplicatif du
risque, qui, par définition, est constant :
1
μ .
λ
 Dans la paramétrisation utilisée par Stata, on a
λ  exp( α )
et
1
1
μ= 
.
λ exp(α )
 où α est l’ordonnée à l’origine (« _cons ») de l’équation dans sa
version additive.
Le modèle exponentiel
On pose que le risque de base est
constant et que le risque est une
fonction de certaines variables
indépendantes
h0 ( t )  a
h ( t )  h0 ( t )exp( xβ )
 a exp( xβ )
ln[ h( t )]  ln a  xβ
Ceci implique que
On peut réécrire l’équation de
manière à rendre plus évidente la
manière dont les variables
indépendantes modifient le risque de
base pour donner le risque.
β0  ln a  h0 ( t ).
ln[ h( t )]  β 0  xβ
h ( t )  exp( β0  xβ )
h ( t )  exp( β0 )exp( xβ )
La loi de Weibull
 La loi de Weibull représente un processus de changement d’état
dont le risque varie de manière monotone en fonction du temps :
 soit il augmente en fonction du temps,
 soit il diminue en fonction du temps.
 La loi de Weibull a deux paramètres
 On peut exprimer la loi de Weibull de plusieurs manières.
Le modèle de Weibull
Le risque varie en fonction du temps élevé à une puissance qui
est une constante
 On pose
 ce qui entraîne
 On a donc
h( t ) = at b ,
= exp( β0* + xβ )t b .
ln[ h( t )] = β0* + xβ + ln t b
= β0* + xβ + b ln t
= β0* + b ln t + xβ
 et finalement
h( t ) = exp( β0* + b ln t )exp( xβ ).
Le modèle de Weibull
Le modèle de Weibull dans Stata
On pose
et
Ceci implique que
On a donc
et
Tout ceci implique que
et
h0 ( t ) = pt p- 1
h( t ) = h0 ( t )exp( β0 + xβ ).
h( t ) = pt p- 1 exp( β0 + xβ ).
ln[ h( t )] = ln p + ( p - 1)ln t + β0 + xβ
= ln p + β0 + ( p - 1)ln t + xβ.
b = ( p - 1)
β0* = ln p + β0 .
La loi de Gompertz
 Comme la loi de Weibull, la loi de Gompertz représente un
processus de changement d’état dont le risque varie de manière
monotone en fonction du temps :
 soit il augmente en fonction du temps,
 soit il diminue en fonction du temps.
 La loi de Gompertz a deux paramètres.
 On peut exprimer la loi de Gompertz de plusieurs manières.
Le modèle de Gompertz
Le risque varie en fonction d’une constante élevée à une
puissance qui est le temps lui-même
 On pose
 ce qui entraîne
 On a donc
 et finalement
h( t ) = ab t ,
= exp( β0 + xβ )b t .
ln[ h( t )] = β0 + xβ + ln b t
= β0 + xβ + t ln b
= β0 + t ln b + xβ
h( t ) = exp( β0 + ln b ×t )exp( xβ ).
Le modèle de Gompertz
Le modèle de Gompertz dans Stata
 On pose
 et
 Ceci implique que
 On a donc
 et
 Tout ceci implique simplement
que
 et
h0 ( t ) = γ t
h( t ) = h0 ( t )exp( β0 + xβ ).
h( t ) = γ t exp( β0 + xβ ).
ln[ h( t )] = ln γ t + β0 + xβ
= β0 + t ln γ + xβ.
β0* = β0
b = γ.
D’autres modèles paramétriques
 Certains modèles paramétriques permettent de représenter des
processus de changement d’état où le risque varie de manière non
monotone, c.-à-d. des processus où
 le risque augmente puis diminue ou bien
 le risque diminue puis augmente.
 Parmi ces modèles on trouve
 le modèle log-normal,
 le modèle log-logistique et
 le modèle Gamma.
D’autres modèles paramétriques
 Ces modèles utilisent les lois statistiques qui leur donnent leur nom,
comme c’est le cas des autres modèles que nous avons vus.
 Ils ont l’avantage de permettre de représenter des risques qui
varient de manière non monotone.
 Ils ont le désavantage de ne pas être « proportionnels » au sens où
le sont le modèle de Cox et les autres modèles que nous avons
vus.
D’autres modèles paramétriques
Le modèle lognormal et le modèle loglogistique
Ces modèles sont construits en utilisant le
temps passé dans l’état d’origine plutôt que
le risque comme variable dépendante.
Plutôt qu’une fonction de risque de base,
on a une fonction de durée de base, que
les effets des variables indépendantes
augmentent ou diminuent.
Dans le modèle lognormal, on pose que le
logarithme de la fonction de durée de base
suit une loi normale.
Dans le modèle loglogistique, on pose que
le logarithme de la fonction de durée de
base suit une loi logistique.
ln( T )  β0  xβ  ln(τ )
T  exp  β0  xβ  ln(τ )
T  exp  β0  ln(τ ) exp  xβ 
ln(τ ) ~ N (0, σ )
ln(τ ) ~ Logistique(0, γ )
Le choix du modèle
Entre le modèle semi-paramétrique et les modèles paramétriques
 Le choix se fait selon l’importance que l’on accorde à l’estimation du
risque lui-même:
 si on ne s’intéresse qu’à l’effet des variables indépendantes, le
modèles semi-paramétrique est idéal;
 si on s’intéresse aussi au risque lui-même, il est préférable d’utiliser un
modèle paramétrique.
Le choix du modèle
Entre les différents modèles paramétriques
 Se fait en tenant compte
 de la connaissance que l’on a du processus que l’on étudie
 de l’ajustement
 ou des deux.
 Entre deux ou plusieurs modèles gigognes (ou « emboîtés »).
 les tests fondés sur le khi-deux,
 comme le test de Wald ou
 le test du rapport de vraisemblance, c.-à-d. −2 ln(L) qui suit une loi
du khi-deux.
 Dans les autres cas
 Le « critère d’Akaike », c.-à-d. − 2 ln(L) − 2k,
 où k est le nombre des paramètres du modèle.
Le modèle exponentiel par parties
 Le modèle paramétrique le plus versatile est le modèle exponentiel
par parties.
 Le modèle exponentiel par parties n’est rien d’autre qu’un usage
intelligent du modèle exponentiel
 dans lequel on regroupe le temps en intervalles
 de manière à estimer un risque constant dans chacun de ces
intervalles
 de sorte que le risque puisse varier d’un intervalle à l’autre.
Le modèle exponentiel par parties
 Comme lorsqu’on utilise le modèle de Poisson ou la régression
logistique pour estimer un modèle de risque en temps discret, on
élimine l’ordonnée à l’origine et on représente, dans l’équation,
chaque intervalle par une variable binaire.
 On obtient ainsi une estimation du risque de base dans chacun des
intervalles.
 Selon la valeur du coefficient qui est associé à chacun, les variables
indépendantes augmentent ou diminuent le risque dans la même
proportion dans chacun des intervalles.
Le modèle exponentiel par parties
 Attention!
 Le modèle exponentiel par parties n’est pas un modèle en temps
discret, mais bien un modèle en temps continu, comme le modèle
de Poisson par parties.
 On peut changer d’état à tout instant.
 Les intervalles regroupent le temps en classes et ne servent qu’à
modéliser la variation du risque en fonction du temps.
La pseudo-paramétrisation de la fonction de risque
Pourquoi ?
 Parce que l’évolution du risque au fil du temps n’est pas toujours un
simple bruit.
 Parce que les modèles paramétriques qui permettent de
représenter cette évolution
 ne sont pas très souples ou
 ne sont pas proportionnels s’ils sont souples.
La notion de spline
« Spline »
 En anglais, le mot « spline » désigne un outil de dessin
technique qui permet de dessiner des courbes complexes, p. ex.
celles d’une coque de bateau ou d’une autoroute.
 Il formé d’une tige souple dont la courbure est contrôlée par des
poids qui la fixent sur la surface de dessin.
 Le mot est apparemment également utilisé en anglais pour
désigner un outil de dessin plus simple, la « latte » ou « cerce »,
simple tige pliable.
La spline linéaire
Plus justement nommée « fonction spline linéaire »
 On peut utiliser une fonction spline linéaire pour représenter toute
relation entre une variable dépendante et une variable
indépendante.
 Il s’agit d’une forme d’estimation par parties, comme dans le
modèle exponentiel par parties :
 on regroupe les valeurs de la variable indépendante en intervalles;
 on estime l’effet de la variable indépendante de manière à ce qu’il varie
de manière linéaire à l’intérieur de chaque intervalle;
 l’effet de la variable indépendante est représenté par la suite des effets
au sein de chaque intervalle.
 En théorie, la spline linéaire est moins sensibles aux valeurs
extrêmes qu’une fonction formée de polynômes.
La spline cubique
Plus justement nommé « fonction spline cubique »
 Elle est similaire à la spline linéaire.
 On l’utilise également pour réaliser une forme d’estimation par
parties.
 À l’intérieur de chaque partie, on permet à l’effet de la variable
indépendante de varier en suivant une courbe représentée par un
polynôme du 3e degré.
 En CAO, la spline cubique « conventionnelle » est de plus en plus
remplacée par la courbe de Bézier, insensible à certaines
transformations, et souvent nommée « B-spline ».
La spline cubique
 On doit l’usage de la fonction spline cubique pour représenter
l’évolution du risque au fil du temps dans les modèles de risque à
Patrick Royston.
 Royston, Patrick (2001) « Flexible parametric alternatives to the Cox
model, and more », The Stata Journal 1(1): 1-28.
 Royston, Patrick et Mahesh K. B. Parmar (2002) « Flexible parametric
proportional-hazards and proportional-odds models for censored
survival data, with application to prognostic modelling and estimation of
treatment effects », Statistics in Medicine 21: 2175–2197.
 Lambert, Paul C. et Patrick Royston (2009) « Further development of
flexible parametric models for survival analysis », The Stata Journal
9(2): 265–290.
 Royston, Patrick et Paul C. Lambert (2011) Flexible Parametric Survival
Analysis Using Stata: Beyond the Cox Model, College Station TX, Stata
Press.
Marriage as first union
French-speaking Quebec Catholics born in Canada
0.25
Rate
0.20
0.15
0.10
0.05
0.00
15
20
25
30
35
40
45
50
Age
1911
1921
1931
1951
1961
1971
1941
Rate of entry into first union through marriage by birth cohort.
Each hazard function is specified using cubic splines with 3 degrees of freedom.
Data from the 1984 National Fertility Survey and from the 1990, 1995, 2001, and 2006
General Social Surveys.
Figure 1
Cohabitation as first union
French-speaking Quebec Catholics born in Canada
0.25
Rate
0.20
0.15
0.10
0.05
0.00
15
20
25
30
35
40
45
Age
1931
1941
1951
1961
1971
1981
Rate of entry into first union through cohabitation by birth cohort.
Each hazard function is specified using cubic splines with 3 degrees of freedom.
Data from the 1984 National Fertility Survey and from the 1990, 1995, 2001, and 2006
General Social Surveys.
Figure 2
50
Cohabitation as first union
French-speaking Quebec "Atheists" born in Canada
Rate
0.15
0.10
0.05
0.00
15
20
25
30
35
40
45
Age
1941
1951
1971
1981
1961
Rate of entry into first union through cohabitation by birth cohort.
Each hazard function is specified using cubic splines with 3 degrees of freedom.
Data from the 1984 National Fertility Survey and from the 1990, 1995, 2001, and 2006
General Social Surveys.
Figure 6
50
La pseudo-paramétrisation de la fonction de risque
 La spline cubique sert à lisser la relation entre le risque et le temps.
 La relation entre le risque et le temps est représentée par une
fonction paramétrisée qui n’est pas une loi de probabilité
« officielle ».
 Cette fonction est néanmoins une loi de probabilité dans la mesure
où elle régit une phénomène aléatoire et qu’on l’utilise pour
représenter la composante aléatoire d’un modèle statistique.
 Cette fonction est une loi de probabilité à peu près au sens où
l’estimé de Kaplan-Meier en est une.
Les modèles à risques concurrents
L’approche simple
 Elle est analogue à celle qu’on utilise généralement dans l’étude de
la mortalité par causes
 On estime un modèle différent pour chaque type de changement
d’état en retirant l’individu de tous les groupes à risque au moment
où il change d’état.
 C’est l’approche la plus courante.
Les modèles à risques concurrents
 Deux ou plusieurs risques plutôt qu’un seul
 Un exemple :
 former la première union par mariage ou par union de fait
 plutôt que simplement former la première union.
Les modèles à risques concurrents
L’approche simple
 On la réalise, par exemple, en estimant plusieurs équations au
moyen du modèle de Cox, du modèle exponentiel par parties ou de
tout autre modèle utilisé pour étudier un risque simple.
 On peut la réaliser pour étudier un phénomène en temps discret en
estimant plusieurs équations au moyen de la régression logistique,
 ou encore en utilisant le modèle logit multinomial.
Les modèles à risques concurrents
L’approche simple
 L’approche simple est critiquée parce qu’elle présume que les
processus qui régissent chacun des changements d’état sont
indépendants les uns des autres.
 On propose d’utiliser des approches qui tienne compte de la
corrélation entre les processus qui régissent les différents
changements d’état.
Les modèles à risques concurrents
L’approche sophistiquée « traditionnelle »
 Jusqu’à récemment, la seule approche « sophistiquée »
couramment utilisée reposait sur le probit multinomial.
 Il est « plus facile » de calculer la corrélation entre deux ou trois lois
normales qu’entre deux ou trois lois logistiques.
 On se sert de cette propriété pour estimer les effets des variables
indépendantes sur le risque en contrôlant la corrélation entre les
lois normales associées à chacune des équations.
 Cette approche est populaire chez les économètres.
 Elle est toujours présentée en expliquant que la loi normale du
modèle probit représente un processus aléatoire lié à un terme
d’erreur ou aux résidus, en posant que la loi normale joue, dans le
modèle probit, le même rôle que dans la régression ordinaire.
Les modèles à risques concurrents
L’approche sophistiquée « traditionnelle »
 Ceci n’est pas évident et demande à être explicité.
 À première vue, dans le modèle probit, la loi normale est utilisée
comme fonction de liaison.
 On fait correspondre une valeur comprise entre 0 et 1 à une valeur
comprise entre moins l’infini et plus l’infini en utilisant la
correspondance qui existe entre la fonction de densité et la fonction
de répartition de la loi normale centrée réduite.
 La relation entre deux fonctions de la loi normale est utilisée pour
effectuer une simple transformation.
 À première vue, dans le modèle probit, la loi normale n’est pas
utilisée pour représenter un processus aléatoire.
Les modèles à risques concurrents
L’approche sophistiquée « traditionnelle »
 On peut cependant interpréter le modèle logit et le modèle probit
d’une manière très différente.
 Dans cette interprétation, la loi logistique, pour le modèle logit, et la
loi normale, pour le modèle probit, jouent véritablement le rôle de loi
de probabilité.
 Cette interprétation est très populaire chez les économètres et sert
à fonder le modèle probit multinomial qui permet de « contrôler » la
corrélation entre les lois normales qui régissent les termes d’erreur
des équations qui régissent les différents risques d’une modèle à
risques concurrents.
Les modèles à risques concurrents
La régression logistique ou modèle logit
 Pr Y  1 
 
log 

log
 1 
 Pr Y  0  




  xb, Y ~ Bern  

 Le modèle repose sur le fait que la fonction de densité d’une
variable aléatoire qui suit une loi logistique centrée réduite est égal
au rapport de sa fonction de répartition à sa fonction de survie.
F ( xb)
F ( xb)
 On a donc :
f ( xb) 

où F ( xb)   .
S( xb) 1  F ( xb)
 π varie donc nécessairement de 0 à 1 et permet de représenter la
probabilité que Y vaille 1 plutôt que 0, alors que

[π/(1- π)] varie nécessairement de -∞ à +∞ce qui permet d’en faire
la variable prédite d’un modèle linéaire.
Les modèles à risques concurrents
Le modèle probit
Pr Y  1     ( xb) , Y ~ Bern  
Y        ,  ~ N(0,1)
Y   ( xb)       0,  ~ N(0,1)
Y  ( xb   )  0,  ~ N(0,1)
 On suit une logique similaire à celle qui fonde la régression
logistique.
 On transforme la valeur prédite par la composante déterministe du
modèle en posant qu’elle suit une loi normale centrée réduite pour
obtenir une quantité qui varie de 0 à 1.
 On interprète le tirage dans la loi de Bernouilli de probabilité π
comme la comparaison entre la valeur prédite et la valeur d’une
variable aléatoire normale centrée réduite.
Les modèles à risques concurrents
On peut s’amuser à interpréter la régression logistique de
manière analogue.
 Pr Y  1 
  
log 

log
 1     xb, Y ~ Bern  
 Pr Y  0  




Y  F ( xb)   ,  ~ L(0,1) et xb ~ L(0,1)
Y  F ( xb)  F ( )  0,  ~ L(0,1) et xb ~ L(0,1)
Y  F ( xb   )  0,  ~ L(0,1) et xb ~ L(0,1)
 Ceci ne permet pas de construire un modèle à plusieurs équations
qui tienne compte de la corrélation entre les termes d’erreur parce
que la mathématique des lois logistiques multivariées n’est pas
développée.
Les modèles à risques concurrents
Le modèle de Fine et Gray
Fine, J. P., et R. J. Gray. 1999. « A proportional hazards model for the
subdistribution of a competing risk ». Journal of the American
Statistical Association 94: 496–509.