Le test statistique et ses limites

Download Report

Transcript Le test statistique et ses limites

Le test statistique fréquentiste
--Concept(s) et limites
Le test statistique :
Notion indépendante du cadre fréquentiste/bayésien
autre
Le test est une procédure permettant de choisir entre
plusieurs hypothèses
En général seulement deux (plus simple)
À une hypothèse correspond un paramètre ou une plage
de valeur pour un paramètre : q=q0 ou bien q0=q1 ou q0<q1
Hypothesis test : the process of inferring from
a sample whether or not to accept a certain
statement about the population.
The statement itself is called the hypothesis.
La procédure de Neymann & Pearson
Quand on compare deux hypothèses, on peut se
tromper de deux façons différentes :
Déclarer H1 vrai quand H0 vrai : erreur de type I
Déclarer H0 vrai quand H1 vrai : erreur de type II
Type I : risque a
type II : risque b : manque de puissance
→ puissance : 1 - b
Parmi toutes les statistiques de test on choisit la plus
puissante
A partir de la statistique de test, on définit une zone de
rejet qui correspond au risque a de rejeter H0 à tort
Puis on calcule la valeur de la statistique de test
Si la valeur est dans la zone de rejet on rejette H0 et on
déclare H1 vraie
sinon, on conserve H0
On choisit a et b de manière à minimiser les coûts des
erreurs lors de la décision
La procédure de Fisher
Seulement une hypothèse nulle
Choix d'une statistique de test
Calcul de p=Pr(Tobs>tseuil|H0)
Pas de seuil de décision : le rejet de l'hypothèse
nulle dépend de l'utilisateur
Pas de notion de puissance
Pas de alpha standard
Raisonnement dans le concept de Fisher :
Si les données observées donnent un p à 5%, cela signifie que la probabilité
d'observer des données aussi éloignées de l'hypothèse nulle que celles observées
est de 5%. C'est « donc » un événement peu probable.

Donc, soit on a observé un événement rare sous l'hypothèse nulle, soit
l'hypothèse nulle est fausse.


On conclut en général que l'hypothèse nulle est fausse.
Confusions entre N&P et Fisher
Les deux méthodes actuellement systématiquement
confondues
L'expérience est en général planifié (NP)
On prend une statistique de test (NP et F) en général la
plus puissante (NP)
On calcul p (F) et on compare par rapport à alpha (NP)
Cette dernière étape a été vigoureusement rejetté par F
et par NP !
Confusions entre N&P et Fisher (suite)
NP : a priori (planification)
F : entièrement a posteriori
Comparer p (a posteriori et qui dépend uniquement
des données) avec alpha (a priori et qui est
indépendant des données) n'a pas de sens. Et
pourtant...
L'objectif de NP et de Fisher était d'éviter l'aspect
subjectif du bayésien
Principe :
Méthode déductive
au lieu d'être
Inductive comme le bayésien
On prédit la probabilité de données sous H0 et si
elles sont peu probable, on rejette H0 (soit sans rien
de plus (F) soit en acceptant H1 (NP)
Relié à l'épistémologie de Popper :
on peut rejeter une hypothèse mais on ne peut pas
l'affirmer
principe rejeté (...) par DeFinetti et Jaynes utilisateur
de bayésien
Théorie / hypothèse :
- Tout les corbeaux sont noirs. L'observation de 10000
corbeaux noirs ne permet pas d'être certain de
l'hypothèse. Par contre l'observation d'un seul corbeau
non-noir permet de rejeter l'hypothèse.
Problème avec la méthode de NP :
L'une des deux hypothèses est obligatoirement « juste » et
l'autre « fausse ». Le résultat de la décision est certain au
risque alpha et beta de se tromper : ce qui est incertain
c'est l'erreur dans la décision mais la probabilité de
l'hypothèse est soit de 0 soit de 1.
Ou plutôt, on fait comme si...
Les critiques à l'égart du test statistique :
deux catégories :
les problèmes théoriques
les problèmes dans l'utilisation par des usagers non
avertis
mais les uns entrainent les autres par des erreurs
d'interprétations
Le THN ne répond pas à la question d'intérêt
Problème : le test selon NP (et un peu selon F)
provoque une confusion importante :
Il donne Pr(D | H0) alors que l'on voudrait en fait
Pr(H0 | D)
La procédure de NP ne peut pas donner Pr(H0 | D)
car la probabilité a priori des Hx n'est pas introduite
dans la procédure.
H0 H1
Décision H1 a 1-b
H0 1-a b
Risque d'erreur dans la décision
Mais le théorème de Bayes implique
l'utilisation de la probabilité a priori des
hypothèses !

Cohen :
Si vous êtes français vous n'êtes probablement pas
président (pr = 1/ 60 000 000)
or vous êtes président, donc vous n'êtes pas
français....

erreur de logique car raisonnement probabiliste :
le raisonnement de type modus tollens :
si A alors B or non B donc non A
ne fonctionne pas dans sa version probabiliste.
Mais pourquoi donc NP ont ignoré le théorème de
Bayes ???
NP n'étaient pas des ignares en mathématique et
ils connaissaient forcément le Théorème de
Bayes. Alors, comment ont-ils raisonné pour faire
comme si ce théorème n'existait pas et faire de la
déduction là où on attend de l'induction ?
∨∗∨
∗∨
∗
H0
H1
Décision H1
a
1-b
H0 1-a
b
Pr(H0) Pr(H1)
On peut alors se baser sur un modèle d'urne pour prédire le risque de se
tromper sur chaque hypothèse quand on a observé que p=5% ou que l'on est
dans la zone de rejet : ceci implique l'usage du théorème de Bayes.
Incidemment, le taux d'erreur dans la décision n'est plus de a% ou de b% (c'est
comme confondre la Sensibilité ou la Spécificité avec la VPP et la VPN d'un
test).
Pr H1 D = Pr D H1
Pr H1 / Pr D H1
Pr H1
Pr D H0
Pr
Cette présentation du test est fallacieuse car elle laisse facilement penser que
chaque hypothèse (H0 et H1) est doté d'une probabilité a priori (voir la présentation
dans le livre de Valleron).
Dans leur conception, il n'y a pas deux hypothèses mais
une seule : celle qui est vraie ! Si l'une est vraie, l'autre est
fausse et leur probabilités respectives sont donc de 1 et
de 0. Dans ces cas limites, le théorème de Bayes ne
change pas les probabilités a priori, quelque soit la
vraisemblance des données.
L'univers contient soit H0 soit H1 mais pas les deux,
et il n'y a qu'un univers.
Si l'univers contient H1, on ne se trompe que dans
b% des cas si on affirme H1 et il n'y a pas lieu de
considerer H0 puisqu'elle n'existe pas !
Et vice versa pour H0.
La difficulté du raisonnement est partiellement
sémantique : sur le plan linguistique, on est obligé
d'énoncer une alternative (soit H0... soit H1...) mais
dans le concept de NP l'univers ne contient qu'une
seule des deux alternatives, et il s'agit de trouver la
bonne.
Alors, on n'a pas besoin du théorème de Bayes, et
les taux d'erreurs annoncés sont corrects.
La valeur de p résulte de la combinaison de la
taille de l'effet et de la taille de l'échantillon
P est proportionnelle à
la différence entre les groupes
qui peut être modifié à volonté dans les
expérimentations
à la puissance qui dépend notamment des effectifs
un même p correspond à :
grands effectifs et petite taille d'effet ~ petits
effectifs avec grande taille d'effet
Donc la seule valeur de p ne sert à rien (alors qu'elle est
souvent la seule à être donnée dans les publications sans la
taille d'effet)
La valeur de p peut-être rendue arbitrairement
petite en augmentant les effectifs, quelle que soit la
taille de l'effet
A l'extrème, on peut toujours rejeter l'hypothèse
nulle en augmentant suffisamment les effectifs
Ce qui rend l'hypothèse nulle inutile puisque l'on
peut toujours la rejeter
On peut donc toujours la rejeter sans faire
d'expérimentation...
Nombre de patients
Recevant A et B
20
200
2000
2000000
Nombre de patients
%
p-valeur
Préférant A
Préférant A
15:5
75
0,04
115:86
57
0,04
1046:954
52
0,04
10001445:998555
50.07
0,04
Les erreurs d'interprétation qui en découle :
le test est significatif donc la différence est cliniquement
significative
plus p est petit plus l'effet est grand
si p pour un traitement est significatif dans un groupe et
non significatif dans un autre, alors le traitement est
efficace dans le premier groupe et pas dans le second
un p non significatif implique un traitement inefficace
la confusion entre p et a amène à penser que p est la
mesure du risque a observé suite à l'expérience
Autre conséquence :
un test peu puissant tend à favoriser l'hypothèse nulle
qui est fausse d'emblée.
Donc conclure H0 quand p > a donne une conclusion
contradictoire
Autre conséquence :
si on rejette H0 c'est souvent parce que
ponctuellement la taille d'effet observée était
suffisamment grande pour avoir la significativité. La
taille de l'effet est sans doute sur-estimée par
rapport à la vraie taille d'effet.
L'hypothèse nulle n'a souvent pas de sens
Les hypothèses nulles testées ne sont souvent pas
pertinentes : entre deux groupes il y a presque toujours
une différence (hommes-femmes, animaux dans deux
zones différentes) surtout en ce qui concerne les études
observationnelles : Pinheiro croissance mandibule fillesgarçons
Dans les modèles multivariés : ajustement (sexe) mais
avec p ce qui suggère une comparaison : sans intérêt
L'hypothèse nulle est souvent fausse a priori
Essai thérapeutique : le nouveau traitement, en
phase III a déjà fait ses preuves en phase I et II et
donc il est peu probable qu'il ne fasse pas mieux qu'un
placebo
Par rapport à un traitement de référence : si il arrive
jusqu'à la phase III, c'est qu'on pense qu'il a un intérêt
! Donc Pr(H1=vraie) déjà importante
Le test d'hypothèse nulle (NP, F) utilise des données
non observées
Le THN :
ce n'est pas Pr(D|H0)
mais
Pr(D>= Dobs |H0)
ou :
Pr(Z>za|H0)
Donc inclut des données que l'on a pas observé : les
données plus extrèmes que celles obtenues
De ce fait, le THN viole le principe de vraisemblance
La vraisemblance dépend de la façon dont on obtient
les données et pas des données !
10 lancers : un pile
et
lancer jusqu'à obtenir pile qui survient au 10ème
lancer, la vraisemblance ne sera pas la même !
Le p et la reproductibilité des réultats :
Le p est souvent interprété comme la probabilité que
les résultats se répètent dans une nouvelle
expérimentation
Pour que cela soit le cas, il faut introduire les
probabilités a priori des hypothèses ce qui suppose
l'utilisation du théorème de bayes.
L'arbitraire du seuil a
a est presque toujours = à 0,05 alors que NP ne
l'ont pas voulu
a = coût de l'erreur dans la décision de H1 quand
H0 est vraie
De nombreux auteurs oublient ce point !
Des ouvrages de statistiques et des cours de P2 :
a = 0.05 toujours !
Car il ne doit pas changer selon le bon vouloir de
l'utilisateur ! ...
Le problème des comparaisons multiples
En raison de la formulation : p = Pr(D|H0) (F) ou
zone de rejet (NP) : il faut corriger les tests multiples
pour que le a global soit toujours de a%.
Pas de bonnes méthodes générales
Comment corriger ? Sur n expériences ? Quid des
expériences identiques dont on a pas connaissance
? Corriger sur combien de temps ?
Problème quasiment inexistant en bayésien
Les solutions :
Intervalle de confiance : fausse bonne solution car
équivalent direct du THN
et compliqué à formuler : intervalle tel que (100-a)%
des intervalles construits de la même façon
contiennent la vraie valeur du paramètre (inconnue).
Donc mal interprété : intervalle dans lequel la vraie
valeur du paramètre a (100-a)% de chance de se
trouver (bayésien...)