Statistique A-J Valleron 10 Mai 2006 • statistiques – – – – « statizein » (grec) « statisticus » (bas latin) « statista » (italien) « statistik » (allemand) • Statistique – Statistique.

Download Report

Transcript Statistique A-J Valleron 10 Mai 2006 • statistiques – – – – « statizein » (grec) « statisticus » (bas latin) « statista » (italien) « statistik » (allemand) • Statistique – Statistique.

Statistique
A-J Valleron
10 Mai 2006
• statistiques
–
–
–
–
« statizein » (grec)
« statisticus » (bas latin)
« statista » (italien)
« statistik » (allemand)
• Statistique
– Statistique descriptive
– Statistique inférentielle
10 Mai 2006
La variabilité
• Un concept clé:
– « tous les hommes sont différents »
– « la théorie de l’évolution »
• Un objet d’étude en soi:
– Savoir mesurer la variabilité
– Établir des cartes de la variabilité
• Un guide pour découvrir:
– La variabilité, mesure de l’espace à découvrir.
– Identifier des sous populations
10 Mai 2006
La variabilité, et ses niveaux
• Entre populations
• Entre individus
• Intra individus
• (et aussi, l’erreur de mesure)
10 Mai 2006
Le raisonnement probabiliste:
la recherche de la cause
• causalité n’est pas déterminisme.
– Le tabac cause le cancer des bronches
– Affirmation compatible avec :
• Tous les fumeurs n’ont pas le cancer
• Tous les cancéreux des bronches n’ont pas fumé
– Risque attribuable à un facteur :
• Le risque de cancer des bronches attribuable au tabac
est de 80%
10 Mai 2006
Le raisonnement probabiliste:
l’exemple du diagnostic
• La fièvre (>39°) permet de diagnostiquer la
grippe. Mais…
– Sensibilité ~ 65%
65 porteurs du virus sur 100 ont une fièvre >39+
– Spécificité ~ 80% (en période épidémique)
80 consultants non infectés sur 100 ont une fièvre <39°
10 Mai 2006
Le raisonnement probabiliste:
l’exemple du traitement
• Le vaccin contre la grippe est efficace:
– Sur 100 jeunes adultes exposés, il évitera ~30 grippes
Efficacité vaccinale ~ 30%.
(dépend de la population, de l’année, …)
10 Mai 2006
Probabilités et Statistique
• Le calcul des probabilités (déductif)
– modéliser la variabilité
– Calculer la chance/ le risque d’un événement connaissant
les lois de probabilité
• La statistique (inférentielle)
– Le mot clé : l’échantillon (pris dans une population de
référence).
– La méthode : l’inférence (comment trouver la loi qui
s’applique dans la population à partir des informations
recueillies sur l’échantillon?)
10 Mai 2006
Les sondages (politiques)
– Pas tirés au sort
– Quota, etc..
– C’est l’échantillon tiré au sort qui permet la
meilleure précision.
10 Mai 2006
Les problèmes à une variable
Estimer la proportion de ... dans la
population des …
• Difficultés:
– Définir la population
– Réaliser un échantillon représentatif (tirage au sort)
dans cette population
– Donner une « fourchette » pour l’estimation.
( fourchette pour 50% sur n = 900 : 46,7% à 53,3%)
10 Mai 2006
Les problèmes à deux variables
Estimer la corrélation entre deux variables dans une
population
• Difficultés:
– la définition de la population est moins critique
– Distinguer entre deux problèmes différents:
• Savoir si les deux variables sont corrélées
• Mesurer la force de la liaison entre les deux variables
10 Mai 2006
Le projet minimal de Statistique
• Un échantillon, un questionnaire, une analyse,
les conclusions, le rapport
• Remarques
– Échantillon de quelle population de référence?
– Toujours préférer les projets à 2 échantillons qui
permettent de COMPARER.
– travailler sur la qualité du questionnaire
(intelligibilité, reproductibilité, …)
10 Mai 2006
La causalité
Différences entre corrélation et cause
Analyse des arguments de causalité (et de non
causalité) rendant compte d’un réseau de
corrélations.
faiblesses de l’observation (en médecine, en sciences
humaines, ..).
force théorique de l’expérimentation ; limitations
pratiques, culturelles, éthiques à certaines
expérimentations.
10 Mai 2006
Les critères de causalité de Bradford Hill
•
•
•
•
•
Force de l’association
Relation dose-effet
Plausibilité biologique
Répétabilité
temporalité
•
•
•
•
Spécificité
Possibilité de vérification expérimentale
Cohérence
Analogie
10 Mai 2006
La comparaison de deux échantillons
• La question est : que peut-on conclure pour les
populations d’où viennent ces échantillons
– Tests statistiques difficiles . Simulations sur
ordinateur?
– Mais examen des (non) superpositions des
« fourchettes » possible. Permet une initiation au
raisonnement de l’inférence.
10 Mai 2006
L’évaluation
Un traitement est-il efficace?
•
•
•
nécessité de définir un groupe témoin
répartition des malades par tirage au sort
« double aveugle »
Que retenir?
•
l’évaluation est nécessairement comparative.
•
il faut faire les bonnes comparaisons.
10 Mai 2006
Le cas des très petites probabilités
• « le risque zéro »
– Observer 0 événements sur un échantillon ne signifie pas
qu’il y a 0 évenement dans la population
– Mais on peut donner une valeur maximale à la fourchette.
(exemple : on n’a vu aucun accident sur N=1000 événements
sportifs : la valeur maximale du risque est de 3/N = 3%0 )
• Expérimentation avec TICE?
10 Mai 2006
L’échantillon représentatif:
la clé de la statistique
• Représentatif = tiré au sort.
• La représentativité est définie par le mode de
constitution de l’échantillon, non par le résultat.
• La constitution d’un échantillon de qualité
– Les difficultés pratiques
– Comment éviter les biais?
– Quelle taille d’échantillon?
• Beaucoup de sujets, une mesure imprécise par sujet?
• Peu de sujets, beaucoup de mesures par sujet?
10 Mai 2006
La « bonne » taille d’un échantillon
• Échantillon de quoi?
• Bonne taille pour répondre à quelle question?
• La Statistique est faite pour tirer les meilleurs
conclusions possibles à partir du plus petit
échantillon possible.
10 Mai 2006