Document 7775954

Download Report

Transcript Document 7775954

ETUDE DE SYSTEMES PAR
ECHANTILLONNAGE
Ludovic Mulvéna
Youssef Bokhabrine
ESIREM - 2005
PLAN
•
•
•
•
I – Problématique
II – Définitions
III – Méthodologie
IV – Outils statistiques
–
–
–
–
Intervalle de confiance
Méthodes de comparaison
Choix du niveau de confiance
Choix de la taille de l’échantillon
• Conclusion
Problématique (1)
Problématique
Définitions
Méthodologie
Outils
Statistiques
Conclusion
• Tirer des conclusions au sujet d'un tout
en y examinant qu’une partie
• Vocabulaire (1)
– Population: ensemble complet qu'on désire
étudier. Très vaste => on ne mesure jamais
des populations
– Échantillon: tous sous-ensemble de la
population
 On va échantillonner!
Problématique (1)
• Utilisation de l’échantillonnage:
Problématique
Définitions
Méthodologie
Outils
Statistiques
–
–
–
–
–
–
Impossibilité d’étudier la population entière
Economiser du temps, argent, efforts
Précision suffisante (EX: prise de sang)
Situations paradoxales (EX: ampoule)
Limiter les conséquences/risques (EX: destruction)
Population fluctuante
Conclusion
• BUT:Fournir suffisamment d'informations pour
que des inférences concernant la population
puissent être faites.
Problématique(2)
Problématique
Définitions
Méthodologie
Outils
Statistiques
Conclusion
• MAIS échantillons a priori aléatoire
• Les indices statistiques sont alors
utilisés pour estimer les paramètres.
• Vocabulaire (2)
– Paramètre: mesure utilisée pour décrire la
population
– Statistique (indice): mesure utilisée pour
décrire un échantillon
Problématique(2)
Problématique
Définitions
Méthodologie
Outils
Statistiques
Conclusion
• Consiste à choisi un sous-ensemble de la
population qui représente le plus fidèlement
possible les caractéristiques (à l'étude) de la
population
• MAIS impossible de choisir un échantillon
parfaitement représentatif...
• Au final, on aura:
– généraliser les résultats obtenus pour décrire la
population  inférer quelque chose à propos des
caractéristiques de cette population.
– Avoir une idée de la précision de ses estimations
– Tenir compte des erreurs d’échantillonnage
Définitions
Problématique
Définitions
• Pour distinguer entre les paramètres et
les indices statistiques :
Méthodologie
Outils
Statistiques
Conclusion
Caractéristique
Population
Échantillon
Moyenne
µ
X_
Écart type
σ
s
Nombre d'unités
N
n
Pourcentage
π
p
Comment procéder
Problématique
Définitions
Méthodologie
Outils
Statistiques
Conclusion
• « On ne s'intéressent pas à
l'échantillon lui-même, mais à ce
qu'il est possible d'apprendre à
partir de l'enquête et à la façon
dont on peut appliquer cette
information à l'ensemble de la
population. »
Comment procéder
Problématique
Définitions
Méthodologie
Outils
Statistiques
Conclusion
• Définir la population cible
– décrire sous forme de caractéristiques
• Déterminer les données à recueillir
– exigences de l'enquête en matière de
données, déterminer la terminologie et les
définitions nécessaires
• Fixer le degré de précision
– variation d'un échantillon à l'autre est cause
d’erreur => réduire le plus possible.
– la taille de l'échantillon déterminera aussi le
degré d'incertitude.
– > taille de l'échantillon => < erreur
d'échantillonnage.
Le plan d'échantillonnage
Problématique
Définitions
Méthodologie
Outils
Statistiques
Conclusion
•
Travailler sur le plan d'enquête
1. Le plan d'échantillonnage : façon dont on
prélèvera l'échantillon.
2. Les techniques d'estimation : la façon
dont on appliquera les résultats établis à
partir de l'échantillon à l'ensemble de la
population.
3. Les mesures de la précision : la façon
dont on mesurera l'erreur
d'échantillonnage.
Comment procéder (2)
Problématique
Définitions
Méthodologie
Outils
Statistiques
Conclusion
• L'échantillon doit être
correctement définie et organisé.
• La méthode d'échantillonnage et
la taille de l'échantillon influera
largement sur la représentativité
de l'échantillon.
Méthodes d’échantillonnage
Problématique
Définitions
Méthodologie
Outils
Statistiques
Conclusion
• Sur la base du jugement: par
identification des unités qui
représentent adéquatement la
population
(+) Avantage: quand expérience
pertinente
(-) Inconvénient: difficile d'évaluer
objectivement à quel point
l'échantillon est représentatif
Méthodes d’échantillonnage
Problématique
Définitions
Méthodologie
Outils
Statistiques
Conclusion
• Aléatoirement: probabilité de sélection
de chaque élément est connue et non
nulle
– Hasard simple: tous les échantillons
possibles ont la même probabilité
d'être choisis
– Aléatoire stratifié: d'abord subdiviser la
population en groupes homogènes
(strates) pour extraire un échantillon
aléatoire de chaque strate
Intervalle de confiance d’un paramètre
Problématique
Définitions
Méthodologie
Outils
Statistiques
Conclusion
• intervalle à l’intérieur duquel peut se
situer la vraie valeur du paramètre de la
population.
Estimer l’intervalle de confiance
Problématique
Définitions
• Il existe deux formules pour calculer
les intervalles de confiance
Méthodologie
Outils
Statistiques
Conclusion
– Utiliser le théorème de la limite centrale
avec une population de plus de 30
échantillons: z-distribution
– Petit échantillon provenant d’une
population qui suit une distribution
normale : t-distribution
la z Distribution
Problématique
Définitions
Méthodologie
Outils
Statistiques
Conclusion
• Intervalle de chaque côté du centre de
symétrie :
s

x  z1  
2  n
• α : niveau de signification
• Les valeurs de z sont données dans une
table de nombres aléatoires.
la t Distribution
Problématique
Définitions
Méthodologie
Outils
Statistiques
• La formule de la t distribution est
presque identique à celle de la z
distribution:
s 

x  t 1   ; n 1  
 2  n
Conclusion
• Utilisable seulement pour les
distributions normales de population
• mais elle donne des résultats avec
des petits échantillons (n<30).
Comparaison des alternatives
Problématique
Définitions
Méthodologie
Outils
Statistiques
Conclusion
• Souvent, on a besoin de trouver le
meilleur système
– Choisir le PC le plus rapide à acheter
– Prouver que notre algorithme est rapide
• Différentes méthodes pour
paired/unpaired observations
– Paired : si le ième teste sur chaque
système est le même, mais avec la même
taille d’échantillon.
– Unpaired : si le ième teste sur chaque
système est le même, mais avec des
tailles d’échantillon différentes.
Paired observations
Problématique
Définitions
Méthodologie
Outils
Statistiques
Conclusion
• Traitez le problème en tant que 1 échantillon
de n paires.
• Pour chaque essai calculez la différence
d'exécution
• Calculez l'intervalle de confiance pour ces
différences
• Si zéro est inclut dans l'intervalle, les
systèmes ne sont pas différents
• Sinon, le signe indique qui des deux systèmes
est le meilleur.
unPaired observations: le t-test (1)
Problématique
Définitions
Méthodologie
Outils
Statistiques
Conclusion
• 1. Calculer la moyenne d’échantillon
x a et x b
• 2. Calculer l'écart type d’échantillon
sa et sb
• 3. Calculer la différence entre les
moyennes = x a  x b
• 4. Calculer l'écart type standard:
sa2 sb2
s

na nb
unPaired observations: le t-test (2)
Problématique
Définitions
Méthodologie
Outils
Statistiques
Conclusion
• 5. Calculer le degré de liberté:

sa2 / na  sb2 / nb 
2
2
1 s 
1 s 

 
 
na  1  na 
nb  1  nb 
2
a
2
b
2
2
• 6. Calculer l’intervalle de confiance:
 x a  x b   t1 / 2; s
• 7. Si zéro est inclut dans l’intervalle,
alors pas de différence
Intervalle de confiance pour les
proportions
Problématique
Définitions
Méthodologie
Outils
Statistiques
Conclusion
• Si k des testes de n donnent un certain
résultat, alors l'intervalle de confiance est
k
k  k2 / n
 z1 / 2
n
n
• Si k<10 , on ne peut pas avoir des
résultats significatifs
• Il vaut mieux avoir un k>10 pour avoir de
bon résultats
HYPOTHESE
Problématique
Définitions
• Définition: une hypothèse est un énoncé conjectural sur la
valeur d'un paramètre
Méthodologie
de la population
Outils • HYPOTHÈSE NULLE (H0)
Statistiques • ° C'est l'hypothèse du statu quo,
Conclusion
celle qui est maintenue jusqu'à preuve du contraire
° C'est l'hypothèse qu'on veut rejeter
HYPOTHÈSE ALTERNATIVE (H1)
• C'est l'hypothèse qu'on voudrait démontrer
° Son acceptation n'est conditionnelle qu'au rejet de l'hypothèse
nulle
Taille de l’échantillon
Problématique
Définitions
Méthodologie
Outils
Statistiques
Conclusion
– On désire obtenir une estimation
d'une précision: calculer
la taille des échantillons requis pour
atteindre ce degré de précision
Dépend de:
• la précision des résultats qu'on
veut obtenir,
• et des contraintes en termes de
temps et des coûts
Calcul de la taille de l'échantillon de
base
Problématique
Définitions
Méthodologie
Outils
Statistiques
Conclusion
•
Trois facteurs déterminent
essentiellement la taille de
l'échantillon pour une enquête
faite dans la population:
i) la prévalence estimative de la
variable étudiée
ii) le niveau de confiance visé
iii) la marge d'erreur acceptable.
Calcul de la taille de l'échantillon de
base
• Explication:
Problématique
Définitions
Méthodologie
Outils
Statistiques
Conclusion
2
100
zs

n  
 rx 
• Ici, z représente soit z ou t selon la distribution
utilisée
• Pour la proportion p = k/n:
2 p 1 p
nz


r2
n = taille d'échantillon requise
z = niveau de confiance à 95% (valeur type de 1,96)
p =prévalence estimative de la malnutrition dans la
zone du projet
r = marge d'erreur à 5% (valeur type de 0,05)
Conclusion
Problématique
Définitions
Méthodologie
Outils
Statistiques
Conclusion
• C’est véritablement important de
savoir manier correctement les outils
statistiques
• C’est un précieux outils utilisés dans les
véritables simulations
FIN
• Un véritable merci pour votre attention
• Ceci est la fin --------> fin
• A vous!