normales - F2SMH Toulouse - Université Paul Sabatier
Download
Report
Transcript normales - F2SMH Toulouse - Université Paul Sabatier
DONNEES CENTREES
ET
NORMALITE
UE 45.2
CHIII
Pierre MORETTO,
Université Paul Sabatier, Toulouse III.
Données centrées et normalité
Indices centraux
Dispersion
Loi Normale (Equiprobabilité)
Variables centrées réduites
Normalité d’une distribution
Détermination graphique
Détermination / indices
Test du ²
Indices centraux et de dispersion
Mode, Médiane, Moyenne
Quartile, variance et écart-type
Indices centraux et de dispersion
Centraux
Mode: valeur la plus représentée
Médiane : valeur correspondant à un
effectif cumulé de 50%
Moyenne:
1
m
(n x )
N 1
i
i
Effectif (« verre plein »)
Centre de classe
(« Position du verre sur le plateau »)
Indices centraux et de dispersion
Equilibre du plateau
Mode
Médiane
Moyenne
Indices centraux et de dispersion
Mode
Médiane
Moyenne
Indices centraux et de dispersion
Dispersion
Intervalle interquartile
Ecart-type
1
2
2
(
n
x
)
m
i i
N 1
Indices centraux et de dispersion
IQ
IQ
50% de la population sur IQ
68.25% de la population sur 1
Loi Normale
Equiprobabilité
Equiprobabilité
Modèle mathématique
Equiprobabilité : Pr(A)=Pr(B)
Un exemple : Somme sur jets de 2 dés
Considérer
la probabilité que la somme des 2
dés fasse : 0, 1, 2, … jusqu’à 14
Cad
un % de chance .. Une fréquence probable
Tracer
le diagramme en fréquence de ces lancers
de dés.
Rappel:
Pr(A et B) = Pr(A) x Pr(A/B)
Equiprobabilité
Sur somme de 2 dés: Pr(A et B) = Pr(A) x Pr(A/B)
Pr(0)=0
Pr(1)=0
Pr(2)=Pr(1et1)=Pr(1) x Pr(1/1)=2/6 x 1/6=2/36
Pr(3)=Pr(1et2)=2/36
Pr(4)=Pr(1et3)+Pr(2et2)=2/36+2/36=4/36
Pr(5)=Pr(1et4)+Pr(2et3)= 2/36+2/36=4/36
Pr(6)=Pr(1et5)+Pr(2et4)+Pr(3et3)=1/6
Pr(7)=Pr(1et6)+Pr(2et5)+Pr(3et4)=1/6
Equiprobabilité
Sur somme de 2 dés: Pr(A et B) = Pr(A) x Pr(A/B)
Pr(8)= Pr(2et6)+Pr(3et5)+Pr(4et4)=1/6
Pr(9)= Pr(3et6)+Pr(4et5)=4/36
Pr(10)=Pr(4et6 )+Pr(5et5)=4/36
Pr(11)=Pr(5et6)=2/36
Pr(12)=Pr(6et6)=2/36
Pr(13)=0
Pr(14)=0
Probabilités
Graphiquement
Sommes possibles
« Courbe en cloche » …… Loi de Gauss
Loi Normale
(Laplace-Gauss)
- Mode, Médiane et Moyenne sont confondus
- Symétrie / indices centraux
1 ; 68.25% de la population
2 ; 95.50% de la population
Loi de Gauss
Cette courbe en cloche illustre très fréquemment les
comportements humains (neurosciences, physiologie,
biomécanique, sociologie etc.)
Parlebas & Cyffers, (1992)
Variables centrées réduites
Variables Centrées Réduites
VCR
L’écart centré réduit est défini pour
pouvoir utiliser la Loi Normale
( x)
Intérêts
( xi mx )
x
Situer un individu / groupe et selon
différentes variables
Pouvoir donner le nombre d’individus
dans un intervalle de performance
Table de la loi normale
Loi Normale
-2
VCR
-1
( x)
+1
( xi mx )
x
+2
Table de la loi normale
Variables normales centrées réduites
-2
-1
0
+1
+2
Table de la Loi normale centrée réduite
Lecture:
Valeur d’ en
additionnant
colonne de
gauche
(dixième) et
ligne du haut
(centième)
Ex: Soit z =0.5 une valeur de
A l’intersection de 0.5 (première colonne) et 0 (1ère ligne) :
La valeur est 0.1915 …. Soit 19.15% de la population
entre 0 et z.
Utilisation de l’écart centré réduit
Situation d’un sujet / groupe selon différentes
variables
Dénombrement dans un intervalle donné
Situation d’un sujet
/ groupe selon différentes variables
-2
-1
0
+1
+2
Performance centrée réduites du sujet S1
Détente verticale
Squat
Saut en longueur
Profile des performances de l’athlète
Dénombrement dans un intervalle donné
La taille d’un groupe
d’enfants suit une
distribution normale.
m 1.20m
0.06m
Indiquez la probabilité
pour que :
1.14 Taille 1.29 m
Table des valeurs normales centrées
réduites
( x)
Correction
( xi mx )
x
1.14 m 1.29m
1.20 0.06 m 1.20 0.09
m 1 m m 1.5
Condition_ A
Condition_ B
m 1 Taille
Taille m 1.5
1
Pr obabilité_ associée_ Pr(1)
1.5
Pr obabilité_ associée_ Pr(1.5)
Si _ 1 _ alors _ Pr(1) 0.3413
Si _ 1.5 _ alors _ Pr(1.5) 0.4332
Pr(AetB) Pr(A) Pr(B)
_______ 0.3413 0.4332
_______ 77.45%
Dénombrement dans un intervalle donné
La taille d’un groupe
d’enfants suit une
distribution normale.
m 1.20m
0.06m
Indiquez la probabilité
pour que :
Taille 1.11m
Table des valeurs normales centrées
réduites
( x)
Correction
( xi mx )
x
Taille 1.11m
1.20 0.09 Taille
m 1.5 Taille
m 1.5 Taille
1.5
Pr obabilité_ associée_ Pr(1.5)
Si _ 1.5 _ alors _ Pr(1.5) 0.4332
Pr(Taille 1.11) 50% Pr(1.5)
_______ 0.5 0.4332
_______ 6.68%
Normalité d’une distribution
Normalité d’une distribution
Il s’agit de comparer la distribution expérimentale
à la loi normale.
Si la distribution expérimentale est normale, les tests
statistiques dits paramétriques peuvent être
appliqués …
sinon
transformation des données (log, racine etc)
Sinon tests non paramétriques.
Normalité d’une distribution
Histogramme
35
33
31
30
28
25
Effectifs
20
17
17
18
14
15
10
11
10
10
6
5
5
3
2
0
33.5 37.5 41.5 45.5 49.5 53.5 57.5 61.5 65.5 69.5 73.5 77.5 81.5 85.5
Performances
Cette distribution peut-elle être assimilée à celle de Gauss ?
Normalité d’une distribution
Normalité d’une distribution
Détermination graphique
Détermination / indices
Test du ²
Normalité de la distribution
Détermination graphique
Test de la droite de Henry
Principe:
Vérifier
que le graphique des fréquences cumulées est
linéaire après changement d’échelle.
La transformation est appelée « Anamorphose »
Détermination graphique
Diagramme fréquences cumulées
Anamorphose
Droite de Henry
Fréquences cumulées
Fréquences cumulées
1.20
1.00
0.80
0.60
0.40
0.20
0.00
33.537.541.545.549.553.557.561.565.569.573.577.581.585.5
33.537.541.545.549.553.557.561.565.569.573.577.581.585.5
Performances
Performances
Echelle d’anamorphose
Détermination graphique
Droite de Henry
Calcul de la pente
Fréquences cumulées
33.537.541.545.549.553.557.561.565.569.573.577.581.585.5
Performances
Anamorphose
Si la distribution est normale à
±2 correspond 95.5% de la
population.
Intervalle entre 2.28% et
95.5% correspond à 4.
Pente=(Q95-Q2.28)/ 4
PThéo=(95.5-2.28)%/4=0.23
Normalité d’une distribution
Normalité d’une distribution
Détermination graphique
Détermination / indices
Test du ²
Normalité d’une distribution
/Indices
Une distribution est normale si:
Les
indices centraux sont confondus
Mode=Médiane=Moyenne
de la population à ± 1
95.5% de la population à ± 2
68.25%
Si ces faits sont retrouvés à partir des données
expérimentales alors, la distribution peut être
considérée comme « Normale »
Normalité d’une distribution
Normalité d’une distribution
Détermination graphique
Détermination / indices
Test du ²
Test du ²
Le test du ² permet de comparer 2 distributions.
Si il est appliqué à la comparaison de la
distribution de la donnée expérimentale et d’une
distribution normale (au sens Gaussien), il permet
de vérifier très précisément la normalité de la
distribution expérimentale.
Test du ²
Principe
Comparer 2 fréquences
Expérimentale
Normale
(rouge)
(Bleu)
Quantifier la somme des
différences/classes
Règle de décision /
valeur théorique
0.18
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
1
2
3
4
5
6
7
8
9
10 11 12 13 14
Test du ²
Quantifier la différence
Calculer l’écart
centré réduit pour
x1 mx
(
x
)
Pr( ( x1 )) fTh1
chaque centre de
1
x
classe Xi
.....
Trouver la
x14 mx
probabilité associée ( x14 )
Pr( ( x14 )) fTh14
x
dans la table de la
Loi Normale Centrée
Réduite
Test du ²
Quantifier la différence
Calculer l’écart
centré réduit pour
x1 mx
(
x
)
Pr( ( x1 )) fTh1
chaque centre de
1
x
classe Xi
.....
Trouver la
x14 mx
probabilité associée ( x14 )
Pr( ( x14 )) fTh14
x
dans la table de la
Loi Normale Centrée
Réduite
Test du ²
Quantifier la différence
Pour chaque classe,
une fth et une
fobs(ni/N)
Calculer la
différence de ces
fréquences pour
chaque classe
f obs1 f th1
.....
f obs14 f th14
Test du ²
Calcul de l’indice
Carré des différences
Rapportée à Fth
Somme
« Surface entre les 2 courbes »
( f obs f th ) 2
²
f th
Test du ²
Règle de décision
( f obs f th ) 2
²
f
th
Une table des valeurs de ²
La valeur est lue pour un Degrès De Liberté (ddl=N-1)
A un risque choisi (10%, 5%, 1%)
Test du ²
Règle de décision
( f obs f th ) 2
²
f
th
Si ²Calculé> ²Théorique au risque choisi les distributions
diffèrent significativement.
Sinon elles sont statistiquement semblables.
Test du ²
Exemple
Le ² calculé sur un
échantillon de 19 sujets
est de 32.5.
La distribution est-elle
normale au risque 5% ?
La distribution est-elle
normale au risque 1% ?
Table du ²
Test du ²
Correction
Table du ²
Le ²théorique à P=0.05
pour un ddl=18 est de
28.87
32.5 > 28.87 donc ²calculé >²théorique
Les distributions observée (expérimentale) et
théorique (Loi Normale) sont semblables à P<0.05
La distribution est normale au risque P<5%
Test du ²
Correction
Table du ²
Le ²théorique à P=0.01
pour un ddl=18 est de
34.80
32.5 < 34.8 donc ²calculé <²théorique
Les distributions observée (expérimentale) et
théorique (Loi Normale) sont différentes à P<0.01
La distribution n’est pas normale au risque P<1%
Risque inférieur entraîne une décision plus sévère
COMPARAISON
D’ÉCHANTILLONS
PARAMÉTRIQUES
UE 45.2
CHIV
Pierre MORETTO,
Université Paul Sabatier, Toulouse III.
Comparaison d’échantillons
Règles de décisions et orientations
Les
distributions des échantillons A et B sont-elles
normales (Gaussiennes) ?
Si
OUI, tests paramétriques
Si NON,
Transformation (racine, log ..) et retour à
Tests Non paramétriques (Ch V)
Comparaison d’échantillons paramétriques
Méthodologie générale:
Distributions normales
Comparaison d’échantillons paramétriques
Comparaison des variances des échantillons de
distributions normales A (²A) et B (²B)
Comparaison des variances
Echantillon A
mA , ² A , nA
Echantillon B
mB , ² B , nB
Comparaison des variances
Le test est appelé « Test F de Fisher-Snedecor »
Il est basé sur le rapport (F) des variances des
échantillons A et B
Donc
si
les variances sont semblables le rapport F est
proche de 1
si les variances diffèrent le rapport F s’éloigne de 1
Dans les 2 cas … l’objectivité impose de savoir de
combien et à quel risque ?
Histogramme
Histogramme
35
33
31
30
28
25
Effectifs
20
17
18
17
14
15
10
11
10
10
6
5
5
3
2
0
33.5
37.5
41.5
45.5
49.5
53.5
57.5
61.5
Performances
65.5
69.5
73.5
77.5
81.5
85.5
Le diagramme cumulatif
Fréquences cumulées %
1.20
1.00
Fréquences cumulées
0.80
0.60
0.40
0.20
0.00
33.5
37.5
41.5
45.5
49.5
53.5
57.5
61.5
Performances
65.5
69.5
73.5
77.5
81.5
85.5
Détermination Graphiques
Ces graphiques permettent de déterminer
Des
indices centraux
Mode
Des
et médiane
indices de dispersion
Quartiles
Intervalle
interquartile
Détermination du mode
Histogramme
- Repérer le plus grand effectif
- Le mode est la performance (61.5 cm) la plus représentée (33%)
-
(cad pour laquelle la fréquence est la plus importante)
50%
Détermination de la médiane
Fréq cumulées
- Repérer 50% sur l’effectif cumulé (ordonnées)
- Projeter sur l’axe des performances
- La médiane est la performance (57.5 cm) qui coupe l’effectif en deux parties égales
(cad 50% font plus mais 50% font moins de 57.5 cm de détente verticale)
L’intervalle et l’hétérogénéité
Dans les 2 cas 50% de la population sont distribués sur IQ
IQ1
IQ2
Les indices de dispersion
L’écart-type :
À
partir de l’ensemble des valeurs (N<30)
1
1
²
( xi m )²
( xi ²) m ²
N
N
1
1
( xdonnées
² (N>30)
( xi ²) m ²
i m )²
A ²partir
de
regroupées
N
N
1
1
ni ( xi m )² 1 (ni xi ²) m ²
1
² N 1 ni ( xi m )² ² N 1 (ni xi ²) m ²
N 1
N 1
A certaines conditions (de normalité), 68.5% de la population sont
distribués sur une étendue de 1
Distribution et hétérogénéité
68.5% de la population distribués sur 1 l’écart-type autour de la moyenne
1
²
N
1
( xi m )² ² N
( x ²) m ²
i
1
1
²
ni ( xi m )² ²
(ni xi ²) m ²
N 1
N 1
-1 1