Transcript 2 - Free

Chemometrics is the chemical discipline that uses mathematics, statistics
BP
Bernard Palagos - Cemagref Montpellier
SG
Serge Guillaume - Cemagref Montpellier
SP
Sébastien Preys - Ondalys
BP
BP
SG
BP
BP
BP
BP
SG
KNN
SP
B. Palagos
Decision TREE
M2 Sciences des Procédés - Sciences des Aliments
SG
SG
Année 2009 -2010
1
UTILISATION DES STATISTIQUES
Statistique descriptive
(analyse exploratoire)
Données
- on illustre (graphiques)
Inférence statistique
-Estimation des paramètres d’une
population à partir d’échantillon
Intervalle de confiance
- on résume (critères)
- Test d’hypothèse sur des valeurs des
paramètres de la population
Test de comparaison de populations
Pas de généralisation
Généralisation
ACP …..
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
2
UTILISATION DES STATISTIQUES
Statistique descriptive
(analyse exploratoire)
Données
- on illustre (graphiques)
- on résume (critères)
Pas de généralisation
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
3
TYPE DE DONNEES
Données
Nominale
sexe
couleur
Ordinale
bon mauvais
classes d’âge
Catégorie
(Qualitative)
Numérique
(Quantitative)
Discrète
Continue
PH
Poids
notes
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
4
TABLEAU INDIVIDUS – VARIABLES CONTINUES
frigos
TB
1
2
3
4
5
6
7
8
9
10
B. Palagos
TM
10.68
5.66
4.03
1.55
0.74
0.79
2.77
4.1
3.84
10.54
TH
7.17
7.39
4.93
2.89
2.15
2.22
2.98
4.62
5.19
10.7
M2 Sciences des Procédés - Sciences des Aliments
8.19
8.08
5.07
8.98
2.8
2.87
4.15
6.25
7.37
9.38
Année 2009 -2010
5
TABLEAU INDIVIDUS – VARIABLES DISCRETES
annees
BXR
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
B. Palagos
BXBS
2
3
5
4
2
4
5
2
4
5
4
2
2
2
3
4
BGR
4
3
3
4
2
3
3
3
3
3
3
3
3
3
3
4
BGB
1
2
2
3
1
5
3
3
5
4
5
3
3
3
3
3
CRH
1
2
3
3
1
4
4
3
4
5
4
3
4
2
3
3
LOIRE
3
3
3
4
1
5
3
1
5
3
4
2
1
2
2
3
M2 Sciences des Procédés - Sciences des Aliments
ALS
1
3
2
1
1
5
4
2
4
5
4
1
1
2
2
3
Année 2009 -2010
1
4
3
5
3
5
1
2
4
4
5
2
2
2
2
2
6
TABLEAU DE CONTINGENCE
treatments x troubles
Anxiety (A)
Epilepsy (E)
Sleep (S)
Sum
Clonazepan (C)
Diazepan (D)
0
5
5
4
3
2
8
11
Lorazepam (L)
Teriazolam (T)
Sum
4
1
10
0
0
9
2
4
11
6
5
30
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
7
REPRESENTATION GRAPHIQUES
PRI
100
60
80
PRI
120
140
Nuage de points
2500
3000
3500
4000
EAU
63.00
3635.00
77.00
3190.00
86.00
3530.00
89.00
3350.00
91.00
3070.00
92.00
3130.00
92.00
3635.00
95.00
3490.00
95.00
3460.00
106.00
3380.00
74.00
3500.00
76.00
4030.00
85.00
3365.00
57.00
3515.00
95.00
3960.00
132.00
2925.00
152.00
2720.00
153.00
2340.00
EAU
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
8
REPRESENTATION GRAPHIQUES
V1
V2
V3
V4 ……….. V250
[1,] 0.001414187 0.001517513 0.001625822 0.001739089
[2,] 0.001710376 0.001839079 0.001974161 0.002115296
…………………
Spectres obtenus par NIR
642 pommes
256 longueurs d’ondes
(300 à 1200 nanomètres)
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
9
HISTOGRAMME DE FREQUENCE
3 possibilités :
• bornes des classes fixées
Histogramme
• classes d’éffectifs égaux nc à fixer
Données rangées par ordre croissant:
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41,
43, 44, 46, 53, 58
6
6
Fréquences
• classes d’amplitudes égales nc à fixer
amplitude = (max-min)/nc
7
5
5
4
4
3
3
2
2
1
0
0
0
5
15
25
Largeur de classe : 10
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
36
45
55
More
Milieu de classe
Année 2009 -2010
10
RESUMES STATISTIQUES
n observations (x1, ……,xn)
Résumés
Tendance centrale
Quartile
Mode
Moyenne
Médiane
Etendue
Variation
Coefficient de
variation
Variance
Ecart-type
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
11
TENDANCE CENTRALE
Tendance centrale
Moyenne
Mediane
Mode
n
x
x
i
1
n
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
12
MOYENNE
• La plus connue des mesures de la tendance centrale
• Influencée par les valeurs extrêmes (outliers)
• C’est un indicateur peu robuste
0 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 6 7 8 9 10 12 14
Moyenne = 5
Moyenne = 6
n
x
B. Palagos
x
i
1
n
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
13
MEDIANE
• Mesure robuste de la tendance centrale
• Pas influencée par les valeurs extrêmes
0 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 6 7 8 9 10 12 14
Mediane = 5
Mediane = 5
• Calcul :
observations rangées par ordre croissant
– n pair, la médiane est la valeur du milieu
– n impair, la médiane est la moyenne des deux milieux
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
14
MOYENNE-MEDIANE
frigos
1
2
3
4
5
6
7
8
9
10
moyenne
médiane
11
moyenne
médiane
TB
TM
10.68
5.66
4.03
1.55
0.74
0.79
2.77
4.10
3.84
10.54
4.47
3.94
35.00
7.25
4.03
7.17
7.39
4.93
2.89
2.15
2.22
2.98
4.62
5.19
10.70
5.02
4.78
35.00
7.75
4.93
TH
8.19
8.08
5.07
8.98
2.80
2.87
4.15
6.25
7.37
9.38
6.31
6.81
35.00
8.92
7.37
On rajoute une
autre observation
Médiane peu sensible
Moyenne sensible aux
valeurs extrêmes
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
15
MODE
•
•
•
•
•
•
Mesure de tendance centrale
Valeur de plus haute fréquence
Pas influencée par valeurs extrêmes
Utilisé surtout pour qualitatives
On peut n’avoir aucun mode
On peut avoir plusieurs modes
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Mode = 9
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
0Pas
1 2de3Mode
4 5 6
Année 2009 -2010
16
QUARTILES
• Découpage échantillon en 4 parties
25%
25%
Q1 
25%
Q2 
Mediane
Position du ième Quartile
Données ordonnées :
Q3 
i  n  1
 Qi  
4
11 12 13 16 16 17 18 21 22
1 9  1
Position of Q1 
 2.5
4
B. Palagos
25%
Q1
12  13


 12.5
M2 Sciences des Procédés - Sciences des Aliments
2
Année 2009 -2010
17
BOX-PLOT
Box-plot (boîte à moustache , boîte de dispersion)
• Graphique représentant la dispersion des données
• Utilisation des quartiles
• Détection de données atypiques
X min
11
B. Palagos
Q1
12.5
Q2
16
Q3
19.5
Xmax
22
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
18
BOX-PLOT - Outliers
Q1-1.5(Q3-Q1)
B. Palagos
Q3+1.5(Q3-Q1).
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
19
BOX-PLOT
Détection de données atypiques
frigos
Box plot n=10
moyenne en rouge
médiane en bleu
TB
1
2
3
4
5
6
7
8
9
10
moyenne
médiane
11
moyenne
médiane
B. Palagos
10.68
5.66
4.03
1.55
0.74
0.79
2.77
4.10
3.84
10.54
4.47
3.94
35.00
7.25
4.03
25
20
15
10
Box plot n=11
moyenne en rouge
médiane en bleu
5
0
-5
-10
40
35
30
25
20
15
10
5
0
-5
-10
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
20
BOX-PLOT
Comparaison de séries de données
Comparaison de trois séries
Box plots
16
max
14
Descripteurs
Nbr d'observations
Min
Max
Etendue
Moyenne
TB
10.00
0.74
10.68
9.94
4.47
TM
10.00
2.15
10.70
8.55
5.02
TH
10.00
2.80
9.38
6.58
6.31
12.32
12
10.4
10
8
6
4
2
1er quartile
Médiane
3ieme quartile
Interquartile
1.86
3.94
5.27
3.42
2.91
4.78
6.68
3.76
4.38
6.81
8.16
3.78
0
TB
TM
TH
-2
-4
-6
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
21
MESURES DE VARIATION
Variation
Variance
Ecart-type
Etendue Range  X Largest  X Smallest
Intervalle Interquartile
B. Palagos
Coefficient de
variation
Données ordonnées : 11 12 13 16 16 17
IQ = Q3 – Q1 =17.5 – 12.5 =5
M2 Sciences des Procédés - Sciences des Aliments
17 18 21
Année 2009 -2010
22
VARIANCE & ECART-TYPE
• Mesures importantes de la variation
• Variation autour de la moyenne
• Variance de X1 ……… Xn de moyenne X
2
1 N
2
   X i  X 
N 1
• Ecart-type c’est la racine carrée de la variance

1
N
 X
2
N
i
X
1
• Ecart-type même unité que les données
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
23
ECART-TYPE
Importance de l’écart-type
Echantillon A
11 12 13 14 15 16 17 18 19 20 21
Moy = 15.5
s = 3.338
Echantillon B
11 12 13 14 15 16 17 18 19 20 21
Moy = 15.5
s = 0.9258
Echantillon C
11 12 13 14 15 16 17 18 19 20 21
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Moy = 15.5
s = 4.57
Année 2009 -2010
24
COEFFICENT DE VARIATION
 
CV    *100%
X
• Mesure la variation relative par rapport à la moyenne
• Toujours en (%)
• Utilisée pour comparer 2 ou plusieurs ensembles de données
mesurés dans différentes unités
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
25
UTILISATION DES STATISTIQUES
Inférence statistique
-Estimation des paramètres d’une population à
partir d’échantillon
- Test d’hypothèse sur des valeurs des
paramètres de la population
- Comparaison de populations
Généralisation
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
26
POPULATION - ECHANTILLON
Un fabricant souhaite vérifier la qualité des ampoules électriques
produites par une nouvelle chaîne de production.
Il faut donc évaluer la durée moyenne de fonctionnement des
ampoules.
Comment évaluer cette durée moyenne?
On ne peut pas tester toutes les ampoules!
Echantillon d’ ampoules
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
27
POPULATION - ECHANTILLON
Population
Echantillon
Paramètres statistiques
Utilisation des paramètres pour
caractériser la population
Inférence à partir de l’échantillon
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
28
POPULATION- ECHANTILLON
Échantillon de 130 ampoules
Durée de fonctionnement mesurée
pour chaque ampoule
La moyenne de l’échantillon vaut
360000 heures qui est l’estimation
pour la population
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
29
PROBABILITE
EXPERIENCE ALEATOIRE : ON NE PEUT PREVOIR PAR AVANCE SON
RESULTAT ET REPETEE DANS DES CONDITIONS IDENTIQUES ELLE PEUT
DONNER LIEU A DES RESULTATS DIFFERENTS
EX : LANCE de 2 DES
 = { (1,1),(1,2),......} ensemble des résultats possibles
EVENEMENT : RELATIF AU RESULTAT D'UNE EXPERIENCE
EX: SOMME DES POINTS  10
RESULTAT EST UNE PARTIE DE : { (4,6),(5,6),(6,6),(6,5),(6,4)}
PROBABILITE ASSOCIEE A UN EVENEMENT P: 
EX : LANCEMENT 1 DE P() = 1/ 6
LANCEMENT 2 DES P() = 1/ 36
B. Palagos
[0,1]
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
30
VARIABLE ALEATOIRE
Formalise la notion de grandeur variant selon le résultat d’une expérience
aléatoire
EX: 2 DES X= SOMME DES POINTS MARQUES
P(X=5) = P[ (1,4), (2,3), (3,2), (4,1) ] = 4/36
On associe LOI DE PROBABILITE PX
EX: SOMME DES VALEURS DE 2 DES
6
SOMME DES 2 DES
5
4
LOI DE PROBABILITE
REPRESENTEE PAR DENSITE
DE PROBABILITE
3
2
1
0
2
3
4
5
6
7
8
9
10
11
12
PX en 1/36
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
31
VARIABLE ALEATOIRE DISCRETE ET CONTINUE
6
SOMME DES 2 DES
Loi discrète: valeurs dans ensemble fini
5
4
3
2
1
0
2
3
4
5
6
7
températures
8
9
10
11
12
Loi continue: valeurs pas discrètes (réelles)
S = P( a < X < b )
S = P(X < b) – P(X < a)
P( X > b) = 1 – P( X < b)
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
32
QUELQUES LOIS DE PROBABILITES
DISCRETES
LOI DE BERNOUILLI : un événement se produit avec probabilité p
LOI BINOMIALE : nombre de succès sur n épreuves de Bernoulli
LOI DE POISSON : nombre d’occurrence d’un événement dans le temps
CONTINUES:
LOI EXPONENTIELLE: durée de vie d’un appareil ne subissant pas d’usure
LOI NORMALE (GAUSS): beaucoup de phénomènes naturels et industriels
LOI DU KHI2: variance d’un échantillon
LOI DE STUDENT: remplace la loi normale quand l’écart-type est inconnu
LOI DE FISHER: rapport de 2 variances
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
33
LOI DES GRANDS NOMBRES
n grand
empirique
B. Palagos
théorique
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
34
LOI NORMALE ou GAUSS
X loi N(m, )
m moyenne
 écart-type
• Symétrique
• Moyenne, médiane, mode
sont égaux
• Etendue infinie
f(X)
X
m
Moyenne
Médiane

B. Palagos
Mode
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
35
LOI NORMALE ou GAUSS
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
36
LOI NORMALE ou GAUSS
Quelques valeurs
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
37
P[ Z<0.12]
Table statistique
Fonction de répartition
de la loi normale centrée
réduite
Probabilité de trouver une
valeur < u
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
38
LOI NORMALE ou GAUSS
Loi Gauss N(μ, σ)
X variable aléatoire a pour loi une N(μ, )
μ moyenne , σ écart-type de X
Loi de Gauss centrée réduite N(0,1) : μ = 0 σ = 1
Z
X 

Z a pour loi une N(0, 1)
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
39
LOI NORMALE CENTREE REDUITE
X loi N ( 5, 10)
Z
X 

P[ X< 6.2] ?
6.2  5

 0.12
10
Distribution Normale
centrée réduite
Distribution Normale
  10
 5
B. Palagos
P[ X< 6.2] = P[ Z<0.12]
Z 1
6.2
X
Z  0
M2 Sciences des Procédés - Sciences des Aliments
0.12
Année 2009 -2010
Z
40
LOI NORMALE - FONCTION DE REPARTITION
X loi N(0,1) Loi Normale centrée réduite
On cherche P [ X < u ]
Il existe des tables statistiques pour N(0,1)
u
.00
.01
.02
.5478
0.0 .5000 .5040 .5080
0.1 .5398 .5438 .5478
0.2 .5793 .5832 .5871
Probabilités
0.3 .6179 .6217 .6255
B. Palagos
0
u = 0.12
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
41
EXEMPLE
X loi N(5,10) on cherche P2.9  X  7.1
Z
X 


2.9  5
 .21
10
Z
X 


7.1  5
 .21
10
Distribution Normale
centrée réduite
Distribution Normale
  10
Z 1
.0832
.0832
2.9
B. Palagos
 5
7.1
X
0.21
P  2.9  X  7.1  .1664
Z  0
M2 Sciences des Procédés - Sciences des Aliments
0.21
Année 2009 -2010
Z
42
EXEMPLE
Densité loi
normale
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
43
ESTIMATION DES PARAMETRES
• Estimateur = Variable aléatoire fonction des variables
observées sur un échantillon. On espère que la valeur est
proche du paramètre que l’on veut estimer
• Un estimateur a une loi de probabilité
• Estimation est la valeur prise par un estimateur pour un
échantillon particulier
• Estimation d’un paramètre à partir d’un échantillon unique
ne conduit généralement pas à la vraie valeur du paramètre.
Variation d’un échantillon à l’autre
• Estimation par intervalle ( de confiance)
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
44
LOI DE LA MOYENNE
X loi de Normale de moyenne  et d’écart-type σ alors
X Loi Normale de moyenne  X  
et d’écart-type
B. Palagos
X 

n
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
45
THEOREME CENTRALE LIMITE
La loi de la population est de
moyenne m et d’écart-type .
Lorsque la taille de
l’échantillon n est assez
grande, la loi de X peut être
approchée par une loi
Normale de moyenne m et
d’écart-type  / n
Taille de
l’échantillon
grande
Distribution
échantillon
à la forme
d’un forme
Normale
Conséquence: si n est grand , la moyenne de variables de
même loi, aura une distribution Normale
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
46
ESTIMATION PAR INTERVALLE DE CONFIANCE
Population
Moyenne μ est
inconnue
Echantillon aléatoire
Moyenne
X = 50
μ est comprise
entre 40 et 60.
avec une
confiance de 95%
Echantillon
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
47
INTERVALLE DE CONFIANCE
Échantillon (x1 , x2 , ……, xn) de taille n
n
Estimateur de m :
x
x
i 1
i
n
n
Estimateur de ²:
s2 
2
(
x

x
)
 i
i 1
n 1
Un intervalle de confiance de niveau 1 -  pour un paramètre
inconnu  d'une population est une estimation par intervalle ou
fourchette de ce paramètre. Les bornes de cet intervalle se calculent
à partir de l’ échantillon. On détermine un intervalle probabiliste de
niveau 1 -  pour l’estimateur de 
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
48
ESTIMATION PAR INTERVALLE DE CONFIANCE
Intervalle de
confiance
Moyenne
Proportion


connu
inconnu
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
49
INTERVALLE DE CONFIANCE POUR LA MOYENNE m

connu
On suppose
• Ecart-type population connu
N (m,  )
• Population distribution Normale
• Si la population pas Normale il faut un échantillon assez
grand (n>30)


X m
 Loi de X
P  u / 2 
 u / 2   1  
N (m, / n )
/ n


 Intervalle de confiance pour la moyenne m (inconnue) au
niveau 1-:
X  u / 2 / n  m  X  u / 2 / n
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
50
INTERVALLE DE CONFIANCE POUR LA MOYENNE m
X  u / 2 / n  m  X  u / 2 / n
Termes qui interviennent
• Variation des données
• Taille échantillon
• Niveau de confiance

X 

n
n
100 1   %
 u / 2
0.95
1.96
Loi de Normale
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
51
INTERVALLE DE CONFIANCE POUR LA MOYENNE

inconnu
• Hypothèses
– Ecart-type population inconnu estimé par S
– La population a une distribution normale de moyenne m
Sinon il faut grande taille échantillon
• On utilise la loi de student
X m
n  1 loi de Student t à n  1ddl
S
• Intervalle de confiance au niveau 1-
X  tn1 ( / 2) S / n  m  X  tn1 ( / 2) S / n
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
52
LOI DE STUDENT
La loi de Student t à ν degrés de libertés ( notation tν )
est une loi continue dont la densité est de la forme
Normale
t 12
t5
0
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Z
t
Année 2009 -2010
53
Table de Student
Table de distribution de t (Loi de Student) :
Valeurs de t ayant la probabilité P d'être
dépassées en valeur absolue
P[2.262  t9  2.262]  0.05
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
54
LOI DE STUDENT
ex: n = 3
ddl= n - 1 = 2
P[T > t]
ddl .25
.10
.05
1 1.000 3.078 6.314
= .05
2 0.817 1.886 2.920
3 0.765 1.638 2.353
t Values
B. Palagos
0 2.920
M2 Sciences des Procédés - Sciences des Aliments
t
Année 2009 -2010
55
INTERVALLE DE CONFIANCE POUR LA MOYENNE
EXEMPLE
On suppose TH échantillon gaussien
frigos
TB
1
2
3
4
5
6
7
8
9
10
moyenne
TM
10.68
5.66
4.03
1.55
0.74
0.79
2.77
4.10
3.84
10.54
4.47
Moyenne de TH : 6.31
TH
7.17
7.39
4.93
2.89
2.15
2.22
2.98
4.62
5.19
10.70
5.02
8.19
8.08
5.07
8.98
2.80
2.87
4.15
6.25
7.37
9.38
6.31
Ecart-type estimé : 2.47
Intervalle de confiance à 95% pour
moyenne population
n=10 table : t à 9 ddl
t=2.26
[ 4.55 ; 8. 07]
s
s
x t
;x t
n
n
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
56
INTERVALLE DE CONFIANCE POUR LA MOYENNE
EXEMPLE 2
The absorbance scale of a spectrometer is tested at particular wavelength with a standard solution
wich has an absorbance given as 0.470. Ten mesurements of the absorbance with the spectromètre
give mean = 0.461 s = 0.003. Is systematic error present?
The 95% confidence limits for the absorbance as measured by the spectrometer:
Since the confidence interval does not include the known absorbance of 0.470 it is likely that a
systematic error has occured.
x  tn 1
B. Palagos
s
0.003
 0.461 2.26*
 0.461 0.002
n
10
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
57
TEST D’HYPOTHESE
On veut tester une hypothèse pour prendre une décision
On affirme que
l’âge moyen de la
population est 50 ans
( H :   50)
0
Population
Cela est peu
vraissemblable !
REJET
Hypothèse
B. Palagos
échantillon
 X  20 
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
58
TEST STATISTIQUE
Introduction par un exemple
Un industriel, par un procédé de fabrication courant, a produit des millions de tubes
cathodiques dont la durée de vie moyenne est m = 1200 heures et l’écart-type σ = 300
heures.
Un nouveau procédé, estimé meilleur par un bureau d’étude, fournit un échantillon de
100 tubes, avec une moyenne de x  1265
A priori c’est meilleur mais c’est peut-être un coup de chance!
On pose l’hypothèse nulle : le nouveau procédé produirait une population identique à
l’ancienne: H0 : m = 1200 h (pas meilleur)
L’ hypothèse alternative: le nouveau procédé est meilleur: H1 : m > 1200 h (meilleur)
Dans quelle mesure la moyenne d’échantillon x  1265 est-elle compatible avec
l’hypothèse nulle m=1200. Si H0 est vraie quelle est la probabilité pour que X  1265
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
59
p-Value ou probabilité critique
Probabilité d’être supérieur à la statistique calculée (ou valeur absolue)
que l’on compare au risque  choisi
Théorème central limite

 300  
X  N 1200 , 
 
 100  

Risque de 5%
  0.05
Rejet
p Value = 0.015
1200
Si p Value  ( = 0.05).
Pas de rejet H0
B. Palagos
1249
1265
Si p Value  ( = 0.05).
Rejet H0
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
60
NIVEAU DE SIGNIFICATION ET REGION CRITIQUE
H0:   3
H1:  < 3
H0:   3
H1:  > 3

unilatéral
Région
de rejet
0

unilatéral
0
H0:   3
H1:   3
valeur
critique
/2
bilatéral
0
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
61
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
62
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
63
COMPARAISON D’UNE MOYENNE A UNE VALEUR DONNEE
Hypothèses: - population normalement distribuée de moyenne m et  inconnu
si ce n’est pas le cas taille échantillon grande (TCL)
On teste H0: m = m0
x
Échantillon de taille n (x1, …, xn)
Statistique calculée :
tobs 
s
x  m0
s/ n
Si H0: m = m0 est vraie statistique : Tn-1
Student n-1 ddl
Rejet de H0 si
Rejet de H0 si
B. Palagos
tobs  t / 2
tobs  t
pour un test bilatéral H1 : m  m0
pour un test unilatéral H1 : m > m0
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
64
COMPARAISON D’UNE MOYENNE A UNE VALEUR DONNEE
Exemple : On prélève entre deux marées 25 crabes sachant que la température de
l'air est de 24,3°C. On mesure la température de leur corps. La question est de
savoir si la température du corps est identique à celle de l'air. Les données
observées sont les suivantes (d’après Michel Le-Her ):
25,8
24,6
26,1
22,9
25,1
27,3
24,0
24,5
23,9
26,2
24,3
24,6
23,3
25,5
28,1
24,8
26,3
25,4
25,5
23,9
27,0
24,8
22,9
25,4
Nous voulons tester les hypothèses :
•hypothèse nulle H0 : µ = 24,3 °C
•hypothèse alternative H1 : µ  24,3 °C
23,5
x  25.3 s 2  1.8
25.03  24.3
tobs 
 2.704
1.8
25
Risque =0.05 table de Student T24 : 2.064
2.704 > 2.064 : rejet de H0 . Au seuil de signification de 5%,
l'échantillon ne provient pas d'une population de moyenne µ = 24,3 °C.
donc …….
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
65
COMPARAISON D’UNE MOYENNE A UNE VALEUR DONNEE
Exemple :in a new method for determining selenourea in water, the following
values were obtained for tap water samples spiked with 50 ng ml-1 of selenourea.
Is there any evidence of systematic error?
H0 : µ = 50
H1 : µ  50
50.4 50.7 49.1 49.0 51.1
x  50.06 s  0.956
tobs
(50.06  50) * 5

 0.14
0.956
=0.05 critical value T4 : 2.78
|t | = 0.14 < 2.78 : the observed values
is less than the critical value the null
hypothesis is retained: there is no
evidence of systematic error
Avec un logiciel libre
(http://www.r-project.org/)
> t.test(x , mu=50) One Sample t-test
t = 0.1404, df = 4, p-value = 0.8951
95 percent confidence interval:
48.87358 51.24642
mean of x 50.06
B. Palagos
c’est à dire: P( |t | > 0.14) = 0.8951
> 0.05
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
66
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
67
Comparaison de 2 échantillons
Comparaison de l'efficacité de deux fertilisants sur la croissance des plantes.
On mesure la hauteur de deux lots de plantes, dans les mêmes conditions, chacun avec un
fertilisant différent. Différence significative entre les deux fertilisants?
Comparaison of two methods for determination of chronium in rye grass. Five determinations
were made for each method.
Methode 1: mean 1.48
sd = 0.28
Methode 2: mean 2.33 sd = 0.31
Do theses methods give results having means
Le titanium contenu dans l’acier est déterminé par spectrométrie
dans 2 laboratoires On veut tester si les résultats des 2 laboratoires sont
significativement différents
Détermination de la concentration en paracetamol sur les mêmes comprimés en utilisant 2
méthodes: UV spectrométrique et NIR réflectance
On veut tester si les 2 méthodes sont significativement différentes
échantillons indépendants
B. Palagos
échantillons appariés
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
68
COMPARAISON DE MOYENNES – ECHANTILLONS INDEPENDANTS
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
69
COMPARAISON DE MOYENNES – ECHANTILLONS INDEPENDANTS
Ex: Le titanium contenu dans l’acier est déterminé dans 2 laboratoires par spectrométrie.On
veut tester si les résultats des 2 laboratoires sont significativement différents (à 5%)
2 échantillons indépendants de loi N ( m1 ; 1) et N ( m2 ; 2)
On suppose les variances inconnues et égales (vérifier l’égalité)
Variances estimées : S²1 et S²2
Estimateur de la variance commune
On teste l'hypothèse d'égalité des moyennes : H0 : m1 = m2 contre H1 m1  m2
Sous H0
suit une loi de Student à n1 + n2 - 2 degrés de liberté.
Rejet de H0 si
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
70
COMPARAISON DE 2 VARIANCES
On teste H0 : ²1 = ²2 contre H1 ²1  ²2 (test bilatéral)
Si la condition de normalité n'est pas vérifiée, le test n'est pas valable
s²1 plus grande des 2 variances
H0 est rejetée si s²1/s²2 est supérieur à la valeur critique, lue dans la table :
F ( n1 , n2 )
TEST DE FISHER
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
71
COMPARAISON DE MOYENNES – ECHANTILLONS INDEPENDANTS
Le titanium contenu dans l’acier est déterminé dans 2 laboratoires par spectrométrie.On veut tester si les
résultats des 2 laboratoires différent.(à 5%)
Il est nécessaire avant de tester l’égalité des variances.
Valeurs lab1 0.470 0.448 0.463 0.449 0.482 0.454 0.477 0.409
Valeurs lab2 0.529 0.490 0.489 0.521 0.486 0.502
I On teste H0 : ²1 = ²2 contre H1 ²1  ²2
II On teste H0 : m1 = m2 contre H1 m1  m2
(n1  1) S12  (n2  1) S 22
variancecommune S 
n1  n2  2
2
Fobs
S12 0.02292
 2
 1.58
2
S 2 0.0182
F 1  0.05 / 2 ; 7,5  6.85
S  0.0211
x1  x2
0.467  0.503 48
n1n2

 4.07
n1  n2
0.0211
14
Fobs  6.85
tobs 
on accept evariances
t 1  0.05 / 2 ;12  2.18
s
tobs  2.18
Il y a une différence entre les 2 laboratoires
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
72
COMPARAISON DE MOYENNES – ECHANTILLONS APPARIES
Ex: Détermination de la concentration en paracetamol sur les mêmes comprimés en utilisant 2
méthodes: UV spectrométrique et NIR réflectance. On veut tester si les 2 méthodes sont
significativement différentes
Comparaison de deux traitements sur mêmes individus, comparaison températures réfrigérateurs haut bas
H0 : µ1 - µ2 = 0 (il n'y a pas de différence entre les traitements)
H1 : µ1 - µ2  0 (il y a une différence entre les traitements)
2 échantillons appariés .On calcule les différences, d, entre les deux échantillons . Puis une statistique tobs.
tobs 
d
sd2
n
n : nombrede pairesd' observations
Décision : Rejet de H0 au seuil de
signification  si : |tobs| > tn-1,1-  /2
d : moyennedes différences
sd2 : variancedes différences
Conditions d'application :
• les échantillons ont été tirés aléatoirement
• la population des différences doit suivre une loi Normale. Cette condition est moins
restrictive que celle de normalité des deux populations.
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
73
COMPARAISON DE MOYENNES – ECHANTILLONS APPARIES
Ex: Détermination de la concentration en paracetamol sur les mêmes comprimés en utilisant 2
méthodes: UV spectrométrique et NIR réflectance. On veut tester si les 2 méthodes sont
significativement différentes
couple
traitement 1 traitement 2 différence d
1
2
3
4
5
6
7
8
9
10
moyenne
s²
s
B. Palagos
110
99
91
107
82
96
100
87
75
108
118
104
85
108
81
93
102
101
84
111
8
5
-6
1
-1
-3
2
14
9
3
95.5
136.3
11.7
98.7
156.0
12.5
3.2
36.0
6.0
tobs 
tobs
d
sd2
n
3 .2

 1.69
36
10
Si l'on choisit un seuil de signification  =
0.05, la valeur de t0.975 (9 ddl) est 2.262.
Par conséquent, l'hypothèse nulle H0 : µ1 - µ2
= 0 ne doit pas être rejetée puisque
|tobs| < t0.975 .
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
74
COMPARAISON DE MOYENNES – ECHANTILLONS APPARIES
Traitement de l’exemple avec le logiciel libre
couple
traitement 1 traitement 2 différence d
1
2
3
4
5
6
7
8
9
10
moyenne
s²
s
B. Palagos
110
99
91
107
82
96
100
87
75
108
118
104
85
108
81
93
102
101
84
111
8
5
-6
1
-1
-3
2
14
9
3
95.5
136.3
11.7
98.7
156.0
12.5
3.2
36.0
6.0
t.test(trait1,trait2,paired=T)
Paired t-test
data: trait1 and trait2
t = -1.6876, df = 9, p-value = 0.1258
alternative hypothesis: true difference in
means is not equal to 0
95 percent confidence interval:
-7.489491 1.089491
sample estimates:
mean of the differences -3.2
Si l'on choisit un seuil de signification  =
0.05, la p-value étant de 0.1258 on ne rejette
pas l’hypothèse nulle.
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
75
Test du Khi2
Tableau de contingence
treatments x troubles
Anxiety (A)
Epilepsy (E)
Sleep (S)
Sum
Clonazepan (C)
Diazepan (D)
0
5
5
4
3
2
8
11
Lorazepam (L)
Teriazolam (T)
Sum
4
1
10
0
0
9
2
4
11
6
5
30
Il y a-t-il indépendance entre lignes et colonnes ?
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
76
Test du Khi2
Tableau de contingence
treatments x troubles
Anxiety (A)
Epilepsy (E)
Sleep (S)
Sum
Clonazepan (C)
Diazepan (D)
0
5
5
4
3
2
8
11
Lorazepam (L)
Teriazolam (T)
Sum
4
1
10
0
0
9
2
4
11
6
5
30
Sleep (S)
Sum
2.67 = 10*8/30
treatments x troubles
Anxiety (A)
Epilepsy (E)
Clonazepan (C)
Diazepan (D)
2.67
3.67
2.40
3.30
2.93
4.03
8
11
Lorazepam (L)
Teriazolam (T)
Sum
2.00
1.67
10
1.80
1.50
9
2.20
1.83
11
6
5
30
Répartition aléatoire
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
77
Test du Khi2
treatments x troubles
Anxiety (A)
Epilepsy (E)
Clonazepan (C)
Diazepan (D)
0
5
5
4
Lorazepam (L)
Teriazolam (T)
Sum x j
4
1
10
0
0
9
Sleep (S)
Sum
3
2
8
11
2
4
11
6
5
30
xij
xi 
x 
n lignes et p colonnes
H0 : indépendance entre lignes et colonnes
xi  x j

x 
p  ij
n
x 
 2   
xi  x j
1
1



2
Comparaison avec Loi du Khi2 à (n-1) (p-1) dl
x 
Ici ² observé : 15.3
² théorique à 6 ddl : 12.6 (5%)
Rejet de H0
Pb de validité car cases < 5
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
78
p-Value
Probabilité d’être supérieur à la statistique calculée (ou valeur absolue)
que l’on compare au risque  choisi
Si p Value  ( /2= 0.025).
Rejet H0
Si p Value  (/2 = 0.025).
Pas de rejet H0
p Value
= Rejet
0.12
/2 = 0.025
t9
0
1.68
B. Palagos
2.262
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
79
COMPLEMENTS
On dispose de 10 palettes de briques de la même fabrication et on a obtenu les résultats suivants (en
kg) : 759 750 755 756 761 765 770 752 760 767
On admet que ces résultats sont issus d’une population distribuée selon une loi normale de moyenne m
et de variance sigma inconnue
Calculer un intervalle de confiance à 95% pour m, puis à 80%
Que constatez-vous ?
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
80
COMPLEMENTS
On dispose de 10 palettes de briques de la même fabrication et on a obtenu les résultats suivants (en
kg) : 759 750 755 756 761 765 770 752 760 767
On admet que ces résultats sont issus d’une population distribuée selon une loi normale de moyenne m
et de variance sigma inconnue
Calculer un intervalle de confiance à 95% pour m, puis à 80%
Que constatez-vous ?
s 

IC1 (m)   x  t 1  0.05 / 2 ; n  1

n


t 1  0.05 / 2 ; 9   2.262
x  759.5
s 2  42.06 s  6.485
Intervallede confiancepour m à 95%
[754.86; 764.14]
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
81
COMPLEMENTS
La concentration en phénol pour les eaux usées a été déterminée par 3 mesures qui donnent une
moyenne = 0.513g/L et un écart-type s= 0.05 g/L . La référence est m = 0.520 g/L. On teste si
différence avec référence. (à 5%). On suppose la normalité de la variable concentration phénol.
Mesure de la concentration de nitrate dans l’eau consommable afin de comparer avec norme européenne
50 mg/L . On réalise 4 répétitions et on obtient une moyenne de 51.2 et un écart-type s= 0.316. On teste si
on est dans la norme (à 5%). On suppose la normalité de la variable concentration nitrate.
Le titanium contenu dans l’acier est déterminé dans 2 laboratoires par spectrométrie.On veut tester si les
résultats des 2 laboratoire différent.(à 5%). On suppose la normalité de la variable titanium.
Il est nécessaire avant de tester l’égalité des variances.
Valeurs lab1 0.470 0.448 0.463 0.449 0.482 0.454 0.477 0.409
Valeurs lab2 0.529 0.490 0.489 0.521 0.486 0.502
NB : étant donné le faible nombre de mesures, si la condition de
Normalité n’est pas vérifiée il existe des tests non paramétriques
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
82
COMPLEMENTS
La concentration en phénol pour les eaux usées a été déterminée par 3 mesures qui donnent une
moyenne = 0.513g/L et un écart-type s= 0.05 g/L . La référence est 0.520 g/L. On teste si différence
avec référence. (à 5%). On suppose la normalité de la variable concentration phénol.
H0 : x  m
H1 : x  m
tobs 
x m
n
0.513 0.520
s
0.05
t 1  0.05 / 2 ; 2   4.3
tobs  2.18
3  0.242
On ne rejette pas l’hypothèse nulle. La différence entre la moyenne de
l’échantillon et la vraie valeur n’est pas significative.
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
83
COMPLEMENTS
Mesure de la concentration de nitrate dans l’eau potable afin de comparer avec norme européenne m= 50
mg/L . On réalise 4 répétitions et on obtient une moyenne de 51.2 et un écart-type s= 0.316. On teste si on
est dans la norme (à 5%). On suppose la normalité de la variable concentration nitrate.
H0 : x  m
H1 : x  m
tobs 
x m
n
51.2  50
s
0.316
t 1  0.05 ; 3  2.353
tobs  2.353
4  7.59
On rejette l’hypothèse nulle. La moyenne de l’échantillon est plus grande
que que la valeur limite
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
84
TESTS SUR LES OUTLIERS
•
Test de Dixon (Q-test)
– H0: les mesures proviennent de la même population
– Q= abs(valeur suspecte-valeur plus proche/IQ)
– Il existe table
– Application pour taille échantillon de 3 à 7
– Exemple:
0.403 0.410 0.401 0.380
Q= abs ( 0.380 – 0.401) / (0.403 – 0.380) = 0.91
n = 4 critical value : 0.831 -> valeur rejetée au seuil de signification de 5%
•
Test de Grubbs (plus récent)
– H0: les mesures proviennent de la même population normale
– G=abs(valeur suspecte – moyenne)/s
– Application pour taille échantillon de 3 à 10
– Exemple:
0.403 0.410 0.401 0.380
– G = 1.43
n = 4 valeur critique : 1.48 -> valeur acceptée au seuil de signification de 5%
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
85
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
86
B. Palagos
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
87
REFERENCES
Probabilités Analyse des données et Statistique, G. Saporta – TECHNIP
Statistique inférentielle, JJ Daudin et al – PUR
Statistics and Chemometrics for Analytical Chemistry, Miller & Miller
– PRENTICE HALL
Logiciel
B. Palagos
: http://www.r-project.org/
M2 Sciences des Procédés - Sciences des Aliments
Année 2009 -2010
88