Statistiques Plan Introduction Chapitre 1 : Tableaux et méthodes graphiques Chapitre 2 : Méthodes numériques permettant de résumer une série Chapitre 3 : Indice et.

Download Report

Transcript Statistiques Plan Introduction Chapitre 1 : Tableaux et méthodes graphiques Chapitre 2 : Méthodes numériques permettant de résumer une série Chapitre 3 : Indice et.

Statistiques
1
Plan
Introduction
Chapitre 1 : Tableaux et méthodes graphiques
Chapitre 2 : Méthodes numériques permettant
de résumer une série
Chapitre 3 : Indice et taux de croissance
Chapitre 4 : Corrélation et tests de liaison
Chapitre 5 : Régression
2
bibliographie
B. PY (2007), La statistique sans formule mathématique,
Pearson Education, 2007
D. ANDERSON, D. SWEENEY et T. WILLIAMS,
Statistiques pour l’économie et la gestion, De Boeck,
2001
E. BRESSOUD et J.C. KAHANE, Statistique descriptive
avec Excel et la calculatrice, Pearson Education, 2008
3
Introduction
Qu’est ce que la statistique ?
4
Exemples de statistiques
L’indice des prix à la consommation a augmenté de 3% sur un an
(Source INSEE)
Le salaire net annuel moyen en France, en 2005, était de 24 446€ pour
les hommes et de 19 818€ pour les femmes (Source INSEE)
Au 1er janvier 2007, les personnes de 20 à 64 ans représentent 58,8%
de la population française (Source INSEE)
Le taux d’occupation des TGV est de 75% en moyenne en 2007
(source SNCF)
5
Définition
La statistique c’est l’art et la science de
collecter, d’analyser, de présenter et
d’interpréter des données
 La statistique permet de résumer et
d’interpréter une réalité complexe
Aide à la prise de décision
6
Définition
Décrit et synthétise la réalité
 Outil de communication
 permet de faire passer un message
Comment ?



Sous forme de tableaux
Sous forme de graphiques
Sous forme numérique : moyennes, indices, taux de
croissance…
7
Difficultés

Doit être facile à concevoir et à calculer

Ne permet pas de décrire tous les profils (moyenne)

Les indicateurs doivent être neutres et facilement
interprétables

L’interprétations des indicateurs est indispensable
8
Domaines d’utilisation

Comptabilité vérification des comptes par sondages

Finance : comparer plusieurs informations permet la
prise de décisions

Marketing : connaissance des comportements moyen
des consommateurs

Production : contrôle de la qualité

Economie : visualiser l’état de l’économie
9
Sources de données
Collecte des données pour une étude statistique est souvent difficile
A partir de bases de données existantes :
 Fichiers internes aux entreprises : volumes des ventes, nombre de
clients, effectifs..
 Fichiers externe : les différents ministères ou entreprises privées qui
collectent des données (INSEE, EUROSTAT …)
Par construction de la base de donnée
 Sondages
 Exhaustifs (recensement)
 Par échantillon
10
Statistique descriptive
Ensemble des méthodes qui permettent de décrire les
unités statistiques qui composent une population
Représentation par des tableaux, des graphiques ou des
données numériques
 Décrit une situation et permet d’en tirer des
enseignements
11
Inférence statistique
Population souvent trop importante
 Pour réduire le coût de collecte, on utilise un échantillon
de la population observée
A partir de l’étude de cet échantillon, possibilité d’estimer
les comportements ou caractéristiques pour toute la
population (contrôle de la qualité)
12
Vocabulaire
Population : ensemble des éléments considérés dans une
étude particulière
Echantillon : sous-ensemble de la population
Unité statistique = élément de la population (individus,
animaux, pays…)
La population ou échantillon est décrite selon différents critères
(données quantitatives) ou caractères (données qualitatives).
Chaque caractère peut présenter différentes modalités
(hommes-femmes pour le sexe, chômeur ou salarié pour le
statut…)
Découpage de la population en sous-populations selon
différentes caractéristiques (âge, sexe, monnaie,
superficie…)
13
Exemple 1
Données macroéconomiques pour les pays de l'UE à 27 et certains de leurs partenaires commerciaux
Allemagne (1)
Autriche
Belgique
Bulgarie
Chypre
Danemark
Espagne
Estonie
Finlande
France
Grèce
Hongrie
Irlande
Italie
Lettonie
Lituanie
Luxembourg
Malte
Pays-Bas
Pologne
Portugal
République tchèque
Roumanie
Royaume-Uni
Slovaquie
Slovénie
Suède
Union européenne à 27
Suisse
Etats-Unis
Japon
Total de l'échantillon
(1) : incluant l'ex-RDA à partir de 1991.
Source : EUROSTAT et INSEE
Emissions de gaz à effet
de serre en 2003 (en
millions de teq CO2)
1 030,1
93,3
146,3
71,2
9,3
73,8
410,1
19,7
84,8
551,9
133,5
80,6
68,6
574,1
10,8
21,0
11,7
3,1
216,3
384,6
83,0
145,5
156,9
658,9
50,2
19,8
70,7
5 179,8
PIB en 2003
(Milliards
d'euros)
2163,8
223,3023
274,726
17,7668
11,785
188,5003
782,929
8,6926
145,938
1594,814
171,4098
74,5796
139,4419
1335,3537
9,9778
16,4971
25,8343
4,4214
476,945
191,6438
138,5821
80,9241
52,613
1647,0556
29,4856
25,7359
275,657
10 108,4
Superficie
(km2)
Population
(en millions)
357021
83858
30528
110910
9250
43094
504762
45225
337030
643427
131940
93030
70263
301320
64569
35200
2585
315
41526
82931
312665
78809
238391
244820
48845
20253
449964
4 382 531,0
82,3
8,3
10,6
7,7
1,0
5,5
45,3
1,3
5,3
63,6
11,2
10,1
4,4
59,3
2,3
3,4
0,5
0,4
16,4
38,1
10,7
10,3
21,6
61,0
5,4
2,0
9,1
497,1
Population
urbaine
(en %)
75
67
97
71
62
72
77
69
62
77
59
65
60
68
68
67
83
95
65
62
55
74
55
90
56
49
84
-
52,6
6 893,8
1 339,1
13 465,4
287,7538
9689,5332
3743,5596
23 829,3
41290
9826830
377835
14 628 486,0
7,5
302,2
127,7
934,5
68
79
79
-
Monnaie
euro
euro
euro
Lev
euro
Couronne danoise
euro
Couronne estonienne
euro
euro
euro
Florint
euro
euro
Lat
Litas
euro
euro
euro
Zloti
euro
Couronne tchèque
Leu
Livre sterling
Couronne slovaque
euro
Couronne suédoise
Franc suisse
Dollar
Yen
14
Exemple 1
Population = 30 pays ou 30 unités statistiques
Cette population est décrite par 6 critères
15
Exemple 2 : tableau croisé
Étudiants des universités par discipline et par cursus (année 2007-2008)
Droit, sciences politiques
Sciences économiques, gestion (hors AES)
Administration économique et sociale (AES)
Lettres, sciences du langage, arts
Langues
Sciences humaines et sociales
Pluri-lettres-langues-sciences humaines
Sciences fondamentales et applications
Sciences de la nature et de la vie
Sciences et techniques des activités physiques et sportives
Pluri-sciences
Médecine - Odontologie
Pharmacie
Total hors IUT
Instituts universitaires de technologie
Total avec IUT
Cursus
Licence
Effectif
106690
75544
30962
66541
84027
135396
2505
77420
39322
25501
20769
55459
11752
731888
116223
848111
Cursus
Master
Effectif
64064
56395
7067
23525
17060
63463
3167
65371
19547
6135
1387
102508
19560
449249
449249
Cursus
Doctorat
Effectif
8371
4535
0
6932
2746
14759
28
15898
10873
516
145
1028
559
66390
66390
Effectif total
179125
136474
38029
96998
103833
213618
5700
158689
69742
32152
22301
158995
31871
1247527
116223
1363750
Source : INSEE d'après direction de l'Évaluation, de la Prospective et de la Performance (Depp).
16
Exemple 2 : tableau croisé
Population : étudiants français inscrits à l’université en
2007-2008 (1 363 750 individus)
Représenter selon deux caractères :
 Discipline
 Niveau du cursus
Chaque caractère contient plusieurs modalités
17
Données quantitatives vs qualitatives
Données quantitatives : caractère dénombrables, représentées
par des chiffres.
Exemples : superficie, PIB, ventes, CA…
Données qualitatives : noms ou étiquettes
Exemples : Monnaie, discipline, cursus
Remarque : des données numériques peuvent être des données
qualitatives
Exemples : numéro de sécurité sociale, immatriculation, codification
numérique des variables ou échelle de valeur (bon = 3, moyen =
2, mauvais = 0)
Distinction importante car toutes les opérations arithmétiques ne
sont pas possibles avec des variables qualitatives
18
Variables discrètes et variables continues
Variables discrètes : modalités ne peuvent prendre que
certaines valeurs
Variables continues : variable peut prendre n’importe
quelle valeur
Exemples : cursus, nombre d’enfants = variable discrète
Superficie, PIB = variable continue
19
Données en coupe transversale et données
en séries temporelles
Données en coupe transversale : données collectées à peu
près au même moment ou pour une même période
(année, mois, jours…)
Exemples : tableau 1 et tableau 2.
Données en séries temporelles : données collectées sur
plusieurs périodes (années, mois, jours…)
20
Données en coupe transversale et données
en séries temporelles
Données en séries temporelles
France
Emissions de gaz à effet de serre (Teq CO2)
PIB en volume (en milliards d'euros 2000)
Emissions
PIB
2000
555,6
1441,37
2001
557,6
1468,10
2002
548,7
1483,18
2003
551,9
1499,31
2004
552,3
1536,35
2005
555,1
1565,48
2006
541,3
1599,46
Source : EUROSTAT
21
Synthèse à partir de l’exemple 1
Lecture du tableau
 signification des colonnes
 Les total des colonnes a-t-il toujours un sens ?
Quelles informations peut-on extraire de ce tableau ?
Questions simples
Pourquoi choisir seulement ces pays?
Quel pays a la plus grande superficie ou la plus grande
population ?
Combien de pays utilisent l’euro dans la population ?
22
Synthèse à partir de l’exemple 1
Possibilité de réaliser des regroupements.
Au sein de l’UE
 Population totale qui utilise l’euro ?
 Quel est le revenu total de l’UE ?
 Quelles sont les émissions total de l’UE ?
 Quelles sont les contributions de chaque pays à chaque critère ?
 Revenu moyen et émissions moyennes ? Existe-t-il de grandes
disparités ?
Comparaison entre zone euro et hors zone euro
 Quel est le PIB ou les émissions de la zone euro et hors zone euro?
 Même variables en moyennes ?
23
Synthèse à partir de l’exemple 1 : contributions
Contributions de chaque pays de l'UE à 27 (en pourcentage)
Emissions de gaz
PIB en 2003
à effet de serre en
Superficie Population
(Milliards
2003 (en millions
(km2)
(en millions)
d'euros)
de teq CO2)
Allemagne (1)
Autriche
Belgique
Bulgarie
Chypre
Danemark
Espagne
Estonie
Finlande
France
Grèce
Hongrie
Irlande
Italie
Lettonie
Lituanie
Luxembourg
Malte
Pays-Bas
Pologne
Portugal
République tchèque
Roumanie
Royaume-Uni
Slovaquie
Slovénie
Suède
Union européenne à 27
19,89
1,80
2,82
1,38
0,18
1,42
7,92
0,38
1,64
10,65
2,58
1,56
1,33
11,08
0,21
0,41
0,23
0,06
4,18
7,42
1,60
2,81
3,03
12,72
0,97
0,38
1,37
100,00
21,41
2,21
2,72
0,18
0,12
1,86
7,75
0,09
1,44
15,78
1,70
0,74
1,38
13,21
0,10
0,16
0,26
0,04
4,72
1,90
1,37
0,80
0,52
16,29
0,29
0,25
2,73
100,00
8,15
1,91
0,70
2,53
0,21
0,98
11,52
1,03
7,69
14,68
3,01
2,12
1,60
6,88
1,47
0,80
0,06
0,01
0,95
1,89
7,13
1,80
5,44
5,59
1,11
0,46
10,27
100,00
16,56
1,67
2,13
1,55
0,20
1,11
9,11
0,26
1,07
12,79
2,25
2,03
0,89
11,93
0,46
0,68
0,10
0,08
3,30
7,66
2,15
2,07
4,35
12,27
1,09
0,40
1,83
100,00
(1) : incluant l'ex-RDA à partir de 1991.
Source : EUROSTAT et INSEE et calculs
24
Synthèse à partir de l’exemple 1 : moyennes
et dispersions
Statistiques résumées pour l'UE à 27
Moyenne
médiane
valeur maximale
valeur minimale
Emissions de
gaz à effet
PIB en 2003
de serre en
(Milliards
2003 (en
d'euros)
millions de
teq CO2)
Superficie
(km2)
191,85
324,39
83
139,4
(Portugal)
(Irlande)
1030,1
2163,8
(Allemagne) (Allemagne)
3,1
4,4
(Malte)
(Malte)
162315,96
312665
(Pologne)
643527
(France)
315
(Malte)
Population
(en millions)
Densité
moyenne
(en
hab./km2)
Population
urbaine
(en %)
3,05
8,3
(Suède)
82,3
(Allemagne)
0,4
(Malte)
113
99
(Autriche)
1270
(Malte)
16
(Finlande)
68
(Lettonie)
97
(Belgique)
49
(Slovénie)
25
Synthèse à partir de l’exemple 1 : dispersions
Déciles de PIB et de PIB par habitant
PIB
D1
D2
D3
D4
D5
D6
D7
D8
D9
D10
9,98
17,77
29,49
80,92
145,94
191,64
275,66
782,93
1647,06
9689,53
Lettonie Bulgarie
PIB/habitant
4,34
5,46
Slovaquie
7,86
Lettonie Slovaquie République tchèque
République tchèque Finlande Pologne
12,87
Slovénie
17,28
25,92
Suède
27,00
Espagne Belgique Royaume-Uni
Espagne Royaume-Uni
Etats-Unis
29,32
32,06
51,67
Japon
Etats-Unis
Luxembourg
26
Synthèse à partir de l’exemple 1 :
regroupements
Regroupements par zone au sein de l'UE
Zone Euro
Hors Zone Euro
Europe
Total
Emissions de gaz à
PIB en 2003
effet de serre en
(Milliards
2003 (en millions
d'euros)
de teq CO2)
3435,87
7515,02
1743,96
2593,39
5179,83
10108,41
Superficie
(km2)
Population
(en
millions)
2846743
1535788
4382531
321,30
175,80
497,10
Emissions de gaz à effet de serre et PIB de l'UE
8000,00
7000,00
6000,00
5000,00
4000,00
3000,00
2000,00
1000,00
0,00
Zone Euro
Hors Zone Euro
Emissions de gaz à
PIB en 2003 (Milliards
effet de serre en 2003
d'euros)
(en millions de teq CO2)
27
Synthèse à partir de l’exemple 1
Questions nécessitant des informations complémentaires
 Qui est le plus riche ou qui produit le plus ?
 Qui pollue le plus ?
Ces informations sont-elles pertinentes ? Il faut les interpréter
En terme de production, comparez
 Pologne et Danemark
 Slovénie et Luxembourg
En terme de pollution, comparez
 Danemark et Slovaquie
 Belgique et république Tchèque
28
Synthèse à partir de l’exemple 1
Données macroéconomiques pour les pays de l'UE à 27 et certains de leurs partenaires commerciaux
Allemagne (1)
Autriche
Belgique
Bulgarie
Chypre
Danemark
Espagne
Estonie
Etats-Unis
Finlande
France
Grèce
Hongrie
Irlande
Italie
Japon
Lettonie
Lituanie
Luxembourg
Malte
Pays-Bas
Pologne
Portugal
République tchèque
Roumanie
Royaume-Uni
Slovaquie
Slovénie
Suède
Suisse
Union européenne à 27
(1) : incluant l'ex-RDA à partir de 1991.
Source : EUROSTAT et INSEE
Emissions
de gaz à
effet de
serre en
2003 (en
millions de
teq CO2)
1 030,1
93,3
146,3
71,2
9,3
73,8
410,1
19,7
6 893,8
84,8
551,9
133,5
80,6
68,6
574,1
1 339,1
10,8
21,0
11,7
3,1
216,3
384,6
83,0
145,5
156,9
658,9
50,2
19,8
70,7
52,6
12 195,7
PIB en
2003
(Milliards
d'euros)
Superficie
(km2)
2163,8
223,3023
274,726
17,7668
11,785
188,5003
782,929
8,6926
9689,5332
145,938
1594,814
171,4098
74,5796
139,4419
1335,3537
3743,5596
9,9778
16,4971
25,8343
4,4214
476,945
191,6438
138,5821
80,9241
52,613
1647,0556
29,4856
25,7359
275,657
287,7538
21 167,4
357021
83858
30528
110910
9250
43094
504762
45225
9826830
337030
643427
131940
93030
70263
301320
377835
64569
35200
2585
315
41526
82931
312665
78809
238391
244820
48845
20253
449964
41290
14 157 079,0
Population
Densité
(en
moyenne
millions) (en hab./km2)
82,3
8,3
10,6
7,7
1,0
5,5
45,3
1,3
302,2
5,3
63,6
11,2
10,1
4,4
59,3
127,7
2,3
3,4
0,5
0,4
16,4
38,1
10,7
10,3
21,6
61,0
5,4
2,0
9,1
7,5
833,3
231
99
347
69
108
128
90
29
31
16
99
85
109
63
197
338
36
97
193
1 270
395
459
34
131
91
249
111
99
20
182
59
Population
urbaine
(en %)
PIB/habitant
(en milliers
d'euros)
Pollution par
habitant (en Teq
CO2)
pollution/PIB
(en kg eq
CO2 par
euro)
75
67
97
71
62
72
77
69
79
62
77
59
65
60
68
79
68
67
83
95
65
62
55
74
55
90
56
49
84
68
-
26,29
26,90
25,92
2,31
11,79
34,27
17,28
6,69
32,06
27,54
25,08
15,30
7,38
31,69
22,52
29,32
4,34
4,85
51,67
11,05
29,08
5,03
12,95
7,86
2,44
27,00
5,46
12,87
30,29
38,37
25,40
12,52
11,24
13,80
9,25
9,30
13,41
9,05
15,15
22,81
16,00
8,68
11,92
7,98
15,60
9,68
10,49
4,72
6,18
23,33
7,65
13,19
10,09
7,76
14,13
7,26
10,80
9,30
9,89
7,77
7,02
14,64
0,48
0,42
0,53
4,01
0,79
0,39
0,52
2,27
0,71
0,58
0,35
0,78
1,08
0,49
0,43
0,36
1,09
1,27
0,45
0,69
0,45
2,01
0,60
1,80
2,98
0,40
1,70
0,77
0,26
0,18
0,58
Monnaie
euro
euro
euro
Lev
euro
Couronne danoise
euro
Couronne estonienne
Dollar
euro
euro
euro
Florint
euro
euro
Yen
Lat
Litas
euro
euro
euro
Zloti
euro
Couronne tchèque
Leu
Livre sterling
Couronne slovaque
euro
Couronne suédoise
Franc suisse
29
Synthèse à partir de l’exemple 1
Existe-t-il des liaisons statistiques permettant d’expliquer des résultats?
Lien entre population et PIB ?
Lien entre pollution et PIB ?
Lien entre pollution et densité de pollution ?
30
Synthèse à partir de l’exemple 1 : liaison
Exemple de liaison parfaite
2500
2000
1500
1000
500
0
0
500
1000
1500
2000
2500
31
Synthèse à partir de l’exemple 1 : liaison
PIB et superficie
700000
600000
superficie (km2)
500000
400000
300000
200000
100000
0
0
500
1000
1500
2000
2500
PIB 2003 (en valeur)
32
Synthèse à partir de l’exemple 1 : liaison
Emissions et PIB pour chaque pays
1 200,0
1 000,0
emissions (Teq CO2)
800,0
600,0
400,0
200,0
0,0
0
500
1000
1500
2000
2500
PIB 2003 (en valeur)
33
Synthèse à partir de l’exemple 1 : liaison
Emissions et densité de population
8 000,0
7 000,0
émission (Teq CO2)
6 000,0
5 000,0
4 000,0
3 000,0
2 000,0
1 000,0
0,0
0
200
400
600
800
1 000
1 200
1 400
densité de population (hab/km2)
34
Chapitre 1 : tableaux et
graphiques
35
Plan
Introduction :
1.


Lecture de tableaux
Construction de tableaux et de graphiques

Données qualitatives

Données quantitatives
36
Introduction : Lecture d’un tableau
Étudiants des universités par discipline et par cursus (année 2007-2008)
Droit, sciences politiques
Sciences économiques, gestion (hors AES)
Administration économique et sociale (AES)
Lettres, sciences du langage, arts
Langues
Sciences humaines et sociales
Pluri-lettres-langues-sciences humaines
Sciences fondamentales et applications
Sciences de la nature et de la vie
Sciences et techniques des activités physiques et sportives
Pluri-sciences
Médecine - Odontologie
Pharmacie
Total hors IUT
Instituts universitaires de technologie
Total avec IUT
Cursus
Licence
Effectif
106690
75544
30962
66541
84027
135396
2505
77420
39322
25501
20769
55459
11752
731888
116223
848111
Cursus
Master
Effectif
64064
56395
7067
23525
17060
63463
3167
65371
19547
6135
1387
102508
19560
449249
449249
Cursus
Doctorat
Effectif
8371
4535
0
6932
2746
14759
28
15898
10873
516
145
1028
559
66390
66390
Effectif total
179125
136474
38029
96998
103833
213618
5700
158689
69742
32152
22301
158995
31871
1247527
116223
1363750
Source : INSEE d'après direction de l'Évaluation, de la Prospective et de la Performance (Depp).
37
Introduction : Lecture d’un tableau

Titre et organisation :



Quelles sont les données représentées ? Quelles sont les
modalités ?
Source du tableau : la provenance des données estelle fiable ?
Contenu du tableau :




Quelle est l’unité des variables ?
Lecture en ligne et/ou en colonne ?
Lecture rapide : chiffres extrêmes…
Le travail d’analyse et d’interprétaton peut alors
commencer
38
Introduction : Construction d’un
tableau
Quatre principes fondamentaux pour la
présentation d’un tableau




Le titre : le plus précis possible
La source des données
L’intitulé des lignes et colonnes
Les unités des variables
39
Introduction : Construction d’un
graphique
Graphique doit être compris très rapidement



Titre explicite
Axes explicites : unités et intitulés
Ne doit pas contenir trop d’informations
40
2. Données qualitatives : tableau
unidimensionnel
Données (fictives) d'un échantillon de 50 achats de boisson non
alcoolisée
Boisson
Coca-cola
Pespi cola
Coca-cola light
Sprite
Orangina
Effectif total
nombre de
bouteilles
vendues
19
13
8
5
5
50
fréquence
relative
Fréquence
(en %)
Fréquence
cumulée
0,38
0,26
0,16
0,1
0,1
1
38
26
16
10
10
100
38
64
80
90
100
source : D. ANDERSON, D. SWEENEY et T. WILLIAMS (2001)
Fréquence relative =
Effectif de la modalité x
effectif total
Fréquence relative =
Effectif de la modalité x
effectif total
X 100
41
2. Données qualitatives : graphiques
Bouteilles de boissons non alcooisées vendues en juin 2007
(en niveau)
20
18
16
14
12
10
8
6
4
2
0
Coca-cola
Pespi cola
Coca-cola light
Sprite
Orangina
42
2. Données qualitatives : graphiques
Toutes les barres doivent avoir la
même largeur et l’espace entre les
barres doit être le même. Réduit le
risque de mauvaise interprétation
Répartition des bouteilles de boissons non alcoolisées vendues en
juin 2007
40
Taille des secteurs : coca représente
un angle de 0,38x360 = 136,8°
Répartition des bouteilles de boissons non alcoolisées vendues en juin
2007
Orangina
10%
35
30
Sprite
10%
25
Coca-cola
38%
20
Coca-cola light
16%
15
10
5
0
Coca-cola
Pespi cola
Coca-cola light
Sprite
Orangina
Pespi cola
26%
43
2. Données qualitatives : tableaux
pluri-dimensionnels
Répartition des étudiants des universités françaises selon la discipline et le cursus
(Année 2007-2008)
Droit, sciences politiques
Sciences économiques, gestion (hors AES)
Administration économique et sociale (AES)
Lettres, sciences du langage, arts
Langues
Sciences humaines et sociales
Pluri-lettres-langues-sciences humaines
Sciences fondamentales et applications
Sciences de la nature et de la vie
STAPS
Pluri-sciences
Médecine - Odontologie
Pharmacie
Total hors IUT
Instituts universitaires de technologie
Total avec IUT
Cursus
Licence
Fréquence
7,82
5,54
2,27
4,88
6,16
9,93
0,18
5,68
2,88
1,87
1,52
4,07
0,86
53,67
8,52
62,19
Cursus
Master
Fréquence
4,70
4,14
0,52
1,73
1,25
4,65
0,23
4,79
1,43
0,45
0,10
7,52
1,43
32,94
//
32,94
Cursus
Doctorat
Fréquence
0,61
0,33
0,00
0,51
0,20
1,08
0,00
1,17
0,80
0,04
0,01
0,08
0,04
4,87
//
4,87
Fréquence
totale
13,13
10,01
2,79
7,11
7,61
15,66
0,42
11,64
5,11
2,36
1,64
11,66
2,34
91,48
8,52
100
/// : absence de résultat due à la nature des choses.
Champ : France.
Source : direction de l'Évaluation, de la Prospective et de la Performance (Depp).
44
2. Données qualitatives : tableaux
pluri-dimensionnels
Répartition des étudiants des universités françaises selon la discipline par cursus
(Année 2007-2008)
Droit, sciences politiques
Sciences économiques, gestion (hors AES)
Administration économique et sociale (AES)
Lettres, sciences du langage, arts
Langues
Sciences humaines et sociales
Pluri-lettres-langues-sciences humaines
Sciences fondamentales et applications
Sciences de la nature et de la vie
STAPS
Pluri-sciences
Médecine - Odontologie
Pharmacie
Total hors IUT
Instituts universitaires de technologie
Total avec IUT
Cursus
Licence
Fréquence
12,58
8,91
3,65
7,85
9,91
15,96
0,30
9,13
4,64
3,01
2,45
6,54
1,39
86,30
13,70
100,00
Cursus
Master
Fréquence
14,26
12,55
1,57
5,24
3,80
14,13
0,70
14,55
4,35
1,37
0,31
22,82
4,35
100,00
//
100,00
Cursus
Doctorat
Fréquence
12,61
6,83
0,00
10,44
4,14
22,23
0,04
23,95
16,38
0,78
0,22
1,55
0,84
100,00
//
100,00
Fréquence
totale
13,13
10,01
2,79
7,11
7,61
15,66
0,42
11,64
5,11
2,36
1,64
11,66
2,34
91,48
8,52
100,00
/// : absence de résultat due à la nature des choses.
Champ : France.
Source : direction de l'Évaluation, de la Prospective et de la Performance (Depp).
45
2. Données qualitatives : tableaux
pluri-dimensionnels
Répartition des étudiants des universités françaises selon le cursus par discipline
(Année 2007-2008)
Droit, sciences politiques
Sciences économiques, gestion (hors AES)
Administration économique et sociale (AES)
Lettres, sciences du langage, arts
Langues
Sciences humaines et sociales
Pluri-lettres-langues-sciences humaines
Sciences fondamentales et applications
Sciences de la nature et de la vie
STAPS
Pluri-sciences
Médecine - Odontologie
Pharmacie
Total hors IUT
Instituts universitaires de technologie
Total avec IUT
Cursus
Licence
Fréquence
59,56
55,35
81,42
68,60
80,93
63,38
43,95
48,79
56,38
79,31
93,13
34,88
36,87
58,67
100,00
62,19
Cursus
Master
Fréquence
35,76
41,32
18,58
24,25
16,43
29,71
55,56
41,19
28,03
19,08
6,22
64,47
61,37
36,01
//
32,94
Cursus
Doctorat
Fréquence
4,67
3,32
0,00
7,15
2,64
6,91
0,49
10,02
15,59
1,60
0,65
0,65
1,75
5,32
//
4,87
Fréquence
totale
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
/// : absence de résultat due à la nature des choses.
Champ : France.
Source : direction de l'Évaluation, de la Prospective et de la Performance (Depp).
46
2. Données qualitatives : graphiques
Etudiants inscrits à l'université française
(année 2007-2008 et hors IUT)
Pharmacie
Pluri-sciences
Sciences de la nature et de la vie
Pluri-lettres-langues-sciences humaines
Langues
Administration économique et sociale (AES)
Droit, sciences politiques
0
50 000
100 000
150 000
200 000
250 000
47
2. Données qualitatives : graphiques
Répartition des étudiants de licence selon la discipline (année 200714%
2008)
1%
13%
7%
9%
4%
8%
2%
3%
5%
15%
Droit, sciences politiques
9%
Administration économique et sociale (AES)
0%
Langues
Pluri-lettres-langues-sciences humaines
Sciences de la nature et de la vie
Pluri-sciences
Pharmacie
10%
Sciences économiques, gestion (hors AES)
Lettres, sciences du langage, arts
Sciences humaines et sociales
Sciences fondamentales et applications
STAPS
Médecine - Odontologie
Instituts universitaires de technologie
48
2. Données qualitatives :
regroupements
Étudiants des universités françaises par discipline en pourcentage (Année 2007-2008)
Cursus
Licence
64,83
48,60
100,00
62
Lettres et sciences humaines
Disciplines scientifiques
IUT
Total
Cursus
Master
30,34
45,28
0,00
33
Cursus
Doctorat
4,83
6,13
0,00
5
Total
100
100
100
100
Champ : France.
Source : direction de l'Évaluation, de la Prospective et de la Performance (Depp).
Répartition des étudiants selon le cursus par grandes disciplines
(Année 2007-2008)
100%
80%
4,83
6,13
30,34
45,28
60%
40%
0,00
100,00
64,83
48,60
20%
Cursus Doctorat
Cursus Master
Cursus Licence
0%
Lettres et
sciences
humaines
Disciplines
scientifiques
IUT
49
2. Données qualitatives :
regroupements
Répartition des étudiants inscrits en licence dans les disciplines
de sciences humaines (année 2007-2008)
0%
21%
28%
15%
17%
13%
Droit, sciences politiques
Administration économique et sociale (AES)
Langues
Pluri-lettres-langues-sciences humaines
6%
Sciences économiques, gestion (hors AES)
Lettres, sciences du langage, arts
Sciences humaines et sociales
50
2. Données qualitatives : graphiques
Étudiants des universités par discipline
Droit, sciences politiques
Sciences économiques, gestion (hors AES)
Administration économique et sociale (AES)
Lettres, sciences du langage, arts
Langues
Sciences humaines et sociales
Pluri-lettres-langues-sciences humaines
Sciences fondamentales et applications
Sciences de la nature et de la vie
STAPS
Pluri-sciences
Médecine - Odontologie
Pharmacie
Total hors IUT
Instituts universitaires de technologie
Total avec IUT
2005-2006
2006-2007
2007-2008
Effectif total Effectif total Effectif total
175 853
178 365
179 125
134 796
134 728
136 474
44 451
41 368
38 029
111 452
104 149
96 998
111 557
108 829
103 833
245 173
232 500
213 618
4 947
5 576
5 700
169 158
165 377
158 689
72 389
71 320
69 742
41 516
36 641
32 152
21 617
21 183
22 301
146 589
154 082
158 995
29 624
31 290
31 871
1 309 122
1 285 408
1 247 527
112 597
113 769
116 223
1 421 719
1 399 177
1 363 750
Etudiants inscrits dans les disciplines scientifiques (hors IUT)
Pharmacie
Médecine - Odontologie
Pluri-sciences
STAPS
Sciences de la nature et de la vie
Sciences fondamentales et applications
0
2005-2006
2006-2007
2007-2008
20
000
40
000
60
000
80
000
100
000
120
000
140
000
160
000
180
000
Champ : France.
Source : direction de l'Évaluation, de la Prospective et de la Performance (Depp).
51
3. Données quantitatives
Durée en jour d'un audit
1
12
1
13
2
14
2
15
1
16
1
17
3
18
1
19
1
20
1
21
2
22
1
23
1
27
1
28
1
33
Données trop semblables pour pouvoir les
représenter graphiquement
 Regroupements en classes
 Faire ressortir la variation des données
Choix

Nombre de classes

Largeur des classes : préférable
qu’elles soient de largeurs identiques
pour éviter les mauvaises
interprétations (pas toujours possible)
source : D. ANDERSON, D. SWEENEY et T. WILLIAMS (2001)
52
3. Données quantitatives :
regroupements quantitatifs
V
a
l
e
u
largeur approximative
de la
Valeur la plus élevée - valeur la plus faible
r
=
classe
nombre de classes
l
a
p
c
l
e
u
n
t
Valeur la plus élevée
de lasclasse - valeur la plus faible de la classe
é
r
l
e
e
d
Valeur
la plus élevée + valeur la plus faible
centre de la classe
= v
e
2
= é
l
e
a
+
c
Distributions pour les
données
sur les audits
v
l
a
a
Durée des
Fréquence
Fréquence
Fréquence
l
s
Nombre
audits (jours)
relative
en
%
cumulée
e
s
u
e
10-14
4
0,2 r
20
20
15-19
8
0,4 l
40
60
20-24
5
0,25 a
25
85
p
25-29
2
0,1
10
95
l
30-34
1
0,05 u
5
100
Total
20
1
100
s
f
source : D. ANDERSON, D. SWEENEY et T. WILLIAMS
(2001)
a
i
b
l
e
53
Choix nombre de classes = 5
Chaque donnée ne doit appartenir qu’à une seule et unique classe :
Amplitude de la classe :
Centre de la classe :
3. Données quantitatives :
regroupements quantitatifs
Durée des audits en %
45
40
35
30
25
20
15
10
5
0
10-14
15-19
20-24
25-29
30-34
jours
54
3. Données quantitatives :
regroupements quantitatifs
Histogramme et notion de densité. Les histogrammes doivent
représenter des densités, en particulier lorsque les classes ne sont
pas d’amplitudes égales.
Remarque : pas d’importance lorsque les classes sont d’amplitudes
égales
Structure démographique en France
âge (xi)
nombre (en
milliers) (ni)
amplitude
(ai)
dénsité
(di=ni/ai)
effectifs
corrigés nci =
di*min(ai)
0 - 19 ans
20 - 29 ans
30 - 39 ans
40 - 49 ans
50 - 59 ans
60 - 69 ans
70 - 79 ans
80 - 99 ans
90 - 99 ans
14 115
7 405
7 842
7 967
8 281
7 716
5 521
3 074
878
20
10
10
10
10
10
10
10
10
705,75
740,5
784,2
796,7
828,1
771,6
552,1
307,4
87,8
7057,5
7405
7842
7967
8281
7716
5521
3074
878
source : E. BRESSOUD et J.C. KAHANE (2008) d'après INSEE, Projection à 2020, juillet 2006
55
3. Données quantitatives :
regroupements quantitatifs
Structure démographique en France
16 000
Effectifs
corrigés
14 000
8281
Effectifs
12 000
7842
7405
7057
10 000
8 000
7 842
7 967
8 281
7 716
7 405
3074
6 000
5 521
14 115
4 000
3 074
2 000
878
0
878
0 - 19 ans
0 - 19
ans
20 - 29
ans
30 - 39
ans
40 - 49
ans
50 - 59
ans
60 - 69
ans
70 - 79
ans
80 - 99
ans
20 - 29 ans
30 - 39 ans
40 - 49 ans
50 - 59 ans
60 - 69 ans
70 - 79 ans
80 - 99 ans
90 - 99 ans
90 - 99
ans
56
3. Données quantitatives :
regroupements quantitatifs
Regroupement par superficie
Superficie
Amplitude de la classe Effectif Effectifs en %
[0 - 35200]
35 200
6
20
[41290 - 64569]
23279
6
20
[70263 - 110910]
40647
6
20
[131940 - 337030]
205090
6
20
[357021 - 9826830]
9469809
6
20
Total
30
100
Regroupement par superficie
Superficie
[0 - 50 000]
[50 000 - 100 000]
[100 000 - 500 000]
[500 000 - 10 000 000]
Total
Amplitude de la classe Effectif Effectifs en %
50 000
11
36,67
50 000
6
20
400 000
10
33,33
9 500 000
3
10
30
100
57
3. Données quantitatives :
regroupements qualitatif
Regroupements par zone géographique
nombre de
pays
Europe
Total
Zone Euro
Hors Zone Euro
15
12
27
Emissions de
gaz à effet de Emissions de
PIB en 2003
serre en
gaz à effet de
PIB en 2003
(Milliards
Fréquence
2003 (en
serre en
(en %)
d'euros)
millions de 2003 (en %)
teq CO2)
55,56
44,44
100
3435,87
1743,96
5179,83
66,33
33,67
100,00
7515,02
2593,39
10108,41
Superficie
(km2)
74,34
2846743
25,66
1535788
100,00 4382531,00
Superficie
(en %)
64,96
35,04
100,00
Population
(en millions)
321,30
175,80
497,10
Population
(en %)
64,63
35,37
100,00
58
Chapitre 2 : Méthodes
numériques permettant de
résumer une série
59
Plan
Statistiques résumant la tendance centrale
1.




Moyennes
Médiane
Quantiles
mode
Statistiques résumant la dispersion
2.
1.
2.
3.
Variance
écart-type
coefficient de variation
60
Introduction
Deux étudiants peuvent avoir des moyennes identiques mais avec des
dispersion différentes
Un étudiant qui obtient une moyenne de 16/20, est-il un bon élève ?
Pour répondre à cette question, il faut connaître la moyenne médiane
ou la répartition des notes.
61
Statistiques résumant la tendance
centrale : moyenne
Moyenne arithmétique simple : x = xi/N
Moyenne arithmétique pondérée : x = nixi/N ou x = fixi
Moyenne pondérée des salaires mensuelles
Salaires (xi)
ni
nixi
fi
1200
10
12000
0,13
1600
20
32000
0,27
2000
25
50000
0,33
2400
10
24000
0,13
2800
10
28000
0,13
Total
75
146000
Moyenne
1946,67
fixi
160
426,67
666,67
320
373,33
1946,67
1946,67
Source : B. PY (2007)
62
Statistiques résumant la tendance
centrale : moyenne
Moyenne avec des données groupées. On suppose que les données
sont réparties de manière homogène à l’intérieur des classes.
Moyennes avec des données groupées
Durée des
centre de
audits
Nombre (ni)
nici
classe (ci)
(jours) (xi)
10-14
4
12
48
15-19
8
17
136
20-24
5
22
110
25-29
2
27
54
30-34
1
32
32
Total
20
380
moyenne
19
source : D. ANDERSON, D. SWEENEY et T. WILLIAMS (2001)
63
Statistiques résumant la tendance
centrale : moyenne
Difficultés : il est préférable de réaliser des moyennes sur des
données brutes (quand cela est possible)
Superficie
[0 - 35200]
[41290 - 64569]
[70263 - 110910]
[131940 - 337030]
[357021 - 9826830]
Total
Moyenne
Regroupements par superficie
Amplitude de la classe Effectif centre de classe
35 200
6
17 600
23 279
6
52 929
40 647
6
90 586
205 090
6
234 485
9 469 809
6
5 091 925
30
nici
105600
317574
543516
1406910
30551550
32925150
1 097 505
Regroupements par superficie
Superficie
Amplitude de la classe Effectif centre de classe Effectifs en %
[0 - 50 000]
50 000
11
25 000
275000
[50 000 - 100 000]
50 000
6
75 000
450000
[100 000 - 500 000]
400 000
10
300 000
3000000
[500 000 - 10 000 000]
9 500 000
3
5 250 000
15750000
Total
30
19475000
Moyenne
649 166,70
64
Statistiques résumant la tendance
centrale : moyenne
Superficie pour 30 pays
Allemagne (1)
Autriche
Belgique
Bulgarie
Chypre
Danemark
Espagne
Estonie
Finlande
France
Grèce
Hongrie
Irlande
Italie
Lettonie
Lituanie
Luxembourg
Malte
Pays-Bas
Pologne
Portugal
République tchèque
Roumanie
Royaume-Uni
Slovaquie
Slovénie
Suède
Suisse
Etats-Unis
Japon
Total de l'échantillon
Moyenne
Superficie
(km2)
357021
83858
30528
110910
9250
43094
504762
45225
337030
643427
131940
93030
70263
301320
64569
35200
2585
315
41526
82931
312665
78809
238391
244820
48845
20253
449964
41290
9826830
377835
14 628 486,0
487 616,2
(1) : incluant l'ex-RDA à partir de 1991.
Source : EUROSTAT et INSEE
65
Statistiques résumant la tendance
centrale : moyenne




Pour être significative, une moyenne doit être calculé sur
un grand échantillon
Elle est sensible aux valeurs extrêmes
Ne suffit pas pour caractériser finement une série
Il faut savoir quelles sont les variables dont on calcule la
moyenne

Exemple : taux moyen d’absentéisme aux examens = 50%
A quoi correspond un absent : absent à tous les examens ou
absent a au moins un examen d’une même session.
66
Statistiques résumant la tendance
centrale : médiane
Médiane : correspond à la valeur centrale de la population
 Partage la population en 2.
50% de l’effectif se situe en dessous de la médiane et 50% de l’effectif
se situe au dessus
Calcul : lorsque les données ont les mêmes effectifs pour chaque
modalité (pays)
 Classer les données par ordre croissant
 Si l’effectif est impair, alors la médiane est la valeur centrale
 Si l’effectif est pair, alors la médiane est obtenue en faisant la
moyenne des deux valeurs centrales.
67
Statistiques résumant la tendance
centrale : médiane
PIB pour 30 pays
PIB pour UE
classement
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
PIB en 2003
(Milliards
d'euros)
4,4214
Malte
8,6926
Estonie
9,9778
Lettonie
11,785
Chypre
16,4971
Lituanie
17,7668
Bulgarie
25,7359
Slovénie
25,8343
Luxembourg
29,4856
Slovaquie
52,613
Roumanie
74,5796
Hongrie
République tchèque80,9241
138,5821
Portugal
139,4419
Irlande
145,938
Finlande
171,4098
Grèce
188,5003
Danemark
191,6438
Pologne
223,3023
Autriche
274,726
Belgique
275,657
Suède
476,945
Pays-Bas
782,929
Espagne
1335,3537
Italie
1594,814
France
1647,0556
Royaume-Uni
2163,8
Allemagne (1)
Union européenne10
à 27
108,4
Pays
classement
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
PIB en 2003
(Milliards
d'euros)
4,4214
Malte
8,6926
Estonie
9,9778
Lettonie
11,785
Chypre
16,4971
Lituanie
17,7668
Bulgarie
25,7359
Slovénie
25,8343
Luxembourg
29,4856
Slovaquie
52,613
Roumanie
74,5796
Hongrie
République tchèque80,9241
138,5821
Portugal
139,4419
Irlande
145,938
Me = 158,22
Finlande
171,4098
Grèce
188,5003
Danemark
191,6438
Pologne
223,3023
Autriche
274,726
Belgique
275,657
Suède
287,7538
Suisse
476,945
Pays-Bas
782,929
Espagne
1335,3537
Italie
1594,814
France
1647,0556
Royaume-Uni
2163,8
Allemagne (1)
3743,5596
Japon
9689,5332
Etats-Unis
23 829,3
Total de l'échantillon
Pays
(1) : incluant l'ex-RDA à partir de 1991.
(1) : incluant l'ex-RDA à partir de 1991.
Source : EUROSTAT et INSEE
Source : EUROSTAT et INSEE
68
Statistiques résumant la tendance
centrale : médiane
Calcul lorsque les effectifs ne sont pas les mêmes pour
chaque observation



Classer les observations par ordre croissant
Calculer les fréquences cumulées
Déterminer la médiane par interpolation linéaire
69
Statistiques résumant la tendance
centrale : médiane
Distribution des notes pour le restaurant Y
Note
Effectif
1
2
3
4
5
Total
Moyenne
2
6
10
13
19
50
fréquence
fréquence
relative (%) cumulée (%)
4
12
20
26
38
100
4
16
36
62
100
fixi
0,04
0,24
0,6
1,04
1,9
3,82
source : D. ANDERSON, D. SWEENEY et T. WILLIAMS (2001)
Me - 3
0,5 - 0,36
4 -3
0,62 - 0,36
=
1
= 3,85
0,26
Me = 3,85*0,14+3
=
3,54
=
70
Statistiques résumant la tendance
centrale : médiane
Médiane avec des données par classe
Dépense en
euros
[300; 400[
[400; 500[
[500; 600[
[600; 700[
[700; 800[
Dépenses mensuelles en emplois à domicile
Fréqence
centre de
Fréqence en
cumulées
Effectifs
classe (ci)
%
(%)
5
2,38
2,38
350
[800; 1000[
Total
Moyenne
fici
8,33
60
15
95
30
28,57
30,95
450
128,57
7,14
38,09
550
39,29
45,24
83,33
650
294,05
14,29
97,62
750
107,14
5
2,38
100
900
21,43
210
100,00
598,81
Source : B. PY (2007)
Me - 600
700 - 600
100
=
=
= 221,04
0,5 - 0,3809
0,8333 - 0,3809
0,4524
Me = 221,04(0,5 - 0,3809)+600 = 626,326
71
Statistiques résumant la tendance
centrale : quantiles
Généralisent la médiane
 Quartiles : partagent les observations en 4 groupes
égaux, chacun représentant 25% des observations

Déciles : partagent les observations en 10 groupes
égaux, chacun représentant 10% des observations

Centiles : partagent les observations en 100 groupes
égaux, chacun représentant 1% des observations
72
Statistiques résumant la tendance
centrale : quantiles
Calcul
 Classer les données par ordre croissant
 Calculer l’indice
i =
Où


q
N
100
q = quantile considéré
N = nombre d’observations
Si i n’est pas un nombre entier, on l’arrondit à l’entier supérieur
Si i est un nombre entier, on détermine le quantile par la moyenne
entre ce nombre et son supérieur ou par interpolation linéaire
73
Statistiques résumant la tendance
centrale : quantiles
Exemple 1
avec le PIB des 30 pays : on cherche le 8ème décile, donc
80% des pays ont un PIB inférieur à ??
i =
80
30 = 24
100
Le 8ème décile se trouve entre la 24ème et la 25ème position,
soit entre l’Espagne et l’Italie
Soit un PIB =
782,929 + 1335,3537
2
= 1059,14
74
Statistiques résumant la tendance
centrale : quantiles
Exemple 2
avec le PIB des 27 pays : on cherche le 1er quartile, donc
25% des pays ont un PIB inférieur à ??
i =
25
27 = 6,75
100
Le 1er quartile correspond à la 7ème observation soit le PIB
de la Slovénie
75
Statistiques résumant la tendance
centrale : mode
Le mode est la variable qui a l’effectif (ou la fréquence) le plus grand.
 Si la variable est qualitative ou quantitative discrète, le mode
correspond à l’effectif (ou fréquence) maximal
 Si la variable est quantitative continue, on parle de classe modale et
il faut calculer la valeur modale
Remarque : Il peut ne pas exister de mode pour certaines séries
(Données macroéconomiques des pays)
Exemple 1 : pour les notes du restaurant Y, la note modale est 5
76
Statistiques résumant la tendance
centrale : mode
Exemple 2 : variables quantitatives continues
Structure démographique en France
âge (xi)
0 - 19 ans
20 - 29 ans
30 - 39 ans
40 - 49 ans
50 - 59 ans
60 - 69 ans
70 - 79 ans
80 - 99 ans
90 - 99 ans
nombre (en
amplitude (ai)
milliers) (ni)
14 115
7 405
7 842
7 967
8 281
7 716
5 521
3 074
878
20
10
10
10
10
10
10
10
10
dénsité
(di=ni/ai)
effectifs
corrigés nci =
di*min(ai)
705,75
740,5
784,2
796,7
828,1
771,6
552,1
307,4
87,8
7057,5
7405
7842
7967
8281
7716
5521
3074
878
source : E. BRESSOUD et J.C. KAHANE (2008) d'après INSEE, Projection à 2020, juillet 2006
77
Statistiques résumant la tendance
centrale : mode
Effectifs
corrigés
h1 = 796,7
h = 828,1
h2 = 771,6
8281
7842
7405
7057
7 842
7 967
8 281
7 716
7 405
3074
5 521
14 115
3 074
878
878
0 - 19 ans
20 - 29 ans
30 - 39 ans
40 - 49 ans
50 - 59 ans
âge modal
x1 = 50
Mo =
(h - h1) x2 + (h - h2) x1
(h - h1) + (h - h2)
60 - 69 ans
70 - 79 ans
80 - 99 ans
90 - 99 ans
x2 = 60
Mo =
(828,1 - 796,7)60 + (828,1 - 771,6)50
(828,1 - 796,7) + (828,1 - 771,6)
= 53,57
78
Statistiques résumant la tendance
centrale : discussion
Moyenne, mode et médiane et forme d’une distribution
Distribution
symétrique
Distribution
asymétrique à droite
Distribution
asymétrique à gauche
Mo = Me = Moy
Moy < Me < Mo
Mo < Me < Moy
79
Statistiques résumant la tendance
centrale : discussion
Moyenne, mode et médiane : que choisir pour déterminer le centre
d’une série ?
 Cela dépend du phénomène étudié et du message que l’on désire
faire passer
 Il faut présenter la statistique la plus pertinente
Exemple 1 : moyenne ou position des étudiants
Exemple 2 : les salariés de l’entreprise A sont-ils mieux payés que ceux
Distribution de salaire dans 2 entreprises
de l’entreprise B
Ouvriers
Cadres 1
Cadres 2
Total
Moyenne
Mode
Entreprise A
Entreprise B
Salaires Effectifs Salaires Effectifs
1000
10
1500
15
3000
2
2000
1
5000
1
2500
1
9000
13
6000
17
1615
1588
1000
1500
80
Statistiques résumant la dispersion
La moyenne et/ou la médiane ne permettent pas d’apprécier la
répartition des données.



Valeur maximale et valeur minimale
Intervalle de variation : valeur max. – valeur min.
Pb : valeurs extrêmes peuvent être très différentes des autres valeurs
Intervalle interquartile ou interdécile : Q3 – Q1 ou D9 – D1
Délimitent la plage au sein de laquelle 50% ou 80% des valeurs sont
regroupées
Plus ces plages sont larges, plus les valeurs sont dispersées.
Pb : ne pas prend en compte toutes les valeurs
81
Statistiques résumant la dispersion

Variance : somme des écarts à la moyenne, au carré
V ( x) 

1
N

 ni x i  x
i
2

1
N
 ni x i  x
2
2
i
Ecart-type : racine de la variance
x 


V ( x)
Coefficient de variation : rapport entre l’écart-type et la
moyenne
cv 
x
x
82
Statistiques résumant la dispersion
Notes des étudiants
Max
Min
intevalle de
variation
moyenne
variance
écart-type
Etudiant X
0
0
0
0
20
20
20
20
20
20
20
0
Etudiant Y
7
6
15
13
4
18
20
16
12
9
20
4
Etudiant Z
12
12
12
12
12
12
12
12
12
12
12
12
20
16
0
12
96
9,80
12
26
5,10
12
0
0
83
Statistiques résumant la dispersion :
calculs
PIB pour 30 pays
PIB en 2003
(Milliards
d'euros)
4,4214
Malte
8,6926
Estonie
9,9778
Lettonie
11,785
Chypre
16,4971
Lituanie
17,7668
Bulgarie
25,7359
Slovénie
25,8343
Luxembourg
29,4856
Slovaquie
52,613
Roumanie
74,5796
Hongrie
République tchèque80,9241
138,5821
Portugal
139,4419
Irlande
145,938
Finlande
171,4098
Grèce
188,5003
Danemark
191,6438
Pologne
223,3023
Autriche
274,726
Belgique
275,657
Suède
287,7538
Suisse
476,945
Pays-Bas
782,929
Espagne
1335,3537
Italie
1594,814
France
1647,0556
Royaume-Uni
2163,8
Allemagne (1)
3743,5596
Japon
9689,5332
Etats-Unis
23 829,3
Total de l'échantillon
Pays
Distribution des notes pour le restaurant Y
nixi
ni(xi-X)2
Note
Effectif
1
2
2
15,90
2
6
12
19,87
3
10
30
6,72
4
13
52
0,42
5
19
95
26,46
Total
50
191
69,38
Moyenne (X)
3,82
variance
1,39
écart-type
1,18
coeff. Var.
0,31
source : D. ANDERSON, D. SWEENEY et T. WILLIAMS (2001)
(xi-X)
-789,89
-785,62
-784,33
-782,52
-777,81
-776,54
-768,57
-768,47
-764,82
-741,70
-719,73
-713,38
-655,73
-654,87
-648,37
-622,90
-605,81
-602,66
-571,01
-519,58
-518,65
-506,55
-317,36
-11,38
541,05
800,51
852,75
1369,49
2949,25
8895,22
0,00
(xi-X)2
623921,80
617192,52
615174,82
612343,20
604990,75
603017,18
590704,01
590552,77
584954,24
550112,38
518009,85
508917,46
429977,26
428850,41
420384,45 moyenne (X)
794,31
388002,93
variance
3399970,00
367003,71
écart-type
1843,90
363204,87
coeff. Var.
2,32
326048,21
269966,09
268999,49
256597,78
100719,66
129,50
292729,79
640808,88
727177,43
1875506,67
8698081,40
79125020,51
101999099,98
84
Statistiques résumant la dispersion :
calculs avec des variables par classe
Dépenses mensuelles en emplois à domicile
centre de
Dépense en
nici
Effectifs
ni(ci-X)2
classe (ci)
euros
[300; 400[
5
350
1750,00
309530,90
[400; 500[
60
450
27000,00
1328656,46
[500; 600[
15
550
8250,00
35735,54
[600; 700[
95
650
61750,00
248944,16
[700; 800[
30
750
22500,00
685756,80
[800; 1000[
5
900
4500,00
453578,51
Total
210
125750,00
3062202,38
Moyenne (X)
598,81
variance
14581,92
écart-type
120,76
coeff. Var.
0,58
Source : B. PY (2007)
85
Statistiques résumant la dispersion
Variance exprimée dans l’unité des données mais élevée
au carré
 Pour revenir à l’unité des données, on calcule l’écarttype
Mais ne permet pas de comparer les dispersions de 2
séries dont les unités sont différentes  coefficient de
variation (nombre sans dimension)
86
Conclusion
Données macroéconomiques pour les pays de l'UE à 27
Emissions de
gaz à effet de
PIB en 2003
serre en
Population
(Milliards
2003 (en
(en millions)
d'euros)
millions de
teq CO2)
Densité
moyenne
(en
hab./km2)
PIB/habitant
(en milliers
d'euros)
Pollution par
habitant (en
Teq CO2)
pollution/PIB
(en kg eq
CO2 par
euro)
2163,8
223,3023
274,726
17,7668
11,785
188,5003
782,929
8,6926
145,938
1594,814
171,4098
74,5796
139,4419
1335,3537
9,9778
16,4971
25,8343
4,4214
476,945
191,6438
138,5821
80,9241
52,613
1647,0556
29,4856
25,7359
275,657
10 108,4
231
99
347
69
108
128
90
29
16
99
85
109
63
197
36
97
193
1 270
395
459
34
131
91
249
111
99
20
113
26,29
26,90
25,92
2,31
11,79
34,27
17,28
6,69
27,54
25,08
15,30
7,38
31,69
22,52
4,34
4,85
51,67
11,05
29,08
5,03
12,95
7,86
2,44
27,00
5,46
12,87
30,29
20,33
12,52
11,24
13,80
9,25
9,30
13,41
9,05
15,15
16,00
8,68
11,92
7,98
15,60
9,68
4,72
6,18
23,33
7,65
13,19
10,09
7,76
14,13
7,26
10,80
9,30
9,89
7,77
10,42
0,48
0,42
0,53
4,01
0,79
0,39
0,52
2,27
0,58
0,35
0,78
1,08
0,49
0,43
1,09
1,27
0,45
0,69
0,45
2,01
0,60
1,80
2,98
0,40
1,70
0,77
0,26
0,51
Allemagne (1)
1 030,1
Autriche
93,3
Belgique
146,3
Bulgarie
71,2
Chypre
9,3
Danemark
73,8
Espagne
410,1
Estonie
19,7
Finlande
84,8
France
551,9
Grèce
133,5
Hongrie
80,6
Irlande
68,6
Italie
574,1
Lettonie
10,8
Lituanie
21,0
Luxembourg
11,7
Malte
3,1
Pays-Bas
216,3
Pologne
384,6
Portugal
83,0
République tchèque
145,5
Roumanie
156,9
Royaume-Uni
658,9
Slovaquie
50,2
Slovénie
19,8
Suède
70,7
Union européenne
5 179,8
à 27
82,3
8,3
10,6
7,7
1,0
5,5
45,3
1,3
5,3
63,6
11,2
10,1
4,4
59,3
2,3
3,4
0,5
0,4
16,4
38,1
10,7
10,3
21,6
61,0
5,4
2,0
9,1
497,1
(1) : incluant l'ex-RDA à partir de 1991.
Source : EUROSTAT et INSEE
Remarque : Attention aux calculs des totaux pour les 4 dernières colonnes
(cela correspond aux moyennes de l'UE)
87
Conclusion
Données résumées pour les 27 pays de l'UE
Emissions de
gaz à effet de
PIB en 2003
serre en
Population
(Milliards
2003 (en
(en millions)
d'euros)
millions de
teq CO2)
Moyenne
Valeur
minimale
Valeur
maximale
Intervalle de
variation
Médiane
Q1
Q2
Q3
Intervalle
interquartile
Ecart-type
Coefficient
de variation
Densité
moyenne
(en
hab./km2)
PIB/habitant
(en milliers
d'euros)
Pollution par
habitant (en
Teq CO2)
pollution/PIB
(en kg eq
CO2 par
euro)
191,85
374,39
18,41
113,00
20,33
10,42
0,51
1030,10
2163,80
82,30
1269,84
51,67
23,33
4,01
3,06
4,42
0,40
15,73
2,31
4,72
0,26
1027,04
2159,38
81,90
1254,12
49,36
18,61
3,75
83,00
21,00
83,00
216,30
139,44
25,73
139,44
275,66
9,10
3,40
9,10
21,60
98,98
69,00
98,98
197,00
15,30
6,69
15,30
27,00
9,89
7,98
9,89
13,41
0,60
0,45
0,60
1,27
195,30
249,93
18,20
128,00
20,31
5,43
0,82
246,25
582,41
22,81
240,63
12,14
3,78
0,89
1,28
1,56
1,24
2,13
0,60
0,36
1,74
L’écart-type représente 213% de la moyenne pour la densité de population
mais seulement 36% de la moyenne pour le PIB par habitant
Les données de densités de population sont 5,92 (2,13/0,36) fois plus
dispersées que celles des PIB par habitant
88
Chapitre 3
Indices et taux de croissance
89
Plan
1.
Comparaisons de données
2.
Mesures de l’évolution des données
3.
Les indices
90
Comparaisons de données : Parts
Lorsqu’une variable est égale à la somme des ces
composantes, on peut calculer la part de chaque
composante par rapport à l’ensemble pour une même
date
Chiffres d'affaires et nombre d'employés de
l'hypermarché Machin pour différentes villes
Population
CA en millions d'euros
(en milliers)
Villes
2000
2008
2008
Brest
10000
11000
300
Caen
8000
9000
260
Nantes
20000
27000
800
Rennes
15 000
18000
500
Total
53000
65000
1860
Données fictives
91
Comparaisons de données : Parts
Part = CAville/Catotal*100
Permet de visualiser l’évolution de la structure du chiffre
d’affaire de cette entreprise
Parts des Chiffres d'affaires de Machin
(en %)
Villes
Brest
Caen
Nantes
Rennes
Total
2000
18,87
15,09
37,74
28,30
100,00
2008
16,92
13,85
41,54
27,69
100,00
92
Comparaisons de données : Ecarts
relatif et absolu
Permet de comparer des variables à une même date pour des individus
différents
Ecart absolu
= valeur i – valeur j
Ecart relatif
= ((valeur i – valeur j)/valeur j)*100
= (valeur i/valeur j – 1)*100
Comparaisons des CA
ecart absolu
écart relatif
(en millions
(en %)
d'euros)
Villes
Rennes - Brest
5 000
50
Brest - Rennes
-5 000
-33,33
Remarque : Attention au sens du calcul de l’écart relatif
93
Comparaisons de données : Ratio
Rapport significatif entre 2 variables. Permet d’affiner
l’analyse à une même date
CA et CA/population
Brest
Caen
Nantes
Rennes
Total
CA (en
millions
d'euros)
11000
9000
27000
18000
65000
Rang
3
4
1
2
Population
(en milliers)
300
260
800
500
1860
CA/population
(en millions
d'euros
36,67
34,62
33,75
36,00
34,95
Rang
1
3
4
2
94
Mesures de l’évolution
Mesure l’évolution d’une variable entre deux dates différentes pour
un même individu
Notations :
V0 : valeur à la date t = 0
V1 : valeur à la date t =1
Vt : valeur à la date t
gt : taux de croissance entre les dates t et t+1
Variation absolue = Vt – V0
Variation relative = taux de croissance
= ((Vt – V0)/ V0)*100
= (Vt/ V0 - 1)*100
95
Mesures de l’évolution
CA (en millions d'euros)
Villes
Brest
Caen
Nantes
Rennes
Total
2000
2008
10000
8000
20000
15 000
53000
11000
9000
27000
18000
65000
Evolutions
Ecart
absolu(en
millions
d'euros)
1000
1000
7000
3000
12000
écart relatif (en
%)
10
12,5
35
20
22,64
96
Mesures de l’évolution : taux de
croissance
V2008 = (1+g)*V2000
V2000 = V2008/ (1+g)
Attention : Les taux de croissance ne sont pas additifs
Points de croissance = différence entre deux taux de croissance
Le taux de croissance de Caen est 2,5 points plus élevé que le taux de
croissance de Brest
97
Mesures de l’évolution : taux de
croissance
Taux de croissance d’un produit
 = x*y
g = (1+gx)(1+gy) – 1
Taux de croissance d’un quotient
Q = x/y
gQ = (1+gx)/(1+gy) – 1
Approximations : Pour de faibles taux de croissance (< 20%)
g  g x + g y
gQ  gx - gy
98
Mesures de l’évolution : taux de
croissance annuel moyen
Niveau
taux de croissance
1998
1315,26
1999
1367,97
1999/1998
4,01
Produit intérieur brut aux prix de marché (en valeur)
2000
2001
2002
2003
2004
1441,37
1497,17
1548,56
1594,81
1660,19
2000/1999
5,37
2001/2000
3,87
2002/2001
3,43
2003/2002
2,99
2004/2003
4,10
2005
1726,07
2006
1807,46
2007
1892,24
2005/2004
3,97
2006/2005
4,72
2007/2006
4,69
On cherche le taux de croissance identique pour chaque période qui
donnerait la même évolution sur la période
V1 = (1+g)*V0
V2 = (1+g)*V1 = (1+g)2 *V0
V3 = (1+g)*V2 = (1+g)3 *V0
…
V9 = (1+g)9 *V0  g = (V9/V0)1/9 - 1
99
Mesures de l’évolution : taux de
croissance annuel moyen
g = (1892,24/1315,26)1/9 – 1 = 0,0412
Le taux de croissance annuel moyen est de 4,12%
100
Mesures de l’évolution : contribution à
la croissance
Question : quelle la contribution de chaque ville à la croissance du CA
de l’hypermarché Machin ? Ou quel est le magasin qui entraîne le
plus la croissance du groupe ?
CAtotal = CABrest + CACaen + CANantes + CARennes
gCAtotal = PartCABrest2000*gCABrest + PartCACaen2000 *gCABrest + PartCANantes2000
*gCABrest + PartCARennes2000 *gCABrest
Villes
Brest
Caen
Nantes
Rennes
Total
Contribution à la croissance du CA de Machin
Taux de
CA en millions d'euros
Parts
croissance
2000
2008
2000
10000
11000
18,87
10,00
8000
9000
15,09
12,50
20000
27000
37,74
35,00
15 000
18000
28,30
20,00
53000
65000
22,64
Contribution
1,89
1,89
13,21
5,66
22,64
101
Les indices
De nombreuses variables sont exprimées sous forme d’indices
Un indice évalue une variation et non un niveau
Exemple
L’indice du taux de change €/$ en 2008 base 100 en 2002 est 160,
alors l’ s’est apprécié de 60% par rapport au $
102
Les indices élémentaires
Un indice est un rapport de la même variable prise à deux dates
différentes ou lieux distincts
Définition
Indice élémentaire de la variable G, à la date t, base 1 en t = 0, est It/0 =
Gt/G0
Indice élémentaire de la variable G, à la date t, base 100 en t = 0, est
It/0 = Gt/G0 *100
Indice élémentaire chaîné de la variable G, à la date t, base 100 en t =
t-1, est It/t-1 = Gt/Gt-1 *100
103
Les indices élémentaires
Niveau
taux de croissance
Indice (base 100 en 1998)
Indice (base 100 en 2002)
Indice chainé
(base 100 en t-1)
1998
1315,26
1998
100
1999
1367,97
4,01
1999
104,01
1998
84,93
1998
-
1999
88,34
1999
104,01
Produit intérieur brut aux prix de marché (en valeur)
2000
2001
2002
2003
1441,37
1497,17
1548,56
1594,81
5,37
3,87
3,43
2,99
2000
2001
2002
2003
109,59
113,83
117,74
121,25
2000
93,08
2000
105,37
2001
96,68
2001
103,87
2002
100,00
2002
103,43
2003
102,99
2003
102,99
2004
1660,19
4,10
2004
126,22
2005
1726,07
3,97
2005
131,23
2006
1807,46
4,72
2006
137,42
2007
1892,24
4,69
2007
143,87
2004
107,21
2004
104,10
2005
111,46
2005
103,97
2006
116,72
2006
104,72
2007
122,19
2007
104,69
Base 100 en 1998 : entre 1998 et 2007, les PIB en valeur a augmenté
de 43,87%
Base 100 en 2002 : entre 2002 et 2005, le PIB en valeur a augmenté
de 11,46%
Attention : on ne connaît la progression que par rapport à l’année de
base
Taux de croissance entre 2000 et 2001  113,83 – 109,59 = 4,24%
Voir indices chaînés
104
Les indices élémentaires : propriétés
Circularité
Base 1: It2/t0 = It2/t1 * It1/t0
Base 100: It2/t0 = It2/t1 * It1/t0 *100
Exemple : I2001/2000 = I2001/1998 / I2000/1998 *100
I2001/2000 = 113,83/109,59 = 103,87
Donc les PIB en valeur a augmenté de 3,87% entre 2000 et 2001
Réversibilité
It1/t0= 1/ It0/t1
105
Les indices synthétiques
Comment synthétiser l’évolution simultanée de plusieurs variables.
2000
2008
Prix
0,8
1,4
Prix et quantités consommées du café et du sucre
café
sucre
Quantité
dépense
Prix
Quantité
100
80
0,2
90
120
168
0,5
70
Dépense
18
35
dépense
totale
98
203
Possibilité de calculer les indices élémentaires pour chaque variable (4
indices)
Indices élémentaires du café et du
sucre base 100 en 2000
café
sucre
2000
100
100
2008
210
194,44
 Construction d’indices synthétiques
106
Les indices synthétiques
Indice de valeur :
It / 0
p q

p q
i
t
i
t
i
0
i
0
i
100
i
Indices de valeur de la consommation
de café et de sucre base 100 en 2000
2000
2008
100
207,14
Indice mesure l’évolution des prix et des quantités
 Calculs d’indices qui fixent les quantités et donc mesure uniquement
l’évolution des prix
107
Les indices synthétiques : Indice de
Laspeyres
Indice de Laspeyres des prix fixe les quantités à l’année de départ (2000)
 Seuls les prix évoluent
Lt / 0
p q

p q
i
t
i
0
i
0
i
0
i
100
i
Indice de Laspeyres base 100 en 2000
Dépense 2000
Dépense 2008
Indice de Laspeyre
prix 2000*quantité 2000
Prix 2008*quantité 2000
98
185
188,78
Indice de Laspeyres = moyenne pondérée des indices élémentaires par les
coefficients budgétaires calculés à la date de la base
108
Les indices synthétiques : Indice de
Paasche
Indice de Paasche des prix fixe les quantités à l’année finale ou
année courante (2008)
Pt / 0
p q

p q
i
t
i
t
i
0
i
t
i
100
i
Indice de Paasche base 100 en 2000
Dépense 2000
Dépense 2008
Indice de Paasche
prix 2000*quantité 2008
Prix 2008*quantité 2008
110
203
184,55
109
Indices : remarques finales
Possibilités de calculer des indices de quantités
en fixant cette fois les prix
L’INSEE utilise l’indice de Lapeyres pour
calculer l’indice des prix à la consommation
110
Chapitre 4
Corrélation et liaisons entre des
variables
111
Introduction
Jusqu’à présent, nous avons utilisé des méthodes pour résumer les
données pour une variable à un moment donné ou dans le temps.
Dans ce chapitre, nous étudierons le croisement de deux ou plusieurs
variables (statistiques bi ou pluridimensionnelles).
Le but du croisement de variables est la recherche de l’existence d’un
lien de dépendance entre ces variables ou d’une liaison
Exemples :
Existe-t-il un lien entre le PIB et les émissions de gaz à effet de serre ?
Existe-t-il un lien entre la vente de certains produits et l’âge ou le sexe
des consommateurs ?
Existe-t-il un lien entre le salaire et l’âge des salariés ?
112
Introduction
On cherche un lien de dépendance ou d’indépendance entre des
variables statistiques
Si ce lien existe, comment le modéliser ?
Attention : la question de la liaison entre deux variables est différente
de la question du sens de la causalité.
Exemple :
Est-ce le prix qui détermine la demande ou la demande qui explique le
niveau des prix ?
113
Plan

Etude des liaisons statistiques pour des données
quantitatives




Analyse graphique
La covariance et le coefficient de corrélation
La régression
Etude des liaisons statistiques pour des données
qualitatives




Présentation des tableaux croisés
Les tableaux de contingences
Fréquences conditionnelles
Indépendance des variables (test du Khi-deux)
114
Données quantitatives : nuages de points
CA et spots publicitaires pour le
magasin Truc
Nombres de
CA en
Semaines
spots
centaines de
publicitaires dollars
1
2
50
2
5
57
3
1
41
4
6
54
5
5
54
6
1
38
7
6
63
8
3
48
9
4
59
10
7
65
Source : adapté de Anderson et alii ( 2001)
Question : existe-t-il une liaison statistique entre le nombre
de spots et le CA ?
Le CA et le nombre de spots évoluent-ils de manière
concomitante ?
115
Données quantitatives : nuages de points
Magasin Truc
CA en centaines de $
Un représentation graphique
du nuage de points (ou
diagramme de corrélation)
permet :
• D’apprécier l’existence ou
non d’une éventuelle
liaison
• De déterminer la forme de
la liaison
70
60
50
40
30
20
10
0
0
2
4
6
8
Nombre de spots publicitaires
116
Données quantitatives : nuages de points
La forme du nuage de point suggère les interprétations
suivantes :



Il existe une liaison entre les 2 variables : si le nombre
de spots varient alors le CA a tendance à varier aussi
Cette liaison est linéaire : les points sont à peu près
alignés sur une droite
Cette liaison est positive : plus le nombre de spots
s’accroît, plus le CA augmente.
117
Nuages de points : formes de liaison
liaison puissance
12000
14
12
10
8
6
4
2
0
10000
8000
Y
Y
liaison linéaire décroissante
6000
4000
2000
0
0
2
4
6
8
10
0
12
2
4
6
1,2
10
1
8
0,8
Y
Y
12
6
0,6
4
0,4
2
0,2
0
0
4
6
X
12
liaison hyperbolique
Pas de liaison
2
10
X
X
0
8
8
10
12
0
2
4
6
8
10
X
118
12
Covariance
Pour le magasin, le nuage de points montre que les
variables ont tendance à covarier (varier ensemble)
 Construction d’un indicateur qui mesure la variabilité
conjointe des 2 variables.


Mesure descriptive de la relation entre les 2 variables
Mesure les fluctuations simultanées de chaque variable
par rapport à sa moyenne
119
Covariance : calculs
COV ( X , Y ) 
COV ( X , Y ) 
 x
i

 x yi  y

i
1
N
Calcul de la covariance pour le magasin Truc
Semaines
N
x y
i
i
 xy
i
COV (X,Y) = moyenne du
produit XY – produit des
moyennes de X et de Y
1
2
3
4
5
6
7
8
9
10
Moyenne
Nombres de
CA en
spots
centaines de
publicitaires (X) dollars (Y)
2
5
1
6
5
1
6
3
4
7
4
Covariance = 227,1 - 4*52,9
XY
50
57
41
54
54
38
63
48
59
65
52,9
100
285
41
324
270
38
378
144
236
455
227,1
=
15,5
120
Covariance : interprétation
Covariance > 0  les variables ont tendance à varier dans le même
sens
Covariance < 0  les variables ont tendance à varier en sens opposée
 Plus la valeur (>0 ou <0) de la covariance est élevée plus la relation
entre les variables est forte
 S’il n’y a pas de tendance à la croissance ou à la décroissance entre
les variables covariance nulle
 La covariance est un indicateur de relation linéaire entre les
variables
 Covariance = 0 peut signifier une relation non linéaire.
121
Coefficient de corrélation linéaire
Covariance dépend des unités des variables  coefficient
de corrélation linéaire.
Coefficient de corrélation linéaire
r


COV ( X , Y )
 x y
r
15,5
 0,903
2,049* 8,37
-1 < r < 1
Si r = 1 ou r = -1 alors points parfaitement alignés
122
Régression linéaire
Il s’agit de caractériser quantitativement le lien entre les
deux variables.
Seule situation envisagée : le nuage de points suggère une
liaison linéaire :
 y  ax  b
En connaissant l’équation de la droite qui résume la
relation, il est possible de faire des prévisions
Remarque : attention à la véracité statistique de ces
prévisions lorsqu’on sort de l’intervalle de l’échantillon
123
Régression linéaire
On cherche donc à estimer la droite qui s’ajuste le mieux au nuage de
point
Notation
y = vraies valeurs de la valeur de variable y c’est la variable expliquée
^
y = valeurs de la variables y obtenues à l’aide du modèle
x = variable dépendante ou variable explicative
Magasin Truc
CA en centaines de $
70
60
50
^
40
y  ax  b
30
20
10
0
0
1
2
3
4
5
6
7
8
Nombre de spots publicitaires
124
Régression linéaire
Méthodologie : minimisation de la somme des carrés des écarts entre
la véritable valeurs de yi et son estimation
yi
Y
ŷ
xi
125
Régression linéaire
Calcul de la de la droite de régression pour le magasin Truc
La droite de régression
a pour équation
a
COV ( X , Y )
Var( X )


b  y a x
Semaines
CA en
Nombres de spots
centaines de
publicitaires (X)
dollars (Y)
XY
X2
4
25
1
36
25
1
36
9
16
49
202
1
2
3
4
5
6
7
8
9
10
Total
Moyenne
2
5
1
6
5
1
6
3
4
7
40
4
50
57
41
54
54
38
63
48
59
65
529
52,9
100
285
41
324
270
38
378
144
236
455
2271
227,1
Cov(X,Y) =
Var (X) =
227,1 - 4*52,9
202/10 - 4 2
=
=
15,5
4,2
a=
b=
15,5/4,2
52,9 - 3,69*4
=
=
3,69
38,14
ŷ = 3,69x + 38,14
126
Régression linéaire : coefficient de
détermination
Cette droite explique-t-elle de façon satisfaisante les variations de y (ou
la variance de y)

La droite de régression passe par la covariance  moy (ŷ) = y
yi
^

yi  y
yi  y
ŷi
^

y y
y
x

^
^

yi  y  yi  y  y  y
on montre que
  y
2
i
2
2
^



^ 

 y     y  y     yi  y   SCT  SCE  SCR





127
Régression linéaire : coefficient de
détermination
Calcul de la covariance pour le magasin Truc
Nombres de
CA en
spots
Semaines
centaines de
publicitaires
dollars (Y)
(X)
1
2
50
2
5
57
3
1
41
4
6
54
5
5
54
6
1
38
7
6
63
8
3
48
9
4
59
10
7
65
Total
40
529
Moyenne
4
52,9
a=
b=
15,5/4,2
52,9 - 3,69*4
=
=
Ŷ
(Y - Ŷ)
(Y- my)2
(Ŷ - mŷ)2
(Y - Ŷ)2
45,52
56,59
41,83
60,28
56,59
41,83
60,28
49,21
52,90
63,97
4,48
0,41
-0,83
-6,28
-2,59
-3,83
2,72
-1,21
6,10
1,03
8,41
16,81
141,61
1,21
1,21
222,01
102,01
24,01
37,21
146,41
700,90
54,48
13,62
122,58
54,48
13,62
122,58
54,48
13,62
0,00
122,58
572,02
20,08
0,17
0,69
39,45
6,71
14,66
7,39
1,46
37,21
1,06
128,88
SCT
SCE
SCE
SCT
SCR
3,69
38,14
ŷ = 3,69x + 38,14
SCT =
572,02 + 128,88 =
700,90
R2 =
R2 =
572,02
700,9
R2 =
81,61
128
Régression linéaire : coefficient de
détermination
R2 représente la part de la variabilité de Y « expliquée » par la droite de
régression.
R2  1
Si les observations sont parfaitement alignées, il n’y a pas de
différence entre y et ŷ  pas de résidu  SCT = SCE  R2 = 1
Donc R2 exprime la qualité du modèle. Plus est proche de 1, meilleure
est la qualité du modèle linéaire
Ici le nombre de spots publicitaires « explique » 81,61% de la
dispersion des CA
Remarque : R2 = r2, uniquement pour un modèle linéaire
129