Statistiques Plan Introduction Chapitre 1 : Tableaux et méthodes graphiques Chapitre 2 : Méthodes numériques permettant de résumer une série Chapitre 3 : Indice et.
Download ReportTranscript Statistiques Plan Introduction Chapitre 1 : Tableaux et méthodes graphiques Chapitre 2 : Méthodes numériques permettant de résumer une série Chapitre 3 : Indice et.
Statistiques 1 Plan Introduction Chapitre 1 : Tableaux et méthodes graphiques Chapitre 2 : Méthodes numériques permettant de résumer une série Chapitre 3 : Indice et taux de croissance Chapitre 4 : Corrélation et tests de liaison Chapitre 5 : Régression 2 bibliographie B. PY (2007), La statistique sans formule mathématique, Pearson Education, 2007 D. ANDERSON, D. SWEENEY et T. WILLIAMS, Statistiques pour l’économie et la gestion, De Boeck, 2001 E. BRESSOUD et J.C. KAHANE, Statistique descriptive avec Excel et la calculatrice, Pearson Education, 2008 3 Introduction Qu’est ce que la statistique ? 4 Exemples de statistiques L’indice des prix à la consommation a augmenté de 3% sur un an (Source INSEE) Le salaire net annuel moyen en France, en 2005, était de 24 446€ pour les hommes et de 19 818€ pour les femmes (Source INSEE) Au 1er janvier 2007, les personnes de 20 à 64 ans représentent 58,8% de la population française (Source INSEE) Le taux d’occupation des TGV est de 75% en moyenne en 2007 (source SNCF) 5 Définition La statistique c’est l’art et la science de collecter, d’analyser, de présenter et d’interpréter des données La statistique permet de résumer et d’interpréter une réalité complexe Aide à la prise de décision 6 Définition Décrit et synthétise la réalité Outil de communication permet de faire passer un message Comment ? Sous forme de tableaux Sous forme de graphiques Sous forme numérique : moyennes, indices, taux de croissance… 7 Difficultés Doit être facile à concevoir et à calculer Ne permet pas de décrire tous les profils (moyenne) Les indicateurs doivent être neutres et facilement interprétables L’interprétations des indicateurs est indispensable 8 Domaines d’utilisation Comptabilité vérification des comptes par sondages Finance : comparer plusieurs informations permet la prise de décisions Marketing : connaissance des comportements moyen des consommateurs Production : contrôle de la qualité Economie : visualiser l’état de l’économie 9 Sources de données Collecte des données pour une étude statistique est souvent difficile A partir de bases de données existantes : Fichiers internes aux entreprises : volumes des ventes, nombre de clients, effectifs.. Fichiers externe : les différents ministères ou entreprises privées qui collectent des données (INSEE, EUROSTAT …) Par construction de la base de donnée Sondages Exhaustifs (recensement) Par échantillon 10 Statistique descriptive Ensemble des méthodes qui permettent de décrire les unités statistiques qui composent une population Représentation par des tableaux, des graphiques ou des données numériques Décrit une situation et permet d’en tirer des enseignements 11 Inférence statistique Population souvent trop importante Pour réduire le coût de collecte, on utilise un échantillon de la population observée A partir de l’étude de cet échantillon, possibilité d’estimer les comportements ou caractéristiques pour toute la population (contrôle de la qualité) 12 Vocabulaire Population : ensemble des éléments considérés dans une étude particulière Echantillon : sous-ensemble de la population Unité statistique = élément de la population (individus, animaux, pays…) La population ou échantillon est décrite selon différents critères (données quantitatives) ou caractères (données qualitatives). Chaque caractère peut présenter différentes modalités (hommes-femmes pour le sexe, chômeur ou salarié pour le statut…) Découpage de la population en sous-populations selon différentes caractéristiques (âge, sexe, monnaie, superficie…) 13 Exemple 1 Données macroéconomiques pour les pays de l'UE à 27 et certains de leurs partenaires commerciaux Allemagne (1) Autriche Belgique Bulgarie Chypre Danemark Espagne Estonie Finlande France Grèce Hongrie Irlande Italie Lettonie Lituanie Luxembourg Malte Pays-Bas Pologne Portugal République tchèque Roumanie Royaume-Uni Slovaquie Slovénie Suède Union européenne à 27 Suisse Etats-Unis Japon Total de l'échantillon (1) : incluant l'ex-RDA à partir de 1991. Source : EUROSTAT et INSEE Emissions de gaz à effet de serre en 2003 (en millions de teq CO2) 1 030,1 93,3 146,3 71,2 9,3 73,8 410,1 19,7 84,8 551,9 133,5 80,6 68,6 574,1 10,8 21,0 11,7 3,1 216,3 384,6 83,0 145,5 156,9 658,9 50,2 19,8 70,7 5 179,8 PIB en 2003 (Milliards d'euros) 2163,8 223,3023 274,726 17,7668 11,785 188,5003 782,929 8,6926 145,938 1594,814 171,4098 74,5796 139,4419 1335,3537 9,9778 16,4971 25,8343 4,4214 476,945 191,6438 138,5821 80,9241 52,613 1647,0556 29,4856 25,7359 275,657 10 108,4 Superficie (km2) Population (en millions) 357021 83858 30528 110910 9250 43094 504762 45225 337030 643427 131940 93030 70263 301320 64569 35200 2585 315 41526 82931 312665 78809 238391 244820 48845 20253 449964 4 382 531,0 82,3 8,3 10,6 7,7 1,0 5,5 45,3 1,3 5,3 63,6 11,2 10,1 4,4 59,3 2,3 3,4 0,5 0,4 16,4 38,1 10,7 10,3 21,6 61,0 5,4 2,0 9,1 497,1 Population urbaine (en %) 75 67 97 71 62 72 77 69 62 77 59 65 60 68 68 67 83 95 65 62 55 74 55 90 56 49 84 - 52,6 6 893,8 1 339,1 13 465,4 287,7538 9689,5332 3743,5596 23 829,3 41290 9826830 377835 14 628 486,0 7,5 302,2 127,7 934,5 68 79 79 - Monnaie euro euro euro Lev euro Couronne danoise euro Couronne estonienne euro euro euro Florint euro euro Lat Litas euro euro euro Zloti euro Couronne tchèque Leu Livre sterling Couronne slovaque euro Couronne suédoise Franc suisse Dollar Yen 14 Exemple 1 Population = 30 pays ou 30 unités statistiques Cette population est décrite par 6 critères 15 Exemple 2 : tableau croisé Étudiants des universités par discipline et par cursus (année 2007-2008) Droit, sciences politiques Sciences économiques, gestion (hors AES) Administration économique et sociale (AES) Lettres, sciences du langage, arts Langues Sciences humaines et sociales Pluri-lettres-langues-sciences humaines Sciences fondamentales et applications Sciences de la nature et de la vie Sciences et techniques des activités physiques et sportives Pluri-sciences Médecine - Odontologie Pharmacie Total hors IUT Instituts universitaires de technologie Total avec IUT Cursus Licence Effectif 106690 75544 30962 66541 84027 135396 2505 77420 39322 25501 20769 55459 11752 731888 116223 848111 Cursus Master Effectif 64064 56395 7067 23525 17060 63463 3167 65371 19547 6135 1387 102508 19560 449249 449249 Cursus Doctorat Effectif 8371 4535 0 6932 2746 14759 28 15898 10873 516 145 1028 559 66390 66390 Effectif total 179125 136474 38029 96998 103833 213618 5700 158689 69742 32152 22301 158995 31871 1247527 116223 1363750 Source : INSEE d'après direction de l'Évaluation, de la Prospective et de la Performance (Depp). 16 Exemple 2 : tableau croisé Population : étudiants français inscrits à l’université en 2007-2008 (1 363 750 individus) Représenter selon deux caractères : Discipline Niveau du cursus Chaque caractère contient plusieurs modalités 17 Données quantitatives vs qualitatives Données quantitatives : caractère dénombrables, représentées par des chiffres. Exemples : superficie, PIB, ventes, CA… Données qualitatives : noms ou étiquettes Exemples : Monnaie, discipline, cursus Remarque : des données numériques peuvent être des données qualitatives Exemples : numéro de sécurité sociale, immatriculation, codification numérique des variables ou échelle de valeur (bon = 3, moyen = 2, mauvais = 0) Distinction importante car toutes les opérations arithmétiques ne sont pas possibles avec des variables qualitatives 18 Variables discrètes et variables continues Variables discrètes : modalités ne peuvent prendre que certaines valeurs Variables continues : variable peut prendre n’importe quelle valeur Exemples : cursus, nombre d’enfants = variable discrète Superficie, PIB = variable continue 19 Données en coupe transversale et données en séries temporelles Données en coupe transversale : données collectées à peu près au même moment ou pour une même période (année, mois, jours…) Exemples : tableau 1 et tableau 2. Données en séries temporelles : données collectées sur plusieurs périodes (années, mois, jours…) 20 Données en coupe transversale et données en séries temporelles Données en séries temporelles France Emissions de gaz à effet de serre (Teq CO2) PIB en volume (en milliards d'euros 2000) Emissions PIB 2000 555,6 1441,37 2001 557,6 1468,10 2002 548,7 1483,18 2003 551,9 1499,31 2004 552,3 1536,35 2005 555,1 1565,48 2006 541,3 1599,46 Source : EUROSTAT 21 Synthèse à partir de l’exemple 1 Lecture du tableau signification des colonnes Les total des colonnes a-t-il toujours un sens ? Quelles informations peut-on extraire de ce tableau ? Questions simples Pourquoi choisir seulement ces pays? Quel pays a la plus grande superficie ou la plus grande population ? Combien de pays utilisent l’euro dans la population ? 22 Synthèse à partir de l’exemple 1 Possibilité de réaliser des regroupements. Au sein de l’UE Population totale qui utilise l’euro ? Quel est le revenu total de l’UE ? Quelles sont les émissions total de l’UE ? Quelles sont les contributions de chaque pays à chaque critère ? Revenu moyen et émissions moyennes ? Existe-t-il de grandes disparités ? Comparaison entre zone euro et hors zone euro Quel est le PIB ou les émissions de la zone euro et hors zone euro? Même variables en moyennes ? 23 Synthèse à partir de l’exemple 1 : contributions Contributions de chaque pays de l'UE à 27 (en pourcentage) Emissions de gaz PIB en 2003 à effet de serre en Superficie Population (Milliards 2003 (en millions (km2) (en millions) d'euros) de teq CO2) Allemagne (1) Autriche Belgique Bulgarie Chypre Danemark Espagne Estonie Finlande France Grèce Hongrie Irlande Italie Lettonie Lituanie Luxembourg Malte Pays-Bas Pologne Portugal République tchèque Roumanie Royaume-Uni Slovaquie Slovénie Suède Union européenne à 27 19,89 1,80 2,82 1,38 0,18 1,42 7,92 0,38 1,64 10,65 2,58 1,56 1,33 11,08 0,21 0,41 0,23 0,06 4,18 7,42 1,60 2,81 3,03 12,72 0,97 0,38 1,37 100,00 21,41 2,21 2,72 0,18 0,12 1,86 7,75 0,09 1,44 15,78 1,70 0,74 1,38 13,21 0,10 0,16 0,26 0,04 4,72 1,90 1,37 0,80 0,52 16,29 0,29 0,25 2,73 100,00 8,15 1,91 0,70 2,53 0,21 0,98 11,52 1,03 7,69 14,68 3,01 2,12 1,60 6,88 1,47 0,80 0,06 0,01 0,95 1,89 7,13 1,80 5,44 5,59 1,11 0,46 10,27 100,00 16,56 1,67 2,13 1,55 0,20 1,11 9,11 0,26 1,07 12,79 2,25 2,03 0,89 11,93 0,46 0,68 0,10 0,08 3,30 7,66 2,15 2,07 4,35 12,27 1,09 0,40 1,83 100,00 (1) : incluant l'ex-RDA à partir de 1991. Source : EUROSTAT et INSEE et calculs 24 Synthèse à partir de l’exemple 1 : moyennes et dispersions Statistiques résumées pour l'UE à 27 Moyenne médiane valeur maximale valeur minimale Emissions de gaz à effet PIB en 2003 de serre en (Milliards 2003 (en d'euros) millions de teq CO2) Superficie (km2) 191,85 324,39 83 139,4 (Portugal) (Irlande) 1030,1 2163,8 (Allemagne) (Allemagne) 3,1 4,4 (Malte) (Malte) 162315,96 312665 (Pologne) 643527 (France) 315 (Malte) Population (en millions) Densité moyenne (en hab./km2) Population urbaine (en %) 3,05 8,3 (Suède) 82,3 (Allemagne) 0,4 (Malte) 113 99 (Autriche) 1270 (Malte) 16 (Finlande) 68 (Lettonie) 97 (Belgique) 49 (Slovénie) 25 Synthèse à partir de l’exemple 1 : dispersions Déciles de PIB et de PIB par habitant PIB D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 9,98 17,77 29,49 80,92 145,94 191,64 275,66 782,93 1647,06 9689,53 Lettonie Bulgarie PIB/habitant 4,34 5,46 Slovaquie 7,86 Lettonie Slovaquie République tchèque République tchèque Finlande Pologne 12,87 Slovénie 17,28 25,92 Suède 27,00 Espagne Belgique Royaume-Uni Espagne Royaume-Uni Etats-Unis 29,32 32,06 51,67 Japon Etats-Unis Luxembourg 26 Synthèse à partir de l’exemple 1 : regroupements Regroupements par zone au sein de l'UE Zone Euro Hors Zone Euro Europe Total Emissions de gaz à PIB en 2003 effet de serre en (Milliards 2003 (en millions d'euros) de teq CO2) 3435,87 7515,02 1743,96 2593,39 5179,83 10108,41 Superficie (km2) Population (en millions) 2846743 1535788 4382531 321,30 175,80 497,10 Emissions de gaz à effet de serre et PIB de l'UE 8000,00 7000,00 6000,00 5000,00 4000,00 3000,00 2000,00 1000,00 0,00 Zone Euro Hors Zone Euro Emissions de gaz à PIB en 2003 (Milliards effet de serre en 2003 d'euros) (en millions de teq CO2) 27 Synthèse à partir de l’exemple 1 Questions nécessitant des informations complémentaires Qui est le plus riche ou qui produit le plus ? Qui pollue le plus ? Ces informations sont-elles pertinentes ? Il faut les interpréter En terme de production, comparez Pologne et Danemark Slovénie et Luxembourg En terme de pollution, comparez Danemark et Slovaquie Belgique et république Tchèque 28 Synthèse à partir de l’exemple 1 Données macroéconomiques pour les pays de l'UE à 27 et certains de leurs partenaires commerciaux Allemagne (1) Autriche Belgique Bulgarie Chypre Danemark Espagne Estonie Etats-Unis Finlande France Grèce Hongrie Irlande Italie Japon Lettonie Lituanie Luxembourg Malte Pays-Bas Pologne Portugal République tchèque Roumanie Royaume-Uni Slovaquie Slovénie Suède Suisse Union européenne à 27 (1) : incluant l'ex-RDA à partir de 1991. Source : EUROSTAT et INSEE Emissions de gaz à effet de serre en 2003 (en millions de teq CO2) 1 030,1 93,3 146,3 71,2 9,3 73,8 410,1 19,7 6 893,8 84,8 551,9 133,5 80,6 68,6 574,1 1 339,1 10,8 21,0 11,7 3,1 216,3 384,6 83,0 145,5 156,9 658,9 50,2 19,8 70,7 52,6 12 195,7 PIB en 2003 (Milliards d'euros) Superficie (km2) 2163,8 223,3023 274,726 17,7668 11,785 188,5003 782,929 8,6926 9689,5332 145,938 1594,814 171,4098 74,5796 139,4419 1335,3537 3743,5596 9,9778 16,4971 25,8343 4,4214 476,945 191,6438 138,5821 80,9241 52,613 1647,0556 29,4856 25,7359 275,657 287,7538 21 167,4 357021 83858 30528 110910 9250 43094 504762 45225 9826830 337030 643427 131940 93030 70263 301320 377835 64569 35200 2585 315 41526 82931 312665 78809 238391 244820 48845 20253 449964 41290 14 157 079,0 Population Densité (en moyenne millions) (en hab./km2) 82,3 8,3 10,6 7,7 1,0 5,5 45,3 1,3 302,2 5,3 63,6 11,2 10,1 4,4 59,3 127,7 2,3 3,4 0,5 0,4 16,4 38,1 10,7 10,3 21,6 61,0 5,4 2,0 9,1 7,5 833,3 231 99 347 69 108 128 90 29 31 16 99 85 109 63 197 338 36 97 193 1 270 395 459 34 131 91 249 111 99 20 182 59 Population urbaine (en %) PIB/habitant (en milliers d'euros) Pollution par habitant (en Teq CO2) pollution/PIB (en kg eq CO2 par euro) 75 67 97 71 62 72 77 69 79 62 77 59 65 60 68 79 68 67 83 95 65 62 55 74 55 90 56 49 84 68 - 26,29 26,90 25,92 2,31 11,79 34,27 17,28 6,69 32,06 27,54 25,08 15,30 7,38 31,69 22,52 29,32 4,34 4,85 51,67 11,05 29,08 5,03 12,95 7,86 2,44 27,00 5,46 12,87 30,29 38,37 25,40 12,52 11,24 13,80 9,25 9,30 13,41 9,05 15,15 22,81 16,00 8,68 11,92 7,98 15,60 9,68 10,49 4,72 6,18 23,33 7,65 13,19 10,09 7,76 14,13 7,26 10,80 9,30 9,89 7,77 7,02 14,64 0,48 0,42 0,53 4,01 0,79 0,39 0,52 2,27 0,71 0,58 0,35 0,78 1,08 0,49 0,43 0,36 1,09 1,27 0,45 0,69 0,45 2,01 0,60 1,80 2,98 0,40 1,70 0,77 0,26 0,18 0,58 Monnaie euro euro euro Lev euro Couronne danoise euro Couronne estonienne Dollar euro euro euro Florint euro euro Yen Lat Litas euro euro euro Zloti euro Couronne tchèque Leu Livre sterling Couronne slovaque euro Couronne suédoise Franc suisse 29 Synthèse à partir de l’exemple 1 Existe-t-il des liaisons statistiques permettant d’expliquer des résultats? Lien entre population et PIB ? Lien entre pollution et PIB ? Lien entre pollution et densité de pollution ? 30 Synthèse à partir de l’exemple 1 : liaison Exemple de liaison parfaite 2500 2000 1500 1000 500 0 0 500 1000 1500 2000 2500 31 Synthèse à partir de l’exemple 1 : liaison PIB et superficie 700000 600000 superficie (km2) 500000 400000 300000 200000 100000 0 0 500 1000 1500 2000 2500 PIB 2003 (en valeur) 32 Synthèse à partir de l’exemple 1 : liaison Emissions et PIB pour chaque pays 1 200,0 1 000,0 emissions (Teq CO2) 800,0 600,0 400,0 200,0 0,0 0 500 1000 1500 2000 2500 PIB 2003 (en valeur) 33 Synthèse à partir de l’exemple 1 : liaison Emissions et densité de population 8 000,0 7 000,0 émission (Teq CO2) 6 000,0 5 000,0 4 000,0 3 000,0 2 000,0 1 000,0 0,0 0 200 400 600 800 1 000 1 200 1 400 densité de population (hab/km2) 34 Chapitre 1 : tableaux et graphiques 35 Plan Introduction : 1. Lecture de tableaux Construction de tableaux et de graphiques Données qualitatives Données quantitatives 36 Introduction : Lecture d’un tableau Étudiants des universités par discipline et par cursus (année 2007-2008) Droit, sciences politiques Sciences économiques, gestion (hors AES) Administration économique et sociale (AES) Lettres, sciences du langage, arts Langues Sciences humaines et sociales Pluri-lettres-langues-sciences humaines Sciences fondamentales et applications Sciences de la nature et de la vie Sciences et techniques des activités physiques et sportives Pluri-sciences Médecine - Odontologie Pharmacie Total hors IUT Instituts universitaires de technologie Total avec IUT Cursus Licence Effectif 106690 75544 30962 66541 84027 135396 2505 77420 39322 25501 20769 55459 11752 731888 116223 848111 Cursus Master Effectif 64064 56395 7067 23525 17060 63463 3167 65371 19547 6135 1387 102508 19560 449249 449249 Cursus Doctorat Effectif 8371 4535 0 6932 2746 14759 28 15898 10873 516 145 1028 559 66390 66390 Effectif total 179125 136474 38029 96998 103833 213618 5700 158689 69742 32152 22301 158995 31871 1247527 116223 1363750 Source : INSEE d'après direction de l'Évaluation, de la Prospective et de la Performance (Depp). 37 Introduction : Lecture d’un tableau Titre et organisation : Quelles sont les données représentées ? Quelles sont les modalités ? Source du tableau : la provenance des données estelle fiable ? Contenu du tableau : Quelle est l’unité des variables ? Lecture en ligne et/ou en colonne ? Lecture rapide : chiffres extrêmes… Le travail d’analyse et d’interprétaton peut alors commencer 38 Introduction : Construction d’un tableau Quatre principes fondamentaux pour la présentation d’un tableau Le titre : le plus précis possible La source des données L’intitulé des lignes et colonnes Les unités des variables 39 Introduction : Construction d’un graphique Graphique doit être compris très rapidement Titre explicite Axes explicites : unités et intitulés Ne doit pas contenir trop d’informations 40 2. Données qualitatives : tableau unidimensionnel Données (fictives) d'un échantillon de 50 achats de boisson non alcoolisée Boisson Coca-cola Pespi cola Coca-cola light Sprite Orangina Effectif total nombre de bouteilles vendues 19 13 8 5 5 50 fréquence relative Fréquence (en %) Fréquence cumulée 0,38 0,26 0,16 0,1 0,1 1 38 26 16 10 10 100 38 64 80 90 100 source : D. ANDERSON, D. SWEENEY et T. WILLIAMS (2001) Fréquence relative = Effectif de la modalité x effectif total Fréquence relative = Effectif de la modalité x effectif total X 100 41 2. Données qualitatives : graphiques Bouteilles de boissons non alcooisées vendues en juin 2007 (en niveau) 20 18 16 14 12 10 8 6 4 2 0 Coca-cola Pespi cola Coca-cola light Sprite Orangina 42 2. Données qualitatives : graphiques Toutes les barres doivent avoir la même largeur et l’espace entre les barres doit être le même. Réduit le risque de mauvaise interprétation Répartition des bouteilles de boissons non alcoolisées vendues en juin 2007 40 Taille des secteurs : coca représente un angle de 0,38x360 = 136,8° Répartition des bouteilles de boissons non alcoolisées vendues en juin 2007 Orangina 10% 35 30 Sprite 10% 25 Coca-cola 38% 20 Coca-cola light 16% 15 10 5 0 Coca-cola Pespi cola Coca-cola light Sprite Orangina Pespi cola 26% 43 2. Données qualitatives : tableaux pluri-dimensionnels Répartition des étudiants des universités françaises selon la discipline et le cursus (Année 2007-2008) Droit, sciences politiques Sciences économiques, gestion (hors AES) Administration économique et sociale (AES) Lettres, sciences du langage, arts Langues Sciences humaines et sociales Pluri-lettres-langues-sciences humaines Sciences fondamentales et applications Sciences de la nature et de la vie STAPS Pluri-sciences Médecine - Odontologie Pharmacie Total hors IUT Instituts universitaires de technologie Total avec IUT Cursus Licence Fréquence 7,82 5,54 2,27 4,88 6,16 9,93 0,18 5,68 2,88 1,87 1,52 4,07 0,86 53,67 8,52 62,19 Cursus Master Fréquence 4,70 4,14 0,52 1,73 1,25 4,65 0,23 4,79 1,43 0,45 0,10 7,52 1,43 32,94 // 32,94 Cursus Doctorat Fréquence 0,61 0,33 0,00 0,51 0,20 1,08 0,00 1,17 0,80 0,04 0,01 0,08 0,04 4,87 // 4,87 Fréquence totale 13,13 10,01 2,79 7,11 7,61 15,66 0,42 11,64 5,11 2,36 1,64 11,66 2,34 91,48 8,52 100 /// : absence de résultat due à la nature des choses. Champ : France. Source : direction de l'Évaluation, de la Prospective et de la Performance (Depp). 44 2. Données qualitatives : tableaux pluri-dimensionnels Répartition des étudiants des universités françaises selon la discipline par cursus (Année 2007-2008) Droit, sciences politiques Sciences économiques, gestion (hors AES) Administration économique et sociale (AES) Lettres, sciences du langage, arts Langues Sciences humaines et sociales Pluri-lettres-langues-sciences humaines Sciences fondamentales et applications Sciences de la nature et de la vie STAPS Pluri-sciences Médecine - Odontologie Pharmacie Total hors IUT Instituts universitaires de technologie Total avec IUT Cursus Licence Fréquence 12,58 8,91 3,65 7,85 9,91 15,96 0,30 9,13 4,64 3,01 2,45 6,54 1,39 86,30 13,70 100,00 Cursus Master Fréquence 14,26 12,55 1,57 5,24 3,80 14,13 0,70 14,55 4,35 1,37 0,31 22,82 4,35 100,00 // 100,00 Cursus Doctorat Fréquence 12,61 6,83 0,00 10,44 4,14 22,23 0,04 23,95 16,38 0,78 0,22 1,55 0,84 100,00 // 100,00 Fréquence totale 13,13 10,01 2,79 7,11 7,61 15,66 0,42 11,64 5,11 2,36 1,64 11,66 2,34 91,48 8,52 100,00 /// : absence de résultat due à la nature des choses. Champ : France. Source : direction de l'Évaluation, de la Prospective et de la Performance (Depp). 45 2. Données qualitatives : tableaux pluri-dimensionnels Répartition des étudiants des universités françaises selon le cursus par discipline (Année 2007-2008) Droit, sciences politiques Sciences économiques, gestion (hors AES) Administration économique et sociale (AES) Lettres, sciences du langage, arts Langues Sciences humaines et sociales Pluri-lettres-langues-sciences humaines Sciences fondamentales et applications Sciences de la nature et de la vie STAPS Pluri-sciences Médecine - Odontologie Pharmacie Total hors IUT Instituts universitaires de technologie Total avec IUT Cursus Licence Fréquence 59,56 55,35 81,42 68,60 80,93 63,38 43,95 48,79 56,38 79,31 93,13 34,88 36,87 58,67 100,00 62,19 Cursus Master Fréquence 35,76 41,32 18,58 24,25 16,43 29,71 55,56 41,19 28,03 19,08 6,22 64,47 61,37 36,01 // 32,94 Cursus Doctorat Fréquence 4,67 3,32 0,00 7,15 2,64 6,91 0,49 10,02 15,59 1,60 0,65 0,65 1,75 5,32 // 4,87 Fréquence totale 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 /// : absence de résultat due à la nature des choses. Champ : France. Source : direction de l'Évaluation, de la Prospective et de la Performance (Depp). 46 2. Données qualitatives : graphiques Etudiants inscrits à l'université française (année 2007-2008 et hors IUT) Pharmacie Pluri-sciences Sciences de la nature et de la vie Pluri-lettres-langues-sciences humaines Langues Administration économique et sociale (AES) Droit, sciences politiques 0 50 000 100 000 150 000 200 000 250 000 47 2. Données qualitatives : graphiques Répartition des étudiants de licence selon la discipline (année 200714% 2008) 1% 13% 7% 9% 4% 8% 2% 3% 5% 15% Droit, sciences politiques 9% Administration économique et sociale (AES) 0% Langues Pluri-lettres-langues-sciences humaines Sciences de la nature et de la vie Pluri-sciences Pharmacie 10% Sciences économiques, gestion (hors AES) Lettres, sciences du langage, arts Sciences humaines et sociales Sciences fondamentales et applications STAPS Médecine - Odontologie Instituts universitaires de technologie 48 2. Données qualitatives : regroupements Étudiants des universités françaises par discipline en pourcentage (Année 2007-2008) Cursus Licence 64,83 48,60 100,00 62 Lettres et sciences humaines Disciplines scientifiques IUT Total Cursus Master 30,34 45,28 0,00 33 Cursus Doctorat 4,83 6,13 0,00 5 Total 100 100 100 100 Champ : France. Source : direction de l'Évaluation, de la Prospective et de la Performance (Depp). Répartition des étudiants selon le cursus par grandes disciplines (Année 2007-2008) 100% 80% 4,83 6,13 30,34 45,28 60% 40% 0,00 100,00 64,83 48,60 20% Cursus Doctorat Cursus Master Cursus Licence 0% Lettres et sciences humaines Disciplines scientifiques IUT 49 2. Données qualitatives : regroupements Répartition des étudiants inscrits en licence dans les disciplines de sciences humaines (année 2007-2008) 0% 21% 28% 15% 17% 13% Droit, sciences politiques Administration économique et sociale (AES) Langues Pluri-lettres-langues-sciences humaines 6% Sciences économiques, gestion (hors AES) Lettres, sciences du langage, arts Sciences humaines et sociales 50 2. Données qualitatives : graphiques Étudiants des universités par discipline Droit, sciences politiques Sciences économiques, gestion (hors AES) Administration économique et sociale (AES) Lettres, sciences du langage, arts Langues Sciences humaines et sociales Pluri-lettres-langues-sciences humaines Sciences fondamentales et applications Sciences de la nature et de la vie STAPS Pluri-sciences Médecine - Odontologie Pharmacie Total hors IUT Instituts universitaires de technologie Total avec IUT 2005-2006 2006-2007 2007-2008 Effectif total Effectif total Effectif total 175 853 178 365 179 125 134 796 134 728 136 474 44 451 41 368 38 029 111 452 104 149 96 998 111 557 108 829 103 833 245 173 232 500 213 618 4 947 5 576 5 700 169 158 165 377 158 689 72 389 71 320 69 742 41 516 36 641 32 152 21 617 21 183 22 301 146 589 154 082 158 995 29 624 31 290 31 871 1 309 122 1 285 408 1 247 527 112 597 113 769 116 223 1 421 719 1 399 177 1 363 750 Etudiants inscrits dans les disciplines scientifiques (hors IUT) Pharmacie Médecine - Odontologie Pluri-sciences STAPS Sciences de la nature et de la vie Sciences fondamentales et applications 0 2005-2006 2006-2007 2007-2008 20 000 40 000 60 000 80 000 100 000 120 000 140 000 160 000 180 000 Champ : France. Source : direction de l'Évaluation, de la Prospective et de la Performance (Depp). 51 3. Données quantitatives Durée en jour d'un audit 1 12 1 13 2 14 2 15 1 16 1 17 3 18 1 19 1 20 1 21 2 22 1 23 1 27 1 28 1 33 Données trop semblables pour pouvoir les représenter graphiquement Regroupements en classes Faire ressortir la variation des données Choix Nombre de classes Largeur des classes : préférable qu’elles soient de largeurs identiques pour éviter les mauvaises interprétations (pas toujours possible) source : D. ANDERSON, D. SWEENEY et T. WILLIAMS (2001) 52 3. Données quantitatives : regroupements quantitatifs V a l e u largeur approximative de la Valeur la plus élevée - valeur la plus faible r = classe nombre de classes l a p c l e u n t Valeur la plus élevée de lasclasse - valeur la plus faible de la classe é r l e e d Valeur la plus élevée + valeur la plus faible centre de la classe = v e 2 = é l e a + c Distributions pour les données sur les audits v l a a Durée des Fréquence Fréquence Fréquence l s Nombre audits (jours) relative en % cumulée e s u e 10-14 4 0,2 r 20 20 15-19 8 0,4 l 40 60 20-24 5 0,25 a 25 85 p 25-29 2 0,1 10 95 l 30-34 1 0,05 u 5 100 Total 20 1 100 s f source : D. ANDERSON, D. SWEENEY et T. WILLIAMS (2001) a i b l e 53 Choix nombre de classes = 5 Chaque donnée ne doit appartenir qu’à une seule et unique classe : Amplitude de la classe : Centre de la classe : 3. Données quantitatives : regroupements quantitatifs Durée des audits en % 45 40 35 30 25 20 15 10 5 0 10-14 15-19 20-24 25-29 30-34 jours 54 3. Données quantitatives : regroupements quantitatifs Histogramme et notion de densité. Les histogrammes doivent représenter des densités, en particulier lorsque les classes ne sont pas d’amplitudes égales. Remarque : pas d’importance lorsque les classes sont d’amplitudes égales Structure démographique en France âge (xi) nombre (en milliers) (ni) amplitude (ai) dénsité (di=ni/ai) effectifs corrigés nci = di*min(ai) 0 - 19 ans 20 - 29 ans 30 - 39 ans 40 - 49 ans 50 - 59 ans 60 - 69 ans 70 - 79 ans 80 - 99 ans 90 - 99 ans 14 115 7 405 7 842 7 967 8 281 7 716 5 521 3 074 878 20 10 10 10 10 10 10 10 10 705,75 740,5 784,2 796,7 828,1 771,6 552,1 307,4 87,8 7057,5 7405 7842 7967 8281 7716 5521 3074 878 source : E. BRESSOUD et J.C. KAHANE (2008) d'après INSEE, Projection à 2020, juillet 2006 55 3. Données quantitatives : regroupements quantitatifs Structure démographique en France 16 000 Effectifs corrigés 14 000 8281 Effectifs 12 000 7842 7405 7057 10 000 8 000 7 842 7 967 8 281 7 716 7 405 3074 6 000 5 521 14 115 4 000 3 074 2 000 878 0 878 0 - 19 ans 0 - 19 ans 20 - 29 ans 30 - 39 ans 40 - 49 ans 50 - 59 ans 60 - 69 ans 70 - 79 ans 80 - 99 ans 20 - 29 ans 30 - 39 ans 40 - 49 ans 50 - 59 ans 60 - 69 ans 70 - 79 ans 80 - 99 ans 90 - 99 ans 90 - 99 ans 56 3. Données quantitatives : regroupements quantitatifs Regroupement par superficie Superficie Amplitude de la classe Effectif Effectifs en % [0 - 35200] 35 200 6 20 [41290 - 64569] 23279 6 20 [70263 - 110910] 40647 6 20 [131940 - 337030] 205090 6 20 [357021 - 9826830] 9469809 6 20 Total 30 100 Regroupement par superficie Superficie [0 - 50 000] [50 000 - 100 000] [100 000 - 500 000] [500 000 - 10 000 000] Total Amplitude de la classe Effectif Effectifs en % 50 000 11 36,67 50 000 6 20 400 000 10 33,33 9 500 000 3 10 30 100 57 3. Données quantitatives : regroupements qualitatif Regroupements par zone géographique nombre de pays Europe Total Zone Euro Hors Zone Euro 15 12 27 Emissions de gaz à effet de Emissions de PIB en 2003 serre en gaz à effet de PIB en 2003 (Milliards Fréquence 2003 (en serre en (en %) d'euros) millions de 2003 (en %) teq CO2) 55,56 44,44 100 3435,87 1743,96 5179,83 66,33 33,67 100,00 7515,02 2593,39 10108,41 Superficie (km2) 74,34 2846743 25,66 1535788 100,00 4382531,00 Superficie (en %) 64,96 35,04 100,00 Population (en millions) 321,30 175,80 497,10 Population (en %) 64,63 35,37 100,00 58 Chapitre 2 : Méthodes numériques permettant de résumer une série 59 Plan Statistiques résumant la tendance centrale 1. Moyennes Médiane Quantiles mode Statistiques résumant la dispersion 2. 1. 2. 3. Variance écart-type coefficient de variation 60 Introduction Deux étudiants peuvent avoir des moyennes identiques mais avec des dispersion différentes Un étudiant qui obtient une moyenne de 16/20, est-il un bon élève ? Pour répondre à cette question, il faut connaître la moyenne médiane ou la répartition des notes. 61 Statistiques résumant la tendance centrale : moyenne Moyenne arithmétique simple : x = xi/N Moyenne arithmétique pondérée : x = nixi/N ou x = fixi Moyenne pondérée des salaires mensuelles Salaires (xi) ni nixi fi 1200 10 12000 0,13 1600 20 32000 0,27 2000 25 50000 0,33 2400 10 24000 0,13 2800 10 28000 0,13 Total 75 146000 Moyenne 1946,67 fixi 160 426,67 666,67 320 373,33 1946,67 1946,67 Source : B. PY (2007) 62 Statistiques résumant la tendance centrale : moyenne Moyenne avec des données groupées. On suppose que les données sont réparties de manière homogène à l’intérieur des classes. Moyennes avec des données groupées Durée des centre de audits Nombre (ni) nici classe (ci) (jours) (xi) 10-14 4 12 48 15-19 8 17 136 20-24 5 22 110 25-29 2 27 54 30-34 1 32 32 Total 20 380 moyenne 19 source : D. ANDERSON, D. SWEENEY et T. WILLIAMS (2001) 63 Statistiques résumant la tendance centrale : moyenne Difficultés : il est préférable de réaliser des moyennes sur des données brutes (quand cela est possible) Superficie [0 - 35200] [41290 - 64569] [70263 - 110910] [131940 - 337030] [357021 - 9826830] Total Moyenne Regroupements par superficie Amplitude de la classe Effectif centre de classe 35 200 6 17 600 23 279 6 52 929 40 647 6 90 586 205 090 6 234 485 9 469 809 6 5 091 925 30 nici 105600 317574 543516 1406910 30551550 32925150 1 097 505 Regroupements par superficie Superficie Amplitude de la classe Effectif centre de classe Effectifs en % [0 - 50 000] 50 000 11 25 000 275000 [50 000 - 100 000] 50 000 6 75 000 450000 [100 000 - 500 000] 400 000 10 300 000 3000000 [500 000 - 10 000 000] 9 500 000 3 5 250 000 15750000 Total 30 19475000 Moyenne 649 166,70 64 Statistiques résumant la tendance centrale : moyenne Superficie pour 30 pays Allemagne (1) Autriche Belgique Bulgarie Chypre Danemark Espagne Estonie Finlande France Grèce Hongrie Irlande Italie Lettonie Lituanie Luxembourg Malte Pays-Bas Pologne Portugal République tchèque Roumanie Royaume-Uni Slovaquie Slovénie Suède Suisse Etats-Unis Japon Total de l'échantillon Moyenne Superficie (km2) 357021 83858 30528 110910 9250 43094 504762 45225 337030 643427 131940 93030 70263 301320 64569 35200 2585 315 41526 82931 312665 78809 238391 244820 48845 20253 449964 41290 9826830 377835 14 628 486,0 487 616,2 (1) : incluant l'ex-RDA à partir de 1991. Source : EUROSTAT et INSEE 65 Statistiques résumant la tendance centrale : moyenne Pour être significative, une moyenne doit être calculé sur un grand échantillon Elle est sensible aux valeurs extrêmes Ne suffit pas pour caractériser finement une série Il faut savoir quelles sont les variables dont on calcule la moyenne Exemple : taux moyen d’absentéisme aux examens = 50% A quoi correspond un absent : absent à tous les examens ou absent a au moins un examen d’une même session. 66 Statistiques résumant la tendance centrale : médiane Médiane : correspond à la valeur centrale de la population Partage la population en 2. 50% de l’effectif se situe en dessous de la médiane et 50% de l’effectif se situe au dessus Calcul : lorsque les données ont les mêmes effectifs pour chaque modalité (pays) Classer les données par ordre croissant Si l’effectif est impair, alors la médiane est la valeur centrale Si l’effectif est pair, alors la médiane est obtenue en faisant la moyenne des deux valeurs centrales. 67 Statistiques résumant la tendance centrale : médiane PIB pour 30 pays PIB pour UE classement 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 PIB en 2003 (Milliards d'euros) 4,4214 Malte 8,6926 Estonie 9,9778 Lettonie 11,785 Chypre 16,4971 Lituanie 17,7668 Bulgarie 25,7359 Slovénie 25,8343 Luxembourg 29,4856 Slovaquie 52,613 Roumanie 74,5796 Hongrie République tchèque80,9241 138,5821 Portugal 139,4419 Irlande 145,938 Finlande 171,4098 Grèce 188,5003 Danemark 191,6438 Pologne 223,3023 Autriche 274,726 Belgique 275,657 Suède 476,945 Pays-Bas 782,929 Espagne 1335,3537 Italie 1594,814 France 1647,0556 Royaume-Uni 2163,8 Allemagne (1) Union européenne10 à 27 108,4 Pays classement 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 PIB en 2003 (Milliards d'euros) 4,4214 Malte 8,6926 Estonie 9,9778 Lettonie 11,785 Chypre 16,4971 Lituanie 17,7668 Bulgarie 25,7359 Slovénie 25,8343 Luxembourg 29,4856 Slovaquie 52,613 Roumanie 74,5796 Hongrie République tchèque80,9241 138,5821 Portugal 139,4419 Irlande 145,938 Me = 158,22 Finlande 171,4098 Grèce 188,5003 Danemark 191,6438 Pologne 223,3023 Autriche 274,726 Belgique 275,657 Suède 287,7538 Suisse 476,945 Pays-Bas 782,929 Espagne 1335,3537 Italie 1594,814 France 1647,0556 Royaume-Uni 2163,8 Allemagne (1) 3743,5596 Japon 9689,5332 Etats-Unis 23 829,3 Total de l'échantillon Pays (1) : incluant l'ex-RDA à partir de 1991. (1) : incluant l'ex-RDA à partir de 1991. Source : EUROSTAT et INSEE Source : EUROSTAT et INSEE 68 Statistiques résumant la tendance centrale : médiane Calcul lorsque les effectifs ne sont pas les mêmes pour chaque observation Classer les observations par ordre croissant Calculer les fréquences cumulées Déterminer la médiane par interpolation linéaire 69 Statistiques résumant la tendance centrale : médiane Distribution des notes pour le restaurant Y Note Effectif 1 2 3 4 5 Total Moyenne 2 6 10 13 19 50 fréquence fréquence relative (%) cumulée (%) 4 12 20 26 38 100 4 16 36 62 100 fixi 0,04 0,24 0,6 1,04 1,9 3,82 source : D. ANDERSON, D. SWEENEY et T. WILLIAMS (2001) Me - 3 0,5 - 0,36 4 -3 0,62 - 0,36 = 1 = 3,85 0,26 Me = 3,85*0,14+3 = 3,54 = 70 Statistiques résumant la tendance centrale : médiane Médiane avec des données par classe Dépense en euros [300; 400[ [400; 500[ [500; 600[ [600; 700[ [700; 800[ Dépenses mensuelles en emplois à domicile Fréqence centre de Fréqence en cumulées Effectifs classe (ci) % (%) 5 2,38 2,38 350 [800; 1000[ Total Moyenne fici 8,33 60 15 95 30 28,57 30,95 450 128,57 7,14 38,09 550 39,29 45,24 83,33 650 294,05 14,29 97,62 750 107,14 5 2,38 100 900 21,43 210 100,00 598,81 Source : B. PY (2007) Me - 600 700 - 600 100 = = = 221,04 0,5 - 0,3809 0,8333 - 0,3809 0,4524 Me = 221,04(0,5 - 0,3809)+600 = 626,326 71 Statistiques résumant la tendance centrale : quantiles Généralisent la médiane Quartiles : partagent les observations en 4 groupes égaux, chacun représentant 25% des observations Déciles : partagent les observations en 10 groupes égaux, chacun représentant 10% des observations Centiles : partagent les observations en 100 groupes égaux, chacun représentant 1% des observations 72 Statistiques résumant la tendance centrale : quantiles Calcul Classer les données par ordre croissant Calculer l’indice i = Où q N 100 q = quantile considéré N = nombre d’observations Si i n’est pas un nombre entier, on l’arrondit à l’entier supérieur Si i est un nombre entier, on détermine le quantile par la moyenne entre ce nombre et son supérieur ou par interpolation linéaire 73 Statistiques résumant la tendance centrale : quantiles Exemple 1 avec le PIB des 30 pays : on cherche le 8ème décile, donc 80% des pays ont un PIB inférieur à ?? i = 80 30 = 24 100 Le 8ème décile se trouve entre la 24ème et la 25ème position, soit entre l’Espagne et l’Italie Soit un PIB = 782,929 + 1335,3537 2 = 1059,14 74 Statistiques résumant la tendance centrale : quantiles Exemple 2 avec le PIB des 27 pays : on cherche le 1er quartile, donc 25% des pays ont un PIB inférieur à ?? i = 25 27 = 6,75 100 Le 1er quartile correspond à la 7ème observation soit le PIB de la Slovénie 75 Statistiques résumant la tendance centrale : mode Le mode est la variable qui a l’effectif (ou la fréquence) le plus grand. Si la variable est qualitative ou quantitative discrète, le mode correspond à l’effectif (ou fréquence) maximal Si la variable est quantitative continue, on parle de classe modale et il faut calculer la valeur modale Remarque : Il peut ne pas exister de mode pour certaines séries (Données macroéconomiques des pays) Exemple 1 : pour les notes du restaurant Y, la note modale est 5 76 Statistiques résumant la tendance centrale : mode Exemple 2 : variables quantitatives continues Structure démographique en France âge (xi) 0 - 19 ans 20 - 29 ans 30 - 39 ans 40 - 49 ans 50 - 59 ans 60 - 69 ans 70 - 79 ans 80 - 99 ans 90 - 99 ans nombre (en amplitude (ai) milliers) (ni) 14 115 7 405 7 842 7 967 8 281 7 716 5 521 3 074 878 20 10 10 10 10 10 10 10 10 dénsité (di=ni/ai) effectifs corrigés nci = di*min(ai) 705,75 740,5 784,2 796,7 828,1 771,6 552,1 307,4 87,8 7057,5 7405 7842 7967 8281 7716 5521 3074 878 source : E. BRESSOUD et J.C. KAHANE (2008) d'après INSEE, Projection à 2020, juillet 2006 77 Statistiques résumant la tendance centrale : mode Effectifs corrigés h1 = 796,7 h = 828,1 h2 = 771,6 8281 7842 7405 7057 7 842 7 967 8 281 7 716 7 405 3074 5 521 14 115 3 074 878 878 0 - 19 ans 20 - 29 ans 30 - 39 ans 40 - 49 ans 50 - 59 ans âge modal x1 = 50 Mo = (h - h1) x2 + (h - h2) x1 (h - h1) + (h - h2) 60 - 69 ans 70 - 79 ans 80 - 99 ans 90 - 99 ans x2 = 60 Mo = (828,1 - 796,7)60 + (828,1 - 771,6)50 (828,1 - 796,7) + (828,1 - 771,6) = 53,57 78 Statistiques résumant la tendance centrale : discussion Moyenne, mode et médiane et forme d’une distribution Distribution symétrique Distribution asymétrique à droite Distribution asymétrique à gauche Mo = Me = Moy Moy < Me < Mo Mo < Me < Moy 79 Statistiques résumant la tendance centrale : discussion Moyenne, mode et médiane : que choisir pour déterminer le centre d’une série ? Cela dépend du phénomène étudié et du message que l’on désire faire passer Il faut présenter la statistique la plus pertinente Exemple 1 : moyenne ou position des étudiants Exemple 2 : les salariés de l’entreprise A sont-ils mieux payés que ceux Distribution de salaire dans 2 entreprises de l’entreprise B Ouvriers Cadres 1 Cadres 2 Total Moyenne Mode Entreprise A Entreprise B Salaires Effectifs Salaires Effectifs 1000 10 1500 15 3000 2 2000 1 5000 1 2500 1 9000 13 6000 17 1615 1588 1000 1500 80 Statistiques résumant la dispersion La moyenne et/ou la médiane ne permettent pas d’apprécier la répartition des données. Valeur maximale et valeur minimale Intervalle de variation : valeur max. – valeur min. Pb : valeurs extrêmes peuvent être très différentes des autres valeurs Intervalle interquartile ou interdécile : Q3 – Q1 ou D9 – D1 Délimitent la plage au sein de laquelle 50% ou 80% des valeurs sont regroupées Plus ces plages sont larges, plus les valeurs sont dispersées. Pb : ne pas prend en compte toutes les valeurs 81 Statistiques résumant la dispersion Variance : somme des écarts à la moyenne, au carré V ( x) 1 N ni x i x i 2 1 N ni x i x 2 2 i Ecart-type : racine de la variance x V ( x) Coefficient de variation : rapport entre l’écart-type et la moyenne cv x x 82 Statistiques résumant la dispersion Notes des étudiants Max Min intevalle de variation moyenne variance écart-type Etudiant X 0 0 0 0 20 20 20 20 20 20 20 0 Etudiant Y 7 6 15 13 4 18 20 16 12 9 20 4 Etudiant Z 12 12 12 12 12 12 12 12 12 12 12 12 20 16 0 12 96 9,80 12 26 5,10 12 0 0 83 Statistiques résumant la dispersion : calculs PIB pour 30 pays PIB en 2003 (Milliards d'euros) 4,4214 Malte 8,6926 Estonie 9,9778 Lettonie 11,785 Chypre 16,4971 Lituanie 17,7668 Bulgarie 25,7359 Slovénie 25,8343 Luxembourg 29,4856 Slovaquie 52,613 Roumanie 74,5796 Hongrie République tchèque80,9241 138,5821 Portugal 139,4419 Irlande 145,938 Finlande 171,4098 Grèce 188,5003 Danemark 191,6438 Pologne 223,3023 Autriche 274,726 Belgique 275,657 Suède 287,7538 Suisse 476,945 Pays-Bas 782,929 Espagne 1335,3537 Italie 1594,814 France 1647,0556 Royaume-Uni 2163,8 Allemagne (1) 3743,5596 Japon 9689,5332 Etats-Unis 23 829,3 Total de l'échantillon Pays Distribution des notes pour le restaurant Y nixi ni(xi-X)2 Note Effectif 1 2 2 15,90 2 6 12 19,87 3 10 30 6,72 4 13 52 0,42 5 19 95 26,46 Total 50 191 69,38 Moyenne (X) 3,82 variance 1,39 écart-type 1,18 coeff. Var. 0,31 source : D. ANDERSON, D. SWEENEY et T. WILLIAMS (2001) (xi-X) -789,89 -785,62 -784,33 -782,52 -777,81 -776,54 -768,57 -768,47 -764,82 -741,70 -719,73 -713,38 -655,73 -654,87 -648,37 -622,90 -605,81 -602,66 -571,01 -519,58 -518,65 -506,55 -317,36 -11,38 541,05 800,51 852,75 1369,49 2949,25 8895,22 0,00 (xi-X)2 623921,80 617192,52 615174,82 612343,20 604990,75 603017,18 590704,01 590552,77 584954,24 550112,38 518009,85 508917,46 429977,26 428850,41 420384,45 moyenne (X) 794,31 388002,93 variance 3399970,00 367003,71 écart-type 1843,90 363204,87 coeff. Var. 2,32 326048,21 269966,09 268999,49 256597,78 100719,66 129,50 292729,79 640808,88 727177,43 1875506,67 8698081,40 79125020,51 101999099,98 84 Statistiques résumant la dispersion : calculs avec des variables par classe Dépenses mensuelles en emplois à domicile centre de Dépense en nici Effectifs ni(ci-X)2 classe (ci) euros [300; 400[ 5 350 1750,00 309530,90 [400; 500[ 60 450 27000,00 1328656,46 [500; 600[ 15 550 8250,00 35735,54 [600; 700[ 95 650 61750,00 248944,16 [700; 800[ 30 750 22500,00 685756,80 [800; 1000[ 5 900 4500,00 453578,51 Total 210 125750,00 3062202,38 Moyenne (X) 598,81 variance 14581,92 écart-type 120,76 coeff. Var. 0,58 Source : B. PY (2007) 85 Statistiques résumant la dispersion Variance exprimée dans l’unité des données mais élevée au carré Pour revenir à l’unité des données, on calcule l’écarttype Mais ne permet pas de comparer les dispersions de 2 séries dont les unités sont différentes coefficient de variation (nombre sans dimension) 86 Conclusion Données macroéconomiques pour les pays de l'UE à 27 Emissions de gaz à effet de PIB en 2003 serre en Population (Milliards 2003 (en (en millions) d'euros) millions de teq CO2) Densité moyenne (en hab./km2) PIB/habitant (en milliers d'euros) Pollution par habitant (en Teq CO2) pollution/PIB (en kg eq CO2 par euro) 2163,8 223,3023 274,726 17,7668 11,785 188,5003 782,929 8,6926 145,938 1594,814 171,4098 74,5796 139,4419 1335,3537 9,9778 16,4971 25,8343 4,4214 476,945 191,6438 138,5821 80,9241 52,613 1647,0556 29,4856 25,7359 275,657 10 108,4 231 99 347 69 108 128 90 29 16 99 85 109 63 197 36 97 193 1 270 395 459 34 131 91 249 111 99 20 113 26,29 26,90 25,92 2,31 11,79 34,27 17,28 6,69 27,54 25,08 15,30 7,38 31,69 22,52 4,34 4,85 51,67 11,05 29,08 5,03 12,95 7,86 2,44 27,00 5,46 12,87 30,29 20,33 12,52 11,24 13,80 9,25 9,30 13,41 9,05 15,15 16,00 8,68 11,92 7,98 15,60 9,68 4,72 6,18 23,33 7,65 13,19 10,09 7,76 14,13 7,26 10,80 9,30 9,89 7,77 10,42 0,48 0,42 0,53 4,01 0,79 0,39 0,52 2,27 0,58 0,35 0,78 1,08 0,49 0,43 1,09 1,27 0,45 0,69 0,45 2,01 0,60 1,80 2,98 0,40 1,70 0,77 0,26 0,51 Allemagne (1) 1 030,1 Autriche 93,3 Belgique 146,3 Bulgarie 71,2 Chypre 9,3 Danemark 73,8 Espagne 410,1 Estonie 19,7 Finlande 84,8 France 551,9 Grèce 133,5 Hongrie 80,6 Irlande 68,6 Italie 574,1 Lettonie 10,8 Lituanie 21,0 Luxembourg 11,7 Malte 3,1 Pays-Bas 216,3 Pologne 384,6 Portugal 83,0 République tchèque 145,5 Roumanie 156,9 Royaume-Uni 658,9 Slovaquie 50,2 Slovénie 19,8 Suède 70,7 Union européenne 5 179,8 à 27 82,3 8,3 10,6 7,7 1,0 5,5 45,3 1,3 5,3 63,6 11,2 10,1 4,4 59,3 2,3 3,4 0,5 0,4 16,4 38,1 10,7 10,3 21,6 61,0 5,4 2,0 9,1 497,1 (1) : incluant l'ex-RDA à partir de 1991. Source : EUROSTAT et INSEE Remarque : Attention aux calculs des totaux pour les 4 dernières colonnes (cela correspond aux moyennes de l'UE) 87 Conclusion Données résumées pour les 27 pays de l'UE Emissions de gaz à effet de PIB en 2003 serre en Population (Milliards 2003 (en (en millions) d'euros) millions de teq CO2) Moyenne Valeur minimale Valeur maximale Intervalle de variation Médiane Q1 Q2 Q3 Intervalle interquartile Ecart-type Coefficient de variation Densité moyenne (en hab./km2) PIB/habitant (en milliers d'euros) Pollution par habitant (en Teq CO2) pollution/PIB (en kg eq CO2 par euro) 191,85 374,39 18,41 113,00 20,33 10,42 0,51 1030,10 2163,80 82,30 1269,84 51,67 23,33 4,01 3,06 4,42 0,40 15,73 2,31 4,72 0,26 1027,04 2159,38 81,90 1254,12 49,36 18,61 3,75 83,00 21,00 83,00 216,30 139,44 25,73 139,44 275,66 9,10 3,40 9,10 21,60 98,98 69,00 98,98 197,00 15,30 6,69 15,30 27,00 9,89 7,98 9,89 13,41 0,60 0,45 0,60 1,27 195,30 249,93 18,20 128,00 20,31 5,43 0,82 246,25 582,41 22,81 240,63 12,14 3,78 0,89 1,28 1,56 1,24 2,13 0,60 0,36 1,74 L’écart-type représente 213% de la moyenne pour la densité de population mais seulement 36% de la moyenne pour le PIB par habitant Les données de densités de population sont 5,92 (2,13/0,36) fois plus dispersées que celles des PIB par habitant 88 Chapitre 3 Indices et taux de croissance 89 Plan 1. Comparaisons de données 2. Mesures de l’évolution des données 3. Les indices 90 Comparaisons de données : Parts Lorsqu’une variable est égale à la somme des ces composantes, on peut calculer la part de chaque composante par rapport à l’ensemble pour une même date Chiffres d'affaires et nombre d'employés de l'hypermarché Machin pour différentes villes Population CA en millions d'euros (en milliers) Villes 2000 2008 2008 Brest 10000 11000 300 Caen 8000 9000 260 Nantes 20000 27000 800 Rennes 15 000 18000 500 Total 53000 65000 1860 Données fictives 91 Comparaisons de données : Parts Part = CAville/Catotal*100 Permet de visualiser l’évolution de la structure du chiffre d’affaire de cette entreprise Parts des Chiffres d'affaires de Machin (en %) Villes Brest Caen Nantes Rennes Total 2000 18,87 15,09 37,74 28,30 100,00 2008 16,92 13,85 41,54 27,69 100,00 92 Comparaisons de données : Ecarts relatif et absolu Permet de comparer des variables à une même date pour des individus différents Ecart absolu = valeur i – valeur j Ecart relatif = ((valeur i – valeur j)/valeur j)*100 = (valeur i/valeur j – 1)*100 Comparaisons des CA ecart absolu écart relatif (en millions (en %) d'euros) Villes Rennes - Brest 5 000 50 Brest - Rennes -5 000 -33,33 Remarque : Attention au sens du calcul de l’écart relatif 93 Comparaisons de données : Ratio Rapport significatif entre 2 variables. Permet d’affiner l’analyse à une même date CA et CA/population Brest Caen Nantes Rennes Total CA (en millions d'euros) 11000 9000 27000 18000 65000 Rang 3 4 1 2 Population (en milliers) 300 260 800 500 1860 CA/population (en millions d'euros 36,67 34,62 33,75 36,00 34,95 Rang 1 3 4 2 94 Mesures de l’évolution Mesure l’évolution d’une variable entre deux dates différentes pour un même individu Notations : V0 : valeur à la date t = 0 V1 : valeur à la date t =1 Vt : valeur à la date t gt : taux de croissance entre les dates t et t+1 Variation absolue = Vt – V0 Variation relative = taux de croissance = ((Vt – V0)/ V0)*100 = (Vt/ V0 - 1)*100 95 Mesures de l’évolution CA (en millions d'euros) Villes Brest Caen Nantes Rennes Total 2000 2008 10000 8000 20000 15 000 53000 11000 9000 27000 18000 65000 Evolutions Ecart absolu(en millions d'euros) 1000 1000 7000 3000 12000 écart relatif (en %) 10 12,5 35 20 22,64 96 Mesures de l’évolution : taux de croissance V2008 = (1+g)*V2000 V2000 = V2008/ (1+g) Attention : Les taux de croissance ne sont pas additifs Points de croissance = différence entre deux taux de croissance Le taux de croissance de Caen est 2,5 points plus élevé que le taux de croissance de Brest 97 Mesures de l’évolution : taux de croissance Taux de croissance d’un produit = x*y g = (1+gx)(1+gy) – 1 Taux de croissance d’un quotient Q = x/y gQ = (1+gx)/(1+gy) – 1 Approximations : Pour de faibles taux de croissance (< 20%) g g x + g y gQ gx - gy 98 Mesures de l’évolution : taux de croissance annuel moyen Niveau taux de croissance 1998 1315,26 1999 1367,97 1999/1998 4,01 Produit intérieur brut aux prix de marché (en valeur) 2000 2001 2002 2003 2004 1441,37 1497,17 1548,56 1594,81 1660,19 2000/1999 5,37 2001/2000 3,87 2002/2001 3,43 2003/2002 2,99 2004/2003 4,10 2005 1726,07 2006 1807,46 2007 1892,24 2005/2004 3,97 2006/2005 4,72 2007/2006 4,69 On cherche le taux de croissance identique pour chaque période qui donnerait la même évolution sur la période V1 = (1+g)*V0 V2 = (1+g)*V1 = (1+g)2 *V0 V3 = (1+g)*V2 = (1+g)3 *V0 … V9 = (1+g)9 *V0 g = (V9/V0)1/9 - 1 99 Mesures de l’évolution : taux de croissance annuel moyen g = (1892,24/1315,26)1/9 – 1 = 0,0412 Le taux de croissance annuel moyen est de 4,12% 100 Mesures de l’évolution : contribution à la croissance Question : quelle la contribution de chaque ville à la croissance du CA de l’hypermarché Machin ? Ou quel est le magasin qui entraîne le plus la croissance du groupe ? CAtotal = CABrest + CACaen + CANantes + CARennes gCAtotal = PartCABrest2000*gCABrest + PartCACaen2000 *gCABrest + PartCANantes2000 *gCABrest + PartCARennes2000 *gCABrest Villes Brest Caen Nantes Rennes Total Contribution à la croissance du CA de Machin Taux de CA en millions d'euros Parts croissance 2000 2008 2000 10000 11000 18,87 10,00 8000 9000 15,09 12,50 20000 27000 37,74 35,00 15 000 18000 28,30 20,00 53000 65000 22,64 Contribution 1,89 1,89 13,21 5,66 22,64 101 Les indices De nombreuses variables sont exprimées sous forme d’indices Un indice évalue une variation et non un niveau Exemple L’indice du taux de change €/$ en 2008 base 100 en 2002 est 160, alors l’ s’est apprécié de 60% par rapport au $ 102 Les indices élémentaires Un indice est un rapport de la même variable prise à deux dates différentes ou lieux distincts Définition Indice élémentaire de la variable G, à la date t, base 1 en t = 0, est It/0 = Gt/G0 Indice élémentaire de la variable G, à la date t, base 100 en t = 0, est It/0 = Gt/G0 *100 Indice élémentaire chaîné de la variable G, à la date t, base 100 en t = t-1, est It/t-1 = Gt/Gt-1 *100 103 Les indices élémentaires Niveau taux de croissance Indice (base 100 en 1998) Indice (base 100 en 2002) Indice chainé (base 100 en t-1) 1998 1315,26 1998 100 1999 1367,97 4,01 1999 104,01 1998 84,93 1998 - 1999 88,34 1999 104,01 Produit intérieur brut aux prix de marché (en valeur) 2000 2001 2002 2003 1441,37 1497,17 1548,56 1594,81 5,37 3,87 3,43 2,99 2000 2001 2002 2003 109,59 113,83 117,74 121,25 2000 93,08 2000 105,37 2001 96,68 2001 103,87 2002 100,00 2002 103,43 2003 102,99 2003 102,99 2004 1660,19 4,10 2004 126,22 2005 1726,07 3,97 2005 131,23 2006 1807,46 4,72 2006 137,42 2007 1892,24 4,69 2007 143,87 2004 107,21 2004 104,10 2005 111,46 2005 103,97 2006 116,72 2006 104,72 2007 122,19 2007 104,69 Base 100 en 1998 : entre 1998 et 2007, les PIB en valeur a augmenté de 43,87% Base 100 en 2002 : entre 2002 et 2005, le PIB en valeur a augmenté de 11,46% Attention : on ne connaît la progression que par rapport à l’année de base Taux de croissance entre 2000 et 2001 113,83 – 109,59 = 4,24% Voir indices chaînés 104 Les indices élémentaires : propriétés Circularité Base 1: It2/t0 = It2/t1 * It1/t0 Base 100: It2/t0 = It2/t1 * It1/t0 *100 Exemple : I2001/2000 = I2001/1998 / I2000/1998 *100 I2001/2000 = 113,83/109,59 = 103,87 Donc les PIB en valeur a augmenté de 3,87% entre 2000 et 2001 Réversibilité It1/t0= 1/ It0/t1 105 Les indices synthétiques Comment synthétiser l’évolution simultanée de plusieurs variables. 2000 2008 Prix 0,8 1,4 Prix et quantités consommées du café et du sucre café sucre Quantité dépense Prix Quantité 100 80 0,2 90 120 168 0,5 70 Dépense 18 35 dépense totale 98 203 Possibilité de calculer les indices élémentaires pour chaque variable (4 indices) Indices élémentaires du café et du sucre base 100 en 2000 café sucre 2000 100 100 2008 210 194,44 Construction d’indices synthétiques 106 Les indices synthétiques Indice de valeur : It / 0 p q p q i t i t i 0 i 0 i 100 i Indices de valeur de la consommation de café et de sucre base 100 en 2000 2000 2008 100 207,14 Indice mesure l’évolution des prix et des quantités Calculs d’indices qui fixent les quantités et donc mesure uniquement l’évolution des prix 107 Les indices synthétiques : Indice de Laspeyres Indice de Laspeyres des prix fixe les quantités à l’année de départ (2000) Seuls les prix évoluent Lt / 0 p q p q i t i 0 i 0 i 0 i 100 i Indice de Laspeyres base 100 en 2000 Dépense 2000 Dépense 2008 Indice de Laspeyre prix 2000*quantité 2000 Prix 2008*quantité 2000 98 185 188,78 Indice de Laspeyres = moyenne pondérée des indices élémentaires par les coefficients budgétaires calculés à la date de la base 108 Les indices synthétiques : Indice de Paasche Indice de Paasche des prix fixe les quantités à l’année finale ou année courante (2008) Pt / 0 p q p q i t i t i 0 i t i 100 i Indice de Paasche base 100 en 2000 Dépense 2000 Dépense 2008 Indice de Paasche prix 2000*quantité 2008 Prix 2008*quantité 2008 110 203 184,55 109 Indices : remarques finales Possibilités de calculer des indices de quantités en fixant cette fois les prix L’INSEE utilise l’indice de Lapeyres pour calculer l’indice des prix à la consommation 110 Chapitre 4 Corrélation et liaisons entre des variables 111 Introduction Jusqu’à présent, nous avons utilisé des méthodes pour résumer les données pour une variable à un moment donné ou dans le temps. Dans ce chapitre, nous étudierons le croisement de deux ou plusieurs variables (statistiques bi ou pluridimensionnelles). Le but du croisement de variables est la recherche de l’existence d’un lien de dépendance entre ces variables ou d’une liaison Exemples : Existe-t-il un lien entre le PIB et les émissions de gaz à effet de serre ? Existe-t-il un lien entre la vente de certains produits et l’âge ou le sexe des consommateurs ? Existe-t-il un lien entre le salaire et l’âge des salariés ? 112 Introduction On cherche un lien de dépendance ou d’indépendance entre des variables statistiques Si ce lien existe, comment le modéliser ? Attention : la question de la liaison entre deux variables est différente de la question du sens de la causalité. Exemple : Est-ce le prix qui détermine la demande ou la demande qui explique le niveau des prix ? 113 Plan Etude des liaisons statistiques pour des données quantitatives Analyse graphique La covariance et le coefficient de corrélation La régression Etude des liaisons statistiques pour des données qualitatives Présentation des tableaux croisés Les tableaux de contingences Fréquences conditionnelles Indépendance des variables (test du Khi-deux) 114 Données quantitatives : nuages de points CA et spots publicitaires pour le magasin Truc Nombres de CA en Semaines spots centaines de publicitaires dollars 1 2 50 2 5 57 3 1 41 4 6 54 5 5 54 6 1 38 7 6 63 8 3 48 9 4 59 10 7 65 Source : adapté de Anderson et alii ( 2001) Question : existe-t-il une liaison statistique entre le nombre de spots et le CA ? Le CA et le nombre de spots évoluent-ils de manière concomitante ? 115 Données quantitatives : nuages de points Magasin Truc CA en centaines de $ Un représentation graphique du nuage de points (ou diagramme de corrélation) permet : • D’apprécier l’existence ou non d’une éventuelle liaison • De déterminer la forme de la liaison 70 60 50 40 30 20 10 0 0 2 4 6 8 Nombre de spots publicitaires 116 Données quantitatives : nuages de points La forme du nuage de point suggère les interprétations suivantes : Il existe une liaison entre les 2 variables : si le nombre de spots varient alors le CA a tendance à varier aussi Cette liaison est linéaire : les points sont à peu près alignés sur une droite Cette liaison est positive : plus le nombre de spots s’accroît, plus le CA augmente. 117 Nuages de points : formes de liaison liaison puissance 12000 14 12 10 8 6 4 2 0 10000 8000 Y Y liaison linéaire décroissante 6000 4000 2000 0 0 2 4 6 8 10 0 12 2 4 6 1,2 10 1 8 0,8 Y Y 12 6 0,6 4 0,4 2 0,2 0 0 4 6 X 12 liaison hyperbolique Pas de liaison 2 10 X X 0 8 8 10 12 0 2 4 6 8 10 X 118 12 Covariance Pour le magasin, le nuage de points montre que les variables ont tendance à covarier (varier ensemble) Construction d’un indicateur qui mesure la variabilité conjointe des 2 variables. Mesure descriptive de la relation entre les 2 variables Mesure les fluctuations simultanées de chaque variable par rapport à sa moyenne 119 Covariance : calculs COV ( X , Y ) COV ( X , Y ) x i x yi y i 1 N Calcul de la covariance pour le magasin Truc Semaines N x y i i xy i COV (X,Y) = moyenne du produit XY – produit des moyennes de X et de Y 1 2 3 4 5 6 7 8 9 10 Moyenne Nombres de CA en spots centaines de publicitaires (X) dollars (Y) 2 5 1 6 5 1 6 3 4 7 4 Covariance = 227,1 - 4*52,9 XY 50 57 41 54 54 38 63 48 59 65 52,9 100 285 41 324 270 38 378 144 236 455 227,1 = 15,5 120 Covariance : interprétation Covariance > 0 les variables ont tendance à varier dans le même sens Covariance < 0 les variables ont tendance à varier en sens opposée Plus la valeur (>0 ou <0) de la covariance est élevée plus la relation entre les variables est forte S’il n’y a pas de tendance à la croissance ou à la décroissance entre les variables covariance nulle La covariance est un indicateur de relation linéaire entre les variables Covariance = 0 peut signifier une relation non linéaire. 121 Coefficient de corrélation linéaire Covariance dépend des unités des variables coefficient de corrélation linéaire. Coefficient de corrélation linéaire r COV ( X , Y ) x y r 15,5 0,903 2,049* 8,37 -1 < r < 1 Si r = 1 ou r = -1 alors points parfaitement alignés 122 Régression linéaire Il s’agit de caractériser quantitativement le lien entre les deux variables. Seule situation envisagée : le nuage de points suggère une liaison linéaire : y ax b En connaissant l’équation de la droite qui résume la relation, il est possible de faire des prévisions Remarque : attention à la véracité statistique de ces prévisions lorsqu’on sort de l’intervalle de l’échantillon 123 Régression linéaire On cherche donc à estimer la droite qui s’ajuste le mieux au nuage de point Notation y = vraies valeurs de la valeur de variable y c’est la variable expliquée ^ y = valeurs de la variables y obtenues à l’aide du modèle x = variable dépendante ou variable explicative Magasin Truc CA en centaines de $ 70 60 50 ^ 40 y ax b 30 20 10 0 0 1 2 3 4 5 6 7 8 Nombre de spots publicitaires 124 Régression linéaire Méthodologie : minimisation de la somme des carrés des écarts entre la véritable valeurs de yi et son estimation yi Y ŷ xi 125 Régression linéaire Calcul de la de la droite de régression pour le magasin Truc La droite de régression a pour équation a COV ( X , Y ) Var( X ) b y a x Semaines CA en Nombres de spots centaines de publicitaires (X) dollars (Y) XY X2 4 25 1 36 25 1 36 9 16 49 202 1 2 3 4 5 6 7 8 9 10 Total Moyenne 2 5 1 6 5 1 6 3 4 7 40 4 50 57 41 54 54 38 63 48 59 65 529 52,9 100 285 41 324 270 38 378 144 236 455 2271 227,1 Cov(X,Y) = Var (X) = 227,1 - 4*52,9 202/10 - 4 2 = = 15,5 4,2 a= b= 15,5/4,2 52,9 - 3,69*4 = = 3,69 38,14 ŷ = 3,69x + 38,14 126 Régression linéaire : coefficient de détermination Cette droite explique-t-elle de façon satisfaisante les variations de y (ou la variance de y) La droite de régression passe par la covariance moy (ŷ) = y yi ^ yi y yi y ŷi ^ y y y x ^ ^ yi y yi y y y on montre que y 2 i 2 2 ^ ^ y y y yi y SCT SCE SCR 127 Régression linéaire : coefficient de détermination Calcul de la covariance pour le magasin Truc Nombres de CA en spots Semaines centaines de publicitaires dollars (Y) (X) 1 2 50 2 5 57 3 1 41 4 6 54 5 5 54 6 1 38 7 6 63 8 3 48 9 4 59 10 7 65 Total 40 529 Moyenne 4 52,9 a= b= 15,5/4,2 52,9 - 3,69*4 = = Ŷ (Y - Ŷ) (Y- my)2 (Ŷ - mŷ)2 (Y - Ŷ)2 45,52 56,59 41,83 60,28 56,59 41,83 60,28 49,21 52,90 63,97 4,48 0,41 -0,83 -6,28 -2,59 -3,83 2,72 -1,21 6,10 1,03 8,41 16,81 141,61 1,21 1,21 222,01 102,01 24,01 37,21 146,41 700,90 54,48 13,62 122,58 54,48 13,62 122,58 54,48 13,62 0,00 122,58 572,02 20,08 0,17 0,69 39,45 6,71 14,66 7,39 1,46 37,21 1,06 128,88 SCT SCE SCE SCT SCR 3,69 38,14 ŷ = 3,69x + 38,14 SCT = 572,02 + 128,88 = 700,90 R2 = R2 = 572,02 700,9 R2 = 81,61 128 Régression linéaire : coefficient de détermination R2 représente la part de la variabilité de Y « expliquée » par la droite de régression. R2 1 Si les observations sont parfaitement alignées, il n’y a pas de différence entre y et ŷ pas de résidu SCT = SCE R2 = 1 Donc R2 exprime la qualité du modèle. Plus est proche de 1, meilleure est la qualité du modèle linéaire Ici le nombre de spots publicitaires « explique » 81,61% de la dispersion des CA Remarque : R2 = r2, uniquement pour un modèle linéaire 129