Transcript Diaporama
POL1803: Analyse des techniques quantitatives Cours 2 Analyse univariée Question à résoudre Est-ce que le gouvernement de Jacques Parizeau a tenté de voler furtivement le référendum de 1995? Programme Analyse univariée: – Distribution de fréquences – Mesures de tendance centrale – Mesures de variation – Mesures d’asymétrie Trois types d’analyse Analyse univariée: – porte sur une seule variable à la fois Analyse bivariée: – porte sur les relations entre deux variables (une variable dépendante et une variable indépendante) Analyse multivariée: – porte sur les relations entre plus de deux variables Utilité de l’analyse univariée Pour répondre à plusieurs questions de recherche Pour combler une précaution méthodologique Outils de l’analyse univariée A) Distribution de fréquences (ex.: rangement, tableau et graphique) B) Mesures de tendances centrales (ex.: moyenne, mode et médiane) C) Mesures de variation (ex.: étendue, variance et écart-type) D) Mesures d’asymétrie (ex.: coefficient d’asymétrie) A) Distribution de fréquences Définition: –le classement des données dans le but de les rendre intelligibles et parlantes Données brutes 422223033242432413330324123231.4434142244143233204423.232432231244102244343002220222412422023342024204342331 24234421143414213432410421323443133424232021232234023143413423422442323.344333444243144143233314123421112412 244244333.1233234320332143421232324344001220103101343314322322211141122023313424433311233334213022.423423014 4241322422422130132222332234333230323423.32222331.2421302131034122122342211233402042401424032022212342442221 30341.434.2223141433342230024322430123121333333032122432001134313414112224404341311420.3122331422212123322311 44242001121344443214434311430010432211.223241424402332223034.34134413322224214243223032302234324234211432222 012230321002243214224442213213231402131.4442124122234444123144434303433333332242123424322423123204.314442220 41323204223331043214222313012132224032300413441420421034432330140042433234120111421313332143132313213332102 42424234221442304413211302323333110344402212343342442310044212221212112241120242220012334141223042423233230 40323244232242201232202133434103443423241122014031241324122222202043342132104321343443301320242030341212244 20123423333033224422233141223331231334004224132104433141434323112312131314032332023403032222423324424034324 1243231214342344232142222213230322113221314222333333412220123311330323.3421233212030320343102200124420042123 13221322131232433221123143221242402423340402342424444244224443233133443343000433124.323132224333124332243234 24024321334312333333230010323142222241343322133102042411302223133343244.214221242443023304212213341001132034 11032412.142343323131222323232223433312322423323412222243113112124124131110114121333113002334112444243424233 0232132312233431344241123222242123112411342011214234100014103443444333.4340213221341211331323424324330244333 0323311223244322200312132232231343303244133333423321212442210202232414133334441341231104432333432422.2332132 4113412132212141231322141124331203122232232324.1340442432432344212222113041310344313444232313322322034244243 341133.44410143441121332432214232231001232011312212221312313223142130333132104040133224322123111433222214434 24304241402310231123312424432414014324432222232424134342333223234223312332143431444343303011244040413233342 41042334110122443214422424143420224241444313433443233432334131.313230214222012222443200042431024441244003243 343033413434241232220231422324232333413344024432243110212321334234422441244412314.32132301411321204424323133 2341433240344123133334342322442423311323312332223223232422243323111222422312324242.2340431113323232222343212 3431231210033343333422121242044211323413243344442424321432322434342441314112343230411234.4224223124442423132 12433313321114424203240344224012333130.123102421312132231203042140334143340123333.22222341214444244320332023 12234231341113242343032321331232344324334321032111241412224303412222241341241413111432413233443234230113321 1410443242232222432231242223434442213233304141122022323222134242213234421224.2322214133342332043443323434422 34434432332223343131024443303213342322430133132223334132223242121313332303214444432342332244222122421200343 23120243242413442323233341423434333343232322433122424231313342343220233332134313233300232331431332213132320 03223343232232222141434333243423421023132442423223222132222233444312412432433324034223142423232422123224344 423232234232244233214132311442433324242342433311313113203244224123322232342324341220323203.103324.4231434222 341331.33233234230124113133112244022422411111343143223210442411321443422420341104302434133432444413312241343 424344202413322411242243303314341132334432202431144434231142443223422211331433432.14322334202121444342201432 4333324233334332.4214202143423421224234024324023420224.23144222104432141313424302322344020414340132212243010 22413324332432133112302131100433144343322322242111313203424313224433342334413432343440131410131204131.414421 41213214342232111223424144024211214103431021111423414313432242442034141441321024141242143214223411410421321 2224233011444121423410222442130204441240323432244423101232322122232321 Rangement simple des données ....................................00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 00000000000000000000000000000000000000000000000000000000000000000000000000000011111111111111111111111111111 11111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111 11111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111 11111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111 11111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111 11111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111 11111111111111111111111111111111111111111111111111111111111111111111111222222222222222222222222222222222222 22222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222 22222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222 22222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222 22222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222 22222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222 22222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222 22222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222 22222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222 22222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222 22222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222 22222222223333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333 33333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333 33333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333 33333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333 33333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333 33333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333 33333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333 33333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333 33333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333 33333333333333333333333333333333333333333333333333333333333333333333333333333333333333333444444444444444444 44444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444 44444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444 44444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444 44444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444 44444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444 44444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444 44444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444444 4444444444444444444444444444444444444444444444444444444444444444444444444444444 Tableau de fréquences Nive au d'informat ion Fréq uence Pour centag e Valid e ,00 274 6,9 1,00 635 16,1 2,00 1116 28,3 3,00 1042 26,4 4,00 846 21,4 Total 3913 99,1 Manquante Système manquant 36 ,9 Total 3949 100,0 Tableau de fréquences Nombres de bonnes réponses Fréquence Pourcentage 0-9 10 1 10-19 30 3 20-29 80 8 30-39 150 15 40-49 200 20 50-59 275 27,5 60-69 140 14 70-79 65 6,5 80-89 35 3,5 90-100 15 1,5 1000 100 Total Diagramme en bâtons Niveau d'information 30 20 % 10 0 ,00 1,00 Nombre de bonnes réponses 2,00 3,00 4,00 Représentation graphique: erreurs et excellence Origines et typologie Cartographie avec données Cartographie avec données Cartographie avec données Cartographie avec données Série temporelle Série temporelle Combinaison espace et temps Combinaison espace et temps Diagramme en bâtons Diagramme en bâtons Diagramme de dispersion Diagramme de dispersion Diagramme de dispersion Représentation graphique: erreurs et excellence Comment maltraiter des données et mentir avec un graphique? Aire visuelle et biais Aire visuelle et biais Aire visuelle et biais Aire visuelle et biais Aire visuelle et biais Aire visuelle et biais Contexte et intégrité Contexte et intégrité Contexte et intégrité Contexte et intégrité Échelles et intégrité Échelles et intégrité 44,0 60,0 50,0 43,0 40,0 42,0 30,0 41,0 Valeur APPUI Valeur APPUI 20,0 40,0 39,0 1997 ANNEE 1998 1999 2000 10,0 0,0 2001 1997 ANNEE 1998 1999 2000 2001 Ratio encre / données Ratio encre / données Ratio encre / données Ratio encre / données Ratio encre / données Ratio encre / données Ratio encre / données L’usage de la couleur L’usage de la couleur L’usage de la couleur L’usage de la couleur L’usage de la couleur Théorie loufoque, contenu loufoque, graphique loufoque Principes de l’excellence graphique L’excellence graphique c’est: – la communication claire, précise et efficace d’idées complexes; – véhiculer le plus grand nombre d’idées, dans le moins de temps possible, avec le moins d’encre possible, et avec le moins d’espace possible. (Edward Tufte, 1983) L’excellence graphique Raconter une histoire Raconter une histoire Outils de l’analyse univariée A) Distribution de fréquences (ex.: rangement, tableau et graphique) B) Mesures de tendances centrales (ex.: moyenne, mode et médiane) C) Mesures de variation (ex.: étendue, variance et écart-type) D) Mesures d’asymétrie (ex.: coefficient d’asymétrie) Un exemple 0, 0, 1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4 N = 13 B) Mesures de tendance centrale Définition: Mesures servant à décrire, à résumer, à l’aide d’une valeur unique, la grandeur typique, le milieu ou le centre d’un ensemble de données. Le mode (Mo) Définition: La valeur la plus fréquente dans une série de données. Un exemple 0, 0, 1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4 Mode = 3 Le mode (Mo) Caractéristiques: - parfois il n’y en a pas, parfois il y en a plus d’un - fonctionne avec tous les types de variables - insensible aux valeurs extrêmes - peu utile pour l’inférence statistique La médiane (Md) Définition: La valeur qui sépare une série d’observations ordonnées en ordre croissant ou décroissant, en deux parties comportant le même nombre d’observations. La médiane (Md) Formules: N impair: où è N+l 2 N = observation nombre de cas Un exemple 0, 0, 1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4 Médiane 13 + l 2 è = obs. = N+l 2 7 è obs è obs. = = 2 La médiane (Md) Formules: N pair: (N/2)è obs. + (N/2 + l)è obs. 2 où N = nombre de cas Un exemple 0, 1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4 Médiane = (N/2)è obs. + (N/2 + l)è obs. 2 (12/2)è obs. + (12/2 + l)è obs. 2 2+3 2 = 5 2 = = = 6è obs. + 7èobs. 2 2,5 La médiane (Md) Caractéristiques: - affectée par le nombre d’observations, mais non par la valeur de toutes les observations - insensible aux valeurs extrêmes - moins utile que la moyenne pour l’inférence statistique parce qu’elle ne se prête pas à des manipulations mathématiques La moyenne arithmétique (μ) Définition: La somme des observations divisée par le nombre d’observations. x N Formule: où x N = = = somme de … observation nombre de cas Un exemple 0, 0, 1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4 Moyenne = x N 28 13 = 2,15 = La moyenne arithmétique (μ) Caractéristiques: - très familière, couramment utilisée - influencée par toutes les observations - peut être biaisée par des valeurs extrêmes - propriétés mathématiques intéressantes et utiles pour l’inférence statistique Comparaison des mesures de tendance centrale Distribution parfaitement symétrique Mo = Md = μ Comparaison des mesures de tendance centrale Distribution asymétrique positive Mo < Md < μ Comparaison des mesures de tendance centrale Distribution asymétrique négative Mo > Md > μ Comparaison des mesures de tendance centrale Distribution bimodale Mode = mesure la plus représentative C) Mesures de variation Définition: Mesures de la représentativité de la valeur moyenne d’une série d’observations. Deux cas de figure 0, 0, 0, 0, 0, 0, 2, 4, 4, 4, 4, 4, 4 μ = 2 0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 4 μ = 2 Visualiser la variation L’écart-type (s) Définition: La racine carrée de la moyenne des carrés des écarts entre chaque observation et la moyenne. L’écart-type (s) Formule: racine carrée de où x m N = = = = (x - m)2 N somme de ... observation moyenne nombre de cas Un exemple x x-m x-m (x – m)2 (x - m)2 0 0 1 1 2 2 2 3 3 3 3 4 4 0-2,15 0-2,15 1-2,15 1-2,15 2-2,15 2-2,15 2-2,15 3-2,15 3-2,15 3-2,15 3-2,15 4-2,15 4-2,15 -2,15 -2,15 -1,15 -1,15 -0,15 -0,15 -0,15 0,85 0,85 0,85 0,85 1,85 1,85 4,62 4,62 1,32 1,32 0,02 0,02 0,02 0,72 0,72 0,72 0,72 3,42 3,42 = 21,66 (x - m)2 N = 21,66 = 1,67 13 Racine carrée de (x - m)2 N = ¯ 1,67 = 1,29 Deux cas de figure 0, 0, 0, 0, 0, 0, 2, 4, 4, 4, 4, 4, 4 Écart-type ( s) = 2 0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 4 Écart-type (s) = 0,82 L’écart-type (s) Caractéristiques: - fréquemment utilisé - tient compte de tous les écarts - assez sensible aux valeurs extrêmes - propriétés mathématiques utiles pour l’inférence statistique D) Mesures d’asymétrie Le coefficient d’asymétrie Définition: Un indicateur de l’existence, de la direction et du degré d’asymétrie d’une distribution. Formule: 3 (m - Md) s Un exemple: 3 (2,15-2) / 1,29 = 0,35 Le coefficient d’asymétrie si m = Md : symétrie, coeff. d’asym. = 0 si m Md : asymétrie, coeff. d’asym. 0 si m > Md : asymétrie positive, coefficient d’asymétrie > 0 si m < Md : asymétrie négative, coefficient d’asymétrie < 0 plus l’écart entre la moyenne et la médiane est grand, plus le coefficient d’asymétrie est grand Les trois dimensions On a seulement une image d’ensemble d’une distribution en considérant à la fois la tendance centrale, la variation et l’asymétrie. Comme l’histoire des trois aveugles et l’éléphant. Une application concrète Le cas des bulletins de vote rejetés au référendum de 1995 Un premier coup d’oeil Moyennes des bulletins rejetés dans les 125 circonscriptions du Québec selon le niveau d’appui du NON: NON 50 NON 50 1,68 % 1,99 % Interprétation: conspiration nationale pour voler le référendum Analyse univariée Toutes les circonscriptions Moyenne Médiane Écart-type 1,79 1,69 1,04 Analyse univariée 60 50 40 30 20 10 Sigma = 1,04 Moyenne = 1,79 N = 125,00 0 0 ,0 11 0 ,0 10 00 9, 00 8, 00 7, 00 6, 00 5, 00 4, 00 3, 00 2, 00 1, Bulletins rejetés Analyse univariée Toutes les circonscriptions Moyenne Médiane Écart-type 1,79 1,69 1,04 Sans deux cas déviants 1,67 1,69 0,41 Un deuxième coup d’oeil Moyennes des bulletins rejetés dans les 123 circonscriptions du Québec selon le niveau d’appui du NON: NON 50 NON 50 1,68 % 1,68 % Interprétation: 2 cas déviants, pas de conspiration nationale