INF L14 Initiation aux statistiques 2 – Concepts généraux Plan  Qu’est-ce que la statistique ?  Quelques éléments de terminologie.

Download Report

Transcript INF L14 Initiation aux statistiques 2 – Concepts généraux Plan  Qu’est-ce que la statistique ?  Quelques éléments de terminologie.

Slide 1

INF L14
Initiation aux statistiques
2 – Concepts généraux


Slide 2

Plan


Qu’est-ce que la statistique ?



Quelques éléments de terminologie


Slide 3

Première partie
Qu’est-ce que la statistique ?


Slide 4

Statistique



Latin status = « état »
Définition




Une étude statistique consiste à observer et à étudier une
particularité commune chez un groupe de personnes ou de choses.

Exemples





Les notes d’un groupe d’élèves
Le taux de mortalité par cancer des fumeurs
La fréquence des mots d’un texte
etc.


Slide 5

Deux domaines


Statistique descriptive
exploration des données
 mesures et indices
 représentations graphiques




Dans ce cours :
statistique
descriptive

Statistique inférentielle
tester des hypothèses
 faire des prédictions à
partir d’échantillons


Inférence. Opération par
laquelle on passe d'une vérité
à une autre vérité, jugée telle
en fonction de son lien avec la
première. (Petit Larousse)


Slide 6

Exemples (1)


Lorsque








je calcule la moyenne
d’une classe
je trace la courbe
d’évolution du chômage
en 2004

Lorsque




je fais de la statistique
descriptive


je me demande si l’effet
d’un médicament est réel
ou s’il est imputable au
hasard
j’essaie de prédire des
intentions de vote à partir
d’un échantillon de 1000
personnes

je fais de la statistique
inférentielle


Slide 7

Exemples (2)


Statistique descriptive




La longueur des phrases
dans le Petit Prince est de
9,8 mots.

On exclut l’effet
du hasard

Statistique inférentielle


La longueur des phrases
dans le Petit Prince est
significativement plus courte
que dans le journal Le
Monde (25 mots)


Slide 8

Exemples (3)


Statistique descriptive


Jésus est le mot (plein) le
plus fréquent dans chacun
des 4 évangiles

Marc

Matthieu

Luc

Jean

JÉSUS

JÉSUS

JÉSUS

JÉSUS

HOMME

FILS

FILS

PÈRE

DIEU

HOMME

DIEU

DIEU

DISCIPLES

DISCIPLES

HOMME

MONDE

FOULE

PÈRE

SEIGNEUR

VÉRITÉ


Slide 9

Question...


Statistique descriptive :


Le mot Jésus est-il plus fréquent
dans certains évangiles que dans
d’autres ?

Marc

Matthieu

Luc

Jean

180

198

216

261

Attention, avant de
conclure! les textes
n’ont pas la même
longueur...


Slide 10

Réponse...


Oui


les fréquences diffèrent
significativement

+
Jean
Marc

C’est-à-dire
différences pas
imputables au
hasard

Luc
Matthieu

-

Cohérent avec
les données
historiques


Slide 11

Réponse...


Oui


les fréquences diffèrent
significativement

+
Jean
Marc

C’est-à-dire
différences pas
imputables au
hasard

Luc
Matthieu

-

Cohérent avec
les données
historiques


Slide 12

Deuxième partie
Quelques éléments de terminologie


Slide 13

Terminologie


Rappel :


Une étude statistique consiste à observer et à étudier
une particularité commune chez un groupe de personnes ou
de choses.
population
individus
variable (ou
attribut,
caractère)


Slide 14

Population


Définition




On appelle population l’ensemble de tous les objets
que l’on étudie.

Exemples


Des personnes :




Un groupe d’élèves, un groupe de malade, la population
française

Mais aussi :


Les mots d’un texte, un ensemble de documents, etc.


Slide 15

Individus


Définition :




Les individus sont les éléments de la population étudiée.

Exemples :








chacune des personnes interrogées pour une enquête
chaque jour de l'année pour lequel on dispose de données
météorologiques
chaque mot d’un texte
chaque texte d’un corpus
etc.


Slide 16

Variables


Définition




On dit aussi




Une variable est une propriété commune aux
individus de la population que l'on souhaite étudier.
Attribut, caractère

Exemples
La taille de personnes, la couleur de leurs yeux, leur sexe
 Le nombre de lettres des mots, la durée des pauses dans
un discours, le genre d'un texte (roman, poésie, etc.)



Slide 17

Types de variables


Les variables étudiées peuvent être :


Qualitatives
sexe, profession
 genre des textes (roman, poésie, etc. ), catégories
grammaticales des mots (nom, verbe, etc.)




Quantitatives
taille, poids, âge, taux de cholestérol
 longueur, catégorie grammaticale des mots
 durée des pauses dans un discours



Slide 18

Modalités


Définition




Les modalités d'une variable qualitative sont les
différentes valeurs que celle-ci peut prendrei.

Exemple
variable situation familiale : célibataire, marié, veuf,
divorcé.
 variable sexe : homme, femme.
 variable prénom : Alice, Bernard, Charles, ...
(modalités très nombreuses!)



Slide 19

Variables quantitatives


Les variables quantitatives sont de deux types :


Discrètes = valeurs dénombrables (ex.: nombres entiers)


Exemples





nombre d'enfants par famille, nombre de pièces d'un appartement
nombre de mots d’un texte, nombre de lettres d’un mot

Continues = infinité de valeurs, aussi proches qu’on veut
(ex.: nombres réels)


Exemples




taille, poids, des personnes
durée des pauses d’un discours, fréquence fondamentale de la voix


Slide 20

Mesure ou dénombrement ?


On dénombre les individus dans telle ou telle
modalité d’une variable qualitative
65 personnes aux yeux bleus
 44 personnes aux yeux marron
 etc.




On mesure les variables quantitatives :


taille de l’individu X = 1,75 m


Slide 21

Termes à retenir










Statistique descriptive
Statistique inférentielle
Population
Individu
Variable
Variable qualitative
Variable quantitative
Modalité