STATS_AIF_Part1

Download Report

Transcript STATS_AIF_Part1

Statistique

Intervenant: Mr Morad Lemtaoui

Objectif

Connaître les grands aspects de la statistique ainsi que son utilité dans le domaine de la finance et de l’audit

Plan :

Statistique descriptive Lois de probabilités Pratique des sondages

Statistique

« C ’est un ensemble de méthodes permettant de décrire et d ’analyser, de façon quantifiée, des phénomènes repérés par des éléments nombreux, de même nature, susceptibles d ’être dénombrés et classés. »

QU’EST CE QUE LA STATISTIQUE DESCRIPTIVE?

La Statistique Descriptive est l'ensemble des méthodes et techniques permettant de

présenter, de décrire et de résumer des données numériques nombreuses et variées.

Sous quelle forme se présentent les données statistiques ?

Exemple 1 :

Pour étudier la répartition des terres agricoles d'une région, on peut faire l'inventaire des exploitations agricoles (soit n leur nombre), et noter pour chacune d'elle sa taille (en hectares).

L'ensemble des n exploitations s'appelle

la population

statistique étudiée; chacune

individu

des exploitations , ou une est un unité statistique. La taille (en ha) est (ou

la variable statistique

caractère) étudiée.

Le but de l'étude est de voir comment cette variable varie sur la population : les tailles des exploitations sont elles comparables ou très différentes, et dans quelle mesure ?

Le résultat de la mesure de la variable

"taille"

sur les individus

"exploitations"

est un ensemble de n nombres, appelé

série statistique brute

.

Sur la même population, on aurait pu s'intéresser à d'autres variables telles l'âge du chef d'exploitation, la culture dominante, etc.. On remarquera que le l'observation peut résultat de être exprimé sous forme littérale (blé, etc...) ou numérique.

On présente alors souvent les résultats sous forme d'un tableau

'individus x variables'.

N° Exploitation 1 2 3 4 5 6 .

.

630 Taille (ha) 50 50.5

35 62.1

20 10 .

.

56 Age du chef d'exploitation (années) 50 45 38 25 65 57 .

.

45 Culture dominante Nombre de personnes employées blé vigne orge 2 4 3 blé vigne vigne .

.

blé 6 2 1 1 .

.

combien d'individus ?

combien de variables ?

Exemple 2 :

Un contrôleur doit vérifier le bon fonctionnement d'une chaîne d'embouteillage.

On considère que le remplissage est correct si le contenu des bouteilles se situe entre 74 cl et 76 cl.

Il note exactement le contenu de 100 bouteilles testées (en cl) : 74.3 75.2 73 75 75.6 ....

Il s'agit d'une série statistique brute résultant de la mesure de la variable (ou caractère) ……..

sur les individus (ou unités statistiques)…..… ?

La population étudiée comporte ….. individus.

D'autre part, si on s'intéresse uniquement à l'aspect "correct" ou non du remplissage (c'est-à-dire au contenu compris entre 74 et 76 cl ou pas), on peut définir comme ci-dessous une variable "qualité". 1 2 3 4 5 ...

98 99 100 Contenu 74.3

75.2

73 75 75.6

...

76.1

74.2

72 Qualité Bonne Bonne Mauvaise Bonne Bonne ...

Mauvaise Le tableau de données brutes ci-dessus comporte : individus ? variables ?

Notons que la statistique descriptive traite

des propriétés des populations, plus que de celles d'individus particuliers

. Ainsi pour la population de 100 bouteilles, on s'intéressera à la proportion de bouteilles trop ou pas assez remplies, et non au fait que la 10ème bouteille testée était ou non bien remplie.

En résumé la statistique descriptive s'applique au cas où l'on dispose des valeurs prises par une ou plusieurs variables statistiques sur un ensemble d'individus, la population statistique.

Les différents aspects de la statistique descriptive

La

Statistique Descriptive

est l'ensemble des méthodes et techniques permettant de présenter, de décrire, de résumer, des données nombreuses et variées.

Il faut préciser d'abord quel est l'ensemble étudié, appelé population statistique, dont les éléments sont des individus ou unités statistiques.

Chaque individu est décrit par une ou plusieurs

variables

, ou

caractères statistiques

.

Chaque variable peut être, selon le cas

1.

Quantitative :

ses valeurs sont des nombres exprimant une quantité, sur lesquels les opérations arithmétiques (somme, etc...) ont un sens

.

La variable peut alors être

discrète ou continue

selon la nature de l'ensemble des valeurs qu'elle est susceptible de prendre (valeurs isolées ou intervalle).

Exemples

Taille

Chiffre d’affaire

Nombre d’enfants

2.

Qualitative : ses valeurs sont des modalités, ou catégories, exprimées sous forme littérale ou par un codage numérique.

Exemples de caractère qualitatif:

qualité d’une facture (correcte, erroné) culture dominante d'une exploitation Dans le cas particulier où il n'y a que deux modalités, on dit que la variable est dichotomique. ( Sexe (M ou F, 1 ou 0), qualité (bonne ou mauvaise), etc..)

Les variables seront ensuite analysées différemment selon leur nature (quantitative, qualitative, etc.), au moyen de

tableaux, graphiques, calcul de paramètres-clé

.

STATISTIQUE DESCRIPTIVE TABLEAUX ET GRAPHIQUES

A partir d'un tableau

individus x variables

, on fera dans un premier temps une

description unidimensionnelle

de chacune des variables, prise séparément.

Nom M. Faouzi M.Ali

Mme Afaf Melle Badia M. Said ….

Situation de famille Marié Veuf Mariée Célibataire Marié ….

0 0 1 ….

Nombre d’enfants 2 3 Age 30 45 27 32 39 ….

Salaire 12500 8700 13000 7500 5200 ….

Le nombre d'individus étant généralement grand, voire très grand,

une telle série brute est difficilement lisible et interprétable

. Il est indispensable de la

résumer

.

Pour cela, on commence par un

tri à plat

, décompte des modalités ou valeurs obtenues, qui nous servira de base à la construction de

tableaux

et de

graphiques

.

Le but est d'obtenir des résumés clairs et concis, mais en conservant l'essentiel de l'information contenue dans les données initiales, et en utilisant des techniques objectives ne donnant pas une image déformée de la réalité.

DEVELOPPEMENT I. Les tableaux

On a noté la situation familiale des 150 employés d'une entreprise.

Noms M.Azim

MFarid Mme Latifi Melle Fatiha M. Ahmed M. Salih M. Berrada Mme Réda Melle Fatiha M. Halim M. Chadi Mme Faouzi ...

Situation de famille Marié Veuf Mariée Célibataire Divorcé Marié Divorcé Divorcée Célibataire Marié Veuf Mariée ...

On ne s'intéresse pas à la situation personnelle de M. Azim ou de M. Farid, mais à la répartition du caractère "situation familiale" employés.

dans la population des 150 Pour cela il faut, pour chacune des modalités de la variable, déterminer l'effectif correspondant, c'est à-dire le nombre de personnes ayant cette modalité : il faut dénombrer le nombre de célibataires, le nombre de mariés, etc..

Cela peut se résumer par :

Modalités Marié Célibataire Veuf Divorcé Effectifs 80 30 20 20

On notera x 1 , x 2 , ..., x k les différentes modalités, et n 1 , n 2 , ... , n k les effectifs associés. Dans le tableau ci-dessus, x 1 = "marié", n 1 = k = La somme des effectifs vaut : La variable que nous venons de voir est…

On aurait pu tout aussi bien présenter les résultats sous la forme ci-dessus, par exemple.

Modalité Célibataire Marié Divorcé Veuf Effectif 30 80 20 20

Par contre, s'il s'agit d'une variable ordinale, les modalités sont toujours présentées dans l'ordre : x 1 < x 2 < .... < x k , comme dans l'exemple ci-dessous.

Modalités = tailles XS S M L XL XXL Effectifs = Nombre de personnes de cette taille 10 25 40 32 23 20

De même, pour une variable discrète, on notera x 1 , x 2 , ... , x k les valeurs rangées par ordre croissant, et n 1 , n 2 ... , n k les effectifs correspondants.

,

Noms M.Azim

MFarid Mme Latifi Melle Fatiha M. Ahmed M. Salih M. Berrada Mme Réda Melle Fatiha M. Halim M. Chadi Mme Faouzi M. Ali Melle Loubna M Fatih M. Said M. Radi Mme Faraj Nombre d'enfants 2 3 0 0 1 0 0 0 1 2 2 1 0 2 4 1 3 2

Ainsi, à partir de la série brute ci dessus, construisez le tableau : Nombre d'enfants x i 0 Effectifs n i 6

L'ensemble des couples { (x i , n i ), i = 1, ... , k } est une série statistique (ordonnée), ou distribution observée de la variable. La somme de tous les n i est-elle toujours égale à n, nombre des observations ? On notera ceci : effectif total

Pour ce qui est des variables continues, on peut faire de même.

Voyons l'exemple d'une série brute de 60 valeurs du CA mensuelle d’une entreprise (en 1000dh), et le tableau des effectifs obtenus.

L'inconvénient est que, comme on aura toujours un grand nombre de valeurs différentes, on obtiendra un grand nombre de petits effectifs, ne résumant finalement pas grande chose !

CA (1000dh) 159 1 60 161 162 163 164 165 166 167 168 Effectifs 1 0 0 0 2 3 3 0 5 6 CA (1000dh) 169 170 171 172 173 174 175 176 177 Total : Effectifs 7 7 9 6 5 2 1 2 1 60

Une variable continue ne prend pas des valeurs isolées, mais des valeurs appartenant à des intervalles. C'est pourquoi, au lieu de définir des effectifs par valeurs, on intervalles, définira des effectifs par appelés classes.

Afin de simplifier la présentation on peut, quitte à perdre un peu d'information, regrouper les effectifs proches, par exemple 175 d’ effectif 176 d’ effectif 1 2 177 d’ effectif 1 peut être remplacé par [ 175 ; 178 [ d’ effectif 4.

On découpera ainsi l'intervalle des valeurs en classes contiguës, de la forme : [ e 1 ; e 2 [ [ e k ; e k+1 [ [ e 2 ; e 3 [ [ e 3 ; e 4 [ ....

et on notera n 1 , n 2 , ... , n k associés.

les effectifs n i est le nombre d'individus appartenant à la classe [ e i ; e i+1 [.

Exemple 1

Classes de CA ( en 1000dh) [159 - 165 [ [165 - 168 [ [168 - 171 [ [171 - 174 [ [174 - 177 [ [177 - 179 [ Effectifs 6 8 20 20 5 1

Exemple 2

Classes de CA ( en 1000dh) moins de 160 [160 - 165 [ [165 - 170 [ [170 - 175 [ 175 et plus Effectifs 1 5 21 29 4

Le choix des classes

priori tout choix tel qu'on ait des classes contiguës recouvrant l'ensemble des valeurs est correct : est parfois délicat. A

chaque individu appartient à une classe et une seule

; mais il faut dans

la mesure du possible des classes d'amplitudes égales

, en nombre suffisant pour

ne pas schématiser trop grossièrement les données (par exemple ne pas limiter la «moins de série précédente à : 170000 dh» et «plus de 170000 dh» mais pas trop pour ne pas avoir un tableau interminable beaucoup de tout petits effectifs

.

avec

Quel que soit le type de variable on a finalement, pour toute modalité, valeur x i , ou classe [ e que i , e i+1 [, un effectif n i , tel Il est parfois utile, surtout pour faire des comparaisons entre plusieurs séries, de raisonner plutôt avec des effectifs relatifs(fréquences).

On appellera fréquence(relative) la valeur que l'on peut aussi exprimer en pourcentage par f i x 100, c'est le pourcentage d'individus pour lesquels la variable a pris la valeur x de la classe [ e i , e i+1 [. i , ou une valeur

Complétez le tableau : Modalités x i Célibataire Marié Divorcé Veuf Effectif total : Effectif n i 30 80 20 20 150 Fréquence f i 0.2

% 20 A quoi est égal ici le total de la colonne fréquence ? Et celui de la colonne "pourcentage" ? Il y a, parmi les 150 employés, …….% qui sont mariés.

Voyons un autre exemple : Pour étudier les appels téléphoniques arrivant à un central, on a noté, sur 96 jours comparables, le nombre d'appels reçus entre 9 h et 9 h 10. Les résultats sont consignés dans ce tableau :

Quelle est la proportion de jours où le nombre d'appels a été de 2 ?

Nombre d'appels x i 0 1 2 3 4 5 6 Total : Nombre de jours n i 2 14 23 24 18 9 6 96 Fréquences f i 0.0208

0.1458

0.2396

0.2500

0.1875

0.0938

0.0625

1 % f i  100 2.08

14.58

23.96

9.38

6.25

100 25.00

18.75

Combien y-a-t il eu de jours où le nombre d'appels a été inférieur ou égal à 2 ? Nombre d'appels x i 0 1 2 3 4 5 6 Total : Nombre de jours n i 2 14 23 24 18 9 6 96 Fréquences f i 0.0208

0.1458

0.2396

0.2500

0.1875

0.0938

0.0625

1 % f i  100 2.08

14.58

23.96

9.38

6.25

100 25.00

18.75

Quelle est la proportion de jours où le nombre d'appels a été supérieur ou égale à 3?

Nombre d'appels x i 0 1 2 3 4 5 6 Total : Nombre de jours n i 2 14 23 24 18 9 6 96 Fréquences f i 0.0208

0.1458

0.2396

0.2500

0.1875

0.0938

0.0625

1 % f i  100 2.08

14.58

23.96

9.38

6.25

100 25.00

18.75

Plus généralement, si { (x i , n i ), i = 1, ..., K } est la distribution observée d'une variable discrète, n 1 + n 2 + ... + n i = N i est le nombre d'individus pour lesquels la variable a été inférieure ou égale à x i.

.

On peut calculer N i de proche en proche : N 1 = n 1 , N 2 Les N i sont les

croissants.

= N 1 + n 2 , N 3 = N 2 + n 3 , etc ...

effectifs cumulés

De même n i + n i+1 + ... + n k = N' i est le nombre d'individus pour lesquels la variable a été supérieure ou égale à x i .

Il peut se calculer de proche en proche : N' k = n k , N' k-1 = n k + n k-1 , Les N' i sont les

décroissants.

effectifs cumulés

On peut définir de même : F i = f 1 + f 2 + ... + f i

croissantes

,

fréquences cumulées

obtenues de proche en proche par F i+1 = f i+1 + F i F' i = f i + f i+1 + ... + f k

décroissantes

,

fréquences cumulées

obtenues de proche en proche par F' i = F' i+1 + f i F i et F' i peuvent s'exprimer aussi en pourcentage (en multipliant tout par 100).

Complétez le tableau : Nombre d'appels 0 1 2 3 4 5 6 Fréquence en % 2.08

14.58

23.96

25.00

18.75

9.38

6.25

Fréquences cumulées croissantes 2.08

16.66

65.62

84.37

93.75

Fréquences cumulées décroissantes 97.92

83.34

59.38

15.63

6.25

Les définitions d'effectifs et de fréquences cumulés restent les mêmes dans le cas d'une variable continue.

II. Les graphiques

Pour visualiser une distribution statistique, il est généralement plus parlant d'utiliser un graphique, à la place ou en complément du tableau.

Variable Qualitative

Dans le cas d'une variable qualitative, les modalités ne peuvent pas être représentées sur un axe, selon une échelle donnée, car elles ne sont pas numériques.

On utilise surtout dans ce cas des diagrammes circulaires : chaque modalité est représentée par un secteur circulaire dont l'angle (et donc la surface) est proportionnel à son effectif.

Situation familiale Célibataire Marié Divorcé Veuf Total : Effectifs 30 80 20 20 150

Une représentation équivalente consiste à construire

un diagrammes en barres

: chaque rectangle a une

base constante

une hauteur proportionnelle à l'effectif n

i

ou à la fréquence f

i

.

et

CSP

Cadres Agents de maîtrise Employés

Ouvriers

ni

10 40 60

90

fi

0,05 0,2 0,3

0,45 40 30 20 10 0 90 80 70 60 50 cadres ouvriers employés ouvriers Série1

Variable Quantitative

Dans le cas d'une variable quantitative, les valeurs observées, numériques, seront toujours placées selon un axe, en suivant une échelle précise.

Cas des séries chronologiques

On représente directement les données brutes en ordonnée, l'échelle du temps étant placée en abscisse. Le temps étant continu, on relie par des segments de droite les points obtenus.

Cas d’une variable discrète

Après un tri à plat conduisant à la distribution observée, on représente celle ci par un diagramme en bâtons les x i sont placés suivant une échelle sur l'axe des abscisses, et les effectifs n i sont matérialisés par un "bâton" de longueur n i (axe des ordonnées).

Nombre d'enfants x i 0 1 2 3 4 Effectifs n i 6 4 5 2 1 18 Fréquences f i 0.33

0.22

0.28

0.11

0.06

1

Cas d'une variable continue

On a vu que si l'on compte les effectifs par valeur on risque souvent d'avoir un trop grand nombre de valeurs différentes, avec de trop faibles effectifs, et qu'il convient de regrouper les données en classes.

Variable quantitative

continue: représentée sous forme d'un histogramme :

Un histogramme est une surface composée d'une suite de rectangles adjacents dont la hauteur de chacun est proportionnelle à l'importance de chaque classe, avec éventuellement une correction des fréquences ou effectifs si les amplitudes des classes ne sont pas égales

Age (ans) 20 à 30 30 à 40 40 à 50 50 à 65 Nombre de personnes dans cette tranche d'âge 100 150 90 20

La correction des effectifs ou des fréquences se fait en trois étapes :

Première étape: calcul des amplitudes des classes ai. Deuxième étape: Choix d'une amplitude de base a (généralement l'amplitude la plus petite) et calcul du rapport amplitude de la classe sur l’amplitude de base (ai/a) Troisième étape : calcul des effectifs corrigés : ni'

= ni/(ai/a) ou fi'= fi/(ai/a)

Exemple : Considérons la distribution suivante :

xi

[0 - 10[ [10-20[ [20 - 30[ [30 - 50[ [50 - 70[ [70 - 80[

fi en %

10 15 35 30 8 2 20 2 4

La correction se fait de la manière suivante :

xi

[0 - 10[ [10 - 20[ [20 - 30[ [30 - 50[ [50 - 70[ [70 - 80[

Total

fi en %

10 15 35 30 8 2 100

ai

10 10 10 20 20 10 -

ai/a fi en % corrigée

1 1 1 2 2 1 10 15 35 15 4 2 -

L’histogramme se présente ainsi :

fi en % xi

PARAMETRES STATISTIQUES

Les paramètres statistiques ont pour but de résumer, à partir de quelques nombres clés, l'essentiel de l'information relative à l'observation d'une variable quantitative.

On définira plusieurs sortes de paramètres : Certains, comme la moyenne, seront dits de

tendance centrale

car ils représentent une valeur numérique autour de laquelle les observations sont réparties.

D'autres,

dispersion

plus ou par exemple, seront dits de car ils permettent de moins grand résumer le étalement des observations de part et d'autre de la tendance centrale.

I Paramètres de tendance centrale

La moyenne arithmétique

d'une série statistique (xi, ni) se calcule de la manière suivante : La moyenne s'exprime toujours dans la même unité que les observations xi . Elles peut être décimale, même si les xi sont entiers par nature.

Nombre d'appels x i 0 1 2 3 4 5 6 Total : Fréquences f i % f i x 100 0.0208

0.1458

0.2396

0.2500

0.1875

0.0938

0.0625

1 2.08

14.58

23.96

25.00

18.75

9.38

6.25

100 Ainsi la moyenne arithmétique du nombre d'appels reçus à un standard est : 2,97 appels

Plus généralement, lorsqu'on ne dispose que de la distribution regroupée en classes Classes de valeur [ e 1 e 2 [ Effectifs Centre de classe n 1 x 1 [ e 2 e 3 [ ...

[ e i e i+1 [ n 2 ...

n i x 2 ...

x i = e i + e i+1 / 2 ...

...

...

[ e K e K+1 [ Total : n K n x K

on calculera la moyenne par : x i étant le centre de classe.

Dans une entreprise de 100 salariés, le salaire moyen est égal à 8 400 Dh.

Supposons qu'une erreur se soit glissée lors de la transcription des salaires.

Monsieur Dahbi est crédité d'un salaire de 108 000 DH au lieu de 8 000 Dh.

De combien augmenterait la moyenne ?

La nouvelle moyenne est de : …….

Une seule valeur (sur 100) peut donc beaucoup modifier la moyenne.

La moyenne arithmétique est sensible aux valeurs extrêmes.

Remarque 1:

Pour plusieurs populations d'effectifs n1, n2, ....., nk, de moyennes respectives : moyenne globale = moyenne des moyennes

Comparons le salaire moyen dans 2 entreprises Entreprise A : 1/ 3 de femmes , salaire moyen 8000Dh 2/3 hommes, salaire moyen 11000 Dans l'entreprise A le salaire moyen est de : ….

Entreprise B : 2/ 3 de femmes , salaire moyen 9000Dh 1/3 hommes, salaire moyen 12000 Dans l'entreprise B le salaire moyen est de : ….

On constate donc que le salaire moyen de B est égal à celui de A. Pourtant le salaire moyen des hommes est supérieur en B à celui des hommes en A. Il en est de même pour les femmes.

D'où vient ce résultat paradoxal ?

Il s'agit d'un

effet de structure

: cela vient du fait que les femmes (au salaire plus bas) sont plus nombreuses en B qu'en A.

Cela montre aussi

caractère étudié qu'une moyenne ne résume pas bien une population hétérogène, comprenant des sous populations différentes vis à vis du

(ici le salaire).

La médiane : M

Si la série brute des valeurs observées est triée par ordre croissant : la médiane M est la valeur du milieu, telle qu'il y ait autant d'observations "au-dessous" que "au-dessus".

c'est à-dire que Si n est impair, soit n = 2 p + 1 , M = x (p+1) Si n est pair, soit n = 2 p, toute valeur de l'intervalle médian [ x (p) ; x (p+1) ] répond à la question.

Afin de définir M de façon unique, on choisit souvent soit le centre de l'intervalle médian.

Par exemple, la médiane de la série de tailles ci-contre est : M = (m) Aurait elle été différente si on avait noté par erreur la plus petite taille 0.55 m au lieu de 1.55 ? En est il de même pour la moyenne ?

* Cas d'une variable continue:

Pour des données groupées en classes, la classe médiane est la classe qui contient la médiane. On détermine la médiane par interpolation linéaire.

Salaire horaire

2-4 4-6 6-8 8-10 10-12

Total ni

5 8 12 10 8

43 ni cumulées croissantes

5 13 25 34 43 La médiane est la valeur de rang (43 + 1) / 2 c’est à dire 22, celle ci se trouve dans la classe 6-8, la classe 6 - 8 est donc la classe médiane.

De manière générale, si a et b sont les bornes de la classe contenant la médiane, F(a) et F(b) les valeurs de la fréquence cumulée croissante en a et b, alors

Dans le cas d'une variable groupée en classes, en peut calculer la médiane par la formule suivante :

Me

L

0 

ai

(

n

2 

N i

 1 )

ni

Lo : Limite inférieure de la classe médiane ai : Amplitude de la classe médiane n : Nombre total des observations Ni-1 effectif cumulé croissant de la classe inférieure à la classe médiane ni : effectif de la classe médiane

Le mode

C'est

la valeur dont la fréquence est la plus élevée.

Détermination du mode :

Cas d'une variable discrète

: Le mode est facilement repérable. Sur le tableau statistique, c'est la valeur xi pour laquelle la fréquence est la plus élevée

Cas d'une variable continue : les non égales.

données sont groupées en classes ; deux situations se présentent: les amplitudes sont égales ou 1/ Les amplitudes sont égales modale.

: on définit la classe modale comme la classe correspondant à la fréquence la plus élevée et en faisant l'hypothèse du centre de la classe, on retient comme valeur modale le centre de la classe 2/ Les amplitudes sont inégales : il faut corriger les effectifs ou les fréquences relatives de la même manière que pour la construction de l'histogramme. la détermination du mode se ramène alors au cas précédent.

Classes 0-5 5-10 10-50 50-100 Effectifs 3 10 20 1

Si la distribution présente 2 ou plus maxima relatifs, on dit qu'elle est bimodale ou plurimodale. Cela signifie que la population est hétérogène du point de vue de la variable observée.

La population est composée de plusieurs sous-populations ayant des caractéristiques de tendance centrale différentes.

Positions respectives du mode, de la médiane et de la moyenne pour une distribution unimodale.

Lorsque la distribution est symétrique les trois paramètres sont confondus.

Lorsque la distribution est asymétrique, la médiane est généralement située entre le mode et la moyenne et plus proche de cette dernière.

Paramètres de dispersion

Deux distributions peuvent, tout en ayant des caractéristiques de tendance centrale voisines, être très différentes.

Il est donc nécessaire de mesurer la dispersion des valeurs autour des tendances centrales.

L'Étendue : R

L'étendue (ou amplitude) d'une série statistique est la différence entre la valeur maximum et la valeur minimum de la série.

R = Maximum (X) - Minimum (X)

Facile à déterminer, l'étendue ne dépend que des 2 observations extrêmes qui sont parfois le fait de situations exceptionnelles.

Il est donc difficile de considérer l'étendue comme une mesure stable de la dispersion.

Ecart interquartile

Afin de diminuer l'influence des valeurs extrêmes on peut tenir compte de valeurs plus stables de la distribution.

intervalle interquartile [ Q 1 écart interquartile = Q 3 - Q 1 , Q 3 ] ou

Pour mesurer la dispersion de part et d'autre de la moyenne, il faut mesurer l'ordre de grandeur des x i A quoi est égal

La variance

est très utilisée, c'est moyenne des carrés des écarts à la moyenne.

  (

x

)  1 

ni

(

xi

x

n

s'exprime, contrairement à la variance, dans la même unité que les x i

Une variance (et donc un écart-type) est d'autant plus faible que les données sont groupées autour de car en moyenne les écarts sont plus faibles.

Si les données sont groupées, on a :

V

(

x

)  1

n

ni

(

xi

x

)² les x i étant les centres de classes dans le cas continu,

On calcule généralement l'écart-type en complément de la moyenne.

Pour les calculs, il est souvent plus commode, plutôt que de calculer

V

(

x

)  1

n

ni

(

xi

x

)² de calculer

V

(

x

)  1

n

nixi

² 

x

2

Calculons par exemple l'écart-type de la série "nombre d'enfants par famille" V(x) =  donc = enfants Nombre d'enfants x i 0 1 2 3 4 Total : Nombre de salariés n i 6 4 5 2 1 n = 18

Le coefficient de variation :

Le coefficient de variation est le rapport de l'écart-type par rapport à la moyenne.

Le coefficient de variation est indépendant des unités choisies, il est utile pour comparer des distributions qui ont des unités différentes.

La variance, l'écart-type et le coefficient de variation sont les paramètres de dispersion les plus utilisés. En particulier, le coefficient de variation permet de comparer la variabilité relative de plusieurs distributions qui diffèrent fortement par leur ordre de grandeur et éventuellement même par leur unité de mesure

Synthèse

En plus des tableaux et graphiques, on résume l'observation d'une variable quantitative par un petit nombre de paramètres.

III/ Description bivarié :

La statistique descriptive à deux dimensions a essentiellement pour but de caractériser les relations qui

existent entre deux séries d'observations considérées

simultanément. Ces observations peuvent être de nature qualitative ou quantitative, continue ou discontinue.

Exemple :

Afin d'étudier la répartition des terres agricoles d'une région, on a noté un certain nombre de renseignements sur chaque exploitation, notamment : sa taille (surface, en hectares), l'âge du chef d'exploitation, le type de culture pratiquée, le nombre de personnes employées à temps plein sur l'exploitation

Le résultat est présenté sous la forme du tableau ci dessous , individus  variables N° Exploitati on 1 2 3 4 5 6 ...

198 Taille (ha) Age du chef d'exploitation (années) 50 50.5

35 62.1

20 10 ...

56 50 45 38 25 65 57 ...

45 Culture dominante blé vigne orge blé vigne vigne ...

blé Nombre de personnes employées 1 1 ...

2 2 4 3 6

Nous pouvons maintenant décrire chacun des caractères, un par un : Taille Age Culture employés

Mais ceci ne nous permet pas de mettre en évidence les liens existant peut être

entre la taille et l'âge : les jeunes exploitants ont-ils des surfaces comparables, inférieures, supérieures à

celles de leurs aînés ?

De même, le type de culture pratiqué

est-il le même quelle que soit la surface

? Le nombre d'employés est-il fonction du type de culture, etc...

1.

Les tableaux statistiques : 1.1 série statistique double :

Nombre de visites de prospection xi

152 155 160 155 162 164

Nombre de commandes yi

26 27 28 28 29 30 Y-a-t-il une liaison entre les deux variables présentées?

Tableau de contingence :

Considérons simultanément selon deux caractères X et Y.

N individus décrits X possède k modalités : x1, x2, x3, ……., xi, …….xk

Y possède p modalités: y1, y2, y3,…….., yj,……..yp

yj xi x1 x2 . . . xi . . . xp n .j Y1 y2 y3…………….yj…………………yq n11 …………….n32 ……………………….....nij …………………………………………………npq n.1 n.2 n.3……….…n.j……………….n.q ni. n 1. n 2. . . . n i. . . . n p. n ..

Exemple de tableau de contingence :

Montant du CA mensuel xi

[

0 - 2000

[ [2 000 - 4 000[ [4 000 - 6 000[ [6 000 - 8 000[ [8 000 - 10 000[ [10 000 - 12 000[ [12 000 - 14 000[ [14 000 - 16 000[ [16 000 - 20 000[

Total 0 200 6 5 4 11 7 0 0 1 2 36 Montant des achats : yj 200 400 600 800 400 4 600 1 800 2 1200 0 3 8 78 8 2 3 4 0 4 9 55 82 6 14 23 3 2 1 5 56 47 49 12 6 0 3 5 21 35 22 6 0 110 197 180 92 1200 1500 0 0 0 4 11 15 9 5 3 47 Total 13 14 25 158 185 105 97 51 14 662

On appelle distribution marginale de X la distribution à une dimension des individus de la population qui présente une modalité de X quelque soit la modalité de Y. De façon analogue, on définit celle de Y.

3. Réduction des données :

Les paramètres utilisés pour caractériser les distributions à deux variables sont de deux types : Les paramètres qui concernent une seule variable, ils servent à caractériser les diverses distributions marginales.

- Les paramètres qui servent à décrire les relations qui existent entre les deux séries d'observations considérées simultanément.

a-

Moyennes et variances marginales :

x

 1

N

i xi y

 1

N i

yi V

(

x

) 

V

(

Y

)  1

N

1

N

i

(

xi

 

i

(

yi

x

y

Exemple :

Reprenons la série précédente :

Nombre de visites de prospection xi

152 155 160 155 162 164 948

x

 948  6 158

y

 168  6 28

Nombre de commandes yi

26 27 28 28 29 30 168

Nombre de visites de prospection xi

152 155 160 155 162

Nombre de commandes yi

26 27 28 28 29

(xi-x)²

36 9 4 9 16 164 948 30 168 36 110

V

(

x

)  1

N

i

(

xi

x

)²  110 6  18 .

33

V

(

y

)  1

N

i

(

yi

y

)²  10 6  1 .

67

(yi-y)²

4 1 0 0 1 4 10

Pour avoir une idée sur la variation simultanée de X et Y on peut utiliser la covariance : On appelle covariance de X et Y le nombre il est aussi égal à : cov(

x

,

y

)  1

n

xiyi

x y

Utilité de la covariance :

La covariance est positive si X et Y ont tendance à varier dans le même sens, et négative si elles ont tendance à varier en sens contraire.

Exemple :10 étudiants ont passé l'examen partiel et l'examen général et ont obtenu les notes suivantes :

Partiel ( X)

71 49 80 73 93 85 58 82 64 32

Général (Y)

83 62 76 77 89 74 48 78 76 51

X Y

5893 3038 6080 5621 8277 6290 2784 6396 4864 1632

Total 687 714

Cov (x , y) =(50875 / 10) – (687/10)x(714/10) = 182.32

50875

La covariance est positive, donc il y a une relation croissante entre X et Y. Autrement dit les deux variables varient dans le même sens.

La Corrélation linéaire :

Dans le cas où les points du nuage se situent tous sur une droite, on dit que la relation entre x et y représente une dépendance fonctionnelle linéaire .

Si les points du nuage de points ne sont pas tous alignés sur une même droite, on peut mesurer le degré de dépendance linéaire entre les deux variables X et Y .

Comment ?

Coefficient de corrélation linéaire :

Le coefficient de corrélation linéaire a pour objet de mesurer l'intensité de la liaison linéaire entre les deux variables X et Y :

r

  cov( (

x

,

x

)  (

y

)

y

) Cette définition montre que le coefficient de corrélation possédé le même signe que la covariance sa valeur est comprise entre -1 et 1.

Le signe du relation entre X et Y coefficient

:

de corrélation indique le sens de la

r > o veut dire que les deux variables X et Y varient dans le même sens. Si X est grande alors Y est grande, si X est petite alors Y est petite . On parle de corrélation positive.

Remarque :

Pour pouvoir parler de forte liaison entre x et y il faut que la valeur absolue de r atteigne au moins 0.87

Exemple :

reprenons la série suivante

Nombre de visites de prospection xi

152 155 160 155 162 164 948

Nombre de commandes yi

26 27 28 28 29 30 168 r = 0.93 donc x et y sont fortement corrélés, ainsi plus le nombre de visites augmente, plus le nombre de commandes augmente.

La corrélation, outil d’aide à la prévision :

L’intérêt d’une forte corrélation tient au fait que la connaissance de l’une des variables entraîne la connaissance de l’autre avec un faible risque d’erreur.

Dés lors, il convient de trouver la double relation mathématique qui existe entre les deux variables xi et yi : la relation de type yi=f(xi) décrit l’évolution de la variable y en fonction de xi et - la relation de type xi=f(yi) décrit l’évolution de la variable x en fonction de yi

Les droites de régression :

La méthode des moindres carrés est une méthode d’ajustement qui consiste à minimiser la somme des carrés des différence entre les valeurs observées, yi et les valeurs estimées, par l'équation de la droite de régression :

yi

axi

b a

 cov(

x

,

y

) V (

x

)

b

y

a x

Exemple : reprenons l’exemple précédent ou r=0.93

Nombre de visites de prospection xi

152 155 160 155 162 164 948

Nombre de commandes yi

26 27 28 28 29 30 168

(xi-x)²

36 9 4 9 16 36 110

(yi-y)² (xi-x)(yi y)

4 1 0 0 1 4 10 12 3 0 0 4 12 31

x

 150

y

 28

V

(

x

)  18 .

33

V

(

y

)  1 .

67 cov(

x

,

a

 cov(

x

,

y

)

V

(

x

)  5 18 .

.

17 33  0 .

28

y

)  31  6 5 .

17

b

y

a x

  16 .

24

On aura donc l’équation suivante : yi = 0.28xi – 16.24

Si on se donne comme objectif pour le mois prochain 170 visites (xi), quel sera le nombre de de commande prévisionnel (yi) approximatif: yi = 0.28 x 170 –16.24 = 31.36 soit approximativement 31 commandes

V/ Théories des probabilités :

La théorie des probabilités est la partie la plus abstraite de la statistique. Elle traite des phénomènes aléatoires et s’est développée dans des salles de jeu, ce qui explique le fait que la majorité des exemples retenus sont empruntés aux jeux de hasard.

La théorie des probabilités est l’intermédiaire entre la statistique descriptive qui traite des séries statistiques directement, et l’inférence statistique qui comprend les valeurs statistiques comme les indicateurs indirects de valeurs vraies mesurées par échantillonnage

I/ Éléments du calcul des probabilités Vocabulaire probabiliste: Expérience aléatoire:

Une expérience est dite aléatoire si : a O n ne peut prédire avec certitude son résultat b O n peut décrire l'ensemble de tous les résultats possibles.

Exemple : jet d'un dé ; lancer d'une pièce de monnaie, personne.

comportement d’achat d’une

Ensemble fondamental :

(appelé également univers des possibles, espace échantillonnal ou référentiel) représente l'ensemble des résultats possibles d'une expérience aléatoire ; il est noté  .

Exemple

fois, l’ensemble des résultats possibles sont  : Si on lance un dé une seul = {1, 2, 3, 4, 5, 6}.

Événement :

c'est un élément ou sous ensemble de  . On distingue l'événement élémentaire : obtenir 2 de l'événement composé, obtenir un nombre impair.

Définition classique d’une probabilité : Soit

un ensemble fondamental et A un événement quelconque de

: Nombre de cas favorables Card A

P(A) = =

Nombre de cas possibles Card

Exemple :

Soit une urne contenant 10 boules dont 2 blanches, 5 rouges et 3 bleu. On tire une boule au hasard. Quelle est la probabilité qu'elle soit de couleur blanche ?

Soit A l'événement : « obtenir une boule blanche » P(A) = 2/10 =1/5

Définition fréquentielle Soit  un ensemble fondamental et A un événement quelconque de 

P

  

n

lim  

f n

.   avec n : nombre de fois que l’expérience se répète et

f n

   

n

: fréquence de la réalisation de l’événement A au cours des n répétitions.

Exemple :

Un professeur de statistique a enseigné à 12848 personnes, parmi celles-ci 542 ont échoué La probabilité d’échouer est 542/12848=0.0422

Les règles de calcul des probabilités :

La probabilité de réalisation d’un événement impossible est égale à 0.

La probabilité de réalisation d’un événement certain est égale à 1.

Si A et B sont deux événements incompatibles, alors la probabilité de la réalisation simultanée des deux événements est la somme des probabilité : P (A  B) = P(A) + P(B).

La probabilité de l’événement contraire de A est 1-P(A)

Remarque :

Si A et b ne sont pas deux événements compatible, alors : P(A  

Exemple :

On jette un dé une seule fois, soient les deux événements suivants : A : obtenir un chiffre pair B : obtenir un chiffre inférieur à 3 Calculer p(A /B) ?

P(A) = 3/6 P(B) = 3/6

P(A

B) = 1/6 P( A/B) = (1/6) / (3/6) = 1/3

Si A est dépendant de B, cela signifie que si B s'est produit, la probabilité que A se produise n'est pas la même que si B ne l'est pas.

En retenant les données de l’exemple précédent, on peut dire que A et B sont deux événements dépendants car : p(A)  p(A/B)

Remarque :

La notion d’indépendance peut être étendu à plus de deux événements Il ne faut pas confondre indépendance et incompatibilité

II/ Notion de variable aléatoire :

Une variable aléatoire est une grandeur numérique attaché au résultat est associé à une probabilité d’apparition.

d’une expérience aléatoire. Chacune de ses valeurs

Exemple 1

: On jette une pièce de monnaie deux fois et on s’intéresse au nombre de fois que pile apparaît au cours des deux jets.

On à quatre résultats possibles : PP, PF, FP, FF Le nombre de fois que Pile peut apparaître est 0, 1 ou 2.

La variable aléatoire retenue peut donc prendre ces trois valeurs, son ensemble de définition est donc : {0, 1, 2}

Exemple 2:

Soit une agence immobilière qui désire se lancer dans la location à la journée de studios meublés.

Elle étudie la demande journalière possible x de location durant les mois de juillet et août. Elle obtient les résultats suivants : xi P (xi) 0 1 2 3 4 5 0.05 0.01 0.2 0.3 0.25 0.1

Une VA peut être discrète ou continue :

Une VA est dite discrète si l'ensemble des valeurs qu'elle est susceptible de prendre est fini ou infini dénombrable.

Une VA est dite continue si elle peut prendre toute valeur à l'intérieur d'un intervalle donné.

Les caractéristiques d’une variable aléatoires discrètes

pi).

:

a-Loi de probabilité : On appelle loi de probabilité de X l'ensemble des couples (xi,

b-Fonction de répartition :

par : F: IR -->[0,1] On, appelle fonction de répartition, la fonction F définie

x

-->

F(x) = P(X

x)

c-Espérance mathématique:

espérance mathématique de X et on note E(X) la moyenne des valeurs possibles pondérées par leurs probabilités : E(X) =  xi.pi.

On appelle

d- Variance et écart type :

On appelle variance de la VA X le nombre réel défini par :

V(X) = E[X - E(X)]² = E(X²)-E(X)²

On appelle écart type, la racine carrée de la variance

Exemple :

Soit une agence immobilière qui désire se lancer dans la location à la journée de studios meublés.

Elle étudie la demande journalière possible x de location durant les mois de juillet et août. Elle obtient les résultats suivants : xi 0 1 2 3 4 5 P (xi) 0.05 0.01 0.2 0.3 0.25 0.1

Déterminer la fonction de répartition, l’espérance et la variance de cette variable aléatoire.

Les caractéristiques d’une variable aléatoires continue

Fonction de densité de probabilité : On

appelle fonction de densité de probabilité toute fonction satisfaisant aux 2 conditions suivantes : 

x

IR

,

f

(

x

)  0    

f

(

x

)

dx

 1 Fonction de répartition : Soit X une VA continue et f sa densité de probabilité. La fonction de répartition de X est la fonction F telle que : F : IR [0,1] X

P

(

X

x

)   

x

f

(

x

)

dx

E

(

x

)     

xf

(

x

)

dx V

(

x

)      (

x

E

(

x

))²

f

(

x

)

dx

    

x

²

f

(

x

)

dx

 (    

xf

(

x

)

dx

III/ Lois de probabilité :

Il existe de nombreuses lois de probabilités, chacune s'appliquant dans des conditions bien particulières.

Loi de BERNOULLI La variable de BERNOULLI est une variable qui prend les valeurs 0 et 1 avec les probabilités respectives q et p (p + q =1). La valeur 1 est associé à la réalisation de l’événement considéré ‘succès’ et la valeur 0 à sa non réalisation ‘échec

p

p

p

2 

p

 1 

p

 

p

.

q

V

p

.

q

Loi BINOMIALE

Une variable aléatoire est dite binomiale si elle représente le nombre de succès obtenus dans une expérience de n épreuves où la probabilité de succès reste constante. La fonction de probabilité d’une telle fonction est donnée par :

P

X

k

 

C k n p k q n

k

On note

X

   

La variable binomiale est entièrement spécifiée par la connaissance de n et p.

La variable de BERNOULLI est un cas particulier de la variable binomiale : n=1.

Conditions d’application de la variable binomiale :

1 ère

condition : L’expérience consiste en une suite d’épreuves se soldant à chaque fois soit par un succès soit par un échec.

2 ème

condition : Les épreuves se répètent de manière identique et dans les mêmes conditions.

3 ème

condition : La probabilité de succès reste constante tout au long des n épreuves.

Caractéristiques de la variable binomiale Soit

X

    . X peut-être décrite comme une somme de n variables de BERNOULLI indépendantes :

X

E

  

X

1   

E p X

2 

X

1

p

,  ....

  

X n X

....

2  ,  ....

p

 

V

 

V p

.

q

X

1 

p

.

q X

 

n

.

X p n

 2 ,  ....

........

 

X p

.

q n

    

n

.

E p

.

X

 

X q

1 1    

n

.

V E p

2   2   

n

.

.......

 .......

p

.

q V E

Approximation de la loi binomiale : 1er cas :lorsque n est élevé et p n’est ni proche de 1 ni de 0, la loi binomiale est approché par la loi normale 2ème cas :Lorsque n est élevé et p est faible (p<0.1) la loi binomiale est approché par la loi de poisson

Exemple :

L’agence immobilière dispose d’un parc de 5 studios. La probabilité de louer chacun d’eux au mois de juin est de 0.6. L’agence désire étudier la probabilité de location de ce parc.

1- Quelle est la loi de probabilité suivie par cette variable aléatoire ? Quels en sont les paramètres ?

2- Calculer la probabilité de louer 0, 1, 2 studios?

Exemple 2:

Dans une population, la proportion d’individu qui ont l’intention de ne pas voter lors des prochaines élections législatives est de 15%. Calculer la probabilité pour que 25% des individus d’un échantillon d’effectif 16 s’abstiennent?

La loi de POISSON

La distribution de probabilité d’une V.A. X est dite distribution de POISSON si elle est définie par les couples (xi , pi) où x prend les valeurs 0, 1, 2, …… avec les probabilités respectives données par :

P

est (

X

un 

x

) 

e

 paramètre  

x x

!

réel positif.

Notation : X  Po (  )

Caractéristiques

E

(

X

)  

V

(

X

)   .

Conditions d’application de la loi de Poisson : Soit une approximation de la loi binomiale

: lorsque n est élevé et p très faible (proche de 0). Généralement l'approximation est valable dés que n > 50 et p < 0.1

X --> B(n;p) --> Po(

= n.p) Soit une résultante d’un processus aléatoire particulier , le processus de Poisson

La loi de POISSON s'applique en particulier dans le cas d'événements se réalisant de façon aléatoire dans le temps ou l'espace (pannes de machines, arrivées de clients à un comptoir, appels téléphoniques sur une ligne ……) événement donné vérifie les conditions suivantes : Le nombre moyen de fois qu'un événement se réalise dans un intervalle de temps ou dans un espace est connu  , La probabilité que cet événement se produise dans un intervalle de temps est proportionnelle à la longueur de cet intervalle et ne dépend en aucun cas du nombre d'événements qui se sont produits antérieurement, La probabilité que l'événement se produise plus d'une fois dans un intervalle de temps très court est négligeable alors le nombre X d'événements réalisés au cours d'une période de temps t est une variable de POISSON ayant pour paramètre  = p.t.

. Si la réalisation d'un

Exemple 1:

L’arrivé des clients à un supermarché est considérée comme un processus de POISSON. On sait que le nombre moyen de clients arrivant par minute au supermarché est égale à 2.

Calculer la probabilité pour que pendant une période particulière de 5 minutes il arrive 12 clients.

Exemple 2:

Une entreprise utilise des pots de peinture dont 0.2% sont défectueux.

Quelle est la probabilité que sur les 1000 pots qu’il utilise , il en trouve un défectueux?

La loi normale

On parle de loi normale ou de loi de LAPLACE – GAUSS, lorsque l’on a affaire à une variable aléatoire continue dépendant d’un grand nombre de causes indépendantes, dont les effets s’additionnent et dont aucune n’est prépondérante.

Exemple

: une caractéristique de qualité, La durée d’un trajet, les fluctuations accidentelles d’une grandeur ..

f(x) m  m m+  x

Définition :

Une V.A continue X est dite distribuée selon une loi normale si sa densité de probabilité est :

f

(

x

)   1 2  exp[  1 2 (

x

 

m

)²] La loi normale dépend de deux paramètres m et  . On note :

X N(m;

).

Fonction de répartition

La fonction de répartition d'une variable normale est donnée par l'expression :  (

x

) 

p

(

X

x

)  

x

 

f

(

x

)

dx

  1 2  

x

  exp[  1 2 (

x

 

m

)²]

dx

Caractéristiques :

E(X) = m V(X) =

²

Propriétés :

Le graphique de la fonction de densité de probabilité de la Loi normale est une courbe en cloche symétrique par rapport au point d'abscisse x= m .

La droite verticale x=m divise l'aire comprise entre la courbe et l'axe des abscisses en deux parties égales P(X< m La grande partie des observations se situe dans l'intervalle [m-3 ) = 0,5 et P(X>  ; m+3  ] m ) = 0,5

f(x) m-3  m-2  m  m m+  m+2  68% 95% m+3  99% x

Intervalles remarquables : P[m-2/3

< X

]

50% ; P[m -

< X

]

68% P[m - 2

< X < m + 2

]

95%; P[m - 3

< X < m + 3

]

99,74%

Calcul des probabilités

Pour une VA continue, on s'intéresse surtout à une probabilité d'intervalle. La fonction de densité étant compliquée, des tables ont été prévues pour faciliter ce calcul. Toutefois, étant donnée qu'il existe une infinité de lois normales distinctes par leurs paramètres, une seule variable normale est tabulée et sert de référence pour les autres : il s'agit de la loi normale centrée réduite.

Le passage de la loi normale à la loi normale centrée réduite s'effectue à l'aide du changement de variable suivant :

z

X

 

m

La loi normale centrée réduite à pour paramètre : m =0 et

= 1

Propriétés :

Le graphique de la fonction de densité de probabilité de la LNCR est une courbe en cloche symétrique par rapport au point d'abscisse z= 0 La droite verticale z= 0 divise l'aire comprise entre la courbe et l'axe des abscisses en deux parties égales P(Z<0) = 0,5 et P(Z>0) = 0,5.

La grande partie des observations se situe dans l'intervalle -3 ;3.

Intervalles remarquables

P[-2/3

50% ; P[- 1 < Z < +1]

68% P[- 2 < Z < +2]

95%;

P[- 3 < Z < +3]

99,74%

Utilisation de la table N(O; 1)

Cette table nous donne les probabilités de trouver une valeur inférieur à z

Exemple : X suit une loi normale N(345; 167) On souhaite connaître la probabilité pour que X soit inférieur à 500.

On effectue le changement de variable:

Z

X

 

x

X

 345 167 On cherche p(X < 500)= p(X < 500)=

p

(

Z

 500  345 ) 167 

p

(

Z

 0 .

93 )   ( 0 .

93 )  0 .

8238

Remarque :

la table ne donne que les valeurs p(Z ≤ z) . Il se peut que l'on cherche p(Z ≥z). Il faut utiliser alors les deux 1; propriétés suivantes: - la surface totale de la courbe est égale à - la courbe est symétrique par rapport à l'axe des ordonnées.

Exemple :

Le poids moyen de 500 colis est de 141kg et l’écart type est de 15kg, en supposant que ces poids sont normalement distribués, calculer le nombre de colis pesant : Entre 120 et 155kg Plus de 185 kg

Intervalle de confiance :

Dans le paragraphe précédent on a cherché à calculer la probabilité que les valeurs de la variable soient comprises dans un intervalle donné.

la notion d'intervalle de confiance procède de la logique inverse: on se fixe la

Probabilité

et on détermine les bornes de l’intervalle.

Quelles sont les bornes de l'intervalle dans lequel X a une probabilité de 95 %de se situer ?

On peut écrire: p(- k < X < + k) = 0,95

P(-k

P(-zz) = P(Z

Dans la table, pour la valeur de la probabilité 0,975, on trouve z = 1,96. Il y a 95 de chances pour que la variable centrée réduite Z soit comprise entre (- 1,96) et (+ 1,96).

Déterminons l'intervalle pour la variable aléatoire X.

On sait que : D'où

X Z

 

x

Z

X

 

x

donc

Z

X

x

Si on multiplie chaque membre des inégalités dans l'expression p(-z

Si on ajoute à chaque membre, on trouve:

p (

x

- z

< x+Z

<

x

+ z

).

L'intervalle dans lequel X a 95 % de chances de se 

x

z

 trouver est : ,

x

z

 

Loi de KHI-DEUX Définition Soit

X

1 ,

X

2 ,......,

X v

v variables aléatoires indépendantes telles que : 

i

  1 , 2 , 3 ,.....,

v

X i

    .

Si

X

X

1 2  alors, X est une V.A continue soumise à

X

2 2 une loi de  2 à v degrés de liberté   2  .....

X v

2 

i v

 1    2 Caractéristiques

E

  

v

V    2 .

v

Introduction au test d’indépendance du

-Calculer les effectifs théoriques (en cas d’indépendance) -Comparer la valeur calculé avec une valeur observée sur la table de la loi du KHI-deux

Exemple :

On a interrogé des habitants de Casablanca, de Rabat et Marrakech sur l’appréciation de 4 stations de radio. Le croisement de ces deux variables donne le tableau de contingence suivant : Radio 1 Radio 2 Radio 3 Radio 4 n.j

casa 18 12 32 15 77 rabat 18 15 20 12 65 Marrak 11 18 23 6 58 ni.

47 45 75 32 200

Etape 1 : Calcul du tableau théorique

Considérons les marges qui correspondent aux distributions des variables VILLE (77, 65, 58) et RADIO (47, 45, 75, 33).

Si ces deux variables étaient indépendantes, la distribution des valeurs du tableau serait répartie de manière “équilibrée” en ligne et en colonne. La valeur théorique de chaque case s’obtient en multipliant le total ligne par le total colonne puis en le divisant par le total général.

Ainsi, la 1ère case devrait contenir la valeur (47x77)/200, soit 18,1. Le tableau théorique est donc le suivant

Radio 1 Radio 2 Radio 3 Radio 4 n.j

casa 18.1

17.3

28.9

12.7

77 rabat 15.3

14.6

24.4

10.7

65 Marrak 16.3

13.1

21.8

21.8

58 ni.

47 45 75 32 200

Etape 2 : Calcul de la valeur du Khi2

Pour évaluer l’écart entre ce tableau et le tableau précédent, on calcule, pour chaque case : En additionnant ces valeurs, on obtient 7,6 : (0,0+0,5+0,5+1,6+0,0+1,9+0,3+0,8+0,1+ 0,4+0,2+1,3) = 7,6

Étape 3: Comparer la valeur calculé avec une valeur observée sur la table de la loi du KHI deux Pour interpréter cette valeur, on se réfère à la table du Khi2 qui présente les valeurs (cases de la table) ayant une probabilité donnée d’être dépassées (en colonne), selon différents degrés de liberté (en ligne).

La probabilité est notre seuil ou marge d’erreur que nous nous fixons (en général 5%).

Le nombre de degré de liberté (noté ddl) correspond à : ddl = (Nombre de lignes - 1) x (Nombre de colonnes - 1) Dans notre exemple, on a ddl = (4-1) x (3-1), soit 6.

En regardant la case qui correspond à la colonne 0,05 et à la ligne 6, on trouve la valeur 12,59. Autrement dit, il y aurait, pour notre tableau 5% de chances que le Khi2 dépasse cette valeur (et 95% de chances qu’il soit inférieur).

Étant donné que le Khi2 calculé est inférieur à cette valeur, nous retenons l’hypothèse de l’indépendance de ces deux variables

Loi de Student

Elle intervient en estimation, notamment l’estimation de la moyenne quand la variance de la population mère est inconnue.

Définition

Soit

X

    et

Y

 

v

2 2 V.A indépedant es.

Si

T

X Y

alors,

v

T est une variable soumise à une loi de Student à v degré de libeté.

On note T  T v .

Caractéristiques :

E

 0

V

v v

 2 si

v

 2 .