Séries chronologiques et prévision

Download Report

Transcript Séries chronologiques et prévision

Séries chronologiques et prévision

L3 Gestion

Séries chronologiques et prévisions

Introduction Objectif : maniement simple de quelques techniques statistiques (Statistiques descriptives, indices, séries chronologique, moindres carrés ordinaires).

De quelle façon : Sans démonstration et beaucoup d’intuition

Séries chronologiques et prévisions

Plan prévisionnel (15 heures) : Chapitre 1 : Statistiques descriptives Chapitre 2 : Taux de croissance et indices Chapitre 3 : Les moindres carrés ordinaires (mco) Chapitre 4 : Les séries chronologiques - Composantes, - Dessaisonalisation, - Estimation du trend par moyennes mobiles et par les mco - Estimation des coefficients saisonniers Prévisions par lissage exponentiel

Chapitre 1 : Statistiques descriptives

On distingue deux types de statistiques résumées : Les statistiques qui résument la tendance « centrale » d’une série ( mode, moyenne et médiane) et les statistiques qui résument la dispersion d’une série : 1.

2.

Sans référence à aucune statistique de tendance centrale (intervalle interquartile ou interdécile), Qui fait référence à la tendance centrale (variance, écart-type et coefficient de variation).

Statistiques descriptives

Il existe aussi des statistiques qui résument la « forme » d’une distribution, mais celles ci ne sont plus trop utilisées aujourd’hui dans la mesure où il est plus facile d’observer directement le graphique d’une distribution pour en apprécier la forme.

Statistiques descriptives

1. Les statistiques de tendance centrale A – Le mode

1) Le mode d'une série est la valeur la plus fréquente d'une série. Exemple : Soit la série {8,4,4,3,4,3,8,7,5} La valeur la plus fréquente de cette série est 4. Le mode est donc égal à 4. L'effectif associé à ce mode est 3.

Statistiques descriptives

Quelques remarques à propos du mode

a) Une série peut avoir plusieurs modes

S = {4, 0, 1, 1,

7, 7, 7

, 3, 3, 4,

7

, 3, 4, 5,

7

, 1, 3, 3, 4, 5}, Cette série a 2 modes, elle est

bimodale

. Ses deux modes sont : 7 et 3. L'effectif associé à chacun de ces modes est 5. Il existe également des séries multimodales.

b) Le mode n’existe pas forcément

C'est le cas lorsque toutes les valeurs ont le même effectif. Exemple : S = {4, 0, 1, 2, 5, 6}

Statistiques descriptives

c) Le mode n’est pas la valeur la plus élevée.

la série.

avoir un mode de valeurs que dans le cas d’une série de modalités : plus souvent. Il ne faut pas confondre le mode, qui est la valeur la plus fréquente, avec la valeur la plus élevée de d) Les caractères quantitatifs et qualitatifs peuvent Le mode existe aussi bien dans le cas d’une série la série {A,C,C,D,A,A,C,E,E,B,C} a la modalité C pour mode car c’est la modalité C qui revient le

Chapitre 1

B – La moyenne arithmétique

Soit un échantillon de

n

valeurs observées

x

1,

x

7, ….,

xi

,….,

xn

d’un caractère quantitatif définit sa moyenne observée comme la moyenne arithmétique des

n x X

, on

x

 1

n i n

  1

x i

Exemple avec S= {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}

Statistiques descriptives

Une des propriétés de la moyenne arithmétique est que la somme des écarts à la moyenne est nulle :

i n

  1

(

xi

x

) = 0

Statistiques descriptives

Si les données observées

xi

sont regroupées en

k

classes d’effectifs

ni

(variable continue regroupée ou variable discrète), il faut les pondérer par les effectifs correspondants :

x

1

n i k

  1

n i x i

Avec

n

i k

  1

n i

Statistiques descriptives

Exemple précédent regroupé :

Statistiques descriptives

Remarque :

La moyenne obtenue après regroupement des données en classe peut différer légèrement en raison d’une perte d’information. Exemple : supposons que les données précédentes soient regroupées en classe de la façon suivante :

Statistiques descriptives

Pour calculer la moyenne, nous devons déterminer les centres de classe et appliquer la

n i k

  1

n i x i

de classe (nommés Ci) : La différence ici est de 0.5 et cette différence dépend de la définition des classes : amplitude et nombres de classes.

Statistiques descriptives

Décomposition de moyenne : Soit une population totale de

n

individus, composée de

k

groupes. Les groupes sont désignés par des lettres. La population totale est égale à la somme des populations des groupes : Notons la moyenne de la variable X du groupe m :

Statistiques descriptives

La moyenne globale se calcule ainsi Ou encore

Statistiques descriptives

La formule s’écrit en définitive : Exemple : A 12 15 14 13 B 9 11 8 15 5 C 10 12 D 5 12 15 16 18 9 moyenne de chaque groupe effectif de chaque groupe coefficient de pondération moyenne x coefficient 13,5 4 0,23529412 3,17647059 9,6 5 0,29411765 2,82352941 11 2 0,11764706 1,29411765 13,2 6 0,35294118 4,65882353

17 1 11,9529412

Statistiques descriptives

Les effets de structure : les moyennes de chaque classe possèdent des pondérations très différentes secteurs régions R1 R2 Total Emploi 5 S1 15

20

VA 400 1700

2100

S2 Emploi 60 VA 13000 10

70

3800

16800

Emploi 5 S3 total VA 450 Emploi

70

10

15

1200

1650 35 105

VA

13850 6700 20550

secteurs régions R1 R2

Total

Prod S1 80 113

105

Prod S2 217 380

240

Prod S3 90 120

110

total

198 191 196

Statistiques descriptives Deux autres moyennes : Moyenne géométrique

Avec les notations précédentes :

G

n x

1

n

1  ...

x n n p

est la moyenne géométrique de la série

Statistiques descriptives Exemple

L’essence a augmenté de 10% l’an dernier et de 30% cette année. Quelle est le taux d’augmentation annuelle ?

Ce n’est pas 20% ! La moyenne arithmétique ne convient pas. Si t est ce taux, on a bien s ûr : et donc t =0,196=19,6%.

1 

t

 1,1  1,3 La « bonne » moyenne est ici la moyenne géométrique.



Statistiques descriptives Moyenne harmonique

Toujours avec les notations précédentes :

H

 

i n i n

/

x i

est la moyenne harmonique de la série

Statistiques descriptives Exemple

Si je fais un trajet aller-retour avec une vitesse v 1 l’aller et une vitesse v 2 au retour, quelle est ma vitesse moyenne sur l’ensemble du trajet ?

à La réponse n’est pas 2 1 1 Mais

v

1 

v

1  2

v

2 qui est la moyenne harmonique de v 1

v

2  et v 2 .



Statistiques descriptives

C – La médiane

Définition Si F désigne la fonction des fréquences cumulées, la médiane d’une série statistique sera la plus petite valeur x telle que F(x) ≥ 0,5. Autrement dit : La

médiane

est la valeur du caractère pour laquelle la

fréquence cumulée

est égale à 0,5 ou 50 %. Interprétation :Elle correspond donc au centre de la série statistique classée par ordre croissant, ou à la valeur pour laquelle 50 % des valeurs observées sont supérieures et 50 % sont inférieures.

Statistiques descriptives Avantages

 Contrairement à la moyenne, la médiane n’est pas sensible aux valeurs extr êmes.

 dans une entreprise où les 10 salariés gagnent chacun 1500 € par mois et le patron 7000€ par mois, le salaire médian mensuel est de 1500€.

 La médiane a une signification concrète.

Statistiques descriptives

Détermination pratique : caractère discret  Si l’effectif total n est impair, sera le k+1 ème 1)/2=1 : k+1 ème

i.e.

n = 2k + 1, la médiane terme de la série. La médiane est la valeur du milieu. EX : 17, 15, 18. n= 3, k=(n-1)/2=(3 terme est donc le deuxième => M=15.

 Si n est pair,

i.e.

n = 2k, la médiane sera le k ème la série. EX : 17, 15, 16, 18 =>M=15. terme de Mais, si

n

est

pair, une

médiane est aussi une valeur quelconque entre le k ème entre 15 et 16). Dans ce cas il peut être commode de prendre le milieu (15,5).

et k+1 ème terme de la série (M

Statistiques descriptives

On peut déterminer la médiane graphiquement

médiane : détermination graphique

100 90 80 70 60 50 40 30 20 10 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Statistiques descriptives Détermination de la médiane : caractère continu

On commence par déterminer la classe médiane,

i.e.

la première classe où la fréquence cumulée dépasse 0,5.

 Ensuite, on calcule la médiane par interpolation linéaire.

Statistiques descriptives

Interpolation linéaire (Théorème de Thales) ABC est un triangle. M se trouve sur le segment [AB] et N sur le segment [AC]. D'après le théorème de Thalès, si les droites (BC) et (MN) sont parallèles, alors on a l'égalité :

Statistiques descriptives

Le théorème de Thalès permet de

calculer des longueurs.

Pour calculer une longueur dans la configuration représentée ci-dessus, il suffit de connaître trois des longueurs figurant dans deux des rapports.

N C

Statistiques descriptives

Classes

x i

0 .

5 

F

(

x i

) 

x j

F

(

x j

) 

x i F

(

x i

) Dans le cas de valeurs groupées, on pose l'hypothèse selon laquelle les valeurs sont uniformément réparties à l'intérieur de chaque classe.

Moins de 25 ans 25 ≤X <30 30 ≤X < 35 35 ≤X <40

 35 0 .

5  0 , 48  40  35 0 , 76  0 , 48 40 ≤X < 45 45 ≤X < 50 Effectif 18 54 72 84 36 22 =

35,36

50 ans et plus 14 Fréquences cumulées croissantes 0,06 0,24 0,48 0,76 0,88 0,95 1

Statistiques descriptives

Statistiques descriptives

2. a)

x

 120 15  10  170  120 20  10 

x

 50  5 10  120  145 2. b) 150  120

x

 10  170  120 20  10  30  50 10 

x

 10  

x

 ( 50  30 ) 5  16

Résumé des caractéristiques des indicateurs

Moyenne arithmétique Médiane Mode

Avantages

Facile à calculer, Répond au principe des moindres carrés Pas sensible aux points ab, Peu sensible aux variations d’amplitude des classes, Calculable sur des caractères cycliques (saison, etc.) où la moyenne a peu de signification.

Se prête mal aux calculs statistiques, Suppose l’équi-répartition des données, Ne représente que la valeur qui sépare l’échantillon en 2 parties égales.

Calculable sur des caractères cycliques, Bon indicateur de population hétérogène.

Inconvenients

sensible aux points abérrants, Représente mal une population hétérogène (bi ou polymodale) Se prête mal aux calculs statistiques, Son calcul ne tient compte que des individus dont les valeurs se rapprochent de la classe modale.

Statistiques descriptives

2. Les indicateurs de dispersion

Deux séries statistiques peuvent avoir les mêmes paramètres de tendance centrale mais pas la m ême « dispersion ».

Exemple :  Notes de Ruby : 7 , 8 , 11 , 12 , 13 , 13 et 13 (

moyenne : 11)

 Notes de Iris : 4 , 7 , 9 , 12 , 13 , 13 et 19 (

moyenne 11)

Il est donc nécessaire d’adjoindre à un paramètre de tendance centrale(moment 1), un ou des paramètres de dispersion (moment 2).Ces paramètres ont pour objectif dans le cas d'un caractère quantitatif de caractériser la variabilité des données dans l’échantillon.

Les indicateurs de dispersion fondamentaux sont la variance observée et l’écart-type observé.

Statistiques descriptives

Quelques indicateurs de dispersion n 1.

2.

3.

Étendue. L’écart interquartile Écart absolu.

La variance et l’écart type.

4. Coefficient de variation

Statistiques descriptives

1. L’étendue

L’étendue d’une série statistique est la différence entre la plus grande valeur de la série et la plus petite.

Remarque

Très simple à calculer et à interpréter.

Par nature très sensible aux valeurs extrêmes.

Statistiques descriptives

2. L’écart interquartile : Q3-Q1 Si F désigne la fonction des fréquences cumulées, le premier ( telle que F(x) ≥ 0,25 (

resp

. 0,75) . On le note Q 1 (

resp

. Q 3 ).

resp.

troisième) quartile d’une série statistique sera la plus petite valeur x Q1 et Q3 se calculent comme la médiane. Q1 est la valeur qui coupe la distribution en deux : 25 % en dessous et 75 % au dessus. Q3 75 % et 25 %.

L’écart interquartile contient au moins 50% des valeurs de la série.

L’écart interquartile mesure la dispersion sans tenir compte des valeurs extr êmes.

Statistiques descriptives

Après les quartiles, on peut définir de la même façon les déciles (voire les centiles) d’une série statistique.

Il s’agit de regarder les valeurs de la série correspondant à des fréquences cumulées de 0,1 ; 0,2 … 0,9.

Pour visualiser la dispersion d’une série statistique, on peut alors représenter une « Box plot » (« boîte à moustache »).

Min

Statistiques descriptives

boîte à moustache

D1 D9 Max Médiane Q3 Q1

Statistiques descriptives

3. L’écart absolu moyen

moyenne des valeurs absolues des écarts à la moyenne.

e

 1

n

i n i x i

x

Intérêts Paramètre simples à calculer, prenant en compte l’ensemble des données.

Très facile d’interprétation.

Mauvaises propriétés calculatoires (non linéaire).

Peu utilisés par les logiciels de statistiques.

Statistiques descriptives

4. Variance et écart-type On définit

la variance

comme la moyenne arithmétique des carrés des écarts à la moyenne.

V x

 1

n

i

 

i

2

V x

 1

n

i

 

i

2    2 

x

2 

x

2

Statistiques descriptives

• Dans le cas de données regroupées en

k

classes d'effectif

ni

(variable continue regroupée en classes ou variable discrète), la formule de la variance est la suivante :

V x

 1

n

i n i

x i

x

 2 

Statistiques descriptives

• L’écart-type observé correspond à la racine carrée de la variance observée :

s

s

2 •

Remarque :

De part sa définition, la variance est toujours un nombre positif. Sa dimension est le carré de celle de la variable. Il est toutefois difficile d’utiliser la variance comme mesure de dispersion car le recours au carré conduit à un changement d’unités. Elle n’a donc pas de sens direct contrairement à l'écart-type qui s’exprime dans les mêmes unités que la moyenne.

Statistiques descriptives

5. Le coefficient de variation

La variance et l’écart-type observée sont des paramètres de dispersion absolue qui mesurent la variation absolue des données indépendamment de l’ordre de grandeur des données. Le coefficient de variation noté indice de dispersion relatif prenant en compte ce biais et est égal à :

C

.

V

  _

C.V.

est un

x

Exprimé en pour cent, il est indépendant du choix des unités de mesure permettant la comparaison des distributions de fréquence d’unité différente.

Statistiques descriptives

Exercice 1 : La présence des clients dans un magasin

Classes [15,5;20,5[ [20,5;25,5[ [25,5;30,5[ [30,5;35,5[ [35,5;40,5[ effecctif 200 500 1000 600 200 2500

1.Calculer la moyenne et la médiane.

2. Calculer la variance et l’écart-type

Statistiques descriptives

1.

Moyenne et médiane Moyenne : On calcule le centre de chaque classe

ci (i=1,..,5).

Classes [15,5;20,5[ [20,5;25,5[ [25,5;30,5[ [30,5;35,5[ [35,5;40,5[ effecctif 200 500 1000 600 200 2500 ci 18 23 28 33 38 Effectif*ci 3600 11500 28000 19800 7600 70500

x

 1

n

i n i c i

 1 2500 ( 200  18  500  23  1000  28  600  33  200  38 )  70500  28 .

2 min 2500

Statistiques descriptives

2. La médiane On calcule les fréquences et les fréquences cumulées et on détermine la classe médiane (25.5 ; 30,5). On fait une interpolation linéaire :

Classes [15,5;20,5[ [20,5;25,5[ [25,5;30,5[ [30,5;35,5[ [35,5;40,5[ effecctif 200 500 1000 600 200 Fréquence 0,08 0,2 0,4 0,24 0,08 Freq cumul 0,08 0,28 0,68 0,92 1 2500

 0 .

5  25 .

5 0 .

28  30 .

5  0 .

68 25 .

5  0 .

28 

 28 .

25 min

1

Statistiques descriptives

Exercice 2 : Variation du CAC 40 au cours d’une semaine (en points). Il y a 8 observations journalières.

Evolution du CAC 40 (X) effectif -20 7 -10 9 10 0 10 6 5 20 3 30

1.

2.

Calculer la moyenne, la variance et l’écart-type Sur le nouveau marché, la même semaine on observait une moyenne de 0.8 et un écart-type de 26,05. Est il préférable d’investir sur le nouveau marché ? Certains analystes se fient au coefficient de variation. Le calculer pour les 2 marchés. Est-il un bon estimateur du risque ?