ELEMENTE DE STATISTICA

Download Report

Transcript ELEMENTE DE STATISTICA

Interpretarea
datelor statistice
prin parametrii de
pozitie
PROIECT REALIZAT DE ALEXANDRU CORICI, TRAIAN
PLOSCA SI ALEXANDRU LUTIC

Analiza si interpretarea datelor statistice legate de un
studiu statistic s-a realizat pana la acest moment cu
ajutorul frecventelor si a graficelor statistice. Cu ajutorul
acestor caracteristici se poate observa cu usurinta
variabilitatea marimilor care se obtin ca rezultat al unor
masuratori.Desi exista aceasta variabilitate se observa o
tendinta a datelor statistice de a se grupa in jurul unei
anumite valori(tendinta centrala).

Pentru o serie statistica este interesant de gasit acea
marime care survine cel mai des, acea marime care
este cea mai reprezentativa pentru toata seria.O astfel
de marime se numeste indicator sau parametru de
pozitie deoarece arata pozitia elementelor principale
ale seriei in cadrul acesteia.

Reprezentativitatea unor astfel de marimi este data
de gradul de concentrare a datelor statistice in jurul lor.

Valoarea medie a unei
serii
statistice
Se numeste valorea medie sau media variabilei statistice
X,media aritmetica a tuturor valorilor variabilei statistice
calculata pentru toate unitatile populatiei statistice.
p
x

x1n1  x2 n2  ...... x p n p
n1  n2  .... n p

x n
i i
i 1
N
Valoarea medie x¯reprezinta media aritmetica ponderata a
valorilor x1….xp ale variabilei statistice cu ponderile n1…np
Exemplu:


Sa calculam media variabilei statistice a seriei statistice din urmatorul
tabel:
Nota(xi)
4
5
6
7
8
9
10
Frecventa
absoluta(n
i)
1
4
5
7
13
14
6
Avem: x  4 *1  5 * 4  6 * 4  7 * 7  8 *13  9 *14  10 * 6  393  7,86
1  4  5  7  13  14  6

50
Asadar, concentrarea notelor la teza se realizeaza in jurul
numarului 7,86

Daca variabila statistica X este cantitativa de tip continuu,atunci in
locul valorilor xi din formula se vor lua mediile aritmetice ale
extremitatilor claselor de valori(valorile centrale ale claselor de
valori).

Exemplu: Sa consideram seria statistica data de urmatorul tabel:
Inaltime
Numar de
tineri
Frecventa
absoluta
cumulata
crescatoar
e
Frecventa
absoluta
cumulata
descrescat
oare
[155,160)
5
5
63
[160,165)
12
17
58
[165,170)
15
32
46
[170,175)
20
52
31
[175,180)
8
60
11
[180,185]
3
63
3


Pentru calcularea valorii medii a variabilei cantitative de
*
tip continuu,vom
scrie
mai
intai
seria
statistica
(
x
, ni )
i
*
,i=1.6 unde xi este valoarea centrala a clasei [ xi , xi 1 )
Xi*
157,5
162,5
167,5
172,5
177,5
182,5
ni
5
12
15
20
8
3
Valoarea medie a variabilei statistice este:
x
157 ,5 * 5  162 ,5 *12  167 ,5 *15  172 ,5 * 20  177 ,5 * 8  182 ,5 * 3 10667 ,5

5  12  15  20  8x  3
63
i
Se obtine ca: x  169,32
 Asadar,tendinta valorilor variabilei statistice este aceea de
grupare in jurul valorii 169,32.
 Diferenta xi  x reprezinta abatarea de la medie a
valorii x i .Suma abaterilor de la medie a valorilor variabilei
este 0.

Mediana seriei statistice

Fie seria statistica ( xi , ni ) , i  1, p
,ordonata xk  xk 1 , k  1 si N efectivul total
al populatiei statistice.

Mediana undei serii statistice ordonate
este valoarea Me care imparte sirul
ordonat al valorilor variabilei in doua
parti,fiecare parte continand acelasi
numar de valori.

Exemplu:

1.Daca o caracteristica ia urmatoarele 11
valori asezate in ordine
crescatoare:1,3,3,3,4,5,6,6,7,8,8 atunci Me=5,
deoarece exista 5 valori mai mici decat 5, si 5
valori mai mari.

2.Fie sirul crescator de valori ale unei
caracteristici numerice
distincte:1,3,3,3,4,6,7,8,8,9.Sirul valorilor are 10
elemente.In acest caz se alege drept
46
 5. Uneori
mediana a seriei numarul Me=
2
se ia ca mediana oricare din numerele 4 sau
6.

Mediana unei serii statistice cu variabila
cantitativa discreta se obtine astfel:

-se aseaza cele N valori ale variabilei in ordine
crescatoare sau descrescatoare;

-daca N este numar impar atunci Me  x N21 , iar
daca N este numar par(N=2k) atunci Me  xk  xk 1
2
Observatie!


Daca valorile variabilei sunt numeroase ,se recomanda determinarea
frecventelor absolute cumulate, apoi se cauta valoarea variabilei care
corespunde unitatii statistice situata la mijlocul seriei,sau intervalul care
cuprinde acea unitate statistica.
Nota la teza
5
6
7
8
9
10
Frecventa
absoluta
16
16
62
12
10
8
Frecventa
absoluta
cumulata
crescatoare
16
32
64
76
86
94
Efectivul notal al populatiei este 94.Pozitia centrala a sirului ordonat al valorilor
variabilei este 94/2=47.Unitatea statistica situata pe pozitia 47 corespunde
celei de-a treia secvente cumulate crescatoare.Asadar Me=7.

Sa determinam acum mediana unei serii statistice cu variabila cantitativa
de tip continuu.Pentru aceasta,sa consideram distributia unui lot de piese
dupa diametrul lor masurat in mm.
Diametrul(m
m)
[10,20)
[20,30)
[30,40)
[40,50)
[50,60)
Frecventa
absoluta
10
15
12
15
8
Frecventa
cumulata
crescatoare
10
25
37
52
60

Jumatate din efectivul total al populatiei este 60/2=30.

Clasa de valori din seria frecventelor absolute cumulate careia ii corespunde cel putin jumatate din
efectivul total al populatiei se numeste clasa mediana.

In cazul seriei date clasa mediana este [30,40).Presupunand ca pentru aceasta serie cresterea
efectivului este proportionala cu cresterea valorilor variabilei,avem:

La cresterea efectivului cu (37-25) piese,corespunde cresterea valorilot variabilei cu (40-30)=10 mm;

La cresterea efectivului cu (30-25) de piese ,ce crestere a valorilor variabilei corespunde?

Aplicand regula de trei simpla, se obtine: (30-25)*(40-30)/(37-25)=25/6=4,17 mm

Rezulta ca mediana seriei statistice este Me=30+4,17=34,17 mm.

Mediana unei serii statistice cu variabila
cantitativa de tip continuu se calculeaza cu
formula: Me  L  C n N * k,unde:
i 1
M
i
L=limita inferioara a clasei mediane;
 C M =cota medianei (daca N este par,atunci
C M =N/2,iar daca N este impar,atunci


Ni-1=frecventa absoluta cumulata
crescatoare pana la clasa mediana; C
 n i =frecventa
mediane;

M

N 1
2
absoluta corespunzatoare clasei
k=amplitudinea clasei mediane: xi 1  xi
 Me=30+[(30-25)/12]*10=34,17

Se poate calcula si cu regula de trei simpla:

(37-25)…………….(40-30)mm

(30-25)…………....X mm

X=(30-25)*(40-30)/(37-25)=25/6=4,17
mm→Me=30+4,17=34,17mm.

Concluzie:Mediana seriei statistice este un indicator al
pozitionarii valorilor xi ale acesteia.Aceasta este utila in
realizarea ierarhizarii valorilor.
Modulul unei serii statistice

In multe activitati economico-sociale
prezinta interes acele aspecte care survin cel
mai frecvent in derularea lor.

De exemplu,compararea numarului de
apeluri telefonice pe intervale mici de timp
da posibilitatea determinarii perioadei din zi
cand o centrala telefonica este cel mai mult
solicitata si, in consecinta,da posibilitatea
determinarii capacitatii optime a centralei.

Astfel de probleme se rezolva folosind
parametrul statistic de pozitie numit modul
sau dominanta.

Modulul sau dominanta unei serii statistice
( xi , ni ),1  i  p
,reprezinta valoarea sau clasa de valori a variabilei care
corespunde celui mai mare efectiv si se noteaza Mo.
Asadar,modulul sau dominanta este parametrul ce evidentiaza
valoarea variabilei care apare cel mai frecvent in multimea
datelor.
Exemplu:
1.Fie distributia unui grup de tineri dupa inaltimea masurata in cm:
Inaltime
a(cm)
[160,165)
[165,170)
[170,175)
[175,180)
[180,185)
[185,190)
Numarul
de tineri
4
14
27
35
14
6
Clasa mondiala este[175,180) careia ii corespunde cea mai mare
frecventa.Modulul sriei poate fi exprimat prin valoarea centrala a
clasei mondiale: Mo  175 180  177,5 .
2


Pentru determinarea unei valori mai exacte a modulului unei
serii statistice cu date grupate in clase de valori,sa
consideram o secventa a diagramei structurale a acesteia
care sa contina si valorile din clasa modala [1,L).
Notam: 1 =diferenta dintre frecventa clasei modale si
aceea a clasei anterioare ei.
 2 =diferenta dintre frecventa clasei modale si
aceea a clasei urmatoare.
k=amplitudinea clasei modale,k=L-1
Conform graficului se obtine urmatoarea relatie de
proportionalitate:
1
Mo  1 ,relatie din care se obtine Mo  L   2 * k

1   2
2
L  Mo
Daca intervalul anterior clasei modale are frecventa mai mare
decat a intervalului urmator clasei modale , atunci : Mo  1 
1
*k
1   2
Pentru seria statistica din exemplu de mai sus se aplica formula a
2 –a si se obtine:
Mo  1 
1
(35  27)
* k  175
* (180 175)  176,38
1   2
(35  27)  (35  14)
Observatii:




1. In cazul formulei a 2a Mo este mai este
mai apropiat de 1. In cazul primei formule
Mo este mai apropiat de L.
2. Mo coincide cu o valoare a variabilei
statistice,reprezentand cea mai
frecventa valoare a repartitiei.
3. Mo nu e influentat de valorile foarte
mici sau foarte mari ale variabilei.
4. O serie statistica poate avea mai multe
module.Modulul prezinta interes daca
este unic.
Dispersia.Abaterea medie
patratica

Sa consideram urmatoarele seturi de date:

{1,2,3,3,4,5} si {2,40;2,50;2,60;2,70;2,80;5}

Se constata ca ambele siruri de date au valoarea medie egala
cu 3,sunt disticte ,iar datele primului sir sunt mai raspandite in
raport cu media fata de cele ale setului al 2 lea.

Pentru a masura gradul de imprastiere a datelor unei serii
statistice fata de medie se folosesc urmatorii parametri de
pozitie: dispersia si abaterea medie patratica.


Fiind data seria statistica ( xi , ni ),1  i  p ,dispersia valorilor x1, x2 ,..., x p
este media aritmetica ponderata a patratelor abaterilor de la
medie ale valorilor variabilei.
Se noteaza:
s2 
p
( x1  x) 2 * n1  ( x2  x) 2 * n2  ...  ( x p  x) 2 * n p
n1  n2  ...  n p

2
(
x

x
)
ni
 i
i 1
N

In cazul datelor grupate in clase de valori,se considera abaterile
centrelor claselor de valori de la medie.

Compararea dispersiilor a 2 serii statistice capata semnificatie in
cazul cand sirurile de date sunt exprimate in aceeasi unitate de
masura.

Fiind data seria statistica ( xi , ni ),1  i  p , se numeste abatere medie
2
patratica a valorilor variabilei numarului   s , unde s 2 este
dispersia seriei.
p

Asadar,  
 ( x  x)
i 1
i
N
2
* ni
.

Abaterea medie patratica da posibilitatea caracterizarii dispersiei
valorilor variabilei statistice.Astefel,o serie care este putin
dispersata,adica prezinta valori ce sunt strans grupate in jurul valorii
medii, conduce la o abatere medie patratica mica.


Problema rezolvata:
Distributia unui lot de autoturisme noi,dupa consumul de carburant
la 100km parcursi,se prezinta astfel:
Cons
umul(
L)
6,26,6
6,6-7
7-7,4
7,47,8
7,88,2
8,28,6
8,6-9
9-9,4
9,49,8
Nr,au
toturis
me ni
4
12
44
90
107
86
36
15
6

Sa se caracterizeze seria statistica folosind dispersie si abaterea
medie patratica.

*
Fie xi valoarea centrala a clasei de valori [ xi , xi 1 ) ,i≥1

Pentru concentrarea calculelor vom atasa la tabelul de date de mai sus
urmatoarele rubrici:
6,4
6,8
7,2
7,6
8,0
8,4
8,8
9,2
9,6
Total:
-
xi*ni
25,6
81,6
316,8
684
856
722,4
316,8
138
57,6
3198,8
( xi*  x)2 ni
10,24
17,28
28,16
14,40
0
13,76
23,04
21,60
15,36
143,84
*
i
x

Cu ajutorul calculelor din acest tabel, avem:
9
x
*
x
 i ni
i 1
ni
3198,8

 7,998l
400
9
s2 
*
2
(
x

x
)
 i * ni
i 1
ni

143,84
 0,3596
400
  0,3596  0,5997l

Se observa ca pentru esantionul de 400 de autoturisme
consumul mediu la 100 km este de aproximativ 8 litri.

Dispersia valorilor consumului de carburant in jurul valorii medii
8 este de 0,3596 litri.Valoarea mica a acesteia sugereaza
faptul ca valorile consumului de carburant sunt destul de
stranse in jurul mediei.

Dispersia valorilor consumului de carburant in jurul valorii
medii,masurata prin abatarea medie patratica este de 0,5997
litri.Aceasta arata ca valorile consumului de carburant se
abate in medie cu aprozimativ 0,6 litri(in plus sau in minus) de
la consumul mediu.

Definitie: Raportul dintre abaterea medie patratica si valoarea
medie a unei serii statistice se numeste coeficient de
variatie.Se noteaza:
CV 


(x)
Acest indicator da posibilitatea aprecierii gradului de
omogenitate a unei serii statistice.Un coeficient de variatie
sub 15% indica o omogenitate buna a repartitiei unui
fenomen si ca valoarea medie este reprezentativa.

Exemplu:

Pentru seria statistica din tabelul anterior se obtine:
CV 

 0,5997

 7,5%
8
( x)
Interpretare: Coeficientul de variatie 7,5% indica o
omogenitate a consumului de carburant. Asadar, lotul
de masini are un ritm de consum bun (nici prea mare,
nici prea mic).