Transcript Document

ANCHETE ŞI
SONDAJE
-Completare -
PROF. DR. ISAIC- MANIU ALEXANDRU
web : www.amaniu.ase.ro
e-mail: [email protected]
PRELUCRAREA
DATELOR DE
SONDAJ ŞI
INFERENŢA
STATISTICĂ
Bibliografie
•
+ Orice manual/ tratat recomandat la secţiunea Bibliografie de pe
site
 Estimare (Estimation)
• Operaţie de stabilire, în baza datelor unui eşantion,
a valorilor parametrilor repartiţiei populaţiei din care
a fost prelevat eşantionul
• Rezultatul, se poate exprima printr-o valoare unică
(estimator punctual), sau printr-un interval
 Inferenţa statistică
• Spre deosebire de statistica descriptivă, inferenţa
statistică foloseşte procedee specifice bazate pe
modele matematice (în esenţă, probabiliste) pentru
analiza materialului statistic organizat de metodele
descriptive
• Termenul “inferenţă” este împrumutat din engleză şi conform cu The
American Heritage Dictionary of the English Language (Peter Davies,
editor, Dell Publ. Co. Inc. New York, 1972, pag. 365) – “to infer” sau
“inferring” înseamnă a face o inferenţă adică a extrage o concluzie sau a
face o deducţie pe baza unor fapte sau indicii
Eroare de estimare
(Estimation error)
• Eroarea în estimarea unui parametru (^ -  )
unde ^ este rezultatul estimării, iar  este
parametrul estimat
• Eroarea de estimare poate fi provocată de
una sau mai multe cauze
Interval de încredere (Confidence interval)
• Interval de încredere bilateral (Two-sided
confidence interval; Intervalle de confiance
bilatéral).
• Dacă Z1 şi Z2 sunt două funcţii ale valorilor
observate, iar  este un parametru estimat al
populaţiei, astfel ca probabilitatea este cel
puţin egală cu 1 - alfa, [unde 1 -alfa este un
număr fixat, pozitiv şi mai mic decât 1],
intervalul dintre Z1 şi Z2 este un interval de
încredere bilateral de pentru .
• Limitele Z1 şi Z2 ale intervalului de încredere
sunt statistici care, în general, au valori diferite
de la un eşantion la altul
Legea normală (Gauss-Laplace)
•
Una din ipotezele fundamentale in sondajul statistic
este normalitatea (apartenenţa la legea Gauss-Laplace)
a caracterizării investigate este necesar să discutăm
despre această lege statistică.
•
Modelul Gauss-Laplace uzual, din punct de vedere
matematic reprezintă o repartiţie statistică definită de
• funcţia de repartitie
2


1
x   
2
F x;  ;  
exp
dx
2 

 2   2 

unde

x
μ  R, σ  0, x  R
Respectiv
functia de frecventa
2


1
x   
f x  
exp

2
2 
 2

•
sau funcţia de densitate a repartitiei
variabilei aleatoare X
• X – mărimea fizică măsurată şi care reprezentată
grafic are binecunoscuta formă de „clopot” (aşazisul „clopot al lui Gauss”):
• Se ştie că o funcţie de densitate trebuie să
îndeplinească următoarele cerinţe:
• (i) f x   0,  x  D şi
• (ii)  f x dx  1 unde D este domeniul de definiţie al
D X, în cazul nostru dreapta reală, R.
variabilei
Scurt istoric – legea normala (1)
•
•
•
•
•
•
•
. Originea
acestui model o găsim în lucrarea „Dialog despre
cele două sisteme fundamentale ale lumii” a lui Galileo
GALILEI (1564-1642), în care el îşi expune părerile
referitoare la măsurarea distanţelor dintre diferite corpuri
cereşti:
Galilei considera că:
erorile întâmplătoare sunt inevitabile în observaţiile obţinute
cu diverse mijloace de măsurare
erorile mici au şanse mai mari de apariţie decât cele mari sau
foarte mari
măsurările tind să se distribuie aproximativ egal la stânga şi la
dreapta unei valori „de referinţă”
majoritatea valorilor observate tind să se grupeze („să se
aciuiască”) în jurul acestei valori de referinţă
erorile aleatoare prezente în procesul măsurării/observării
sunt diferite (distincte) de cele ce pot apărea în calculele
efectuate de experimentator
(2)
• Repartiţia normală apare de fapt pentru prima oară în
1733 într-o lucrare a lui Abraham de MOIVRE (16671754), matematician cunoscut mai curând prin
„formula Moivre” referitoare la numerele complexe:
• Abia odată cu lucrările lui Carl Friedrich GAUSS
(1777-1855) şi cele ale lui Pierre Simon, Marquis de
LAPLACE (1749-1827) se pun în lumină proprietăţile
şi importanţa deosebită a acestei legi statistice ca
descriptor – iniţial al comportării erorilor de
observaţie (Gauss, 1809 în „Theoria Motus Corpum
Caelestium”
•
Laplace (1810/1811 în „Theorie analitique des
Probabilites” din 1812) arată rolul teoretic (şi practic)
excepţional jucat de legea normală prin aşa-numita
TEOREMĂ LIMITĂ CENTRALĂ.
(3) Teorema Limita Centrala
• Această teoremă, menţionată azi şi în diverse
documente ISO (de exemplu ISO Guide 13434,
Anexa G. pp. 74-75) a constituit fundamentul
construirii fişelor de control de tip SHEWHART
destinate verificării unui proces (vezi SRISO 8258/1999).
•
Într-o formulare „populară” Teorema Limită
Centrală afirmă că: dacă sunt variabile aleatoare
continue, identic repartizate cu aceeaşi medie (m)
şi aceeaşi dispersie (D2), atunci variabila medie
este aproximativ normal repartizată, cu aceeaşi
medie (m) dar cu dispersia mai mică şi anume
D2 / n
• Acest fapt are loc chiar pentru valori modeste ale lui n .
Cateva proprietati ale legii normale
– graficul funcţiei are un singur maximum
pentru x  
– si două inflexiuni de abscise x    
2

– parametrii descriptori şi  au semnificaţia
mediei şi dispersia teoretice:E x    ; varx   2
–

intervalul   3 ,   3 conţine
aproximativ 99,73%
din valorile mărimii X.
• Variabila U  x   /  se numeste variabila
normală standard (sau standardizată) şi
are funcţia de densitate respectiv de
repartiţie sub
1
2



f
u

exp

u
/ 2
•
0
2
F0 u  
1
2
u
e
t 2 / 2
dt

adică variabila U are media O şi dispersia 1.
Aceste funcţii au fost tabelate iniţial de către
Laplace.
Grafice ale legii normale
Repartiţia t (STUDENT)
• dacă
parametrii
• variabila
•

xi  N ,  2
sunt independente, cu
X n
1
x
t 
s2 
i

1
xi  x

n 1

2
x
s/
n
se numeşte variabila STUDENT (sau „t”) şi
joacă un rol important în experimentele
privind compararea a două medii normale
(adică a mediilor a două populaţii
caracterizate de legea normală )
Repartiţia t (STUDENT)
• Densitatea de tip t are forma:
f t  
•
•
unde
n / 2  
t2 


 1 
n  1 
 n  1  n  1  


 2 
1
n / 2

x    t x 1e t dt
0
• este binecunoscuta funcţie GAMMA a lui EULER
(1707-1783).
•
Denumirea STUDENT provine de la chimistul şi statisticianul britanic William Sealy
GOSSET (1876-1937) care a lucrat la o celebră fabrică de bere din Dublin, în calitate de
supervizor al procesului de fabricaţie al acestui produs, apreciat azi pe întreg mapamondul
.Gosset a avut ca „sarcină de serviciu” – printre altele – şi compararea calităţii berii
produse de firma respectivă cu cea a concurenţilor acesteia. Gosset şi-a ales pseudonimul
STUDENT, cu care şi-a semnat toate lucrările, publicate în principal în celebra revistă”
BIOMETRIA” >înfiinţată în 1900 de GALTON şi PEARSON.
Repartiţia t (STUDENT)
• Densitatea de tip t are forma:
f t  
unde
n / 2  
t2 


 1 
n  1 
 n  1  n  1  


 2 
1
n / 2

x    t x 1e t dt
•
0
• este binecunoscuta funcţie GAMMA a lui
EULER (1707-1783).
Testarea normalităţii
•
Verificarea faptului că datele
experimentale obţinute sunt repartizate
după legea Gauss-Laplace se poate face
în mai multe moduri, şi anume:
–algebric (utilizând indicatorii de eşantionaj
cu proprietăţile lor specifice în cazul legii
normale);
–grafic (folosind aşa-numitele „hârtii” sau
reţele de tip probabilist)
–analitic (utilizând procedee statistice
speciale – aşa numitele „teste de
concordanţă”).
Ipoteza nulă şi ipoteza alternativă
(Null hypothesis and alternative
hypothesis)
• Afirmaţii asupra unuia sau mai multor parametri,
sau asupra unor repartiţii, care urmează a fi
validate prin teste statistice. Decizia asupra
ipotezei nule este luată pe baza unui test statistic.
• Testul statistic este construit cu elemente
aleatoare, luarea deciziei comportă un anumit risc
de eroare.
H 0 (p1  p 2 )
H 1 ( p1  p 2 )
• Ipoteza nulă (H0) se referă la afirmaţii supuse
testării, în timp ce ipoteza alternativă (H1) se
referă la afirmaţii care vor fi acceptate dacă se
respinge ipoteza nulă.
Exemple de diferite ipoteze
• Testarea ipotezei că media a unei variabile
aleatoare X dintr-o populaţie nu este inferioară/
sau superioara unei valori date m0
• Testarea ipotezei că proporţiilor indivizilor
neconformi din două populaţii, p1 şi p2 au
aceeaşi valoare (nespecificată)
• Testarea ipotezei că o variabilă aleatoare X are
o repartiţie normală (cu parametri
nespecificaţi);Ipoteza alternativă: repartiţia nu
este normală.
Erori in verificarea ipotezelor
statistice (Hypothesis testing errors)
• Erori ce se pot face în procesul de verificare a
ipotezelor statistice.
• Eroare de genul întâi: ipoteza H se respinge, când
ea este adevărată.
• Eroare de genul al doilea: ipoteza H se admite, când
ea este falsă.
• Probabilităţile de a fi comise cele două tipuri de erori
sunt: probabilitatea erorii de genul întâi – risc de
genul I şi respectiv probabilitatea erorii de genul al
doilea-risc de genul II .
Puterea testului
(Power of a test)
• Probabilitatea de a nu comite eroarea
de tipul II. Această probabilitate, în
general notată cu ( 1- beta), corespunde
respingerii ipotezei nule, când aceasta
este falsă.
Test statistic
(Statistical test)
• Procedura statistică prin care se decide dacă
ipoteza nulă poate fi respinsă în favoarea
ipotezei alternative sau nu.
• În general, un test preia apriori o anumită
ipoteză, care trebuie verificată (de exemplu,
ipoteza de independenţă a observaţiilor,
ipoteza de normalitate etc.).
• Testele pot fi construite cu ajutorul mediei
aritmetice şi cu ajutorul altor variabile
aleatoare de sondaj, acestea numindu-se de
regulă statistici decizionale ale testului
statistic
Testul t – Student
Testul statistic în care, pentru validarea ipotezei nule, statistica
utilizată presupune existenţa repartiţiei t (Student)
Testul este aplicat, de exemplu, la următoarea problema : când
se verifică ipoteza Ho: m 1= m0, indicatorul t are expresia:
x1  m 0
t 
s
Cu
n
  n 1
grade de libertate, n fiind volumul eşantionului
Test U (U – test)
• Test utilizat pentru verificarea ipotezelor
referitoare la mediile populaţiilor normale
când se cunosc dispersiile teoretice.
• Testul U are forme diferite, în funcţie de
ipotezele statistice formulate:
• De exemplu, când se verifică ipoteza H0: m
= m0, testul U are expresia:
x  m0
U

n