Formulario - Corso di statistica - Pietro Coretto

Download Report

Transcript Formulario - Corso di statistica - Pietro Coretto

Versione: 15 novembre 2016 (h09:00)
Università degli Studi di Salerno
Pietro Coretto
Corso di Statistica
FORMULARIO
Valori osservati per statistiche di posizione, variabilità e correlazione
Nota: per una distribuzione in classi si denota con ci = (xi−1 + xi )/2 il valore centrale della
classe ima.
Media
• Serie dati: x =
1
n
Pn
i=1
xi
• Distribuzioni semplici: x =
1
n
Pk
• Distribuzioni in classi: x ≈
1
n
Pk
i=1
xi n i
i=1 ci ni
Momento secondo
• Serie dati: m2,X =
1
n
Pn
i=1
x2i
• Distribuzioni semplici: m2,X =
1
n
Pk
• Distribuzioni in classi: m2,X ≈
1
n
Pk
i=1
x2i ni
2
i=1 ci ni
Varianza
• Serie dati: s2 =
1
n−1
Pn
i=1 (xi
− x)2
• Distribuzioni semplici: s2 =
1
n−1
Pk
− x)2 ni
• Distribuzioni in classi: s2 ≈
1
n−1
Pk
− x)2 ni
Momento misto per serie di dati:
i=1 (xi
i=1 (ci
mXY =
Devianze e momenti
•
Pn
i=1 (xi
− x)2 = n (m2,X − x2 )
1
1
n
Pn
i=1
xi y i
•
Pn
i=1 (xi
− x)(yi − y) = n (mXY − x y)
Quantile α per serie di dati. Sia x(i) la ima osservazione nella serie ordinata, sia m =
α(n + 1), t=(parte intera di m) e γ=(parte decimale di m)
(
x(m)
se m è intero
q X (α) =
x(t) + γ [x(t+1) − x(t) ] altrimenti
Quantile α per dati raggruppati in classi. Sia (xi−1 , xi ] la classe contenente qX (α),
ovvero xi è il più piccolo estremo superiore di classe tale che Fi ≥ α, allora
q X (α) = xi−1 + (xi − xi−1 )
α − Fi−1
Fi − Fi−1
Boxplot
• Quartili e mediana: Q1 = qX (0.25), M = qX (0.5), e Q3 = qX (0.75)
• Differenza interquartile: IQR = Q3 − Q1
• Cardini del boxplot: h = Q1 − 1.5 IQR, e H = Q3 + 1.5 IQR
• Estremi del boxplot: a = max{xmin , h}, e b = min{xmax , H}
Covarianza e correlazione
Pn
• sXY =
1
n
• rXY =
sXY
sX sY
i=1 (xi
− x̄)(yi − ȳ) =
n (mXY −x y)
n−1
Pooling di alcune statistiche
• s2p =
(nX −1)s2X +(nY −1)s2Y
nX +nY −2
• p̂0 =
nX p̂X +nY p̂Y
nX +nY
Probabilità
• Pr{A ∪ B} = Pr{A} + Pr{B} − Pr{A ∩ B}
• Pr{A | B} =
Pr{A∩B}
,
Pr{B}
Pr{B} > 0
• A e B sono eventi indipendenti se e solo se Pr{A ∩ B} = Pr{A} Pr{B}
2
• (Teorema di Bayes) Sia E un evento, A1 , A2 , . . . , An mutuamente esclusivi e necessari
Pr{Ai | E} =
• Odds in favore di A:
Pr{E | Ai } Pr{Ai }
Pr{E | A1 } Pr{A1 } + . . . + Pr{E | An } Pr{An }
Pr{A}
1−Pr{A}
Momenti di variabili casuali discrete. Sia p(x) la funzione di probabilità della variabile
casuale discreta X.
P
• Momento primo/media: E[X] = ki=1 xi p(xi )
P
• Momento secondo: E[X 2 ] = ki=1 x2i p(xi )
P
• Varianza: Var[X] = ki=1 (xi − E[X])2 p(xi ) = E[X 2 ] − (E[X])2
Modelli per variabili casuali discrete
• X ∼ Bernoulli(p), p(x) = px (1 − p)x , E[X] = p, Var[X] = p(1 − p)
• X ∼ Binomiale(n, p), p(x) =
n!
px (1
x!(n−x)!
− p)n−x , E[X] = np, Var[X] = np(1 − p)
x
• X ∼ Poisson(λ), p(x) = e−λ λx! E[X] = λ, Var[X] = λ
Momenti di variabili casuali continue. Sia F (x) la funzione di ripartizione, e f (x) la
funzione di densità, della variabile casuale continua X.
R +∞
• Momento primo/media: E[X] = −∞ x f (x)dx
R +∞
• Momento secondo: E[X 2 ] = −∞ x2 f (x)dx
R +∞
• Varianza: Var[X] = −∞ (x − E[X])2 f (x)dx = E[X 2 ] − (E[X])2
Quantili e valori di coda per variabili casuali continue. Sia F (x) la funzione di ripartizione della variabile casuale continua X. Si assume F (x) strettamente monotona.
• Quantile al livello α: qX (α) è il valore tale che Pr{X ≤ qX (α)} = α, ovvero F (qX (α)) = α
• Coda al livello α: xα è il valore tale che Pr{X > xα } = α
• Quantili e code: xα = qX (1 − α)
Trasformazioni lineari. Siano X e Y variabili casuali (continue o discrete) con momento
secondo finito. Siano a e b costanti reali fissate, e sia Y = a + bX
• E[Y ] = a + b E[X]
• Var[X] = b2 Var[X]
3
• qY (α) = a + b qX (α)
• yα = a + bxα
• Sia W = aX + bY , allora
E[W ] = a E[X] + b E[Y ]
e
Var[W ] = a2 Var[X] + b2 Var[Y ] + 2ab Cov[X, Y ]
Modello Normale: Siano X ∼ Normale(µ, σ 2 ) e Z ∼ Normale(0, 1)
• Momenti: E[X] = µ, Var[X] = σ 2
• Linearità: X = µ + σZ, da cui Pr{X ≤ x0 } = Pr Z ≤
e quindi xα = µ + σ zα
x0 −µ
σ
, qX (α) = µ + σ qZ (α),
• Simmetria: Pr{Z ≤ −z0 } = Pr{Z ≥ z0 }, quindi z(1−α) = −zα
• Mesocurtosi: E[Z 4 ] = 3, Pr{Z ≤ −4} ∼
= 0 e Pr{Z ≥ 4} ∼
=1
Altri modelli per variabili casuali continue
• Student-t: X ∼ tk ,densità di probabilità simmetrica rispetto a 0. Momenti: E[X] = 0 se
k
k > 1, Var[X] = k−2
se k > 2.
• Chi-quadrato: X ∼ χ2k ,, E[X] = k, Var[X] = 2k
Campionamento casuale semplice, statistiche e stimatori
Media campionaria
• X=
1
n
Pn
i=1
Xi
• E[X] = µ, Var[X̄] =
σ2
n
2
• Popolazione normale X ∼ Normale µ, σn
• Sotto le condizioni del teorema centrale del limite:
√
∼ Normale(0, 1)
n X−µ
σ
Proporzione campionaria
• P̂ =
1
n
Pn
i=1
Xi
• E[P̂ ] = p, Var[P̂ ] =
p(1−p)
n
• Per n sufficientemente grande e np(1 − p) > 9):
Varianza campionaria
4
qP̂ −p
p(1−p)
n
∼ Normale(0, 1)
• S2 =
1
n−1
Pn
i=1 (Xi
− X̄)2
• E[S 2 ] = σ 2
• Popolazione normale:
(n−1)S 2
σ2
∼ χ2n−1 .
Distorsione ed efficienza. Sia θ̂ è uno stimatore di θ:
• Distorsione: D[θ̂] = E[θ̂] − θ
• Efficienza: MSE[θ̂] = E[(θ̂ − θ)2 ] = Var[θ̂] + [D(θ̂)]2
Intervalli di confidenza
Si assume uno schema di campionamento casuale semplice, ed un livello di significatività (1−α).
• Media di una popolazione normale con varianza nota:
σ
x̄ ± z α2 √
n
• Media di una popolazione normale con varianza non nota:
s
x̄ ± tn−1, α2 √
n
• Proporzione di una popolazione bernoulliana (grandi campioni con np(1 − p) > 9):
r
p̂(1 − p̂)
p̂ ± z α2
n
• Varianza di una popolazione normale:
"
(n − 1)s2
χ2n−1, α2
,
(n − 1)s2
#
χ2n−1,1− α2
Test delle ipotesi
Di seguito si riportano le funzioni test con relativa distribuzione sotto l’ipotesi nulla. In ogni
caso si assume uno schema di campionamento casuale semplice.
• Popolazione normale con varianza nota. H0 : µ = µ0
Z =
√ X − µ0
n
σ
5
H0
∼
Normale(0, 1)
• Popolazione normale con varianza non nota. H0 : µ = µ0
T =
√ X̄ − µ0
n
S
H0
∼ tn−1
• Popolazione bernoulliana (grandi campioni con np(1 − p) > 9). H0 : p = p0
P̂ − p0
Z=q
p0 (1−p0 )
n
H0
∼
Normale(0, 1)
• Popolazione normale. H0 : σ 2 = σ02
χ=
(n − 1)S 2
σ02
∼ χ2n−1
H0
• Popolazioni normali, indipendenti ed omoschedastiche con varianza comune non nota.
H0 : µX − µY = d0
(X̄ − Ȳ ) − d0
∼ t(nX +nY −2)
T = q 2
Sp
Sp2
+ nY
nX
dove
Sp2 =
2
+ (nY − 1)SY2
(nX − 1)SX
(nX + nY − 2)
• Popolazioni normali, campioni appaiati. H0 : µX − µY = d0
T =
√ (X − Y ) − d0
n
Sd
dove
H0
∼ tn−1
n
Di = Xi − Yi ,
D̄ =
1X
Di ,
n i=1
n
2
SD
=
1 X
(Di − D̄)2
n − 1 i=1
• Proporzioni di popolazioni bernoulliane (grandi campioni). H0 : pX − pY = 0
Z = q
P̂X − P̂Y
P̂0 (1−P̂0 )
nX
+
H0
∼
Normale(0, 1)
P̂0 (1−P̂0 )
nY
dove
P̂0 =
nX P̂X + nY P̂Y
nX + nY
6
Regressione lineare
Stime dei minimi quadrati ordinari
Pn
(x − x̄)(yi − ȳ)
mXY − x y
Pn i
b1 = i=1
=
2
m2,X − x2
i=1 (xi − x̄)
b0 = ȳ − b1 x̄
ŷi = b0 + b1 xi
ei = yi − ŷi
s2e
n
1 X 2
SSE
=
ei =
n − 2 i=1
n−2
s2e
s2e
=
2
n (m2,X − x2 )
i=1 (xi − x̄)
s2b1 = Pn
s2b0
=
x2
1
+ Pn
2
n
i=1 (xi − x)
= s2e
m2,X
n (m2,X − x2 )
Decomposizione della devianza osservata e coefficiente di determinazione
SST =
n
X
(yi − ȳ)2
i=1
SSR =
n
X
(ŷi − ȳ)2 = b21
i=1
SSE =
n
X
i=1
R2 =
n
X
(xi − x̄)2
i=1
2
(yi − ŷi ) =
n
X
e2i
i=1
SSR
SSE
2
=1−
= rXY
SST
SST
7
Test delle ipotesi per i parametri della retta di regressione
• Sotto H0 : β1 = 0 (e tutte le necessarie ipotesi sottostanti il modello di regressione)
T =
b1
Sb1
H0
∼ tn−2
• Sotto H0 : β0 = 0 (e tutte le necessarie ipotesi sottostanti il modello di regressione)
T =
b0
Sb0
Intervalli di confidenza al livello (1 − α)
• Intervallo per β1 : b1 ± tn−2, α2 sb1
• Intervallo per β0 : b0 ± tn−2, α2 sb0
8
H0
∼ tn−2