Transcript Repetition

Repetition
X: slumpvariabel (s.v.) – betraktas innan ett försök är
genomfört.
x: observerat värde – efter försöket är genomfört.
En s.v. är kontinuerlig om den kan anta alla tänkbara värden i ett
intervall.
Fördelningsfunktion (cdf): Fx(x) = P(X ≤ x)
Täthetsfunktion (pdf):
fx(x) = Fx’(x)
Repetition
Täthetsfunktion
P(a < X ≤ b) =
∫
b
a
P(a < X ≤ b)
f x (x)dx =
0
täthet
Fx (b) - Fx (a)
a
b
x
Repetition
b
Väntevärde: μ = E(X) = ∫ x ⋅ f x (x)dx
a
Varians:
(
)
(uttrycker jämviktsläge)
b
σ 2 = V(X) = E (X - μ) 2 = ∫ (x - μ) 2 ⋅ f x (x)dx
Standaravvikelse:
a
σ = σ = V(X)
2
Normalfördelning:
Standard normalfördelning:
X ∈ N(μ, σ2)
Z = (X- μ)/σ ∈ N(0, 1)
⎛ a −μ b−μ b−μ ⎞
P(a < X ≤ b) = P⎜
<
≤
⎟=
σ
σ ⎠
⎝ σ
b−μ ⎞
⎛a −μ
⎛ b−μ ⎞
⎛ a −μ ⎞
P⎜
<Z≤
⎟ = Φ⎜
⎟ − Φ⎜
⎟
σ ⎠
⎝ σ
⎝ σ ⎠
⎝ σ ⎠
1
Repetition
Lägesförändring
2
2
N(μ,σ )
täthet
N(0,σ )
a-μ
0
b-μ
Repetition
a
μ
b
μ
b
Standardisering
2
N(μ,σ )
täthet
N(0,1)
(a-μ)/σ
0
(b-μ)/σ
a
Repetition
Hur man kan verifiera om ett datamaterial är normalfördelat.
¾ Histogram
¾ Normalplottar
¾ Normalitetstest
Testar om hypotesen att datamaterialet är normalfördelat är sann.
Hypotesen förkastas om p-värdet ≤ α (signifikansnivån).
Om p-värdet > α kan vi inte förkasta hypotesen, dvs hypotesen
behöver inte vara sann.
Små stickprov ⇒ bara extrema avvikelser från normalfördelningen förkastas
Stora stickprov ⇒ minsta lilla avvikelse från normalfördelningen
(som i praktiken kan vara försumbar) förkastas.
2
Repetition
Histogram of strengths (uppg. 3.69)
Histogram of strengths (uppg. 3.69)
Normal
Normal
Mean
StDev
N
4
206.0
11.57
16
Mean
StDev
N
6
206.0
11.57
16
5
Frequency
2
4
3
2
1
1
0
180
190
200
210
strengths
220
0
230
183
191
199
207
strengths
215
223
231
Beroende på klassbredd och antal klasser ger histogram olika
bilder.
Repetition
Probability Plot of strengths
Normal - 95% CI
99
Mean
StDev
N
AD
P-Value
95
90
206.0
11.57
16
0.475
0.207
80
Percent
Frequency
3
70
60
50
40
30
20
10
5
1
160
170
180
190
200
210
strengths
220
230
240
250
Normalplot med konfidensband.
Repetition
En s.v. X är diskret om den endast kan anta ett ändligt eller ett
uppräkneligt oändligt antal värden.
Sannolikhetsfunktion:
fx(x) = P(X = x)
Fördelningsfunktion (cdf): Fx(x) = P(X ≤ x) =
Väntevärde:
μ = E(X) =
∑ x ⋅f
x
∑f
x i ≤x
x
(x i )
( x)
alla x
Varians:
(
) ∑ (x - μ)
σ 2 = V(X) = E (X - μ) 2 =
2
⋅ f x ( x)
alla x
3
Repetition
Binomialfördelningen: A är en händelse som inträffar med
sannolikheten P(A) = p.
Upprepa försöket n gånger och låt
X = antal gånger händelse A inträffar
X∈Bin(n, p)
⎛n⎞
f x (x) = P(X = x) = ⎜⎜ ⎟⎟p x (1 − p) n − x , x = 0,1,..., n
⎝x⎠
μ = np, σ2 = np(1-p)
Om n är stort (np(1-p)>10) kan X∈Bin(n, p) approximeras med
N(np, np(1-p)) (centrala gränsvärdessatsen)
Repetition
Flerdimensionella s.v.: f(x,y)
X och Y är oberoende ⇒ f(x,y) = fx(x) fy(y)
Beroendemått:
Kovarians: Cov(X,Y) = E((X - μx) (Y - μy)) = E(X Y) - μxμy
Korrelation: ρ = ρ(X,Y) = Cov(X,Y)/(σxσy)
-1 ≤ ρ ≤ 1
(mått på det enkla linjära beroendet mellan X och Y).
Repetition
Korrelation = 0.45
Korrelation = 0.9888
Korrelation = -0.04
Korrelation = -0.59
Korrelation = -0.9871
Korrelation = 0.13
4
Repetition
Stickprov
(x1, x2,…,xn)
Population X.
μ, σ2, fx(x),…
⎯x, s2,…
Stickprov: oberoende observationer x1, x2,…,xn från X.
X har en fördelning med okända parametrar μ och σ2.
1 n
μ skattas med x = ∑í =1 x i
n
n
1
2
σ2 skattas med s =
∑ (x i − x ) 2
n − 1 í =1
Repetition
Notera att innan stickprovet är taget är⎯x och s2 två s.v.
(vi vet inte vilka mätvärden vi kommer att få just den här gången).
Vilka fördelningar har dessa slumpvariabler?
2
Låt X1, X2,…,Xn vara ober. s.v. med E(Xi) = μi och V(X i ) = σ i
Om Y = c1 X1 + c2 X2 +…+ cn Xn, där alla ci är konstanter, är alltid
E(Y) = c1 E(X1) + c2 E(X2) +…+ cn E(Xn) = c1 μ1 + c2 μ2 +…+ cn μn
V(Y) = c12 V(X1 ) + c 22 V(X 2 ) + L + c 2n V(X n ) = c12 σ12 + c 22 σ 22 + L + c 2n σ 2n
Om dessutom alla X i ∈ N(μ i , σ i ) är Y∈N(E(Y), V(Y))
2
Repetition
Specialfall: alla ci=1/n, μi = μ och σ i2 = σ 2 .
X ∈ N(μ ,σ 2 /n)
X −μ
∈ N(0,1)
σ/ n
dvs
Centrala gränsvärdessatsen (CGS):
Om n är stort (n >30) gäller det att
X approx. N(μ ,σ 2 /n) dvs
X −μ
approx. N(0,1)
σ/ n
(oavsett vilken fördelning Xi har).
Man kan visa att (n-1)S2/σ2 ∈ χ2(n-1) om alla X i ∈ N(μ i , σ i2 )
5
Repetition
Punktskattningar allmänt:
Låt θ̂ vara en skattning av θ.
θ̂ är en funktion av stickprovet x1, x2,…,xn, dvs θ̂ = θ̂(x1 , x 2 ,K, x n ).
Innan vi har observerat stickprovet är θ̂ en s.v.
θ̂ är väntevärdesriktig (v.v.r.) om E(θ̂ ) = E(θ̂(X1 , X 2 ,K, X n )) = θ
Skattningens standardavvikelse V(θ̂ ) .
En skattning av skattningens standardavvikelse
medelfelet för θ̂ .
V̂(θ̂ ) kallas
Medelfelet för X är s/ n .
Repetition
Hypotesprövning:
H0: nollhypotes (det man vill motbevis)
H1: mothypotes (det man vill styrka)
Typ I-fel: H0 förkastas när H0 är sann.
Typ II-fel: H0 förkastas inte när H1 är sann.
Signifikansnivå: α (förvald, vanligtvis 5%)
Test bestäms så att P(Typ I-fel) = α.
Styrka (power): 1 - P(Typ II-fel), används för att bedöma hur bra
ett test är och för stickprovsdimensionering.
p-värde: den minsta signifikansnivå som H0 förkastas på.
(om p-värdet < förvalt α förkastas H0)
Repetition
Låt X1, X2,…,Xn vara ober. och N(μ ,σ 2 ) -fördelade (σ2 känd).
H0: μ = μ0 ⇔ , H1: μ ≠ μ0
μ skattas med⎯x.
Om⎯x avviker ”mycket” från μ0 tyder det på att H1 är sann, dvs.
x − μ0
avviker ”mycket” från 0.
σ/ n
X − μ0
Om H0 är sann är Z =
∈ N(0,1)
σ/ n
om
Bestäm k1 och k2 så att α = P(förkasta H0 då H0 är sann) =
⎞
⎞ ⎛ X − μ0
⎛ X − μ0
P⎜
> k 2 ⎟ = P (Z < k 1 ) + P (Z > k 2 )
< k 1 ⎟ + P⎜
⎠
⎠ ⎝ σ/ n
⎝ σ/ n
6
Repetition
α/2
− λα / 2
1-α
0
α/2
λα / 2
Välj k1 = -λα/2 och k2 = λα/2 (om α = 0.05 ⇒ λα/2 = 1.96).
Repetition
Förkasta H0 om
x − μ 0 < - λ eller x − μ 0 > λ , dvs.
α/2
α/2
σ/ n
σ/ n
om x < μ 0 − λα / 2 σ/ n eller x > μ 0 + λα / 2 σ/ n .
Olika varianter av test finns sammanfattade på insidan av bokens
pärmar.
Konfidensintervall: Ett intervall [L, U] som täcker den parameter
man skattar med sannolikheten 1-α.
Om X1, X2,…,Xn vara ober. och N(μ ,σ 2 ) -fördelade (σ2 känd) är
L = x − λα / 2σ/ n och U = x + λα / 2 σ/ n .
Förkasta H0 om μ0 ∉ [L, U] .
7