Transcript Repetition
Repetition X: slumpvariabel (s.v.) – betraktas innan ett försök är genomfört. x: observerat värde – efter försöket är genomfört. En s.v. är kontinuerlig om den kan anta alla tänkbara värden i ett intervall. Fördelningsfunktion (cdf): Fx(x) = P(X ≤ x) Täthetsfunktion (pdf): fx(x) = Fx’(x) Repetition Täthetsfunktion P(a < X ≤ b) = ∫ b a P(a < X ≤ b) f x (x)dx = 0 täthet Fx (b) - Fx (a) a b x Repetition b Väntevärde: μ = E(X) = ∫ x ⋅ f x (x)dx a Varians: ( ) (uttrycker jämviktsläge) b σ 2 = V(X) = E (X - μ) 2 = ∫ (x - μ) 2 ⋅ f x (x)dx Standaravvikelse: a σ = σ = V(X) 2 Normalfördelning: Standard normalfördelning: X ∈ N(μ, σ2) Z = (X- μ)/σ ∈ N(0, 1) ⎛ a −μ b−μ b−μ ⎞ P(a < X ≤ b) = P⎜ < ≤ ⎟= σ σ ⎠ ⎝ σ b−μ ⎞ ⎛a −μ ⎛ b−μ ⎞ ⎛ a −μ ⎞ P⎜ <Z≤ ⎟ = Φ⎜ ⎟ − Φ⎜ ⎟ σ ⎠ ⎝ σ ⎝ σ ⎠ ⎝ σ ⎠ 1 Repetition Lägesförändring 2 2 N(μ,σ ) täthet N(0,σ ) a-μ 0 b-μ Repetition a μ b μ b Standardisering 2 N(μ,σ ) täthet N(0,1) (a-μ)/σ 0 (b-μ)/σ a Repetition Hur man kan verifiera om ett datamaterial är normalfördelat. ¾ Histogram ¾ Normalplottar ¾ Normalitetstest Testar om hypotesen att datamaterialet är normalfördelat är sann. Hypotesen förkastas om p-värdet ≤ α (signifikansnivån). Om p-värdet > α kan vi inte förkasta hypotesen, dvs hypotesen behöver inte vara sann. Små stickprov ⇒ bara extrema avvikelser från normalfördelningen förkastas Stora stickprov ⇒ minsta lilla avvikelse från normalfördelningen (som i praktiken kan vara försumbar) förkastas. 2 Repetition Histogram of strengths (uppg. 3.69) Histogram of strengths (uppg. 3.69) Normal Normal Mean StDev N 4 206.0 11.57 16 Mean StDev N 6 206.0 11.57 16 5 Frequency 2 4 3 2 1 1 0 180 190 200 210 strengths 220 0 230 183 191 199 207 strengths 215 223 231 Beroende på klassbredd och antal klasser ger histogram olika bilder. Repetition Probability Plot of strengths Normal - 95% CI 99 Mean StDev N AD P-Value 95 90 206.0 11.57 16 0.475 0.207 80 Percent Frequency 3 70 60 50 40 30 20 10 5 1 160 170 180 190 200 210 strengths 220 230 240 250 Normalplot med konfidensband. Repetition En s.v. X är diskret om den endast kan anta ett ändligt eller ett uppräkneligt oändligt antal värden. Sannolikhetsfunktion: fx(x) = P(X = x) Fördelningsfunktion (cdf): Fx(x) = P(X ≤ x) = Väntevärde: μ = E(X) = ∑ x ⋅f x ∑f x i ≤x x (x i ) ( x) alla x Varians: ( ) ∑ (x - μ) σ 2 = V(X) = E (X - μ) 2 = 2 ⋅ f x ( x) alla x 3 Repetition Binomialfördelningen: A är en händelse som inträffar med sannolikheten P(A) = p. Upprepa försöket n gånger och låt X = antal gånger händelse A inträffar X∈Bin(n, p) ⎛n⎞ f x (x) = P(X = x) = ⎜⎜ ⎟⎟p x (1 − p) n − x , x = 0,1,..., n ⎝x⎠ μ = np, σ2 = np(1-p) Om n är stort (np(1-p)>10) kan X∈Bin(n, p) approximeras med N(np, np(1-p)) (centrala gränsvärdessatsen) Repetition Flerdimensionella s.v.: f(x,y) X och Y är oberoende ⇒ f(x,y) = fx(x) fy(y) Beroendemått: Kovarians: Cov(X,Y) = E((X - μx) (Y - μy)) = E(X Y) - μxμy Korrelation: ρ = ρ(X,Y) = Cov(X,Y)/(σxσy) -1 ≤ ρ ≤ 1 (mått på det enkla linjära beroendet mellan X och Y). Repetition Korrelation = 0.45 Korrelation = 0.9888 Korrelation = -0.04 Korrelation = -0.59 Korrelation = -0.9871 Korrelation = 0.13 4 Repetition Stickprov (x1, x2,…,xn) Population X. μ, σ2, fx(x),… ⎯x, s2,… Stickprov: oberoende observationer x1, x2,…,xn från X. X har en fördelning med okända parametrar μ och σ2. 1 n μ skattas med x = ∑í =1 x i n n 1 2 σ2 skattas med s = ∑ (x i − x ) 2 n − 1 í =1 Repetition Notera att innan stickprovet är taget är⎯x och s2 två s.v. (vi vet inte vilka mätvärden vi kommer att få just den här gången). Vilka fördelningar har dessa slumpvariabler? 2 Låt X1, X2,…,Xn vara ober. s.v. med E(Xi) = μi och V(X i ) = σ i Om Y = c1 X1 + c2 X2 +…+ cn Xn, där alla ci är konstanter, är alltid E(Y) = c1 E(X1) + c2 E(X2) +…+ cn E(Xn) = c1 μ1 + c2 μ2 +…+ cn μn V(Y) = c12 V(X1 ) + c 22 V(X 2 ) + L + c 2n V(X n ) = c12 σ12 + c 22 σ 22 + L + c 2n σ 2n Om dessutom alla X i ∈ N(μ i , σ i ) är Y∈N(E(Y), V(Y)) 2 Repetition Specialfall: alla ci=1/n, μi = μ och σ i2 = σ 2 . X ∈ N(μ ,σ 2 /n) X −μ ∈ N(0,1) σ/ n dvs Centrala gränsvärdessatsen (CGS): Om n är stort (n >30) gäller det att X approx. N(μ ,σ 2 /n) dvs X −μ approx. N(0,1) σ/ n (oavsett vilken fördelning Xi har). Man kan visa att (n-1)S2/σ2 ∈ χ2(n-1) om alla X i ∈ N(μ i , σ i2 ) 5 Repetition Punktskattningar allmänt: Låt θ̂ vara en skattning av θ. θ̂ är en funktion av stickprovet x1, x2,…,xn, dvs θ̂ = θ̂(x1 , x 2 ,K, x n ). Innan vi har observerat stickprovet är θ̂ en s.v. θ̂ är väntevärdesriktig (v.v.r.) om E(θ̂ ) = E(θ̂(X1 , X 2 ,K, X n )) = θ Skattningens standardavvikelse V(θ̂ ) . En skattning av skattningens standardavvikelse medelfelet för θ̂ . V̂(θ̂ ) kallas Medelfelet för X är s/ n . Repetition Hypotesprövning: H0: nollhypotes (det man vill motbevis) H1: mothypotes (det man vill styrka) Typ I-fel: H0 förkastas när H0 är sann. Typ II-fel: H0 förkastas inte när H1 är sann. Signifikansnivå: α (förvald, vanligtvis 5%) Test bestäms så att P(Typ I-fel) = α. Styrka (power): 1 - P(Typ II-fel), används för att bedöma hur bra ett test är och för stickprovsdimensionering. p-värde: den minsta signifikansnivå som H0 förkastas på. (om p-värdet < förvalt α förkastas H0) Repetition Låt X1, X2,…,Xn vara ober. och N(μ ,σ 2 ) -fördelade (σ2 känd). H0: μ = μ0 ⇔ , H1: μ ≠ μ0 μ skattas med⎯x. Om⎯x avviker ”mycket” från μ0 tyder det på att H1 är sann, dvs. x − μ0 avviker ”mycket” från 0. σ/ n X − μ0 Om H0 är sann är Z = ∈ N(0,1) σ/ n om Bestäm k1 och k2 så att α = P(förkasta H0 då H0 är sann) = ⎞ ⎞ ⎛ X − μ0 ⎛ X − μ0 P⎜ > k 2 ⎟ = P (Z < k 1 ) + P (Z > k 2 ) < k 1 ⎟ + P⎜ ⎠ ⎠ ⎝ σ/ n ⎝ σ/ n 6 Repetition α/2 − λα / 2 1-α 0 α/2 λα / 2 Välj k1 = -λα/2 och k2 = λα/2 (om α = 0.05 ⇒ λα/2 = 1.96). Repetition Förkasta H0 om x − μ 0 < - λ eller x − μ 0 > λ , dvs. α/2 α/2 σ/ n σ/ n om x < μ 0 − λα / 2 σ/ n eller x > μ 0 + λα / 2 σ/ n . Olika varianter av test finns sammanfattade på insidan av bokens pärmar. Konfidensintervall: Ett intervall [L, U] som täcker den parameter man skattar med sannolikheten 1-α. Om X1, X2,…,Xn vara ober. och N(μ ,σ 2 ) -fördelade (σ2 känd) är L = x − λα / 2σ/ n och U = x + λα / 2 σ/ n . Förkasta H0 om μ0 ∉ [L, U] . 7