Transcript wyklad1bud

Statystyka stosowana

Kurs dla Budownictwa Lądowego Semestr zimowy 2008/2009 Strona internetowa: http://im.pwr.wroc.pl/~mbogdan

     Wykładowca : Małgorzata Bogdan Biuro: C-11, p.2.04

Godziny konsultacji: pon. 14:30-16:30, wt. 13:30 – 15:30 Telefon: 320 21 03 Email: [email protected]

Oceny

      Dwa kolokwia: 27 listopad, 29 styczeń (na wykładzie) 50+50=100pt Trzy kartkowki (16 X, 6 XI, 8 I) = 15 pt 50 pt: dst, 70pt: db, 90pt: bdb. Kolokwium poprawkowe (4 II) - zalicza kurs na ocenę najwyżej dst +

Podreczniki

   Statystyka dla studentów kierunków technicznych i przyrodniczych, J. Koronacki, J. Mielniczuk, WNT 2004, wyd. II Introduction to the Practice of Statistics , D. Moore, G. McCabe, Freeman 2003, wyd. III Statistics for the Life Sciences , M. Samuels, J. Witmer, 2003, wyd. III

   Listy zadań dostępne w internecie Część zadań pochodzi ze skryptu H. Jasiulewicz i W. Kordeckiego „Rachunek prawdopodobieństwa i statystyka matematyczna. Przykłady i zadania", wyd. II.

Proszę zaopatrzyć się w kalkulator

Przygotowanie do zajęć

    Przeczytać ostatni wykład Rozwiązać obowiązującą listę zadań Można wydrukować bieżącą prezentację z Internetu, żeby ułatwić sobie śledzenie wykładu i notowanie Zachęcam do zadawania pytań

Dane

   Używamy danych, aby odpowiedzieć na pytania dotyczące badanych populacji Na ogół dane charakteryzują się losową zmiennością Oceniamy informację zawartą w danych

Czym jest statystyka?

• • Nauka rozumienia danych i podejmowania decyzji w obliczu losowości Zbiór metod do planowania eksperymentu i analizy danych tak, aby uzyskać maksimum informacji i ilościową ocenę ich wiarygodności

Przykład 1

Pewne badania dotyczą wpływu aktywności fizycznej na poziom cholesterolu. Jedna grupa ćwiczy, druga nie.

Pytanie: Czy poziom cholesterolu jest niższy u osób, które ćwiczą ?

Czynniki mogące wpłynąć na wynik eksperymentu:

Ludzie mają naturalnie różne poziomy cholesterolu

   

Reagują różnie na ten sam reżim ćwiczeń Różny stopień zaangażowania w realizację ćwiczeń Wpływ diety Ćwiczenia mogą wpływać na inne czynniki, np. apetyt

Przykład 2

  

Eksperyment mikromacierzowy porównujący komórki rakowe i normalne. Czy dwukrotnie wyższy zaobserwowany poziom ekspresji genu dowodzi faktycznie różnej ekspresji ?

Czy mamy powtórzenia eksperymentu? Czy w powtórzeniach wyniki są podobne ?

Dlaczego dwukrotna zmiana, a nie trzy lub czterokrotna ? Jak ustalić właściwą wartość krytyczną?

Przykład 3

 

W artykule prasowym czytamy, że 80% pieszych będących ofiarami nocnych wypadków samochodowych nosiło ciemne ubrania, a 20% jasne ubrania. Wyciągnięto wniosek, że w nocy bezpiecznie jest nosić jasne ubrania.

Czy przeprowadzone badania upoważniają do takiej konkluzji?

Przykład 4 Reakcja owiec na bakterie wąglika

Reakcja Śmierć Przeżycie Procent przetrwania Szczepione 0 24 100 % Nie szczepione 24 0 0 %

Przykład 5 Rozwój raka wątroby u myszy

Rak wątroby E. coli 8 Wolne od zarazków 19 Zdrowa Suma 5 13 30 49 Procent myszy z rakiem wątroby 62 % 39 %

Sygnał i szum

   Przykład 4 – brak zmienności (??): mocna konkluzja Przykład 5 – duża zmienność: słaba konkluzja Jak duża musi być próba, abyśmy w oparciu o nią mogli wywnioskować, że badany czynnik ma wpływ na wynik eksperymentu?

Losowość

  Dane na ogół charakteryzują się zmiennością Matematycznie modelujemy tą zmienność używając rachunku prawdopodobieństwa

Przykłady

  Prognoza pogody- prawdopodobieństwo deszczu wynosi 80% Prawdopodobieństwo urodzenia dziewczynki wynosi 0,49

Schemat badań naukowych

     

Pytanie naukowe Planowanie eksperymentu Eksperyment / zbieranie danych Analiza danych Wnioski statystyczne Wnioski naukowe

Próba, Zmienna

  Próba:  Obserwacje lub wyniki eksperymentu  Reprezentuje konkretną realizację eksperymentu Przykłady:    Wysokość 10 kłosów żyta (10 obserwacji) Poziom(y) hemoglobiny u 35 dawców Kolor i kształt ziaren grochu

Próba, Zmienna cd.

  Rozmiar próby:   “n” np. n=10, n=35, n=556 Zmienna:  to co mierzymy  tu: wysokość, poziom hemoglobiny, kolor i kształt

Rodzaje zmiennych

Zmienne Jakościowe Ilościowe Porządkowe Nie porządkowe Ciągłe Dyskretne

Zmienne jakościowe (kategoryczne)

 Jakościowe – kwalifikujące do kategorii   Porządkowe, np. wybory w ankiecie: nigdy, rzadko, czasami, często, zawsze Nie porządkowe, np.: kolor i kształt

Zmienne ilościowe (liczbowe)

 Ilościowe – wynik jest liczbą   Ciągłe, np. wzrost, waga, stężenie Dyskretne, np. liczba wadliwych elementów, liczba gładkich i żółtych groszków

Oznaczenia

    Zmienne: X,Y,Z; np.Y=wzrost (pojęcie) Obserwacja: x,y,z; np. y=182cm (wynik) Próba: y 1 ,y 2 ,…,y n obserwacje) (wielokrotne Rozmiar próby: n, czasem n 1 ,n 2

Próba a próbka

    Biolog mierzy poziom glukozy we krwi 20 ludzi.

„20 próbek krwi”? (biolog) „Jedna próba 20 pomiarów glukozy.” (statystyk) Będziemy używali “pomiar” tam, gdzie biolog użyłby słowa “próba”.

Statystyki opisowe: Tabela częstości

Groszki:gładkie/pomarszczone, zielone/żółte Klasy Gładkie, żółte Gładkie, zielone Pomarszczone, żółte Pomarszczone, zielone Liczba 315 108 101 32

400 300 200 100 0

Wykres słupkowy (dane jakościowe)

groszki generacji F2 round, yellow round, green wrinkled, yellow wrinkled, green

Wykształcenie Podstawowe lub zawodowe Szkoła średnia Liczba (*1000000) Procent 4.7

11.8

12.3

30.7

Szkoła policealna 10.9

Licencjat 8.5

Wykształcenie wyższe 2.5

28.3

22.1

6.6

Wykres słupkowy

Wykres kołowy

Dane ilościowe dyskretne

 Liczba potomstwa u n=36 macior. Liczność miotu jest liczbą całkowitą (zmienna dyskretna).

Dane

10 14 8 10 11 9 12 11 11 8 11 11 7 5 10 10 9 10 7 13 13 11 8 12 14 10 12 11 12 10 11 10 13 12 10 9

Rozkład liczebności

6 7 8 Liczba potomstwa 5 9 10 11 12 13 14 5 3 2 3 9 8 0 2 3 Liczba macior 1

Histogram liczebności

10 9 8 7 6 5 4 3 2 1 0 5 6 7 8 9 10 11

Liczność miotu

12 13 14

Histogram (liczebności)

   Grupowanie podobnych obserwacji zwykle jest pomocne Prawie zawsze postępujemy tak z danymi ciągłymi Definiujemy “klasy” (przedziały) obserwacji i zliczamy liczbę obserwacji wpadających do każdej klasy

Jak wybierać klasy:

 Każda obserwacja musi wpadać do dokładnie jednej klasy (klasy rozłączne, pokrywają wszystkie możliwe wyniki)  Rozmiar (szerokość) klas (przedziałów) jest zwykle taki sam  Używamy wygodnych granic przedziałów, np. 20-29, a nie 19.82 – 29.26  Używamy 5 do 15 klas dla umiarkowanych zbiorów danych (n  50); więcej, gdy próba jest duża

Przykład

 Dane : długość łodygi papryki (n=15) 12.4

12.2

13.4

10.9

12.2

12.1

11.8

13.5

12 14.1

12.7

13.2

12.6

11.9

13.1

     Min=10.9, max=14.1, zakres=max-min=3.2

Wybieramy szerokość klasy, np. 0.5 i początek 10.5, aby pokryć zakres 10.5 – 14.5. Zliczamy liczby wystąpień i rysujemy histogram.

Ew. zmieniamy szerokość klas, aby uzyskać pożądany kształt Za mała szerokość klas=dużo „szumu”, za duża = utrata informacji

Tabela liczebności (klas)

10.5 11.0 11.5 12.0 12.5 13.0 13.5 14.0 Klasa 10.99

11.49

11.99

12.49

12.99

13.49

13.99

14.49

2 3 1 1 Liczność 1 0 2 5

Histogram liczebności

6 4 2 0 10.5 - 11.0 - 11.5 - 12.0 - 12.5 - 13.0 - 13.5 - 14.0 10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49

Klasa

121 95 84 119 62 25

Przykład: Stężenia serum CK

82 145 57 104 83 123 100 64 139 110 67 70 151 201 60 113 93 48 68 101 78 118 92 95 58 163 94 203 110 42

Min=25, max=203

Rozstęp =178

Szerokość klasy =20

Punkt początkowy=20

Serum CK 20 - 39 40 - 59 60 - 79 80 - 99 100 - 119 120 - 139 140 - 159 160 - 179 180 - 199 200 - 219 Suma 8 3 2 1 0 2 36 4 7 8 Liczność 1

Opis histogramu:

   Centralny szczyt (moda) w okolicach 100 J/L Zasadnicza masa rozkładu między 40 a 140 J/L Niesymetryczny–skośny na prawo

Interpretacja pola powierzchni pod histogramem (przy równej szerokość klas)   Nad odcinkiem 60 -100 J/L leży: 42% całkowitej powierzchni histogramu Do tego odcinka wpada: 42% (15 z 36) wartości CK

Nierówna szerokość klas

    Powierzchnia pod histogramem nie jest proporcjonalna do liczności W tak „spaczonym’’ histogramie (patrz dalej) powierzchnia między 140 a 220J/L stanowi 39% całkowitej powierzchni (mimo, że te stężenia stanowią tylko 14% obserwacji) Rozwiązanie – podzielić liczności przez długość odcinka (liczbę zgrupowanych klas) Oś Y na przekształconym histogramie – średnia liczność (w zgrupowanych klasach)

Histogram częstości

 Często rysujemy histogram tak, że na osi pionowej zaznaczamy

częstość

(względną) =

liczba wystąpień / n

Histogram częstości

jest użyteczny, zwłaszcza dla porównania zbiorów danych o różnych rozmiarach n

Histogram liczebności

3 2 1 0 6 5 4 10.5 - 11.0 - 11.5 - 12.0 - 12.5 - 13.0 - 13.5 - 14.0 10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49

Klasa Histogram częstości

0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 10.5 - 11.0 - 11.5 - 12.0 - 12.5 - 13.0 - 13.5 - 14.0 10,99 11,49 11,99 12,49 12,99 13,49 13,99 14,49

Długość łodygi

Diagram łodygi i liścia (Stem and leaf plot)  Jest to inny sposób podsumowania danych; zachowuje prawie wszystkie informacje.  Wybieramy „łodygę” („pień”) liczby zwykle opuszczając jedną lub dwie ostatnie cyfry w zapisie dziesiętnym  Zapisujemy wszystkie „łodygi” w jednej kolumnie w kolejności rosnącej, i rysujemy pionową linię oddzielającą (od „liści”)

Diagram łodygi i liścia (Stem and leaf plot) cd.

   Znajdujemy ``pień’’ odpowiadający każdej obserwacji. Za linią pionową zapisujemy pozostałe (bez pnia) cyfry danej obserwacji. Ta część zapisu obserwacji nazywana jest „liściem”. Dostajemy „obrócony’’ histogram Ograniczenie: trudniej manipulować liczbą klas

Przykład:

Stężenie glukozy w przedniej komorze prawego oka u 31 zdrowych psów 81 75 89 84 88 106 85 84 81 86 102 93 78 96 80 115 93 84 82 70 89 99 81 74 131 82 76 82 70 75 79

Opis histogramu (rozkładu)

  Symetryczny / asymetryczny W kształcie dzwonu (normalny) / ciężkie ogony (spłaszczony)  Skośny na prawo lub lewo  Jednomodalny (jeden główny wierzchołek)   Dwumodalny (dwa główne wierzchołki) Wykładniczy (malejący)  Rozrzut (duży lub mały)

Statystyka

   Statystyka – liczbowa charakterystyka danych Przykłady statystyk: próba: y 1 =24,y 2 =35, y 3 =26 ,y 4 =36 min=24, max=36,   rozstęp= 36-24=12 Opis danych: kształt, centrum, rorzut

Miary położenia rozkładu

• • •  Średnia z próby: symbol oznacza liczbę; arytmetyczną średnią z obserwacji Symbol próby

Y

oznacza pojęcie średniej z Średnia jest „środkiem ciężkości” zbioru danych

Przykład: Przyrost wagi owiec

  Dane : 11, 13, 19, 2, 10, 1 y 1 =11, y 2 =13,…, y 6 =1

y i

6   1

y i

 56 / 6

y

1

 

y

2

9.33

y

6

Odchylenia

dev dev

1

i

 

y i

y y

1 Σ dev i = ?

Mediana próbkowa:

  Środkowa obserwacja jeżeli n jest nieparzyste Średnia z dwóch środkowych wartości gdy n jest parzyste

Przykłady

 

Przykład 1 (n = 5)

  Dane: 6.3 5.9 7.0 6.9 5.9

Średnia z próby = 32/5 = 6.4

 Mediana =

Przykład 2 (n = 6)

 Dane: 366 327 274 292 274 230   Średnia z próby = 293.8

Mediana =

Średnia a mediana

 

Przykład 1 cd. (n = 5)

 Dane: 6.3 5.9 7.0 6.9 5.9

  Średnia = 32/5 = 6.4

Mediana = 6.3

Błąd w zapisie danych:

   Dane: 6.3 5.9 70 6.9 5.9

Średnia = 19 Mediana = 6.3

Średnia a mediana

    Mediana dzieli powierzchnię histogramu

na połowę

Jest

odporna –

nie mają na nią wpływu obserwacje „odstające” Średnia to „środek ciężkości” histogramu Obserwacje odstające mają duży wpływ na średnią – średnia nie jest

odporna

Średnia a mediana

    Jeżeli histogram jest w przybliżeniu symetryczny, to średnia i mediana są zbliżone.

Jeżeli histogram jest skośny na prawo, to średnia jest zwykle większa niż mediana.

Obie te ważne.

miary położenia

są jednakowo Średnia jest częściej wykorzystywana do testowania i estymacji (o czym później).

Miary położenia cd.:Kwartyle

    Kwartyle dzielą zbiór danych na cztery grupy.

Drugi kwartyl (Q2) to mediana.

Pierwszy kwartyl (Q1) to mediana grupy obserwacji mniejszych niż Q2.

Trzeci kwartyl (Q3) to mediana grupy obserwacji większych niż Q2.

Przykład

 Dane: 3 5 6 2 1 7 4

Przykład (n=15)

7 12 8 2 4 3 4 3 4 5 6 9 5 3 5

Rozstęp międzykwartylowy

 IRQ=Q3-Q1 (inter-quartile range)

Wykres ramkowy (Boxplot)

  Boxplot – graficzna reprezentacja:

mediany, kwartyli, maximum i minimum

z danych.

„Ramka” („pudełko”) powstaje z obrysowania kwartyli  Linie („wąsy”) ciągą się do wartości najmniejszej i największej.

12 10 8 6 4 2 0

BoxPlot

Zmodyfikowany Boxplot

  Obserwacja odstająca:  błąd w zapisie danych, błąd maszyny, zmiana warunków eksperymentu itp.

Kryterium do identyfikacji obserwacji odstających:   Dolna granica = Q1 - 1.5*IQR Górna granica = Q3 + 1.5*IQR

 Dane : 1 2 2 3 3 4 4 4 5 6 6 7 8 15 16

Przykładowy zmodyfikowany wykres ramkowy (boxplot)

Miary rorzutu:

  Rozstęp (max – min) – bardzo wrażliwy na obserwacje odstające, nieprzydatny do testowania Rozstęp międzykwartylowy (IRQ=Q3-Q1) – rozstęp środkowych 50% obserwacji   Standardowe odchylenie / Wariancja Współczynnik zmienności (CV)

Próbkowe odchylenie standardowe (SD, s)

  Wyrażone w jednostkach pomiarowych Informuje średniej o ile przeciętnie odległe od są obserwacje.

s

 

i n

  1 (

y i

y n

 1) (definition) (

i n

  1

y i

2 

ny

2 ) /(

n

 1) (calculations)

W mianowniku jest n-1 :

s

n SS

 1 ,where

SS

i n

  1 (

y i

y

) 2 

i n

  1

y i

2 

ny

2

Próbkowa wariancja: s

2   Przeciętny kwadrat odległości od średniej próbkowej: s 2 Mierzona w jednostkach będących kwadratem jednostek, w których wyrażone są dane

Dlaczego n-1 ?

  s 2 jest nieobciążonym estymatorem wariancji w populacji (te pojęcia wyjaśnimy później)

n

 1 Σ dev i =0 stąd

dev n

 

i

  1

dev i

 n-1 stopni swobody = n-1 jednostek informacji

Miary rozrzutu, cd.

 Współczynnik zmienności (CV)

CV

s

/

y

 Przykład  Dane : 35.1, 30.6, 36.9, 29.8 (n=4) Rozstęp =

 Suma obserwacji:  y = 35.1 + 30.6 + 36.9 + 29.8 = 132.4

  s z definicji: SS = wariancja: s 2 s= =

Uwaga: Proszę zachowywać dużo cyfr znaczących przy rachunkach. Zaokrąglamy dopiero na koniec.

 Współczynnik zmienności: CV=

    

Ogólne uwagi

Duże s=duży rozrzut. Małe s=mały rozrzut.

Jeżeli histogram (rozkład ) jest w kształcie dzwonu („normalny”), to około: 68% obserwacji jest w odległości średniej 95% obserwacji jest w odległości średniej   99% obserwacji jest w odległości  średniej 1 s od 2 s od 3 s od

    Nawet, gdy rozkład nie jest normalny to co najmniej 75% obserwacji jest w odległości  2 s od średniej co najmniej 89% obserwacji jest w odległości  3 s od średniej.

(Wniosek z nierówności Czebyszewa)

 Przykład 13 14 12 14 13 17 11 20 12 14 10 20 14 13 14 18 13 19 15 12

Przykład cd

 Średnia s = 2.9.

y

= 14.4, odchylenie standardowe

Ocena s z histogramu

 Odcinek

I

 (

y

  zawiera około 95 % danych.

 Ocena s = (długość I) /4.

 Reguła działa najlepiej, gdy histogram jest w kształcie dzwonu (bliski normalnemu).

Przykład (puls po ćwiczeniach)

 95 % pomiarów jest pomiędzy 75 a 125  Faktyczne s = 13.4

Porównanie miar rozrzutu i położenia

    Miary rozrzutu służą do oszacowania zmienności w danych.

Odporność: Załóżmy, że mamy dość skupiony „dzwonowy” (normalny) zbiór danych.

Co się stanie, gdy jedną dużą obserwację zastąpimy

bardzo dużą

wartością?

 Mediana  Rozstęp  Średnia  Kwartyle i rozstęp międzykwartylowy  Standardowe odchylenie

Praca własna:

    Przeczytać ponownie obecny wykład Przeczytać i przygotować listę zadań, zapisać w zeszycie wszystkie rozwiązania Przejrzeć, ew. wydrukować następny wykład (www, za kilka dni) Powtórzyć 1 .-3. po każdym wykładzie.