VÝBĚR A JEHO REPREZENTATIVNOST Induktivní, analytická statistika se snaží odhadnout charakteristiky populace pomocí „malého vzorku“, který se nazývá VÝBĚR neboli VÝBĚROVÝ SOUBOR. REPREZENTATIVNOST VÝBĚRU:
Download ReportTranscript VÝBĚR A JEHO REPREZENTATIVNOST Induktivní, analytická statistika se snaží odhadnout charakteristiky populace pomocí „malého vzorku“, který se nazývá VÝBĚR neboli VÝBĚROVÝ SOUBOR. REPREZENTATIVNOST VÝBĚRU:
VÝBĚR A JEHO REPREZENTATIVNOST Induktivní, analytická statistika se snaží odhadnout charakteristiky populace pomocí „malého vzorku“, který se nazývá VÝBĚR neboli VÝBĚROVÝ SOUBOR. REPREZENTATIVNOST VÝBĚRU: vlastnosti VÝBĚRU by měly co nejlépe odpovídat vlastnostem celé populace. Základní populace je HOMOGENNÍ: rozdíly mezi sledovanými jedinci mohou být způsobeny pouze NÁHODOU. Základní populace není zcela HOMOGENNÍ: sledování výskytu klíšťové encefalitidy: v některých lokalitách je výskyt infikovaných klíšťat systematicky větší sledování krevního tlaku: závisí na věku osob sledování výšky dospělých osob: závisí na pohlaví KDY VYTVÁŘÍME VÝBĚR 1. 2. Studie popisující populaci Experimentální studie U studie popisující populaci nás zajímá rozložení některé veličiny v populaci, např. její průměr (hladina cholesterolu) pravděpodobnost výskytu nějaké veličiny (např. onemocnění diabetem) skladba populace podle nějaké veličiny (např. podle věku) společné rozložení dvou veličin (např. porodní délky a hmotnosti) Důraz klademe na reprezentativnost výběru - aby složení výběru bylo z pohledu všech rušivých faktorů podobné základní populaci. 1. STUDIE POPISUJÍCÍ POPULACI Musíme mít jasně definovaný základní soubor (populaci), na který chceme zobecnit výsledky studie. Abychom mohli se souborem lépe pracovat, vytvoříme si jeho libovolný seznam - tzv. OPORU. Např. seznam osob z posledního sčítání lidu. Označíme nP rozsah základní populace a nV rozsah výběru (rozsah výběru se určí předem samostatným postupem). Rozlišujeme různé konstrukce výběru: A. B. C. D. E. NÁHODNÝ VÝBĚR SYSTEMATICKÝ VÝBĚR OBLASTNÍ VÝBĚR SKUPINOVÝ VÝBĚR VÍCESTUPŇOVÝ VÝBĚR A. NÁHODNÝ VÝBĚR Nejjednodušší a optimální pro zajištění reprezentativnosti. Nedostatek: technicky velmi náročný. Z čísel 1, 2, …, nP OPORY vybereme náhodně jedno číslo. Osobu, která odpovídá tomuto číslu zařadíme do výběru. Další číslo vybíráme ze zbývajících hodnot OPORY. Pokračujeme v tomto výběru bez vracení dokud nemáme vybráno nV osob. V některých situacích můžeme použít i výběr s vracením. Pokud rozdíl v rozsahu populace a rozsahu výběrového souboru je extrémně velký, mezi výběrem bez vracení a výběrem s vracením není velký rozdíl, protože je malá pravděpodobnost, že některý prvek vybereme víckrát. B. SYSTEMATICKÝ VÝBĚR Předpoklad: Výhoda: pořadí jednotek v OPOŘE musí být náhodné nesmí souviset se sledovanou veličinou. technicky jednodušší. Z prvých k = nP / nV jednotek OPORY vybereme náhodně jednu a označíme její pořadové číslo jako j1. Další prvky výběru budeme vybírat s krokem k, tedy j2 = j1 + k, j3 = j2 + k, … Celkem vybereme opět nV osob. C. OBLASTNÍ VÝBĚR U Oblastního výběru využijeme skutečnosti, že celá populace má většinou nějaké přirozené dělení na menší celky (kraje, okresy, školy, třídy, …). Máme vytvořeny dílčí podsoubory (dílčí opory) Pi (i = 1, 2, …, R) a zvolíme celkový rozsah výběru nV a ten rozdělíme na dílčí nVi Nejčastěji volíme nVi úměrné rozsahu dílčích opor Pi - pak mluvíme o proporcionálním neboli kvótním výběru. Posledním krokem je provedení náhodného výběru v každé oblasti. I při tomto způsobu výběru pracujeme s celou populací a každého jedince musíme vyhledávat individuálně - technicky stále náročné. D. SKUPINOVÝ VÝBĚR Tento výběr umožňuje významné technické zjednodušení. Základní soubor rozdělíme opět na podsoubory (např. podle škol nebo tříd) a písmenem R označíme jejich počet. Zvolíme počet podsouborů, které náhodně vybereme do výběru a jejich počet označíme r. Výběr pak obsahuje všechny objekty zvolených podsouborů. Pro použití této metody je důležité velké množství podsouborů. Tato metoda se používá tehdy, když vyšetření více osob současně přináší relativně malý nárůst nákladů. Příklady přirozených skupin: - rodiny - třídy nebo školy, - obyvatelé jednoho domu, - pacienti jedné nemocnice E. VÍCESTUPŇOVÝ VÝBĚR U větších studií se používají kombinace těchto metod. Výběr rozdělíme do více stupňů. Příklad: vytvoření reprezentativního výběru žáků Základní soubor rozdělíme na podsoubory podle škol Vybereme náhodně jistý počet škol s pravděpodobnostmi, které odpovídají počtu žáků v příslušné škole V každé vybrané škole vybereme náhodně např. polovinu žáků 2. EXPERIMENTÁLNÍ STUDIE Experimentální studie se používá při studiu vztahů různých veličin nebo posouzení nějaké expozice na objekty našeho zájmu Příklady: rozdíl v množství protilátek u zdravých a nemocných rozdíl ve výšce postavy různého pohlaví vyvolá-li podání léku nějakou odpověď Soubory mohou reprezentovat i velmi úzce definovanou populaci. Výběr nemusí splňovat podmínku reprezentativnosti, někdy tuto podmínku dokonce záměrně porušujeme: při konstrukci kalibrační křivky je v reálné populaci výskyt jedinců s okrajovými hodnotami řídký, ale při výběru dat se naopak budeme snažit, aby hodnoty měřené nezávislé proměnné pokrývaly rovnoměrně celou škálu možných hodnot Rušivé faktory Vztahy různých charakteristik v biologii jsou velmi komplikované hodnoty jsou ovlivněny mnoha faktory. Např. výška dítěte závisí nejen na věku, ale také na pohlaví, zdravotním stavu, životosprávě a genetických předpokladech. Většinou není možné všechny vlivy uvažovat. Snažíme se najít model co nejjednodušší, popisující studovanou skutečnost dostatečně přesně. Vybíráme veličiny nejvíce ovlivňující sledovanou charakteristiku: tyto faktory zahrnujeme do modelu a nazýváme je confounding (matoucí) a tím, že je měříme, máme možnost eliminovat jejich vliv Neznámé (nezjišťované) faktory zahrnujeme do náhodné chyby nazýváme je bias (vychýlení) a jejich vliv se snažíme eliminovat konstrukcí výběru tak, aby byly stejnoměrně rozděleny ve všech sledovaných souborech Volba kontrolní skupiny U plánovaného experimentu většinou nepracujeme s rozsáhlými daty a neřešíme problém reprezentativnosti výběru. Obvykle proti skupině, na které zkoumáme působení nějaké expozice stavíme tzv. kontrolní skupinu, statistickými metodami porovnáváme rozdíly ve výsledcích obou skupin a chceme rozhodnout, zda tyto rozdíly jsou statisticky významné, tj. chceme prokázat účinek působení expozice. KONTROLNÍ SKUPINU můžeme vybírat z celé populace nebo pouze z osob, které do sledované skupiny nepatří. KONTROLNÍ SKUPINU musíme zvolit tak, abychom minimalizovali zkreslení výsledků vlivem dalších rušivých faktorů. Volba kontrolní skupiny a rušivé faktory Kontrolní skupina musí odpovídat předpoklady, pokud na nich záleží apod. Při výběru osob s prací v riziku a kontrolní skupiny z celé populace se můžeme dopustit chyby, pokud je pro danou profesi požadováno splnění kritérií, které neodpovídají běžné populaci. Při studiu účinků léků se můžeme dopustit chyby při volbě kontrolní skupiny neléčených osob se stejnou diagnózou věkem, fyzickými placebo efekt - kladný vliv stresový efekt terapie - negativní vliv Proto se používá tzv. slepý pokus, kdy pouze lékař ví, komu je podáváno placebo a komu lék nebo dvojitě slepý pokus, kdy to neví ani lékař Volba kontrolní skupiny a rušivé faktory Pro všechny plány experimentu je nutné zajistit, aby rozdělení do skupin bylo náhodné. Vliv rušivých faktorů můžeme omezit prostřednictvím párovaných dat - data získaná měřením na stejných objektech s opakováním po určitém časovém intervalu.