Statisztikai alapfogalmak

Download Report

Transcript Statisztikai alapfogalmak

Statisztikai alapfogalmak
Fogalomlista
1. Hisztogram
2. Átlag
3. Szórás
4. Konfidencia-intervallum
(megbízhatósági tartomány)
5. Szignifikancia
6. Percentilis
7. CSH-index (családiháttér-index)
1. Hisztogram
• Egy változó lehetséges értékeinek megoszlását bemutató oszlopdiagram.
• A grafikon vízszintes tengelyén a változó lehetséges értékei
vagy azok valamilyen csoportosítása szerepel,
függőleges tengelyről pedig az adott kategóriában található értékek
száma vagy aránya olvasható le.
Városi ált.
iskolába járó
gyerekek körében
az adott
intervallumba eső
gyerekek száma
(ezer fő)
Matematika képességpont
50 pontnyi széles intervallumokra osztva
2. Átlag
• Leggyakrabban a számtani átlagot használjuk:
Jelölés: x1, x2,…, xn az n db érték
• Jelentősége abban rejlik, hogy egyetlen számadattal jól jellemzi az
adathalmazt, mert az adatok az átlag környezetébe esnek.
• Óvatosan kell használni, mert a „környezet” nagy is lehet!
Kell egy másik mutató mellé (pl. szórás, konfidencia-intervallum,
szignifikancia).
3. Szórás
• Azt mutatja meg, hogy
az egyes értékek átlagosan mennyivel térnek el az átlagtól.
• Minél kisebb a szórás, az átlag annál pontosabban jellemzi az
adatokat.
• Az átlagtól vett eltérések négyzetes átlaga:
Jelölések:
x1, x2,…, xn: n db érték
A: számtani közép (átlag)
kicsi szórás:
nagy szórás:
4. Konfidencia-intervallum
(megbízhatósági tartomány)
• 95%-os konfidencia-intervallum jelentése: a becsült adat 95%-os
valószínűséggel a megadott intervallumba esik.
• A becsült adat most: a tanulók átlagos képességpontja.
249 pontnyi széles tartomány!
2 pontnyi széles tartomány
4. Konfidencia-intervallum
(megbízhatósági tartomány)
• FONTOS: Nem az egyes értékek esnek 95%-os eséllyel az
intervallumba, hanem az átlaguk!
• Az országos átlagban a telephely tanulói is benne vannak!
• Azért nagy a telephelyi átlag konfidencia-intervalluma,
mert kevés elemű és nagy szórású adathalmazból becsüljük
a tanulók átlagos teljesítményét.
• Az országos szórás is nagy, viszont nagyon sok értékből
számolunk, ami megbízhatóbb becslésre vezet.
5. Szignifikancia
• A statisztikai összehasonlításban gyakran használatos fogalom
(szignifikáns=jelentős).
• Például két telephelyet össze akarunk hasonlítani a tanulók
kompetenciamérés eredménye alapján.
1. Megnézzük az átlagokat (nem elég!)
2. Megnézzük a konfidencia intervallumokat
3. Ez itt most nem elég a döntéshez, ezért statisztikai módszerrel
(hipotézisvizsgálat –> 2 mintás t-próba)
megállapítjuk, hogy van-e jelentős különbség, ekkor:
 ki tudunk mutatni szignifikáns különbséget a két telephely közt
(akkor egyértelmű, hogy melyik a jobb)
 nem tudunk kimutatni lényeges különbséget
(a hipotézisvizsgálat nem tudta megerősíteni, hogy különböznek,
ezért lényegében egyformának tekintjük őket)
Konfidencia-intervallum,
szignifikáns különbség
Egy példa:
1.
2.
Bp. NAGY
Ált. Iskola
Országos
átlag
3.
Bp-i iskolák
átlaga
4.
Bp-i NAGY
iskolák átlaga
1408
1542
Egy konkrét
telephely
1657
NINCS
1611 1612
1655
1613
1658
1662
További
statisztikai
vizsgálat szükséges
VAN
1675 1679
1682
6. Percentilis
• A változó eloszlásának jellemzésére szolgáló mutató.
• A k. percentilis az az érték, amelynél a változó által felvett
értékek k%-a kisebb, (100-k)%-a pedig nagyobb
(k: 0 és 100 közötti egész szám).
• Például az 5-ös percentilisnél az értékek 5%-a kisebb,
95%-a pedig nagyobb.
• A 0-s percentilis a minimum, a 100-as percentilis a
maximum, az 50-es percentilis pedig a medián.
6. Percentilis
Szövegértés képességpont
1903
20 db érték
1887
100%
1856
1815
1774
15 db
legnagyobb érték
75%
1746
1730
1682
1675
1631
1624
1617
1588
1559
1527
5 db
legkisebb érték
25%
1503
1471
1463
1425
1407
1509
25-ös percentilis:
az értékek
25%-a alatta,
75%-a fölötte van
6. Percentilis
Szövegértés képességpont
1903
20 db érték
1887
100%
1856
1815
10 db legnagyobb érték
50%
1774
1746
1730
1682
1675
10 db legkisebb érték
50%
1631
1624
1617
1588
1627
1559
1527
1503
1471
1463
1425
1407
1509
50-es percentilis
(medián):
az értékek 50%-a alatta,
50%-a fölötte van
25-ös percentilis:
az értékek 25%-a alatta,
75%-a fölötte van
6. Percentilis
Szövegértés képességpont
1903
20 db érték
1887
100%
1856
5 db legnagyobb érték
25%
1815
1774
1746
1730
1767
1682
1675
15 db legkisebb érték
75%
1631
1624
1617
1588
1627
1559
1527
1503
1471
1463
1425
1407
1509
75-ös percentilis:
az értékek 75%-a alatta,
25%-a fölötte van
50-es percentilis
(medián):
az értékek 50%-a alatta,
50%-a fölötte van
25-ös percentilis:
az értékek 25%-a alatta,
75%-a fölötte van
7. CSH-index (családiháttér-index)
• Egyetlen számadattal szeretnénk jellemezni a tanuló családi
környezetének azon tényezőit, melyek a legnagyobb befolyással
vannak az iskolai teljesítményére.
• A családiháttér-index értéke a tanulói kérdőív néhány kérdésére
adott válasz alapján kerül kiszámításra, amelyek az index
2006-os kialakításakor a legnagyobb magyarázóerővel bírtak
a lineáris modellben:
– az otthon található könyvek száma
– a szülők iskolai végzettsége külön-külön
– van-e otthon számítógép
– tanulónak vannak-e saját könyvei
2013-tól a HHH státusz is része
7. CSH-index (családiháttér-index)
• A telephelyi jelentésekben külön ábracsoport mutatja be, hogy a
telephely tanulóinak átlagos CSH-indexe alapján milyen eredményre
számítanánk a kompetenciamérésen, és ehhez képest a telephely hogyan
szerepelt (hátránykompenzáló hatás).