3,2 - Wesley pedagógia szakos hallgatói oldal

Download Report

Transcript 3,2 - Wesley pedagógia szakos hallgatói oldal

Wesley János Lelkészképző Főiskola
Pedagógia alapszak, I. évfolyam
TÁRSADALOMSTATISZTIKA
Előadó: Csákó Mihály
egyetemi docens
30 kontaktóra + 60 egyéni munkaóra = 3 kredit
(Levelező: 12 kontakt + 78 egyéni munkaóra)
A jegyzet-rovatot is érdemes figyelni!!!
Az előadások beosztása:
1. Mi a statisztika és mire jó? A kurzus célja
2. Adatgyűjtés és ábrázolás: a hisztogram
3. Csoportok jellemzése: középértékek
4. Csoportok szóródása: a szórás
5. A normálgörbe
6. A normális közelítés módszere
7. Két változó kapcsolata: varianciaelemzés
8. Két változó kapcsolata: korreláció
9. Két változó kapcsolata: regresszió
10. Statisztikai következtetés: mintavétel
11. Valószínűségszámítás
12. Megbízhatósági próbák, szignifikancia
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
2
Számolási gyakorlat
• Ránézésre becsüljék meg a következő
számokat %-ban! (Kb. 1%,10%, 50% …?)
• 99 a 407-ből?
• 57 a 209-ből?
• 99 a 197-ből?
• 39 a 398-ból?
Ezek kb. a legnehezebb számolási feladatok
amelyek előfordulhatnak a félév során.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
3
Az igazság keresése:
a kenyérfogyasztás példája
1. A büntetés-végrehajtási intézetekben fogva tartott
elítéltek több mint 98 %-a kenyérfogyasztó.
2. A kenyérfogyasztó családokban felnövekedő
gyermekek 50 %-a a standardizált teszteket átlag
alatti eredménnyel teljesíti.
3. A XVIII. században, amikor gyakorlatilag minden
kenyér otthon, a háztartásban készült, az átlagéletkor nem érte el az 50 évet, a csecsemőhalandóság elfogadhatatlanul magas volt, sok nő belehalt a
szülésbe, és a lakosságot olyan járványok tizedelték, mint a tífusz, a sárgaláz és az influenza.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
4
Az igazság keresése:
a kenyérfogyasztás példája
4. Az erőszakos bűncselekmények több mint 90 %-át
kenyérfogyasztás után 24 órán belül követik el.
5. A kenyér alapanyaga a tésztának nevezett szubsztancia. Kísérletek során bebizonyosodott: ebből
az anyagból néhány dekagramm elég, hogy egy
egér megfulladjon tőle. Az átlag magyar ennek
sokszorosát fogyasztja el egy hónap alatt!
6. A primitív törzsi társadalmakban, ahol a kenyérfogyasztás ismeretlen, évszázadok óta feltűnően
kevés rákos megbetegedést, Alzheimer-és Parkinson-kóros, csontritkulásos esetet jegyeztek fel.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
5
Az igazság keresése:
a kenyérfogyasztás példája
7. A kenyér bizonyítottan addiktív. Kísérleti alanyok,
akiktől egy időre megvonták, és csak vízzel
táplálták őket, alig 2 nap elteltével már kenyérért
könyörögtek.
8. A kenyérfogyasztás sok esetben csak előkészítője a
"keményebb" élelmiszerek, mint például a vaj,
lekvár, méz fogyasztásának.
9. A kenyérről bebizonyosodott, hogy magába szívja a
vizet. Mivel az emberi testet több mint 90%-ban víz
alkotja, a huzamos kenyérfogyasztás beláthatatlan
következményekkel járhat a szervezet molekuláris
összetételében.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
6
Az igazság keresése:
a kenyérfogyasztás példája
10. Az újszülöttek köhögnek a kenyértől.
11. A kenyeret 200 Celsius-fok körüli
hőmérsékleten sütik. Ez a hőmérséklet
nem egészen egy perc alatt elpusztít egy
felnőtt embert.
12. A legtöbb kenyérfogyasztó képtelen
megkülönböztetni a tudományos tényeket
a statisztika álruhájába burkolt, értelmetlen
locsogástól.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
7
Találkozásaink a statisztikával:
hétköznapi tapasztalatok
•
•
•
•
•
•
•
•
•
Népszámlálás
Az európai népesség öregedése
A magyar népesség fogyása
A cigány gyerekek iskolázottsága
Éves iskolai statisztikai jelentés
A levegő hőmérsékletének sokévi átlaga
Foglalkozási kategóriák átlagkeresete
Munkanélküliség mértéke
Stb.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
8
Példa az alkalmazásra
• Freedman: májműtétes példája
Veszélyes bypass műtét, de
életmentőnek tartják.
Kérdés: „megéri-e”?
Hogyan lehet megtudni?
Számoljuk meg az eredményt!
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
9
Mit értünk statisztikán?
•
•
•
•
Összeszámlálás,
Jelzőszámok
Kapcsolatkeresés,
Feltételezett kapcsolat ellenőrzése,
– magyarázat-keresés
– minőség-ellenőrzés
• Kutatási módszer (- pl. survey)
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
10
ÖSSZEFOGLALÁS
• Mivel kezdődik a statisztikai tevékenység?
Nem az adatgyűjtéssel,
hanem a kategóriák megtervezésével.
• Mi mindenről kell dönteni az adatgyűjtéssel
kapcsolatban?
Kiktől? – miféle válaszok lehetségesek?
Mit, milyen adatot gyűjtünk?
Hogyan gyűjtjük?
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
11
ÖSSZEFOGLALÁS: Célok
• Milyen célok érdekében gyűjtünk adatot?
Leggyakrabban egy népesség/csoport leírására.
• Szélsőséges pl.: a népszámlálás – mi baj?
Több mint 20 kötet adat – áttekinthetetlen
A „demográfiai adatok” 1 kötet (vagy 19)…
• „Magyarországon az átlagéletkor: év”
• vagy: „Magyarországon az átlagkereset…”
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
12
Változók
• Miért vizsgáljuk a dolgokat vagy személyeket?
- mert nem egyformák, sokfélék,
- és ráadásul változnak.
• Dolgoknak vagy személyeknek azt a
tulajdonságát, jellemzőjét, amelyet vizsgálunk,
változónak nevezzük.
• Pl.: életkor; fizetés; gyerekszám;
munkahelyváltoztatások száma.
• Nem biztos, hogy megszámlálható (pl. lakóhely).
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
13
A tankönyv példája: jövedelem az USÁ-ban
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
14
A tankönyv példája: jövedelem az USÁ-ban
A függőleges tengely =
= sűrűségskála (%/egység)
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
15
A tankönyv gyakorló feladata 1.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
16
A tankönyv gyakorló feladata 2-3.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
17
A tankönyv gyakorló feladata 4.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
18
A 18 évesek apjának és anyjának életkora
(2010-2011)
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
19
Az apák életkora: grafikon
Az apák életkora %
Év
Szám
%
40-ig
257
9
41-45
1046
36
46-50
864
30
51-55
446
16
56-60
175
6
84
3
több
Csoportosított adatok.
WJLF Pedagógia BA
Százalék
Az apák életkora
40
35
30
25
20
15
10
5
0
40-ig
41-45
46-50
51-55
56-60
több
Életkor
Ez a grafikon csak szemléltető eszköz
- csak egy dolgot mutat.
Csákó M.: Társadalomstatisztika
20
Az apák életkor szerint: hisztogram
36%
30%
16%
9%
32
A hisztogram
WJLF
Pedagógia BA
6%
40
45
50
55
3%
60
pontosanCsákó
megfelel
az adatoknak, nemcsak szemléltet.21
M.: Társadalomstatisztika
Feladat: Rajzolják meg a hisztogramot!
Testvérek
száma
Eset %
0
28,1
1
47,1
2-3
22,5
4-8
2,3
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
IDE
22
KÖZÉPÉRTÉKEK
• A középértékekkel (átlag) egy csoport
gyors áttekintését kívánjuk nyújtani.
• Alkalmazásuk feltételei:
1. legyen értelmezhető csoport, amelyet
jellemez (pl. 7.osztály; bérből élők…)
2. a célnak megfelelőt válasszuk a
középértékek közül
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
23
KÖZÉPÉRTÉKEK
• A középértékek fajtái:
- számtani átlag
- medián
- módusz
- négyzetes átlag
- harmonikus átlag
- mértani átlag
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
24
KÖZÉPÉRTÉKEK
• A számtani átlag a legismertebb.
Képlete:
a1+a2+…+an
Σa
ā=
= n
n
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
25
KÖZÉPÉRTÉKEK
• Mikor jó és mikor problémás a számtani
közép: pl. testvérszám; testmagasság.
• A módusz a középtendenciát jobban
kiemeli (ha van) = leggyakoribb érték
• A medián jó jelzőszám, de előnytelen
matematikailag további számításokhoz
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
26
KÖZÉPÉRTÉKEK
• A hetedikesek kérésünkre megjelölték egy [0;
100] egyenes szakaszon, hány % esélyük van
rá, hogy érdemi választ kapjanak tanáraiktól a
kérdéseikre.
• Az esélyüket átlagosan 58,9%-ra becsülték.
• A medián érték 59,8%, a módusz pedig 41-60%
(mivel csoportosítottuk a válaszokat).
• Mi a véleményük erről? Mit jelent ez? Milyenek
lehetnek a vélemények részletesebben?
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
27
KÖZÉPÉRTÉKEK
N= 27 62  81 182  133  169 45 = 699
% 3,9 8,9  11,626,0  19,024,2 6,4 = 100
Átlag =

Módusz = 40–60%

Medián = 350. eset =
=180. a (40-60)-ban =
= 59,78  59,8

WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
28
KÖZÉPÉRTÉKEK
Számok:
a)
1
2

1
2
3
4
Számok:
c)
1
WJLF Pedagógia BA
4
Számok:
b)
átlag
3
2
3

4
1, 2, 2, 3
5
6
1, 2, 2, 5
5
6
1, 2, 2, 7
5
6
7
Forrás: Freedman , 83.
Csákó M.: Társadalomstatisztika
29
KÖZÉPÉRTÉKEK
Példa:
• Márta néni fantasztikus matektanár:
minden osztályában eléri matekból a 3,2 átlagot,
még az összevont osztályban is!
Hogyan?
• „a” osztály: 2- 6; 3- 1; 4- 2; 5- 3 (12 fő)
• „b” osztály: 2- 2; 3- 6; 4- 4; 5- 0 (12 fő)
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
30
12 fő
A
jegy:
6
1
2
3
2
3
4
5
Rajzoljuk meg
először a
hisztogramokat!
WJLF Pedagógia BA
12 fő
B
jegy:
2
6
4
0
2
3
4
5
Az osztályzatokat
a (vízszintes)
tengelyen
ábrázoljuk,
ezen helyezünk el
annyi tanulót,
ahányan az adott
osztályzatot
kapták
Csákó M.: Társadalomstatisztika
31
12 fő
A
12 fő
B
6
1
2
3
2
6
4
0
2
3
4
5
2
3
4
5
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
32
12 fő
A
jegy:
6
1
2
3
2
3
4
5
WJLF Pedagógia BA
12 fő
B
jegy:
Csákó M.: Társadalomstatisztika
2
6
4
0
2
3
4
5
33
12 fő
A
jegy:
6
1
2
3
2
3
4
5
WJLF Pedagógia BA
12 fő
B
jegy:
Csákó M.: Társadalomstatisztika
2
6
4
0
2
3
4
5
34
12 fő
A
jegy:
12 fő
B
6
1
2
3
2
3
4
5
12 +
3+
8+
15
jegy:
2
6
4
0
2
3
4
5
= 38
átlag (ā)
38 : 12 ≈ 3,2
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
35
12 fő
A
jegy:
átlag (ā)
12 fő
B
6
1
2
3
2
6
4
0
2
3
4
5
2
3
4
5
12 +
3+
8+
15
4+
18 +
16 +
0
= 38
= 38
38 : 12 ≈ 3,2
38 : 12 ≈ 3,2
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
36
KÖZÉPÉRTÉKEK
• Hogyan lehetne kifejezni a két osztály
különbségét?
Miben is áll ez a különbség?
Átlag „a”: 12+3+8+15=38 38/12=3,17 ≈ 3,2
Átlag: „b”: 4+18+16+0=38 38/12=3,17 ≈ 3,2
Az átlaguk azonos – mi eltérő? A szóródás
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
37
A SZÓRÁS
Eredmény:
• A két osztály átlageredménye azonos (3,2)
• de az egyikben nagy különbségek vannak
a tanulók között (s  1,3), míg a másikban
közel állnak egymáshoz (s  0,7).
Vagyis a szórás segítségével tudjuk
számszerűsíteni a különbséget.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
38
A SZÓRÓDÁS MÉRTÉKE
Mi a tanulság?
• A valóság a szóródásban rejlik, a
középérték erős absztrakció.
• A mozgás mindig különbségből ered,
oka tehát a különbségek okában van.
 Valamiképpen fogalmilag ki kell
fejezni a változatosságot:
 a szórás mérőszámaival.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
39
A SZÓRÓDÁS MÉRÉSE
• Első megközelítés: szélső értékek,
vagyis az eloszlás kiterjedése.
Pl. az emberi testmagasság
A legmagasabb ismert férfi:
Robert Pershing Wadlow (1918-1941) 272 cm
A legmagasabb ismert nő:
Zeng Jinlian (1964-1982) 246 cm
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
40
A SZÓRÓDÁS MÉRÉSE
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
41
A SZÓRÓDÁS MÉRÉSE
• A valaha ismert legalacsonyabb emberek:
Nő: Pauline Musters (1876-1895) 59 cm.
Férfi: Calvin Philips (1791-1812) 67 cm.
• Eleget tudunk-e így az emberi testmagasságról?
Nem: az eloszlás még sokféle lehet a két
végpont között.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
42
A SZÓRÓDÁS MÉRÉSE
•
Második megközelítés
= az esetek zömének kiterjedése
= interkvartilis távolság
Pl. a tanári válasz esélye:
N= 27 62  81 182  133  169 45 = 699
% 3,9 8,9  11,626,0  19,024,2 6,4 = 100
1. kvartilis = a 175. eset (40-60%)
2. kvartilis = medián
3. kvartilis = az 525. eset (80-100%)
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
43
A SZÓRÓDÁS MÉRÉSE
• Harmadik megközelítés
= az esetek átlagtól való távolságának átlaga =
= szórás (s)
• A kiszámítás módja: négyzetes átlag
Σ(a – ā)2
s=
N
Magyarázat: az összeadás tagjai előjelesek.
(Lássuk Márta néni osztályainak példáján!)
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
44
12 fő
A
jegy
6
1
2
3
2
6
4
0
2
3
4
5
2
3
4
5
12 +
3+
8+
15
4+
18 +
16 +
0
átlag (ā)
a-ā
12 fő
1,2
= 38
= 38
38 : 12 ≈ 3,2
38 : 12 ≈ 3,2
0,2
WJLF Pedagógia BA
0,8
1,8
Csákó M.: Társadalomstatisztika
45
12 fő
A
12 fő
B
6
1
2
3
2
6
4
0
2
3
4
5
2
3
4
5
12 +
3+
8+
15
4+
18 +
16 +
0
jegy
átlag (ā)
= 38
= 38
38 : 12 ≈ 3,2
38 : 12 ≈ 3,2
a-ā
1,2
0,2
0,8
1,8
(a-ā)2
1,44
0,04
0,64
3,24
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
46
12 fő
A
6
1
2
3
2
6
4
0
2
3
4
5
2
3
4
5
12 +
3+
8+
15
4+
18 +
16 +
0
jegy
= 38
átlag (ā)
= 38
38 : 12 ≈ 3,2
38 : 12 ≈ 3,2
a-ā
1,2
0,2
0,8
1,8
(a-ā)2
1,44
0,04
0,64
3,24
6x1,44
0,04
2x0,64
3x3,24
nx
12 fő
B
8,64 +
0,04 +
nx
1,28 +
9,72
= 19,68
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
47
12 fő
12 fő
6
1
2
3
2
6
4
0
2
3
4
5
2
3
4
5
12 +
3+
8+
15
4+
18 +
16 +
0
jegy
= 38
átlag (ā)
= 38
38 : 12 ≈ 3,2
38 : 12 ≈ 3,2
a-ā
1,2
0,2
0,8
1,8
(a-ā)2
1,44
0,04
0,64
3,24
6x1,44
0,04
2x0,64
3x3,24
nx
8,64 +
0,04 +
nx
1,28 +
9,72
= 19,68
(nx)/N
√(19,68:12)
WJLF Pedagógia BA
≈ 1,3
Csákó M.: Társadalomstatisztika
48
12 fő
A
12 fő
B
6
1
2
3
2
6
4
0
2
3
4
5
2
3
4
5
12 +
3+
8+
15
4+
18 +
16 +
0
jegy
= 38
átlag (ā)
= 38
38 : 12 ≈ 3,2
38 : 12 ≈ 3,2
a-ā
1,2
0,2
0,8
1,8
1,2
0,2
0,8
(a-ā)2
1,44
0,04
0,64
3,24
1,44
0,04
0,64
6x1,44
0,04
2x0,64
3x3,24
nx
8,64 +
0,04 +
nx
1,28 +
0
9,72
= 19,68
(nx)/N
√(19,68:12)
WJLF Pedagógia BA
≈ 1,3
Csákó M.: Társadalomstatisztika
49
12 fő
A
12 fő
B
6
1
2
3
2
6
4
0
2
3
4
5
2
3
4
5
12 +
3+
8+
15
4+
18 +
16 +
0
jegy
átlag (ā)
= 38
= 38
38 : 12 ≈ 3,2
38 : 12 ≈ 3,2
a-ā
1,2
0,2
0,8
1,8
1,2
0,2
0,8
(a-ā)2
1,44
0,04
0,64
3,24
1,44
0,04
0,64
6x1,44
0,04
2x0,64
3x3,24
2x1,44
6x0,04
4x0,64
nx
8,64 +
0,04 +
nx
1,28 +
9,72
= 19,68
(nx)/N
√(19,68:12)
WJLF Pedagógia BA
2,88 +
0,24 +
0
0
2,56 +
0
= 5,68
≈ 1,3
Csákó M.: Társadalomstatisztika
50
12 fő
A
12 fő
B
6
1
2
3
2
6
4
0
2
3
4
5
2
3
4
5
12 +
3+
8+
15
4+
18 +
16 +
0
jegy
átlag (ā)
= 38
= 38
38 : 12 ≈ 3,2
38 : 12 ≈ 3,2
a-ā
1,2
0,2
0,8
1,8
1,2
0,2
0,8
(a-ā)2
1,44
0,04
0,64
3,24
1,44
0,04
0,64
6x1,44
0,04
2x0,64
3x3,24
2x1,44
6x0,04
4x0,64
nx
8,64 +
0,04 +
nx
1,28 +
9,72
= 19,68
(nx)/N
√(19,68:12)
WJLF Pedagógia BA
2,88 +
0,24 +
0
0
2,56 +
0
= 5,68
≈ 1,3
Csákó M.: Társadalomstatisztika
√(5,68:12)
51
12 fő
A
12 fő
B
6
1
2
3
2
6
4
0
2
3
4
5
2
3
4
5
12 +
3+
8+
15
4+
18 +
16 +
0
jegy
átlag (ā)
= 38
= 38
38 : 12 ≈ 3,2
38 : 12 ≈ 3,2
a-ā
1,2
0,2
0,8
1,8
1,2
0,2
0,8
(a-ā)2
1,44
0,04
0,64
3,24
1,44
0,04
0,64
6x1,44
0,04
2x0,64
3x3,24
2x1,44
6x0,04
4x0,64
nx
8,64 +
0,04 +
nx
1,28 +
9,72
2,88 +
= 19,68
(nx)/N
√(19,68:12)
WJLF Pedagógia BA
0,24 +
0
0
2,56 +
0
= 5,68
≈ 1,3
Csákó M.: Társadalomstatisztika
√(5,68:12)
≈ 0,7
52
A SZÓRÓDÁS MÉRÉSE
= Az osztályok különbsége abban áll, hogy
az „A” osztályban az eredmények szórása
csaknem kétszer akkora, mint a „B”-ben:
sa=1,3 osztályzat
sb=0,7 osztályzat
A SZÓRÁSEGYSÉG
• 103. OLDAL ÁBRA
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
54
A NORMÁLGÖRBE
• 101. OLDAL ÁBRA
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
55
A NORMÁLGÖRBE HASZNÁLATA
Mekkora a 0 és 1 közötti intervallumba eső terület?
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
56
GÖRBE ALATTI TERÜLETEK
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
57
VARIANCIA-ELEMZÉS
FIGYELEM!
Ez a fejezet
NINCS BENNE
a tankönyvben!!!
Mitől vannak a különbségek?
• Az ember igyekszik egyszerűnek látni a
világot (pl. átlag).
• Ugyanez a törekvés a szabványosításban,
a normában stb.
• Kénytelenek vagyunk beengedni valahogy
a sokféleséget (pl. szórás).
• Ugyanez tör be a „tűrés” műszaki
fogalmában, a „kalo”-ban stb.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
59
Mi kell a magyarázathoz ?
Mit akarunk megmagyarázni?
• A szórást. (= Az esetek különbözőségét.)
Kell legalább még egy változó (= tehát ez is
változik, azaz több értéke lehet)
• Sőt: nem is lehet más, csak változó.
Ui. ami ugyanolyan, az nem okoz
különbséget.
• Egy lehetőség: a varianciaelemzés.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
60
Mire jó a varianciaelemzés?
• Mikor használható? - Ha egy nominális
(kategoriális) változóval akarunk
magyarázni egy folytonos kvantitatív
változót.
• Példák: Mennyire befolyásolja a lakóhely a
jövedelmet? vagy a dolgozó neme?
• Azaz: Ha az elemek csoportokat alkotnak,
felmerülhet, hogy a csoportba tartozás
okozza a szóródást vagy annak egy részét
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
61
VARIANCIA-ELEMZÉS
Variancia = teljes szórásnégyzetösszeg
vagyis az összes elem átlagtól való
távolságának négyzetes összege
(amiből a szórást számítjuk)
Ezt probáljuk „feldarabolni”: mekkora része
származik a csoportbontásból.
Vegyünk egy példát! (A tkv. adatai, 64. old.)
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
62
Gyerekszám és iskolázottság
Gyerekszám
Összes
Esetszám gyerek
0
746
0
1
433
433
(a-ā)
1,2135
0,2135
n(a-ā)2
1098,546
19,73711
2
551
1102
0,7865
340,8388
3
4
203
52
609
208
1,7865
2,7865
647,8912
403,7583
5
15
2000
75
2427
1,2135
3,7865
215,0637
2725,836
1,362918
 1,1675
N
Átlag
Szórás
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
63
Gyerekszám és iskolázottság
Gyerekszám
Max.
Összes
középisk. gyerek
0
254
0
1
245
245
2
321
642
3
4
5
N
Átlag
Szórás
WJLF Pedagógia BA
132
37
11
396
148
55
1000
1486
1,486
(a-ā)
1,486
0,486
0,514
n(a-ā)2
560,8818
57,86802
84,80692
1,514
2,514
3,514
302,5699
233,8473
135,8302
Csákó M.: Társadalomstatisztika
1375,804
1,375804
 1,173
64
Gyerekszám és iskolázottság
Gyereksz
0
1
2
Felsőfo- Összes
kon végz. gyerek
492
0
188
188
230
460
3
4
5
N
Átlag
Szórás
WJLF Pedagógia BA
71
15
4
213
60
20
1000
941
0,941
(a-ā)
0,941
0,059
1,059
n(a-ā)2
435,6567
0,654428
257,9406
2,059
3,059
4,059
301,0032
140,3622
65,90192
Csákó M.: Társadalomstatisztika
1201,519
1,201519
1,096
65
Teljes variancia = (csoportok és főátlag közötti) + csoporton belüli variancia
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
66
VARIANCIA-ELEMZÉS
•
•
•
•
•
Hány változót használtunk?
Kettőt! 1. gyerekszám; 2. iskolázottság
Milyen változók ezek?
a gyerekszám kvantitatív és diszkrét*
az iskolázottság kvalitatív (dichotóm) – itt!
A varianciaelemzés akkor használható, ha egy
kvalitatív változónak egy kvantitatív változóra
való hatását akarjuk megtudni.
(* Valójában csak folytonos változók varianciáját lehet felbontani. Ezt sokszor nem tartják be.
Itt pedig a számítások egyszerűsége és az adatok hozzáférhetősége miatt használtunk
diszkrét változót.)
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
67
A KORRELÁCIÓ
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
68
A varianciaelemzéstől a korrelációig
• A varianciaelemzés megmutatta egy
nominális (kategoriális) változó hatását
egy folytonos kvantitatív változóra.
• De mit csináljunk, ha a magyarázó
változónk is folytonos kvantitatív? (Pl.
testmagasság a testsúly magyarázatára,
vagy életkor a kereset magyarázatára
Minden egyes esetet mégsem tekinthetünk
külön kategóriának!
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
69
Hogyan ábrázolunk két változót?
a konkrét eset
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
70
Hogyan ábrázolunk két változót?
(Gyakorlás)
Ábrázoljunk néhány apa-fiú párt!
• Legyen F=A;
• F=A+5cm;
• F=A-2cm;
• F=A+17cm;
• minden F = A+15% !
Figyeljük meg az esetek elhelyezkedését a
F=A szabályhoz képest!
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
71
Descartes-féle
koordinátarendszer
• Két változó értékei (adatpár) egy pontot határoz
meg: P(x,y)
• Két pont meghatároz egy egyenest.
Egyenlete: y=mx+b
• Mikor egyenes két változó kapcsolatának képe?
(pl. az apák és fiak testmagasságának
összefüggése?)
• Ha szigorú függvénykapcsolat van közöttük:
vagyis ha az apa magasságából egyértelműen
meg lehet mondani a fia magasságát.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
72
Descartes-féle
koordinátarendszer
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
73
Descartes-féle
koordinátarendszer
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
74
Van-e itt szigorú függvénykapcsolat?
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
75
Két változó kapcsolata
• A társadalomban nincs szigorú
függvénykapcsolat.
A kapcsolat képe nem egyenes,
hanem pontfelhő.
Különböző alakú pontfelhők lehetnek.
Hogyan lehetne őket pontosabban leírni?
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
76
Próbáljuk körülrajzolni
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
77
Körülrajzolás: mit tudunk hozzá?
• Az apák magasságának
a) átlagát,
b) szórását
• A fiak magasságának
c) átlagát,
d) szórását.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
78
Hogyan használjuk, amit tudunk?
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
79
Milyen lesz a pontfelhő alakja?
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
80
Korrelációs együttható számítása
r = (standard x * standard y) átlaga
1. átszámítjuk standard értékbe
mind x-et, mind y-t*;
2. minden pontra összeszorozzuk
3. a szorzatokat átlagoljuk.
* Vagyis a szórásukkal fejezzük ki őket: hány
szórásnyira vannak az átlaguktól.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
81
A korrelációs együttható és a pontfelhő
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
82
A korrelációs együttható és a pontfelhő
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
83
A korrelációs együttható és a
pontfelhő
A korrelációs együttható és a
pontfelhő
Korrelációs együttható
Az előző ábrákban látható, hogy
0≤r≤1
• De ezt még tovább finomítjuk gyakorlati
példák segítségével.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
86
MENNYI ESÉLYED
VAN ÉRDEMI
VÁLASZRA A
SZÜLEIDTŐL?
MENNYI ESÉLYED
VAN ÉRDEMI
VÁLASZRA
A SZÜLEIDTŐL?
Pearson
Correlation
MILYEN A
KAPCSOLAT
A SZÜLEIVEL?
AZ ANYA ISKOLAI
VÉGZETTSÉGE
Pearson
Correlation
Sig. (2-tailed)
-,069
,014
,068
,724
702
699
656
-,069
1
-,092(*)
,068
,017
N
699
735
678
Pearson
Correlation
,014
-,092(*)
1
,724
,017
N
656
678
680
Pearson
Correlation
,016
-,037
,673(**)
,693
,342
,000
Sig. (2-tailed)
AZ APA ISKOLAI
VÉGZETTSÉGE
1
Sig. (2-tailed)
N
AZ ANYA
ISKOLAI
VÉGZETTSÉGE
MILYEN A
KAPCSOLATA
SZÜLEIVEL?
Sig. (2-tailed)
WJLF Pedagógia BA
636
,016
,693
636
-,037
,342
658
,673(**)
,000
Csákó M.: Társadalomstatisztika
N
AZ APA
ISKOLAI
VÉGZETTSÉGE
653
1
87
658
653
660
Kutatási példák a korrelációra
MENNYI ESÉLYED VAN
ÉRDEMI VÁLASZRA A SZÜLEIDTŐL?
MENNYI ESÉLYED
VAN ÉRDEMI
VÁLASZRA A
SZÜLEIDTŐL?
Correlation
1
700
Correlation
-,152(**)
Sig. (2-tailed)
N
WJLF Pedagógia BA
-,152(**)
,000
Sig. (2-tailed)
N
MILYEN A
KAPCSOLATA
SZÜLEIVEL?
MILYEN A KAPCSOLATA A
SZÜLEIVEL?
1
,000
697
Csákó M.: Társadalomstatisztika
697
735
88
Negatív korrelációs együtthatók
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
89
Negatív korrelációs együtthatók
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
90
Negatív korrelációs együtthatók
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
91
Korrelációs együttható
Az előző ábrákban látható, hogy
ki kell terjesztenünk r értékét a
negatív számok felé:
-1 ≤ r ≤ 1
.Ha r = -1 : szigorú negatív függvénykapcsolat,
Ha r = 0, akkor nincs kapcsolat,
Ha r = 1 : szigorú pozitív függvénykapcsolat
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
92
A szórásegyenes
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
93
Kivételek
• Az r csak lineáris
kapcsolatok erőssége
mérésére alkalmas.
• A baloldali pontfelhő
nem egy egyenes
mentén szóródik.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
94
Kivételek
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
95
Kivételek
• Problémákat okozhatnak az un. magányos
elemek. (Pl. magas apa törpenövésű fia;
vagy: milliárdos villája egy felsőközép-rétegű
kertvárosi kerületben – egymaga elhúzza az
átlagot)
• Megoldás lehet: kihagyjuk őket
– Lásd ezt a megoldást pontozásos sportoknál:
síugrás, műkorcsolyázás
• De csak óvatosan, mert a valósághoz ezek is
hozzátartoznak! Kihagyásuk is torzít.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
96
A korrelációs együttható
érdekességei
• Az r nem az abszolút számok közötti
kapcsolatot méri, hanem a szóráshoz
képest vett adatok kapcsolatát
• Miért?
• Mert standard egységbe számoltuk át az
adatokat – más szóval: a szóráshoz
viszonyítottuk őket.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
97
A korrelációs együttható
érdekességei
Az r értéke nem változik, ha…
a) … x értékeit ugyanazzal a számmal
megszorozzuk.
b) … x értékeihez ugyanazt a számot
hozzáadjuk (kivonjuk).
c) … a változókat (x, y) felcseréljük.
Oksági összefüggést nem jelent!
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
98
A korrelációs együttható
érdekességei
Un. ökológiai korrelációk
• Azokat a korrelációkat hívjuk így,
amelyeket csoportosított adatokból
számítottak.
• Pl. Doll: cigarettafogyasztás – tüdőrák
országonként (11 ország)
• Pl. iskolázottság és jövedelem kapcsolata
USA teljes (25-54 éves): r = 0,44
államokra átlagolva 51 adatpárból: r = 0,64
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
99
A korrelációs együttható
érdekességei
Saját „ökológiai korrelációs” példám:
• Szakmunkástanulók 21 rangsora alapján
képzett kategóriák szépen szétváltak. (
társadalmi szakmablokkok)
• Diszkriminancia-elemzéssel kevéssé
rekonstruálható
• Ok: a csoportokon belüli szórást figyelmen
kívül hagytuk.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
100
A REGRESSZIÓSZÁMÍTÁS
(Tkv. 188–252. old.)
Mit jelent a regresszió?
• Politikai-köznyelvi értelemben: a
progresszió = haladás, akkor a
regresszió = visszafejlődés
• A statisztikában más a jelentése:
két összefüggő változó egyikének
visszavezetése a másikra
• Pl. a testsúly és a testmagasság
összefügg  megpróbálhatjuk
visszavezetni a testsúlyt a testmagasságra (ld. a tkv. példáját)
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
102
A regresszió lépésenként – 1.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
103
A regresszió lépésenként – 2.
Az átlag + 1 szórás
testmagassághoz
tartozó testsúlyátlag
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
104
A regresszió lépésenként – 3.
A magasság ± 2 szórásához
tartozó testsúlyátlagok
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
105
A regresszió lépésenként – 4.
A testmagasság szórásaihoz
tartozó testsúlyátlagokat
összekötő egyenes: a
regressziós egyenes.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
106
A regresszió lépésenként – 5.
• Figyeljék meg a szórásegyenes és a
regressziós egyenes viszonyát!
• A regressziós egyenes kevésbé meredek.
Miért?
• Mert az egyes esetek nem ugyanannyira
térnek el a magasság átlagától, mint a
testsúly átlagától.
• Milyen kapcsolat lenne, ha ugyanannyira
térnének el?
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
107
Regresszió = y becslése
• y x-re vonatkozó (vagy: x szerinti)
regressziós egyenese becslést ad az egyes x
értékekhez tartozó y értékek átlagára.
• Az x egy szórásnyi változásához átlagosan
az y értékek r szórásnyi változása
kapcsolódik.
• A korrelációs együttható csak a kapcsolat
erősségét mutatja meg, az összefüggés
módját pedig a regressziós egyenes.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
108
Regresszió = y becslése
ahol r = a korrelációs együttható !
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
109
Regresszió = y becslése
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
110
Egyedi eset becslése
Becslés egy adott
magasságú egyén
súlyára = az átlag!
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
111
Egyedi eset becslése
Regressziós
egyenes
A hiba természetesen negatív előjelű is lehet.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
112
A regressziószámítás feltételei
• Kvantitatív változók
• Folytonos változók
• Normáleloszlás (haranggörbeszerű)
• „Rögbilabda alakú” pontfelhő
• Lineáris kapcsolat
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
113
Gyakorlatok – 1.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
114
Gyakorlatok – 2.
Egy hallgatót 650 ponttal vettek fel az
egyetemre. Tippeljük meg az évvégi
tanulmányi átlagát! (Tkv. 196–197.)
Tudjuk hozzá:
• a felvételi pontátlaga = 550; szórása 80 p.
• az évvégi átlag = 2,6; szórása = 0,6
• a felvételi pontok és az évvégi átlag közötti
kapcsolat: r = 0,4
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
115
Gyakorlatok – 2.
A megoldás menete:
1 – Mennyivel jobban felvételizett az
átlagnál?
2 – Regressziós becslés a tanulmányi
eredmény átlagtól való eltérésére
3 – Mennyit jelent ez az eltérés
osztályzatban?
4 – Mit jelent ez az eredmény?
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
116
Következtetés y-ból x-re
• Ugyanolyan számítással becsülhetjük-e a
testmagasságot a testsúlyból, ahogyan a
testsúlyt becsültük a testmagasságból?
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
117
Két regressziós egyenes van!
súlyátlag=160
magasságátlag=70
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
• y-nak x szerinti
regressziós
egyenesének
meredeksége:
r*(y szórása)
• x-nek y szerinti
regressziós
egyenesének
meredeksége:
r*(x szórása)
118
MINTAVÉTEL, HIBA,
VALÓSZÍNŰSÉG
MINTAVÉTEL
Mit nevezünk mintának?
• A kutatók többnyire az emberek egy nagyobb
csoportjáról – ez a populáció – szeretnének
megállapítani számszerű adatokat – un.
paramétereket.
• Mivel a populáció túl nagy, kiválasztanak belőle
egy részt, és csak arról gyűjtenek adatokat. Ez a
kiválasztott rész a minta.
• A paramétereket a minta adataiból becsülik: feltételezve, hogy a minta olyan, mint a populáció.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
120
MINTAVÉTEL
DE OLYAN-E A MINTA, MINT A POPULÁCIÓ?
Mikor lesz jó a becslés?
Ha a minta tényleg olyan, mint a populáció.
Hogyan tudhatnánk meg?
Össze kéne hasonlítani! De ezt nem lehet:
hiszen épp azért veszünk mintát, mert az
egész populációt nem tudjuk megnézni.
Csak azt tudjuk ellenőrizni,
hogyan választották ki a mintát.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
121
MINTAVÉTEL
Példa a mintavételi eljárás fontosságára:
Roosevelt és Landon megválasztási esélye (1936):
• A Literary Digest előrejelzése:
43%
• a Gallup előrejelzése:
56%
• Roosevelt eredménye:
62%
A különbség oka: a mintavétel módja
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
122
MINTAVÉTEL
A Literary Digest eljárása:
- postai kérdőív 10 millió (!) embernek
A neveket honnan választják?
telefonkönyvekből, klubnévsorokból
DE: a telefonja a családok ¼ részének volt!
 ez a minta torzít a gazdagok javára!
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
123
MINTAVÉTEL
Kétféle torzítás fordul elő:
a) mintavételi torzítás (mint láttuk)
b) a nem válaszolók torzítása
Akik nem válaszolnak, azok nagyon
különbözhetnek a válaszolóktól!
(Ez az egyik nehézsége ma a választási
előrejelzéseknek Magyarországon.)
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
124
MINTAVÉTEL
A véletlen mintavétel a legjobb módszer
= a populáció minden tagjának ugyanakkora esélye
legyen bekerülni a mintába.
Az egyszerű véletlen mintavétel valójában
visszatevés nélküli sorsolás (mint a lottó).
De így változik a későbbi húzások valószínűsége!
Ha nagy a populáció, egy húzás valószínűségét
elhanyagolhatóan növeli csak, hogy nem tesszük
vissza a kihúzottakat. (Pl. 1/68000; 1/67999…)
Ez is ritkán valósítható meg, ezért többnyire
többlépcsős csoportos mintavételt alkalmazunk.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
125
Mintavétel
• Az egyszerű véletlen mintavétel ritkán valósítható
meg, ezért többnyire többlépcsős csoportos
mintavételt alkalmazunk.
• Pl. osztályokat választunk, abból diákokat:
• Legyen Bp-en 500 hetedik osztály, és válasszunk
belőle 50-et.
• Hányféleképpen lehet?
•
első 2. 3. … 49. 50.
500*499*498*…*452*451 = legalább 133 számjegyű !
A megítélése valószínűségszámítási feladat.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
126
2. Valószínűségszámítás
2.1. Alapfogalmak, szabályok
2.2. A binomiális formula
2.3. Várható érték és standard hiba
Esélyek, valószínűség
• Valószínűség = az eseteknek várhatóan
hány százalékában fog bekövetkezni a
dolog, ha sokszor, egymástól függetlenül,
azonos körülmények között megismételjük
a kísérletet. (rövidítése: p – probability)
• Egy dolognak és az ellentétének a
valószínűsége együtt mindig = 100%.
(Vagyis: A + nemA = 1)
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
128
Esélyek, valószínűség
• Véletlenszerű húzás esetén egy dobozban
lévő minden lap/golyó kihúzásának
ugyanakkora az esélye.
• Ha visszatevéssel húzunk egymás után
többször, akkor ez az esély nem változik.
• Ha nem tesszük vissza a kihúzott lapot,
akkor a következő húzásnál eggyel
kevesebb lapból húzunk  nő az esély.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
129
Gyakorlás 1.
Melyik számnak melyik állítás felel meg?
- 50%
0%
10%
50%
90%
100%
200%
WJLF Pedagógia BA
• Ugyanolyan valószínű, hogy
bekövetkezik. mint hogy nem.
• Ez egészen biztosan bekövetkezik.
• Ez nem következhet be.
• Bekövetkezhet, de nem valószínű.
• Nagyon valószínű, de nem biztos.
• Programhiba
Csákó M.: Társadalomstatisztika
130
Gyakorlás 2.
• 1000-szer dobunk egy érmével. Hány fejre
számíthatunk?
• 100 lapot húzhatunk két doboz egyikéből,
visszatevéssel. Minden húzásért annyi $-t
kapunk, amekkora szám a lapon van.
Melyik dobozt választaná? Miért?
1
WJLF Pedagógia BA
2
1
Csákó M.: Társadalomstatisztika
3
131
Esélyek, valószínűség
• Feltétlen valószínűség:
– pl. annak a valószínűsége, hogy a pikk dáma
a második lap a pakliban. (1/52)
• Feltételes valószínűség:
– pl. annak a valószínűsége, hogy a pikk dáma
a második lap, HA az első a kőr 7. (1/51 –
mert az első lapot már kivettük.)
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
132
Esélyek, valószínűség
Példa: Mi a valószínűsége annak, hogy
elsőre a pikk dámát, és azt megtartva,
másodikra a kőr királyt húzzuk a pakliból?
Pikk dáma: 1/52
Kőr király: 1/51
Szorzási szabály:
• Két esemény együttes bekövetkezésének
valószínűsége = külön-külön valószínűségük szorzata (pa,b= pa*pb; pl.: 1/52*1/51)
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
133
Esélyek, valószínűség
Független és nem független események:
• nem független a második esemény, ha
valószínűsége függ az első bekövetkezésétől;
• Visszatevés nélküli húzások összefüggenek,
visszatevésesek függetlenek egymástól.
• Nem független események együttes
bekövetkezésekor a feltételes valószínűségeket
szorozzuk össze, független eseményeknél
feltétel nélküli valószínűségüket.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
134
Esélyek, valószínűség
Függetlenség  kölcsönös kizárás (!!!)
Két esemény kölcsönösen kizárja egymást,
ha egyik bekövetkezése esetén a másik
nem következhet be.
Összeadási szabály: két egymást kölcsönösen kizáró esemény közül legalább az
egyik bekövetkezésének valószínűsége =
= a kettő valószínűségeinek összege.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
135
Esélyek, valószínűség
Összeadáskor
Szorzáskor
„B” esemény
„A”
esemény
Bekövetkezik (I)
Nem következik
be (H)
Bekövetk
ezik (I)
Kizárt!
H+I
WJLF Pedagógia BA
„B” esemény
„A”
esemény
Bekövetk
ezik (I)
Nem következik
be (H)
I+H
Bekövetkezik (I)
I+I
I+H
H+H
Nem következik
be (H)
H+I
H +H
Nem következik
be (H)
Csákó M.: Társadalomstatisztika
136
Ismétlő gyakorlat
1 2 3 4 5
1 2 3 4 5 6
„B” doboz
„A” doboz
Egy-egy lapot húzunk az „A” és a „B” dobozból.
Állapítsák meg annak valószínűségét, hogy…
• a húzott számok egyike 2 és a másika 5.
• a számok összege 7.
• a két szám egyenlő.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
137
Ismétlő gyakorlat (bemutatása)
1 2 3 4 5
1 2 3 4 5 6
„B” doboz
„A” doboz
Mi annak valószínűsége, hogy a számok összege 7
a) hányféleképpen fordulhat elő a 7 mint összeg?
„A”=1 és
„A”=2 és
„A”=3 és
„A”=4 és
„A”=5 és
WJLF Pedagógia BA
„B”=6.
„B”=5.
„B”=4.
„B”=3.
„B”=2.
b) Hányféle „kimenet”
van összesen?
Akkor p(7) = ?
Csákó M.: Társadalomstatisztika
138
Kutatási példa
A középiskolások jogtudatának fokát azzal mértük, hogy három
gyakorlati példából hányban ismerik fel, mihez van joguk.
Kérdésenként 3 válaszból kellett a helyeset kiválasztani.
A DIÁKJOGOK ISMERETE (%)
60
50
40
30
20
10
0
Egy sem
Egy
Kettő
Három
A helyes válaszok száma
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
Mért adat
139
Kutatási példa
Melyik eredménynek mekkora a valószínűsége?
1) Hányféleképpen lehet 0 találat? Nem 1-féleképpen!!!
Jelöljük az 1. kérdést normál, a 2.-at dőlt, a 3.-at vastag
betűkkel, legyen R=rossz, J=jó, és számozzuk a
lehetséges válaszokat!
0: (R1 R1 R1)
(R1 R1 R2) (R1 R2 R1) (R2 R1 R1)
ugyanez a számok felcserélésével
(R2 R2 R2)
Vagyis: 8-féleképpen lehet 0 szintű jogtudat!!!
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
140
Kutatási példa
Jelöljük az ábrán az egyes szintek valószínűségét!
A DIÁKJOGOK ISMERETE (% )
60
50
40
30
20
10
0
Egy sem
Egy
Kettő
Három
A helyes válaszok száma
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
Mért adat
Valószínűség
141
Kutatási példa
• Megállapítás: A magyar középiskolások
jogismereti válaszainak eloszlása nem tér el
attól, mintha csak találgatnának.
• Következtetés: A magyar középiskolások
általában nem ismerik a jogaikat.
• A valószínűségi eloszlás figyelembe vétele
ahhoz segített, hogy ne csak a normához (3),
hanem a „0-ponthoz” is mérhessünk.
• Mire gondolhatnánk, ha 0 találatból több, 2 és
3 találatból sokkal kevesebb lenne, mint
valószínű?
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
142
Esélyek, valószínűség
Példa: Mekkora a valószínűsége annak, hogy a
lottón a 8-jegyű joker-számban két 0 lesz?
• Tíz szám közül húznak, visszatevéssel. Mennyi
a kedvező eset, és mennyi az összes?
Egyszerűbb példa: 5-ször húzunk visszatevéssel 9
zöld és 1 piros golyó közül – mekkora a valószínűsége annak, hogy kétszer húzunk pirosat?
• Itt könnyű listát csinálni a kedvező esetekről:
PPZZZ PZPZZ PZZPZ PZZZP ZPPZZ ZPZPZ
ZPZZP ZZPPZ ZZPZP ZZZPP (10 kedvező)
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
143
Binomiális együttható
A binomiális együttható azt mondja meg,
hányféleképpen lehet sorba rendezni n
elemet, ha közülük k egyfajtájú és n-k egy
másik fajtájú:
(Ha bonyolultnak látszik a
n!
mondat, helyettesítse be így:
k! * (n-k)! kn-k= „néhány”
= „a többi”.)
Az előbbi példa lehetséges sorrendjei:
WJLF Pedagógia BA
5!
5*4*3*2*1
2!*(5-2)! =(2*1)*(3*2*1) = 5*2 = 10
Csákó M.: Társadalomstatisztika
144
Binomiális formula
A formula nem más, mint a binomiális együttható
alkalmazása a keresett valószínűség kiszámítására (k és n-k valószínűségével kell szorozni).
Pl. a piros és zöld golyók esetében:
p(piros) = 1/10; p(zöld) = 9/10
Két piros golyóra p=(1/10)2 …. (a kitevő=k),
Három zöld golyóra p=(9/10)3 …. (a kitevő=n-k).
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
145
A nagy számok törvénye
Ha több „fej” jött egymás után, megnő-e az „írások”
valószínűsége?
NEM!
=> Mindig 50% marad.
• Minél hosszabb a feldobás-sorozat, annál
nagyobb az abszolút eltérés a várható értéktől, de
annál kisebb az eltérés százalékban.
• De mindig van „véletlen hiba”.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
146
A nagy számok törvénye
A dobások számával a hiba abszolút
nagysága nő.
A dobások számának növekedésével
a „fejek” aránya
egyre kevésbé tér
el az 50%-tól.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
147
A nagy számok törvénye
„Fejek” száma = várható érték + véletlen hiba
• A véletlen hiba a dobások számával nő,
• de egyre kevésbé tér el az 50%-tól.
• A véletlen hiba nagyjából a dobások száma
sokszorozódásának négyzetgyöke
arányában nő.
• = 100-szor annyi dobás hibája kb. 10szeresre nő
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
148
Véletlen folyamatok
• Az érme feldobálása, a rulettezés, egy választási
előrejelzés mintavétele – mind véletlen folyamat,
vagyis:
• a következő dobásoknál, pörgetésnél,
mintavételnél más lesz a fejek, a nyertesek, a
szocialisták és jobbikosok aránya.
• A statisztika megpróbálja kiszámítani közelítőleg,
h. mennyire függenek a számok a véletlentől.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
149
Véletlen folyamatok
Két fő gondolat:
1. hasonlóságot keresünk a minket érdeklő
véletlen folyamat (mintavétel) és egy
dobozból való véletlen húzások között;
2. a bennünket érdeklő ingadozást (pl. Fidesz
szavazók becsült aránya) párhuzamba állítjuk
a dobozból húzott számok összegének
véletlen ingadozásával.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
150
Dobozmodell bevezetése
1 2 3 4 5 6
• Ebből a dobozból húztunk 25-ször, visszatevéssel, feljegyeztük a lapokra írt
számokat, és összeadtuk őket.
• Tízszer megismételtük a sorozatot és a
következő eredményeket kaptuk:
88 84 80 90 83 78 95 94 80 89
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
151
Dobozmodell bevezetése
1- 6 DOBOZBÓL TÍZSZER 25 HÚZÁS ÖSSZEGEINEK
VÉLETLEN INGADOZÁSA
100
90
80
70
60
50
40
30
20
10
0
Összegek
WJLF Pedagógia BA
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
88
84
80
90
83
78
95
94
80
89
Csákó M.: Társadalomstatisztika
152
Dobozmodell bevezetése
Jó, hogy ezt tudjuk a húzás-sorozatokról, de
hogyan csináljunk modellt?
Az alapvető eldöntendő kérdések:
• Milyen számok kerüljenek a dobozba?
• Melyikből mennyi?
• Hányat húzzunk?
Egyelőre csak szerencsejátékokra nézzük. (Rulett)
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
153
Dobozmodell bevezetése
Szerkesszünk dobozmodellt
nevadai ruletthez!
A fő: a dobozból minden számot
ugyanolyan valószínűséggel
húzhassunk, mint amekkora a
annak a valószínűsége, hogy
annyit nyerjünk a valóságban.
Tegyünk fel 1$-t a
a) párosra
b) harmadik tucatra
c) sarokra (négy számra)
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
154
3. Hibák valószínűsége
Dobozmodell és mintavétel
• Dobozmodellel tudjuk ellenőrizni (valamennyire) a mintavételünket:
• Ha ismerjük a populáció egy változójának
eloszlását (pl. férfi/nő), akkor kiszámíthatjuk, mekkora lehet a standard hiba a
mintában.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
156
Dobozmodell bevezetése
Fontos fogalmak:
várható érték = a modell alapján várt összeg
véletlen hiba = a várható érték eltérése a ténytől
standard hiba = a modell alapján várt eltérés
összeg = várható érték + véletlen hiba
várható érték = (doboz átlaga)* húzások
standard hiba = a doboz szórása* húzások
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
157
Dobozmodell és mintavétel
Pl. (a tkv-ből):
Egy populációban 46% férfi és 54% nő van.
Az első 100 fős mintában 51% ffi és 49% nő.
mintabeli % = alapsokaságbeli % + véletlen hiba
• Egyszerű véletlen mintában a %-arány várható
értéke = alapsokaságbeli %-arány.
• A %-arány standard hibájához szükségünk van a
darabszám standard hibájára:
a darabszám standard hibája
a %-arány standard hibája =
* 100%
a minta nagysága
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
158
Mintavétel és standard hiba
• A mintabeli darabszám standard hibája a
mintanagyság négyzetgyökével arányosan
nő.
• A mintabeli %-arány standard hibája a
mintanagyság négyzetgyökével arányosan
csökken.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
159
A statisztikai becslés
• Mit tehetünk akkor, ha nem ismerjük az alapsokaság
eloszlását? (épp azt keressük)
• Pl. hányan regisztráltatnák magukat?
?? db 1
?? db 0
• A mintabeli arányt fogadjuk el a doboz szórásának
megállapításához (100 fős minta 10000 választóból)
(pl. 64 igen 36 nem  s=0,64*0,36 = 0,2304 = 0,48)
• A standard hiba akkor 100 * 0,48 = 4,8
vagyis a regisztrálók aránya 64% ± 4,8%
Ez az un. bootstrap módszer.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
160
A statisztikai becslés
Konfidencia-intervallum =
Milyen határok között megbízható a
becslés?
• A normálgörbét vesszük segítségül:
± 2SH-n belül 95% biztonságú!
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
161
4. Szignifikanciaszámítások
Mire jó a szignifikancia-próba?
• Válaszol arra a kérdésre, hogy egy
eredmény a véletlen műve-e, vagy
valami más oka kell legyen.
• Más megfogalmazásban: származhat-e
az eredmény a mintavétel véletlen
ingadozásából?
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
163
Mire jó a szignifikancia-próba?
Pl. adótörvényt egyszerűsítő törvényjavaslat
• A javaslat szerint a beszedett adó
mennyisége nem fog változni.
• Mit is jelent ez?
∑ változás = új adózás – régi adózás = 0.
Ha v > 0, akkor többet szednek be;
ha v < 0, akkor kevesebbet szednek be.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
164
Mire jó a szignifikancia-próba?
Ellenőrzés: mekkora lehet a standard hiba?
Lépések:
• 100 lapos mintát vettek 100 000 adólapból.
• Mintaátlag = - 219 $; szórás 725 $
• Eredhet-e a várt 0 $ és a „tényleges” -219 $
különbsége a mintavétel véletlen ingadozásából?
• Dobozmodellt készítenek: 100000 lappal és 100at húznak közülük.
• A doboz szórását az adatok szórásával becsülik!
• Akkor SH = 100 * 725 $ / 100 = 72,5 $
Az átlag (-219$) a feltevéstől (0$) 3 SH-nyira van!
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
165
Mire jó a szignifikancia-próba?
Mit is jelent ez?
• Használjunk normális közelítést! (Az
adóváltozások eloszlása nem normális, de
az átlag körüli ingadozás normális!)
• Az átlag ekkora eltérésének valószínűsége
mindössze p = 1‰ – tehát nem véletlen.
 tehát a kincstár valószínűleg átlagosan
>200 $-t fog veszteni adófizetőnként, azaz
összesen kb. 20 md-ot (100 000 adózóval)
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
166
Mit használtunk a példában?
•
•
•
•
•
A (null)hipotézist (változás = 0)
Mintavételt (átlag, szórás)
Az ellenhipotézist (változás = -219$)
Dobozmodellt
Az átlag körüli véletlen ingadozásról
szerzett ismereteket (SH számítása)
• A normális közelítést
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
167
Szignifikancia-próba
Nullhipotézis = Az eltérést a véletlen okozza.
Ellenhipotézis = Az eltérésnek más oka van.
• Dobozmodell nélkül nincs korrekt
szignfikancia-próba!
Próbastatisztika – azt méri, mennyire térnek
el az adatok a nullhipotézis szerint várható
értéktől.
Ezekkel kiszámítjuk a szignifikanciaszintet.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
168
Szignifikancia-próba
megfigyelt érték – várható érték
z-próba: z =
standard hiba
A z-próba azt mondja meg, hogy a
megfigyelt érték hány standard hibányira
van a nullhipotézis alapján kiszámolt
várható értéktől.
A z-próbát két független minta összehasonlítására is használhatjuk.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
169
Szignifikanciaszint
• Megfigyelt szignifikanciaszint = annak
valószínűsége, hogy olyan szélsőséges
próbastatisztikát kapunk, mint amit megfigyeltünk – ehhez feltesszük, hogy a
nullhipotézis igaz.
• NEM AZT jelenti, hogy mennyire valószínű a
nullhipotézis,
• hanem azt, hogy mennyire valószínű a
próbastatisztika, HA igaz a nullhipotézis.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
170
Szignifikancia-próbák
z-próba (az előbb láttuk) – nagy mintára
t-próba – olyan, mint a z-próba, de kis mintán
alkalmazható torzítás nélkül
χ2-próba (khí-négyzet próba) – több kategória
összehasonlítására alkalmas: összeadja a
(megfigyelt érték – várható érték)
SH
törteket.
Az összeg már nem normáleloszlású, ezért
külön táblázat tartalmazza a χ2-görbék alatti
területekhez tartozó valószínűségeket.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
171
χ2-próba számítása
F
c2 PRÓBA SZÁMÍTÁSA FIKTÍV PÉLDÁN:
FIÚK ÉS LÁNYOK TANULMÁNYI EREDMÉNYE
GY
KZP
JÓ
Összes
45
várható
L
55
várható
Együtt
WJLF Pedagógia BA
35
50
Csákó M.: Társadalomstatisztika
15
100
172
χ2-próba számítása
F
c2 PRÓBA SZÁMÍTÁSA FIKTÍV PÉLDÁN:
FIÚK ÉS LÁNYOK TANULMÁNYI EREDMÉNYE
GY
KZP
JÓ
Összes
10
25
10
45
várható
L
25
25
5
55
35
50
15
100
várható
Együtt
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
173
2-próba számítása
χSZIGNIFIKANCIA
c2 PRÓBA SZÁMÍTÁSA FIKTÍV PÉLDÁN :
FIÚK ÉS LÁNYOK TANULMÁNYI EREDMÉNYE
F
várható
GY
KZP
JÓ
Összes
10
25
10
45
15,75
22,5
6,75
25
25
5
24,25
22,5
8,25
35
50
15
eltérés
L
várható
55
eltérés
Együtt
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
100
174
2-próba számítása
χSZIGNIFIKANCIA
c2 PRÓBA SZÁMÍTÁSA FIKTÍV PÉLDÁN :
FIÚK ÉS LÁNYOK TANULMÁNYI EREDMÉNYE
F
várható
eltérés
L
várható
eltérés
Együtt
WJLF Pedagógia BA
GY
10
15,75
KZP
25
22,5
JÓ
10
6,75
5,75
25
24,25
0,75
2,5
25
22,5
2,5
3,25
5
8,25
3,25
35
50
15
Csákó M.: Társadalomstatisztika
Összes
45
55
100
175
2
χ -próba
számítása
SZIGNIFIKANCIA
c2 PRÓBA SZÁMÍTÁSA FIKTÍV PÉLDÁN :
FIÚK ÉS LÁNYOK TANULMÁNYI EREDMÉNYE
várható
eltérés2
GY
10
15,75
33,06
várható
eltérés2
Együtt
25
24,25
0,56
35
F
L
WJLF Pedagógia BA
KZP
25
22,5
6,25
JÓ
10
6,75
3,25
25
5
22,5
8,25
6,25
10,56
50
15
c2összeg
Csákó M.: Társadalomstatisztika
Összes
45
3,89
55
6,27
100
10,16
176
2
χ -próba
számítása
A fiúk és lányok tanulmányi eredményének
összehasonlításában a χ2-összeg = 10,16
A táblázat szabadságfoka (df) = ahány cella
„szabadon” kitölthető, ha ismerjük a
„peremeloszlást” (=az „összesen”-eket) –
ez most itt df = 2.
Nézzük meg a táblázatot (585. oldal) !
A szabadságfok = 2 sorban
a legnagyobb szám 9,21 – és ott p = 1% !
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
177
χ2-próba számítása
Mit jelent ez?
• Értelmezés: Azt, hogy ilyen nagy
próbastatisztikát (χ2 = 10,16) csak 1%-nál is
kisebb valószínűséggel kaphatnánk véletlenül.
Vagyis:
• Következtetés: Nyugodtan elvethetjük azt a nullhipotézist, hogy a fiúk és a lányok tanulmányi
eredménye közötti eltérés oka pusztán a
véletlen mintavétel. A fiúk és a lányok
eredménye tényleg különbözik egymástól.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
178
ÖSSZEFOGLALÁS
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
179
Miről szólt ez a kurzus?
Megszámlálható és megmérhető dolgok
adatainak kezeléséről :
- hogyan tudjuk leírni őket;
- hogyan tudunk jellemzőik alapján
következtetéseket levonni;
- hogyan tudunk közöttük kapcsolatokat
megállapítani;
- hogyan tudunk olyanokat megismerni,
amelyekhez nem férünk hozzá;
- hogyan tudunk megbizonyosodni arról, hogy
következtetéseink nem a véletlen művei.
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
180
Miről szólt ez a kurzus?
• Leírás: hisztogram, átlag, szórás
• Következtetések normálgörbével
• Kapcsolatok megállapítása:
varianciaelemzéssel, korreláció- és
regressziószámítással
• Az alapsokaság paramétereinek becslése
mintavétellel
• A valószínűségszámítás alkalmazása a
standard hiba kiszámítására és a minta véletlen
ingadozásának ellenőrzésére (dobozmodellel)
WJLF Pedagógia BA
Csákó M.: Társadalomstatisztika
181