Statistiek - Peter Vaandrager

Download Report

Transcript Statistiek - Peter Vaandrager

Statistiek en Kansrekening
volgens de vernieuwde wiskunde
cTWO
“Verschillen”
een statistiek hoofdstuk
• De politiechef van Amsterdam zegt dat de
criminaliteit hoog is onder Marokkanen.
• Waarom is statistisch onderzoek hierbij
belangrijk?
• Hoe zou je dit statistisch onderzoeken?
• Het gaat steeds om verschillen tussen twee
groepen.
We gaan bekijken:
• Vertikaal vergelijken, horizontaal percenteren
• Odds-ratio
• Maximaal cummulatief percentage verschil
via tabel, reepdiagram en cum.freq. polygoon
• Overlap
• Effectgrootte
wisgroep
geslacht A/C
B
man
13
56
vrouw 30
55
totaal
43
111
totaal
69
85
154
Bereken het percentageverschil tussen mannen en vrouwen
in de A/C groep.
13 en 30 t.o.v. 43 berekenen heeft geen zin, omdat je dan
geen rekening houdt met het feit dat er meer vrouwen dan
mannen zijn .
Je berekent eerst hoeveel procent van de vrouwen in de
A/Cgroep zitten. Ook hoeveel procent van de mannen.
Dan is het percentageverschil 30/85x100% - 13/69x100%
= 16%
• De regel is bij vertikaal vergelijken moet je
eerst horizontaal percenteren.
• Als bij mannen en vrouwen een derde deel
voor A/C had gekozen, was dit percentage verschil nul geweest.
wisgroep
geslacht A/C
B
man
13
56
vrouw 30
55
totaal
43
111
totaal
69
85
154
Een andere manier van vergelijken is de Odds-ratio
Bereken twee delingen: bijvoorbeeld
13/56 = 0,23.. en 30/55=0,54…
deel nu de grootste door de kleinste -> 2,34..
We noemen tussen 2 en 3 het verschil middelmatig
( <2 is gering
>3 is groot )
De Odds-ratio kan alleen berekend worden bij
een tabel met 2 maal 2 variabelen.
Wat te doen bij meer variabelen?
kunstbelangstelling
niet
gering
middelmatig
vrij groot
groot
zeer groot
A/C
8
11
11
9
2
2
43
B
11
27
43
17
10
3
111
Het is mogelijk om de bovenste 3 variabelen en de
onderste 3 samen te nemen.
Zo is toch met 2 maal 2 variabelen te werken en de
odds-ratio te berekenen.
Ook is het mogelijk om een tabel met cum.
frequentie in procenten te maken.
kunstbel cum.
niet
A/C
19%
B
10%
Vcp
9%
gering
44%
34%
10%
middelmatig
vrij groot
groot
zeer groot
70%
80%
95%
100%
73%
88%
97%
100%
3%
8%
2%
0%
Bij een maximaal Vcp van minder dan 15%
noemen we het verschil gering
(15%-30% ->middelmatig, meer dan -> 30% groot)
100%
90%
3
2
2
10
9
17
zeer groot
Reeks
6
groot 5
Reeks
80%
middelmatig
Reeks
3
70%
60%
vrij groot
Reeks
4
gering 2
Reeks
11
43
50%
niet 1
Reeks
40%
30%
11
27
20%
10%
8
10
0%
1
A/C
2
B
Reepdiagram van de kunstbelangstelling
Het maximale Vcp is bij een reepdiagram te zien
als de steilste verbindingslijn
120,0
100,0
80,0
Series1
60,0
Series2
40,0
20,0
0,0
1,0
Dit zijn nieuwe gegevens
Bij twee cum. freq. polygonen is het maximale Vcp
te zien als de langste vertikale verbindingslijn.
(natuurlijk komt een boxplot hieronder ook ter sprake)
Hieronder zijn de scores 7, 10 en 16 op een getallenlijn door
balletjes weergegeven en de plaats van het gemiddelde met
een wigje .
De drie scores wijken respectievelijk -4, -1 en +5 af van het
gemiddelde. Dat is in het plaatje met pijlen aangegeven.
De afwijkingen noemt men deviaties; daarvoor gebruikt men
de letter d (van deviatie = afwijking).
De drie d-waarden zijn hier respectievelijk −4, −1 en +5.
5
6
7
8
10
11
12
13
14
15
d = −4
d = −1
d = +5
9
16
Met de deviaties wordt eerst de variantie en
daarna de standaard afwijking uitgerekend.
Voor veel verdelingen geldt de volgende vuistregels:
Tussen het gemiddelde-min-sd en het gemiddelde-plus-sd ligt
ongeveer 68% van de gehele verdeling.
Tussen het gemiddelde-min-2-keer-sd en het gemiddeldeplus-2-keer-sd ligt ongeveer 95% van de gehele verdeling.
Overlap
Bij een onderwijskundig onderzoek wordt in
twee vergelijkbare klassen een wiskundig begrip
op twee verschillende manieren uitgelegd: een
traditionele manier en een nieuwe manier. In de
twee klassen werd de uitleg afgesloten met
dezelfde toets.
27 leerlingen, in de overlap 4 + 8 + 6 = 18
Niet in de overlap 9 van de 27 is ongeveer 33%
Dit is een maat voor het effect van de nieuwe
uitleg. Maar de groepen moeten even groot zijn.
Een laatste methode van vergelijken is de
effectgrootte
De effectgrootte is de waarde van de breuk:
verschil tussen de gemiddeldes
gemiddelde van de standaardafwijkingen
.
Als waardering van D is vrij gangbaar:
D  0,4
gering
0,4 < D ≤ 0,8
middelmatig
0,8 < D  1,5
groot
D > 1,5
erg groot
Onderzoek 2
Presteerden A/C-leerlingen in klas 3 even goed
in wiskunde als B-leerlingen?
Bereken - om deze vraag te beantwoorden het maximale cumulatieve percentageverschil
van cijfwis voor de A/C - en de B-groep. Hoe
interpreteer je het gevonden verschil?
(gebruik bij de Digfimap freq.tabel en splitsen)
Kansrekening
• Op dit moment beschikbaar:
– Verdelingen
– Discrete verdelingen
– Normale verdeling
• In de maak:
– Toepassingen
– Toetsen
Inhoudsopgave Verdelingen
•
•
•
•
•
•
•
Frequentieverdelingen
Kans
Op den duur …
Simulaties
Rekenen met kansen
De som van de kansen is 1
Voorwaardelijke kansen
Voorbeeld
De minilotto is een spel waarbij je twee nummers moet
omcirkelen op een formulier:
Inhoudsopgave Discrete
kansverdelingen
•
•
•
•
•
Kansverdelingen
Verwachtingswaarde en standaardafwijking
Zonder terugleggen
Wel/Niet
De variantie
Voorbeeld
Bij het kaartspel toepen worden alleen de
kaarten B, V, H, A, 7, 8, 9, 10 gebruikt van elk van
de kleuren schoppen, harten, ruiten en klaveren.
De 10'en zijn de hoogste kaarten; het is gunstig
als je veel 10'en hebt.
Jan speelt het spel en krijgt vier willekeurige
kaarten uit de 32 kaarten.
Bereken de kans dat Jan precies twee 10'en
krijgt.
Manier 1
Er zijn zes verschillende volgordes om twee
10’en te krijgen. De kansen op elk van deze zes
manieren blijken hetzelfde te zijn, namelijk
De gevraagde kans is dus
Manier 2
Je moet twee van de vier 10’en krijgen en twee
van de achtentwintig niet zijn viertallen waarbij
dat het geval is. In totaal zijn er viertallen
viertallen waarbij dat het geval
is.
In totaal zijn er
viertallen
De gevraagde kans is
Inhoudsopgave Normale verdeling
•
•
•
•
•
Extreem weer
Vele kleintjes middelen uit
Wat is normaal?
Standaardiseren
Over continue verdelingen
Voorbeeld
We bekijken de lengte van een groep 16-jarige jongens en
van een groep 16-jarige meisjes. Bij de jongens is de
gemiddelde lengte 178 cm en de sd 7 cm. Bij de meisjes is
de gemiddelde lengte 168 cm en de sd 6 cm.
Een jongen en een meisjes uit deze groepen krijgen
verkering. Ze zijn beiden erg lang: de jongen 196 cm en
het meisje 186 cm.
Berekende z-waarde van de lengte van de jongen en van
de lengte van het meisje om te bepalen wie van de twee
de grootste uitschieter is qua lengte binnen zijn/haar
groep .
Arie en Gré werken ’s nachts. Na hun werk komen
ze, onafhankelijk van elkaar, tussen middernacht en
1:00 uur aan bij een bushalte.
Er vertrekken in het eerste uur van de dag drie
bussen: om 0:15 uur, om 0:30 uur en om 1:00 uur.
a. Hoe groot is de kans dat Arie en Gré allebei de
bus van 0:30 uur hebben?
b. Hoe groot is de kans dat Arie en Gré dezelfde bus
hebben. Tip: teken zo nodig een passend plaatje in
een eenheidsvierkant.
c. Hoe groot is de kans dat Arie en Gré niet meer
dan 10 minuten na elkaar bij de bushalte arriveren?
Gemengd normaal
De lengte van 18-jarige jongens is normaal verdeeld met gemiddelde
180 en standaardafwijking 7 cm; de lengte van 18-jarige meisjes is
normaal verdeeld met gemiddelde 170 en standaardafwijking 6 cm.
a. Teken de twee verdelingskrommen in één figuur.
We bekijken nu een grote groep van 18-jarigen, evenveel jongens als
meisjes. De lengte in cm in die groep noemen we L.
b. Teken met een andere kleur de verdelingskromme van L.
c. Is L normaal verdeeld, denk je? Waarom?
d. Bereken P(L < 175) als de gekozen persoon een jongen is en ook als
de gekozen persoon een meisje is. Wat is dus P(L < 175) in de
gemengde groep?
e. Is L normaal verdeeld?
Het is mogelijk de verdelingskromme van L op de GR te tekenen. Dan
kun je zien dat L niet normaal verdeeld is. In het algemeen is
“gemengd normaal” dus niet normaal.
Afsluiting
• Vragen?
• Bedankt voor jullie aandacht