Transcript VWO D deel 3 H10
vwo D
Samenvatting
Hoofdstuk 10
Spreidingsdiagrammen
Gegevens van een tabel uitzetten in een spreidingsdiagram .
Alle punten samen vormen een puntenwolk .
Is er een samenhang tussen de variabelen spreekt men van correlatie .
De best-passende lijn heet regressielijn .
10.1
Zwakke en sterke correlatie
In een spreidingsdiagram is de puntenwolk gegroepeerd om het punt Dit punt heet het zwaartepunt van de puntenwolk. In het geval
X
normaal verdeeld is bevindt ongeveer 95% van de punten zich in de verticale strook.
10.1
10.1
Regressiemodellen en de GR
Met de GR kun je na het invoeren van een tabel • een spreidingsdiagram plotten • een vergelijking van de regressielijn opstellen • • de regressielijn in het spreidingsdiagram plotten
Y
voorspellen bij een gegeven
X
• een lijst van residuen maken.
Het residu bij een waarde van
X
is het verschil tussen de waargenomen
Y
en de door de formule van de regressielijn voorspelde
Ŷ
, dus residu =
Y
–
Ŷ
.
10.1
Afhankelijke en onafhankelijke variabelen
Ter voorkoming van misverstanden gebruiken we zo nodig de index
X
bij de regressiecoëfficiënten
a x
van
X
op
Y
gaat.
en
b x
om aan te geven dat het om regressie Regressie van Regressie van
Y X
op op
X Y Ŷ
=
a Y X
+
b Y X
=
a X Y
+
b X
10.1
De methode van de kleinste kwadranten
Bij regressie van
Y
op
X
is de lijn
Ŷ
=
aX
+
b
met
a
=
n
n
XY X
2
n X
) 2
Y
en
b
=
Ŷ
–
a X
de best-passende lijn.
De getallen
a
en
b
heten de regressiecoëfficiënten.
10.2
De covariantie
Bij een positieve correlatie liggen de meeste punten in I en III.
cov(
X
,
Y
) =
XY
(
X
n
XY
XY
Y
) 10.2
De productmoment correlatiecoëfficiënt
De pmcc is de covariantie gedeeld door beide standaardafwijkingen.
Die onafhankelijk is van de gebruikte eenheden.
pmcc
r
= pmcc
r
=
X
XY
XY Y X Y
X
Y
10.2
Problemen bij de interpretatie van de pmcc
10.2
De richtingscoëfficiënt van de regressielijn
In de regressievergelijking
Ŷ
=
aX
+
b
is
a
Y X
10.3
Het regressie-effect
Bij regressie van
Y
op
X
is
Ŷ
=
a Y X
+
b Y
met
a Y
Uit symmetrie volgt: Bij regressie van
X
op
Y
is
Ŷ
=
a X Y
+
b X
met
a X a X
·
a Y
=
r
2
Y X
X Y
10.3
Betrouwbaarheidsintervallen
De standaardafwijking van de residuen
d
heet de standaardschattingsfout
σ d
.
Bij regressie van
Y
op
X
is
σ d
te berekenen met de formule
d
Y
1
r
2 en heet het interval Het interval 〈
Ŷ
- 2
σ d
〈
Ŷ
,
Ŷ
–
σ d
,
Ŷ
+ 2
σ d
〉 +
σ d
〉 het 68%- betrouwbaarheidsinterval.
heet het 95%-betrouwbaarheidsinterval.
Bij het werken met deze betrouwbaarheidsintervallen ga je ervan uit dat bij elke gegeven
X
-waarde de
Y
-waarden normaal verdeeld zijn met gemiddelde
Ŷ
en dezelfde standaardafwijking
σ d
.
Deze aanname heet homoscedasticiteit .
10.3
Soorten variabelen en schaaltypen
De meetbare kenmerken (variabelen) zijn op de volgende drie manieren in te delen in soorten.
I.
Kwantitatieve en kwalitatieve variabelen II.
- kwantitatief: getal - kwalitatief: aanwezigheid kenmerk Discrete en continue variabelen III.
- discreet: losse waarden - continu: elke tussenliggende waarde is mogelijk Schaaltype waarop wordt gemeten - nominale schaal: namen - ordinale schaal: volgorde - intervalschaal: gelijke verschillen - ratioschaal: ook natuurlijk nulpunt 10.3