Transcript ανοva

Recall t-test
Eλέγχουμε αν η διαφορά μεταξύ δύο μέσων τιμών (Τ
και P) είναι σημαντική (δηλ. αν διαφέρει από το 0 ή
ότι δεν είναι τυχαία) χρησιμοποιώντας το t-test:
t
(mean T)  (mean P) xT  xP

SE
SE
2
2
 1
(n

1
)s

(n

1
)s
1 
2
T
T
P
P
where SE  spooled 

 and spooled 
(n T  1)  (n P  1)
 nT nP 
H τιμή του t-τεστ είναι σημαντική (και επομένως
διαφορά των μέσων τιμών) αν είναι μεγαλύτερη από το
5% σημείο της t-κατανομής για (nT-1)+(nP-1)df (δες
πίνακα της t-κατανομής).
• 2. Nα συγκριθεί η αποτελεσματικότητα δύο φαρμάκων (Nebivolol vs
Telmisartan), το Nebivolol χορηγήθηκε σε 9 ασθενείς και το Telmisartan
σε 8 ασθενείς. Η αποτελεσματικότητα αξιολογήθηκε με βάση την
συστολική πίεση (SBP) πριν την χορήγηση θεραπείας και μετά από
τρεις μήνες:
Nebivolol
patient
Telmisartan
baseline
3rd month
patient baseline 3rd month
1
150
120
1
158.33
130
2
157.5
126.67
2
160
133.33
3
153.33
120
3
160
12.33
4
165.17
113.33
4
151.67
120
5
165
120
5
154.17
123.33
6
160
120
6
155
126.67
7
165
136.67
7
155.83
116.67
8
150
118.33
8
151.67
116.67
9
147.5
133.33
Σύγκριση δύο ή περισσότερων
θεραπειών (One-way ANOVA)
Σύγκριση δύο ή περισσότερων θεραπειών (One-way ANOVA)
Η ανάλυση διασποράς με ένα παράγοντα χρησιμοποιείται όταν
θέλουμε να συγκρίνουμε τις μέσες τιμές πολλών ομάδων
(περισσότερες από δύο). Η ανάλυση καλείται με ένα παράγοντα
επειδή τα δεδομένα ταξινομούνται σύμφωνα με ένα παράγοντα ή
ομάδα.
Παράδειγμα: Σε μία μελέτη, έχει καταγραφεί το βάρος του
ήπατος (x) (εκφρασμένο ως ποσοστό του βάρους του
σώματος) ποντικιών που ανήκουν σε k=4 ομάδες που
τράφηκαν με 4 διαφορετικές δίαιτες. Θέλουμε να ερευνήσουμε
αν υπάρχουν συστηματικές διαφορές μεταξύ των 4 ομάδων,
δηλ. να θέλουμε να συγκρίνουμε τις μέσες τιμές των 4 ομάδων.
Μέση τιμή
a
3.42
3.96
3.87
4.19
3.58
3.76
b
3.17
3.63
3.38
3.47
3.39
3.41
c
3.34
3.72
3.81
3.66
3.55
3.51
d
3.64
3.93
3.77
4.18
4.21
3.88
x a=3.80
x b=3.41
x c=3.60
x d=3.94
x =3.69 (συνολική)
Μέση τιμή
a
3.42
3.96
3.87
4.19
3.58
3.76
b
3.17
3.63
3.38
3.47
3.39
3.41
c
3.34
3.72
3.81
3.66
3.55
3.51
d
3.64
3.93
3.77
4.18
4.21
3.88
x a=3.80
x b=3.41
x c=3.60
x d=3.94
x =3.69 (συνολική)
Ο έλεγχος για τις διαφορές μεταξύ των ομάδων βασίζεται στον
εντοπισμό όλων των πηγών που διαμορφώνουν την
μεταβλητότητα των δεδομένων (δηλ. τι κάνει τα 24 νούμερα να
είναι διαφορετικά).
Οπότε, η συνολική μεταβλητότητα (ή διακύμανση) αναλύεται
στις πηγές διακύμανσης που την συνθέτουν (analysis of
variance, ANOVA)
Μέση τιμή
a
3.42
3.96
3.87
4.19
3.58
3.76
b
3.17
3.63
3.38
3.47
3.39
3.41
c
3.34
3.72
3.81
3.66
3.55
3.51
d
3.64
3.93
3.77
4.18
4.21
3.88
x a=3.80
x b=3.41
x c=3.60
x d=3.94
x =3.69 (συνολική)
Προφανώς, μία πηγή μεταβλητότητας (ή διακύμανσης) είναι η
επίδραση των 4 διαίτων.
Μία άλλη πηγή διακύμανσης είναι η ενδογενή διακύμανση
μέσα στην κάθε ομάδα αφού το κάθε ποντίκι αντιδρά
διαφορετικά στην ίδια δίαιτα; αυτή η μεταβλητότητα δεν μπορεί
να ελεγχθεί και συνεπώς θεωρείται ως τυχαίο σφάλμα ή τυχαία
διακύμανση (error).
• Ο έλεγχος για τις διαφορές μεταξύ των
ομάδων βασίζεται στη σύγκριση μεταξύ της
διακύμανσης μεταξύ των 4 ομάδων με την
τυχαία διακύμανση, δηλ. την ενδογενή
διακύμανση της κάθε ομάδας
• Αν η διακύμανση μεταξύ των 4 ομάδων
είναι ίση με την τυχαία διακύμανση τότε
συμπεραίνουμε ότι η διακύμανση μεταξύ
των 4 ομάδων είναι τυχαία, δηλ. δεν
υπάρχουν πραγματικές διαφορές μεταξύ
των ομάδων
Διαφορετικά, διακύμανση μεταξύ των 4
ομάδων δεν είναι τυχαία, δηλ. υπάρχουν
πραγματικές διαφορές μεταξύ των ομάδων
Η σύγκριση μεταξύ της διακύμανσης μεταξύ
των 4 ομάδων με την τυχαία διακύμανση
γίνεται με το F-test που προκύπτει από το
πίνακα της ANOVA:
Source of variation
df
SS
-----------------------------------------------------------------Between groups
4-1=3
0.954
Within groups (error/random) 23-3=20 0.876
-----------------------------------------------------------------Total
24-1=23 1.83
n
H ή ύ  έ ί : s2 
 (x
i 1
i
 x) 2
n 1

Sum of Squares
SS
1.83


n 1
n  1 24  1
H ANOVA διαιρεί το συνολικό SS=1.83 σε δύο μέρη:
i) Το SS που οφείλεται στις διαφορές μεταξύ των μέσων τιμών ομάδων
(Between groups SS) που είναι η διακύμανση μεταξύ των 4 μέσων τιμών
ii) Το SS του σφάλματος (ή Within groups SS) που είναι
(Total SS)-(Between groups SS)
Με όμοιο τρόπο διαιρείται το σύνολο (n-1) των df
Μετά υπολογίζεται, η μέση διακύμανση (Mean
Square, MS), δηλ. MS=SS/df, της κάθε πηγής
διακύμανσης
Source of variation
df
SS
MS=SS/df
--------------------------------------------------------------------------------Between groups
3
0.954
0.318
Within groups (error/random) 20
0.876
0.044=s2
---------------------------------------------------------------------------------Total
23
1.83
Κατόπιν, η μέση διακύμανση μεταξύ των 4 ομάδων συγκρίνεται με την
μέση τυχαία διακύμανση χρησιμοποιώντας το F-test:
ύ ύ  ά Between groups MS 0.318
F


 7.23
ί ύ
Error MS
0.044
Αν η μέση διακύμανση μεταξύ των 4 ομάδων είναι μεγαλύτερη από την
μέση τυχαία διακύμανση, τότε οι διαφορές μεταξύ των 4 ομάδων δεν είναι
τυχαίες (είναι πραγματικές)
Σε αυτή την περίπτωση, η τιμή του F-test γίνεται πολύ μεγαλύτερη του 1
Η σημαντικότητα της τιμής F=7.23 προσδιορίζεται με παρόμοιο
τρόπο με το t-test (δηλ. προσομοιώνουμε τυχαία 10000 φορές
την μελέτη υποθέτοντας ότι οι δίαιτες δεν διαφέρουν και
υπολογίζουμε τα 10000 F-tests, τα οποία σχηματίζουν τη Fκατανομή, και βρίσκουμε το ποσοστό των F-tests που είναι
μεγαλύτερα από το F=7.23)
Τότε, P=0.002
Συνεπώς, οι 4 δίαιτες διαφέρουν μεταξύ τους σημαντικά (με μία
μικρή πιθανότητα λάθους P<0.05 ή P=0.002)
Εναλλακτικά, η τιμή F=7.23 συγκρίνεται με 5% σημείο της Fκατανομής με 3 και 20 df που είναι 3.1 (δες Πίνακα F-κατανομής).
Eπειδή το F=7.23 είναι μεγαλύτερο από το 3.2 συμπεραίνουμε ότι
υπάρχει ένδειξη (P<0.05) οι ομάδες (δίαιτες) διαφέρουν μεταξύ τους
5% points of the F-distribution
Post-hoc tests
• Αν η ANOVA δείξει ότι υπάρχουν σημαντικές διαφορές μεταξύ
των ομάδων τότε μπορούμε να κάνουμε επιμέρους συγκρίσεις
μεταξύ των ομάδων, π.χ. να συγκρίνουμε την ομάδα a με την
ομάδα b, χρησιμοποιώντας το t-test. Όμως, αυτό το t-test
διαφέρει από το προηγούμενο στο SE (εδώ υπολογίζεται
χρησιμοποιώντας την τυχαία διακύμανση, το error).
To t-test είναι:
x a  x b 3.80  3.41

 3.25
SE
0.12
ό
t
 1
1 
1 1
SE  (error MS)     0.044     0.12
6 6
 na nb 
H τιμή του t-test (t=3.25) είναι μεγαλύτερη από το 5% σημείο της tκατανομής για 20 df (οι df του error) που είναι 2.09
Συνεπώς, υπάρχει σημαντική διαφορά μεταξύ των ομάδων a και b
(P<0.05 ή πιο συγκεκριμένα P=0.004)
Διάστημα εμπιστοσύνης (δε) μέσης τιμής των διαφορών
Το 95% δ.ε. για την μέση τιμή των διαφορών των ομάδων a και b
είναι:
 D  t  SE, D  t  SE 
ή
 (x a  x b )  2.09  SE, (x a  x b )  2.09  SE 
ό
 0.39  2.09  0.12, 0.39  2.09  0.12    0.14, 0.64 
Οπότε, με 95% βεβαιότητα η ομάδα a έχει υψηλότερο βάρος
μεταξύ 0.14 και 0.64 από ότι η ομάδα b
Επειδή το 0 δεν συμπεριλαμβάνεται μέσα στο 95% δε, σημαίνει ότι η
διαφορά είναι σημαντική
Πολλαπλές συγκρίσεις - Διόρθωση Bonferroni
Όλες οι πιθανές συγκρίσεις μεταξύ των ομάδων δεν είναι
ανεξάρτητες. Για το λόγο αυτό όταν γίνονται πολλαπλές
συγκρίσεις (k) η στάθμη σημαντικότητας (P) πρέπει να
διορθώνεται σε P’=kP
Συνεπώς, αν εκτελέσουμε 6 συγκρίσεις μεταξύ ομάδων, η
σύγκριση μεταξύ της δίαιτας a και b θα είναι σημαντική αν το Pvalue είναι P>6*0.004=0.024
Ασκήσεις
Θέλουμε να συγκρίνουμε τα επίπεδα αιμοσφαιρίνης τριών ομάδων
ασθενών με τρεις διαφορετικούς τύπους δρεπανοκυτταρικής αναιμίας.
Η κάθε ομάδα αποτελείται από 15 ασθενείς. Πώς θα συγκρίνουμε τις
τρείς ομάδες? Αν το Sum of Squares μεταξύ των ομάδων είναι 100 και
το Error Sum of Squares είναι 30 είναι στατιστικά σημαντική η
διαφορά μεταξύ των ομάδων? Πώς θα συγκρίνουμε την πρώτη με την
τρίτη ομάδα?
Μετρήθηκε η ποσότητα πρωτεϊνης (gr/100ml) στο αίμα ατόμων που
ζουν σε διαφορετικές συνθήκες στις γεωγραφικές περιοχές Α, Β, Γ και
βρέθηκε ότι
Α: 7.6, 7.0, 7.5, 7.9
Β: 7.6, 7.2, 7.5, 7.1
Γ: 8.0, 8.2, 8.3, 8.4
1. Πως θα δείξουμε αν η ποσότητα πρωτεϊνης στο αίμα είναι η ίδια και
στις τρεις περιοχές?
2. Αν το Sum of Squares μεταξύ των ομάδων είναι 1.75 και το Error
Sum of Squares είναι 0.68 είναι στατιστικά σημαντική η διαφορά
μεταξύ των ομάδων?
3. Διαφέρει η περιοχή Β από τη Γ?
Ανάλυση διασποράς με δύο
παράγοντες (two-way ANOVA)
χωρίς αλληλεπίδραση
Ανάλυση διασποράς με δύο παράγοντες (two-way ANOVA) χωρίς
αλληλεπίδραση
Όταν υπάρχουν δύο πιθανοί γνωστοί παράγοντες που
συνεισφέρουν στη μεταβλητότητα (διακύμανση) των δεδομένων
τότε ο έλεγχος της επίδρασης του κάθε παράγοντα γίνεται με την
ανάλυση διασποράς με δύο παράγοντες (two-way ANOVA). Η
ανάλυση γίνεται συνήθως με τη χρήση στατιστικού
προγράμματος.
Παράδειγμα: Σε ένα πείραμα για να συγκρίνουμε την επίδραση
k=3 φαρμάκων στον αριθμό λεμφοκυττάρων σε ποντίκια,
χρησιμοποιήθηκε ένας σχεδιασμός με 3 ποντίκια από b=4
διαφορετικά κλουβιά. Ο αριθμός λεμφοκυττάρων ήταν:
Litters
Drugs
a
b
c
1
2
3
4
μέση τιμή
7.1
6.7
6.6
6.1
5.0
5.4
6.9
5.9
5.8
5.6
5.1
5.2
6.43
5.68
5.75
Υπάρχουν δύο πιθανοί παράγοντες διακύμανσης: το κλουβί και το φάρμακο
Η διαίρεση της συνολικής διακύμανσης ακολουθεί την ίδια
φιλοσοφία με την One-way ANOVA. H ANOVA παρουσιάζεται με
τον εξής πίνακα:
Source of variation
df
SS
MS=SS/df
F=MS/Resid. MS
--------------------------------------------------------------------------------------------------------------Between litters
b-1=4-1=3
4.23
1.40
Between drugs
k-1=3-1=2
1.37
0.683
14.89
2
Error (Residual)
11-3-2=6
0.275
s =0.046
--------------------------------------------------------------------------------------------------------------Total
n-1=12-1=11
5.875
Error SS = Total SS – (Between litters SS + Between Drugs SS)
Ελέγχουμε αν τα φάρμακα διαφέρουν μεταξύ τους συγκρίνοντας την
τιμή F=(Between drugs MS)/(Residual MS)=14.89 με το 5% σημείο της
F-κατανομής με 2 και 6 df (Between drugs df και Residual df)
Source of variation
df
SS
MS=SS/df
F=MS/Resid. MS
--------------------------------------------------------------------------------------------------------------Between litters
b-1=4-1=3
4.23
1.40
Between drugs
k-1=3-1=2
1.37
0.683
14.89
2
Error (Residual)
11-3-2=6
0.275
s =0.046
--------------------------------------------------------------------------------------------------------------Total
n-1=12-1=11
Επειδή η τιμή του F=14.89 είναι μεγαλύτερη από τη τιμή της Fκατανομής που είναι 5.14 (δες Πίνακα της F-κατανομής) τότε υπάρχει
σημαντική διαφορά μεταξύ των φαρμάκων με (πιθανότητα λάθους)
P<0.05
Η σύγκριση μεταξύ δύο φαρμάκων γίνεται με t-test όπως ακριβώς στον one-way
ANOVA
5% points of the F-distribution
Άσκηση
4. Να συγκριθεί η αποτελεσματικότητα, λαμβάνοντας υπόψη την
επίδραση του φύλου, δύο νέον φαρμάκων Nebivolol vs.
Telmisartan. Η αποτελεσματικότητα αξιολογήθηκε με βάση την
συστολική πίεση (SBP) πριν την χορήγηση θεραπείας και μετά από
τρεις μήνες:
patient
1
2
3
4
5
6
7
8
Nebivolol
baseline
3rd month
150
120
158
127
153
120
165
113
165
120
160
120
165
137
150
118
Sex
M
M
M
M
M
F
F
F
patient
1
2
3
4
5
6
7
8
Telmisartan
baseline
3rd month
158
130
160
133
160
12
152
120
154
123
155
127
156
117
152
117
Sex
M
M
M
M
F
F
F
F
Με ποια στατιστική τεχνική θα
συγκρίνουμε τα δύο φάρμακα?
Πρώτα υπολογίζουμε την βελτίωση της πίεσης σε κάθε ασθενή και
μετά συγκρίνουμε τα φάρμακα σε σχέση με τη βελτίωση με 2-way
ANOVA.
patient
1
2
3
4
5
6
7
8
Nebivolol
Difference
30
31
33
52
45
40
28
32
Sex
M
M
M
M
M
F
F
F
Telmisartan
patient Difference
1
28
2
27
3
148
4
32
5
31
6
28
7
39
8
35
Sex
M
M
M
M
F
F
F
F
Αν το Total SS is 12876, το Sex SS is 933 και το Drug
SS is 527,
1) ελέγξτε αν υπάρχει σημαντική διαφορά μεταξύ
των φαρμάκων και
2) βρείτε το 95% CI της διαφορά τους.
Ερμηνεύστε τα αποτέλεσματα.
Tests of Between-Subjects Effects
Dependent Variable: Change in SBP
Source
sex
Drug
Error
Total
Type III Sum
of Squares
932.907
526.461
11572.968
12876.438
df
1
1
13
15
Mean Square
932.907
526.461
890.228
F
1.048
.591
Sig .
.325
.456
• Δεν υπάρχει σημαντική διαφορά μεταξύ
των φαρμάκων με P<0.05 ή P=0.456.
2. Drug
Dependent Variable: Change in SBP
Drug
Nebivolol
Telmisartan
Mean
34.435
46.000
Std. Error
10.718
10.549
95% Confidence Interval
Lower Bound
Upper Bound
11.281
57.590
23.211
68.789
Το 95% CI της μέσης τιμής του Nebivolol
επικαλύπτεται με το 95 CI της μέσης τιμής του
Telmisartan.
Δηλ. επιβεβαιώνονται περιγραφικά το
αποτέλεσμα της ANOVA.
Parameter Estimates
Dependent Variable: Change in SBP
Parameter
Diff Drugs
Diff in
means
-11.565
95% Confidence Interval
Lower Bound
Upper Bound
.
.
-44.053
20.923
.
.
Το 95 CI της διαφοράς των δύο μέσων
τιμών περιέχει το μηδέν, δηλαδή δεν
υπάρχει σημαντική διαφορά μεταξύ των
φαρμάκων.
Ανάλυση διασποράς με δύο
παράγοντες με αλληλεπίδραση
(two-way ANOVA with interaction)
Ανάλυση διασποράς με δύο παράγοντες (Two-way ANOVA) με
αλληλεπίδραση
Όταν τα δεδομένα ταξινομούνται σε δύο παράγοντες και
υπάρχουν πολλαπλές παρατηρήσεις για κάθε συνδυασμό των
δύο παραγόντων τότε ο έλεγχος της επίδρασης του κάθε
παράγοντα (δηλ της διαφοράς μεταξύ των επιπέδων του
παράγοντα) ή της αλληλεπίδρασης μεταξύ των παραγόντων
γίνεται με την ανάλυση διασποράς με δύο παράγοντες (twoway ANOVA) και αλληλεπίδραση.
Παράδειγμα: Για να ερευνήσουμε την επίδραση του σορβικού
οξέος (sa) και του pH του νερού στην επιβίωση της
σαλμονέλας, χρησιμοποιήσαμε w=3 επίπεδα pH (5.0, 5.5, 6.0)
και s=2 επίπεδα σορβικού οξέος (0, 100 p.p.m.). Για τον κάθε
συνδυασμό sa και pH υπάρχουν k=3 παρατηρήσεις. Μία
εβδομάδα μετά μετρήθηκε η ποσότητα σαλμονέλας που
επιβίωσε (log(πυκνότητα/ml)). Τα δεδομένα ήταν:
Sa
pH
repli cations
1
2
3
--------------------------------------------------0
6.0
8.2
8.4
8.3
5.5
5.9
6.0
6.1
5.0
4.3
4.3
4.2
100 6.0
7.6
7.8
7.6
5.5
5.0
5.3
5.8
5.0
4.1
4.4
4.2
Η ANOVA παρουσιάζεται με τον εξής πίνακα:
Source of variation
df
SS
MS=SS/df
F=MS/s2
---------------------------------------------------------------------------------------------------------pH
w-1=2
42.46
21.23
590
sa
s-1=1
0.86
0.86
23.89
Interaction pHXsa
(w-1)*(s-1)=2
0.34
0.17
4.72
2
Error (Residual)
17-2-1-2=12
0.43
s =0.036
----------------------------------------------------------------------------------------------------------Total
n=18-1=17
Ελέγχουμε αν τα επίπεδα pH διαφέρουν συγκρίνοντας την τιμή
F=(pH MS)/(Residual MS)=590 με το 5% σημείο της F-κατανομής με
2 και 12 df (pH df και Residual df) που είναι 3.89 (δες Πίνακα Fκατανομής)
Επειδή η τιμή της F=590 είναι μεγαλύτερη από το 3.89, υπάρχει
σημαντική διαφορά μεταξύ των επιπέδων pH (P<0.05)
5% points of the F-distribution
Source of variation
df
SS
MS=SS/df
F=MS/s2
---------------------------------------------------------------------------------------------------------pH
w-1=2
42.46
21.23
590
sa
s-1=1
0.86
0.86
23.89
Interaction pHXsa
(w-1)*(s-1)=2
0.34
0.17
4.72
2
Error (Residual)
17-2-1-2=12
0.43
s =0.036
----------------------------------------------------------------------------------------------------------Total
n=18-1=17
Ελέγχουμε αν τα επίπεδα sa διαφέρουν συγκρίνοντας την τιμή
F=(sa MS)/(Residual MS)=23.89 με το 5% σημείο της F-κατανομής
με 1 και 12 df (sa df και Residual df) που είναι 4.75 (δες Πίνακα Fκατανομής)
Επειδή η τιμή της F=23.89 είναι μεγαλύτερη από το 4.75, υπάρχει
διαφορά μεταξύ των επιπέδων pH (P<0.05)
Source of variation
df
SS
MS=SS/df
F=MS/s2
---------------------------------------------------------------------------------------------------------pH
w-1=2
42.46
21.23
590
sa
s-1=1
0.86
0.86
23.89
Interaction pHXsa
(w-1)*(s-1)=2
0.34
0.17
4.72
2
Error (Residual)
17-2-1-2=12
0.43
s =0.036
----------------------------------------------------------------------------------------------------------Total
n=18-1=17
Ελέγχουμε αν υπάρχει αλληλεπίδραση μεταξύ pH και sa
συγκρίνοντας την τιμή F=(Interaction MS)/(Residual MS)=4.72 με το
5% σημείο της F-κατανομής με 2 και 12 df (Interaction df και
Residual df) που είναι 3.89 (δες Πίνακα F-κατανομής)
Επειδή η τιμή της F=4.72 είναι μεγαλύτερη από το 3.89, υπάρχει
αλληλεπίδραση μεταξύ pH και sa (P<0.05)
Αλληλοεπίδραση
Η ύπαρξη της αλληλεπίδρασης σημαίνει ότι η διαφορά (D) sa0-sa100
δεν είναι σταθερή για τα διαφορετικά επίπεδα pH.
Sa
Οι μέσες τιμές για τον κάθε
συνδυασμό sa και pH είναι:
pH
sa
6.0
5.5
5.0
means
-------------------------------------------------------------0
8.3
6.1
4.3
6.2
100
7.7
5.4
4.2
5.8
-------------------------------------------------------------pH means
8.0
5.7
4.3
6.0
Οι διαφορές (D) sa0-sa100
για κάθε επίπεδο pH είναι:
Αλληλεπίδραση σημαίνει ότι οι
διαφορές (D) διαφέρουν μεταξύ τους
Μπορούμε να κάνουμε σύγκριση των μέσων τιμών δύο επιπέδων pH
ή δύο επιπέδων sa χρησιμοποιώντας το t-test (όπως και στην oneway ANOVA)
Επίσης, μπορούμε να κάνουμε σύγκριση των μέσων τιμών δύο
επιπέδων pH για ένα επίπεδο του sa χρησιμοποιώντας πάλι το t-test
(όπως και στην one-way ANOVA)
Άσκηση
4. Να συγκριθεί η αποτελεσματικότητα, λαμβάνοντας υπόψη την
επίδραση του φύλου, δύο νέον φαρμάκων Nebivolol vs.
Telmisartan. Η αποτελεσματικότητα αξιολογήθηκε με βάση την
συστολική πίεση (SBP) πριν την χορήγηση θεραπείας και μετά από
τρεις μήνες:
patient
1
2
3
4
5
6
7
8
Nebivolol
baseline
3rd month
150
120
158
127
153
120
165
113
165
120
160
120
165
137
150
118
Sex
M
M
M
M
M
F
F
F
patient
1
2
3
4
5
6
7
8
Telmisartan
baseline
3rd month
158
130
160
133
160
12
152
120
154
123
155
127
156
117
152
117
Sex
M
M
M
M
F
F
F
F
Αν το Total SS is 12876, το Sex SS is 892 και το Drug
SS is 405,
1) ελέγξτε αν υπάρχει αλληλεπίδραση μεταξύ Sex και
φαρμάκων?
Ερμηνεύστε τα αποτελέσματα.
Tests of Between-Subjects Effects
Dependent Variable: Change in SBP
Source
sex
Drug
sex * Drug
Error
Total
Type III Sum
of Squares
892.388
405.372
412.001
11160.967
12876.438
df
1
1
1
12
15
Mean Square
892.388
405.372
412.001
930.081
F
.959
.436
.443
Sig .
.347
.522
.518
Μετατροπή των δεδομένων
Μετατροπή των δεδομένων
Για να είναι έγκυρος ένας στατιστικός έλεγχος όπως t-test ή
ANOVA πρέπει να υποθέσουμε ότι: 1) οι παρατηρήσεις έχουν
κανονική κατανομή και 2) οι διακυμάνσεις των ομάδων που
συγκρίνονται είναι ίσες.
Αν δεν πληρούνται οι παραπάνω υποθέσεις και τα δείγματα
είναι μικρά σε μέγεθος τότε τα δεδομένα χρειάζεται να
μετασχηματισθούν στους λογαρίθμους τους. Η ανάλυση τότε θα
βασίζεται στα λογαριθμοποιημένα δεδομένα. Αν τα δεδομένα
είναι συχνότητες τότε ίσως χρειάζεται να μετασχηματισθούν
στις τετραγωνικές τους ρίζες.
Ο λογάριθμος (log) μίας ποσότητας x είναι η ποσότητα y,
y=log(x), έτσι ώστε x=ey, όπου e=2.718. Ο λογάριθμος του 1
είναι 0 και του 0 είναι άπειρο. Μπορούμε να βρούμε τον
λογάριθμο μόνο θετικών τιμών.
100
Frequency
80
60
40
20
0
0-20
20-40 40-60 60-80
80-
100-
120-
140-
160-
180-
200-
220-
240-
260-
280-
100
120
140
160
180
200
220
240
260
280
300
Bilirubin(μmol/l)
30
Frequency
Παράδειγμα: Η κατανομή
των τιμών χολερυθρίνης
ορού μίας ομάδας ατόμων
δεν ακολουθεί την κανονική
κατανομή.
Τότε με έναν λογαριθμικό
μετασχηματισμό τα
δεδομένα ακολουθούν
κανονική κατανομή.
25
20
15
10
5
0
2.0-
2.2-
2.4-
2.6-
2.8-
3.0-
3.2-
3.4-
3.6- 3.8-
4.0-
4.2-
4.4-
4.6-
4.8-
5.2-
5.4-
5.6-
2.2
2.4
2.6
2.8
3.0
3.2
3.4
3.6
3.8
4.2
4.4
4.6
4.8
5.0
5.4
5.6
5.8
4.0
ln(bilirubin)