Transcript ανοva
Recall t-test Eλέγχουμε αν η διαφορά μεταξύ δύο μέσων τιμών (Τ και P) είναι σημαντική (δηλ. αν διαφέρει από το 0 ή ότι δεν είναι τυχαία) χρησιμοποιώντας το t-test: t (mean T) (mean P) xT xP SE SE 2 2 1 (n 1 )s (n 1 )s 1 2 T T P P where SE spooled and spooled (n T 1) (n P 1) nT nP H τιμή του t-τεστ είναι σημαντική (και επομένως διαφορά των μέσων τιμών) αν είναι μεγαλύτερη από το 5% σημείο της t-κατανομής για (nT-1)+(nP-1)df (δες πίνακα της t-κατανομής). • 2. Nα συγκριθεί η αποτελεσματικότητα δύο φαρμάκων (Nebivolol vs Telmisartan), το Nebivolol χορηγήθηκε σε 9 ασθενείς και το Telmisartan σε 8 ασθενείς. Η αποτελεσματικότητα αξιολογήθηκε με βάση την συστολική πίεση (SBP) πριν την χορήγηση θεραπείας και μετά από τρεις μήνες: Nebivolol patient Telmisartan baseline 3rd month patient baseline 3rd month 1 150 120 1 158.33 130 2 157.5 126.67 2 160 133.33 3 153.33 120 3 160 12.33 4 165.17 113.33 4 151.67 120 5 165 120 5 154.17 123.33 6 160 120 6 155 126.67 7 165 136.67 7 155.83 116.67 8 150 118.33 8 151.67 116.67 9 147.5 133.33 Σύγκριση δύο ή περισσότερων θεραπειών (One-way ANOVA) Σύγκριση δύο ή περισσότερων θεραπειών (One-way ANOVA) Η ανάλυση διασποράς με ένα παράγοντα χρησιμοποιείται όταν θέλουμε να συγκρίνουμε τις μέσες τιμές πολλών ομάδων (περισσότερες από δύο). Η ανάλυση καλείται με ένα παράγοντα επειδή τα δεδομένα ταξινομούνται σύμφωνα με ένα παράγοντα ή ομάδα. Παράδειγμα: Σε μία μελέτη, έχει καταγραφεί το βάρος του ήπατος (x) (εκφρασμένο ως ποσοστό του βάρους του σώματος) ποντικιών που ανήκουν σε k=4 ομάδες που τράφηκαν με 4 διαφορετικές δίαιτες. Θέλουμε να ερευνήσουμε αν υπάρχουν συστηματικές διαφορές μεταξύ των 4 ομάδων, δηλ. να θέλουμε να συγκρίνουμε τις μέσες τιμές των 4 ομάδων. Μέση τιμή a 3.42 3.96 3.87 4.19 3.58 3.76 b 3.17 3.63 3.38 3.47 3.39 3.41 c 3.34 3.72 3.81 3.66 3.55 3.51 d 3.64 3.93 3.77 4.18 4.21 3.88 x a=3.80 x b=3.41 x c=3.60 x d=3.94 x =3.69 (συνολική) Μέση τιμή a 3.42 3.96 3.87 4.19 3.58 3.76 b 3.17 3.63 3.38 3.47 3.39 3.41 c 3.34 3.72 3.81 3.66 3.55 3.51 d 3.64 3.93 3.77 4.18 4.21 3.88 x a=3.80 x b=3.41 x c=3.60 x d=3.94 x =3.69 (συνολική) Ο έλεγχος για τις διαφορές μεταξύ των ομάδων βασίζεται στον εντοπισμό όλων των πηγών που διαμορφώνουν την μεταβλητότητα των δεδομένων (δηλ. τι κάνει τα 24 νούμερα να είναι διαφορετικά). Οπότε, η συνολική μεταβλητότητα (ή διακύμανση) αναλύεται στις πηγές διακύμανσης που την συνθέτουν (analysis of variance, ANOVA) Μέση τιμή a 3.42 3.96 3.87 4.19 3.58 3.76 b 3.17 3.63 3.38 3.47 3.39 3.41 c 3.34 3.72 3.81 3.66 3.55 3.51 d 3.64 3.93 3.77 4.18 4.21 3.88 x a=3.80 x b=3.41 x c=3.60 x d=3.94 x =3.69 (συνολική) Προφανώς, μία πηγή μεταβλητότητας (ή διακύμανσης) είναι η επίδραση των 4 διαίτων. Μία άλλη πηγή διακύμανσης είναι η ενδογενή διακύμανση μέσα στην κάθε ομάδα αφού το κάθε ποντίκι αντιδρά διαφορετικά στην ίδια δίαιτα; αυτή η μεταβλητότητα δεν μπορεί να ελεγχθεί και συνεπώς θεωρείται ως τυχαίο σφάλμα ή τυχαία διακύμανση (error). • Ο έλεγχος για τις διαφορές μεταξύ των ομάδων βασίζεται στη σύγκριση μεταξύ της διακύμανσης μεταξύ των 4 ομάδων με την τυχαία διακύμανση, δηλ. την ενδογενή διακύμανση της κάθε ομάδας • Αν η διακύμανση μεταξύ των 4 ομάδων είναι ίση με την τυχαία διακύμανση τότε συμπεραίνουμε ότι η διακύμανση μεταξύ των 4 ομάδων είναι τυχαία, δηλ. δεν υπάρχουν πραγματικές διαφορές μεταξύ των ομάδων Διαφορετικά, διακύμανση μεταξύ των 4 ομάδων δεν είναι τυχαία, δηλ. υπάρχουν πραγματικές διαφορές μεταξύ των ομάδων Η σύγκριση μεταξύ της διακύμανσης μεταξύ των 4 ομάδων με την τυχαία διακύμανση γίνεται με το F-test που προκύπτει από το πίνακα της ANOVA: Source of variation df SS -----------------------------------------------------------------Between groups 4-1=3 0.954 Within groups (error/random) 23-3=20 0.876 -----------------------------------------------------------------Total 24-1=23 1.83 n H ή ύ έ ί : s2 (x i 1 i x) 2 n 1 Sum of Squares SS 1.83 n 1 n 1 24 1 H ANOVA διαιρεί το συνολικό SS=1.83 σε δύο μέρη: i) Το SS που οφείλεται στις διαφορές μεταξύ των μέσων τιμών ομάδων (Between groups SS) που είναι η διακύμανση μεταξύ των 4 μέσων τιμών ii) Το SS του σφάλματος (ή Within groups SS) που είναι (Total SS)-(Between groups SS) Με όμοιο τρόπο διαιρείται το σύνολο (n-1) των df Μετά υπολογίζεται, η μέση διακύμανση (Mean Square, MS), δηλ. MS=SS/df, της κάθε πηγής διακύμανσης Source of variation df SS MS=SS/df --------------------------------------------------------------------------------Between groups 3 0.954 0.318 Within groups (error/random) 20 0.876 0.044=s2 ---------------------------------------------------------------------------------Total 23 1.83 Κατόπιν, η μέση διακύμανση μεταξύ των 4 ομάδων συγκρίνεται με την μέση τυχαία διακύμανση χρησιμοποιώντας το F-test: ύ ύ ά Between groups MS 0.318 F 7.23 ί ύ Error MS 0.044 Αν η μέση διακύμανση μεταξύ των 4 ομάδων είναι μεγαλύτερη από την μέση τυχαία διακύμανση, τότε οι διαφορές μεταξύ των 4 ομάδων δεν είναι τυχαίες (είναι πραγματικές) Σε αυτή την περίπτωση, η τιμή του F-test γίνεται πολύ μεγαλύτερη του 1 Η σημαντικότητα της τιμής F=7.23 προσδιορίζεται με παρόμοιο τρόπο με το t-test (δηλ. προσομοιώνουμε τυχαία 10000 φορές την μελέτη υποθέτοντας ότι οι δίαιτες δεν διαφέρουν και υπολογίζουμε τα 10000 F-tests, τα οποία σχηματίζουν τη Fκατανομή, και βρίσκουμε το ποσοστό των F-tests που είναι μεγαλύτερα από το F=7.23) Τότε, P=0.002 Συνεπώς, οι 4 δίαιτες διαφέρουν μεταξύ τους σημαντικά (με μία μικρή πιθανότητα λάθους P<0.05 ή P=0.002) Εναλλακτικά, η τιμή F=7.23 συγκρίνεται με 5% σημείο της Fκατανομής με 3 και 20 df που είναι 3.1 (δες Πίνακα F-κατανομής). Eπειδή το F=7.23 είναι μεγαλύτερο από το 3.2 συμπεραίνουμε ότι υπάρχει ένδειξη (P<0.05) οι ομάδες (δίαιτες) διαφέρουν μεταξύ τους 5% points of the F-distribution Post-hoc tests • Αν η ANOVA δείξει ότι υπάρχουν σημαντικές διαφορές μεταξύ των ομάδων τότε μπορούμε να κάνουμε επιμέρους συγκρίσεις μεταξύ των ομάδων, π.χ. να συγκρίνουμε την ομάδα a με την ομάδα b, χρησιμοποιώντας το t-test. Όμως, αυτό το t-test διαφέρει από το προηγούμενο στο SE (εδώ υπολογίζεται χρησιμοποιώντας την τυχαία διακύμανση, το error). To t-test είναι: x a x b 3.80 3.41 3.25 SE 0.12 ό t 1 1 1 1 SE (error MS) 0.044 0.12 6 6 na nb H τιμή του t-test (t=3.25) είναι μεγαλύτερη από το 5% σημείο της tκατανομής για 20 df (οι df του error) που είναι 2.09 Συνεπώς, υπάρχει σημαντική διαφορά μεταξύ των ομάδων a και b (P<0.05 ή πιο συγκεκριμένα P=0.004) Διάστημα εμπιστοσύνης (δε) μέσης τιμής των διαφορών Το 95% δ.ε. για την μέση τιμή των διαφορών των ομάδων a και b είναι: D t SE, D t SE ή (x a x b ) 2.09 SE, (x a x b ) 2.09 SE ό 0.39 2.09 0.12, 0.39 2.09 0.12 0.14, 0.64 Οπότε, με 95% βεβαιότητα η ομάδα a έχει υψηλότερο βάρος μεταξύ 0.14 και 0.64 από ότι η ομάδα b Επειδή το 0 δεν συμπεριλαμβάνεται μέσα στο 95% δε, σημαίνει ότι η διαφορά είναι σημαντική Πολλαπλές συγκρίσεις - Διόρθωση Bonferroni Όλες οι πιθανές συγκρίσεις μεταξύ των ομάδων δεν είναι ανεξάρτητες. Για το λόγο αυτό όταν γίνονται πολλαπλές συγκρίσεις (k) η στάθμη σημαντικότητας (P) πρέπει να διορθώνεται σε P’=kP Συνεπώς, αν εκτελέσουμε 6 συγκρίσεις μεταξύ ομάδων, η σύγκριση μεταξύ της δίαιτας a και b θα είναι σημαντική αν το Pvalue είναι P>6*0.004=0.024 Ασκήσεις Θέλουμε να συγκρίνουμε τα επίπεδα αιμοσφαιρίνης τριών ομάδων ασθενών με τρεις διαφορετικούς τύπους δρεπανοκυτταρικής αναιμίας. Η κάθε ομάδα αποτελείται από 15 ασθενείς. Πώς θα συγκρίνουμε τις τρείς ομάδες? Αν το Sum of Squares μεταξύ των ομάδων είναι 100 και το Error Sum of Squares είναι 30 είναι στατιστικά σημαντική η διαφορά μεταξύ των ομάδων? Πώς θα συγκρίνουμε την πρώτη με την τρίτη ομάδα? Μετρήθηκε η ποσότητα πρωτεϊνης (gr/100ml) στο αίμα ατόμων που ζουν σε διαφορετικές συνθήκες στις γεωγραφικές περιοχές Α, Β, Γ και βρέθηκε ότι Α: 7.6, 7.0, 7.5, 7.9 Β: 7.6, 7.2, 7.5, 7.1 Γ: 8.0, 8.2, 8.3, 8.4 1. Πως θα δείξουμε αν η ποσότητα πρωτεϊνης στο αίμα είναι η ίδια και στις τρεις περιοχές? 2. Αν το Sum of Squares μεταξύ των ομάδων είναι 1.75 και το Error Sum of Squares είναι 0.68 είναι στατιστικά σημαντική η διαφορά μεταξύ των ομάδων? 3. Διαφέρει η περιοχή Β από τη Γ? Ανάλυση διασποράς με δύο παράγοντες (two-way ANOVA) χωρίς αλληλεπίδραση Ανάλυση διασποράς με δύο παράγοντες (two-way ANOVA) χωρίς αλληλεπίδραση Όταν υπάρχουν δύο πιθανοί γνωστοί παράγοντες που συνεισφέρουν στη μεταβλητότητα (διακύμανση) των δεδομένων τότε ο έλεγχος της επίδρασης του κάθε παράγοντα γίνεται με την ανάλυση διασποράς με δύο παράγοντες (two-way ANOVA). Η ανάλυση γίνεται συνήθως με τη χρήση στατιστικού προγράμματος. Παράδειγμα: Σε ένα πείραμα για να συγκρίνουμε την επίδραση k=3 φαρμάκων στον αριθμό λεμφοκυττάρων σε ποντίκια, χρησιμοποιήθηκε ένας σχεδιασμός με 3 ποντίκια από b=4 διαφορετικά κλουβιά. Ο αριθμός λεμφοκυττάρων ήταν: Litters Drugs a b c 1 2 3 4 μέση τιμή 7.1 6.7 6.6 6.1 5.0 5.4 6.9 5.9 5.8 5.6 5.1 5.2 6.43 5.68 5.75 Υπάρχουν δύο πιθανοί παράγοντες διακύμανσης: το κλουβί και το φάρμακο Η διαίρεση της συνολικής διακύμανσης ακολουθεί την ίδια φιλοσοφία με την One-way ANOVA. H ANOVA παρουσιάζεται με τον εξής πίνακα: Source of variation df SS MS=SS/df F=MS/Resid. MS --------------------------------------------------------------------------------------------------------------Between litters b-1=4-1=3 4.23 1.40 Between drugs k-1=3-1=2 1.37 0.683 14.89 2 Error (Residual) 11-3-2=6 0.275 s =0.046 --------------------------------------------------------------------------------------------------------------Total n-1=12-1=11 5.875 Error SS = Total SS – (Between litters SS + Between Drugs SS) Ελέγχουμε αν τα φάρμακα διαφέρουν μεταξύ τους συγκρίνοντας την τιμή F=(Between drugs MS)/(Residual MS)=14.89 με το 5% σημείο της F-κατανομής με 2 και 6 df (Between drugs df και Residual df) Source of variation df SS MS=SS/df F=MS/Resid. MS --------------------------------------------------------------------------------------------------------------Between litters b-1=4-1=3 4.23 1.40 Between drugs k-1=3-1=2 1.37 0.683 14.89 2 Error (Residual) 11-3-2=6 0.275 s =0.046 --------------------------------------------------------------------------------------------------------------Total n-1=12-1=11 Επειδή η τιμή του F=14.89 είναι μεγαλύτερη από τη τιμή της Fκατανομής που είναι 5.14 (δες Πίνακα της F-κατανομής) τότε υπάρχει σημαντική διαφορά μεταξύ των φαρμάκων με (πιθανότητα λάθους) P<0.05 Η σύγκριση μεταξύ δύο φαρμάκων γίνεται με t-test όπως ακριβώς στον one-way ANOVA 5% points of the F-distribution Άσκηση 4. Να συγκριθεί η αποτελεσματικότητα, λαμβάνοντας υπόψη την επίδραση του φύλου, δύο νέον φαρμάκων Nebivolol vs. Telmisartan. Η αποτελεσματικότητα αξιολογήθηκε με βάση την συστολική πίεση (SBP) πριν την χορήγηση θεραπείας και μετά από τρεις μήνες: patient 1 2 3 4 5 6 7 8 Nebivolol baseline 3rd month 150 120 158 127 153 120 165 113 165 120 160 120 165 137 150 118 Sex M M M M M F F F patient 1 2 3 4 5 6 7 8 Telmisartan baseline 3rd month 158 130 160 133 160 12 152 120 154 123 155 127 156 117 152 117 Sex M M M M F F F F Με ποια στατιστική τεχνική θα συγκρίνουμε τα δύο φάρμακα? Πρώτα υπολογίζουμε την βελτίωση της πίεσης σε κάθε ασθενή και μετά συγκρίνουμε τα φάρμακα σε σχέση με τη βελτίωση με 2-way ANOVA. patient 1 2 3 4 5 6 7 8 Nebivolol Difference 30 31 33 52 45 40 28 32 Sex M M M M M F F F Telmisartan patient Difference 1 28 2 27 3 148 4 32 5 31 6 28 7 39 8 35 Sex M M M M F F F F Αν το Total SS is 12876, το Sex SS is 933 και το Drug SS is 527, 1) ελέγξτε αν υπάρχει σημαντική διαφορά μεταξύ των φαρμάκων και 2) βρείτε το 95% CI της διαφορά τους. Ερμηνεύστε τα αποτέλεσματα. Tests of Between-Subjects Effects Dependent Variable: Change in SBP Source sex Drug Error Total Type III Sum of Squares 932.907 526.461 11572.968 12876.438 df 1 1 13 15 Mean Square 932.907 526.461 890.228 F 1.048 .591 Sig . .325 .456 • Δεν υπάρχει σημαντική διαφορά μεταξύ των φαρμάκων με P<0.05 ή P=0.456. 2. Drug Dependent Variable: Change in SBP Drug Nebivolol Telmisartan Mean 34.435 46.000 Std. Error 10.718 10.549 95% Confidence Interval Lower Bound Upper Bound 11.281 57.590 23.211 68.789 Το 95% CI της μέσης τιμής του Nebivolol επικαλύπτεται με το 95 CI της μέσης τιμής του Telmisartan. Δηλ. επιβεβαιώνονται περιγραφικά το αποτέλεσμα της ANOVA. Parameter Estimates Dependent Variable: Change in SBP Parameter Diff Drugs Diff in means -11.565 95% Confidence Interval Lower Bound Upper Bound . . -44.053 20.923 . . Το 95 CI της διαφοράς των δύο μέσων τιμών περιέχει το μηδέν, δηλαδή δεν υπάρχει σημαντική διαφορά μεταξύ των φαρμάκων. Ανάλυση διασποράς με δύο παράγοντες με αλληλεπίδραση (two-way ANOVA with interaction) Ανάλυση διασποράς με δύο παράγοντες (Two-way ANOVA) με αλληλεπίδραση Όταν τα δεδομένα ταξινομούνται σε δύο παράγοντες και υπάρχουν πολλαπλές παρατηρήσεις για κάθε συνδυασμό των δύο παραγόντων τότε ο έλεγχος της επίδρασης του κάθε παράγοντα (δηλ της διαφοράς μεταξύ των επιπέδων του παράγοντα) ή της αλληλεπίδρασης μεταξύ των παραγόντων γίνεται με την ανάλυση διασποράς με δύο παράγοντες (twoway ANOVA) και αλληλεπίδραση. Παράδειγμα: Για να ερευνήσουμε την επίδραση του σορβικού οξέος (sa) και του pH του νερού στην επιβίωση της σαλμονέλας, χρησιμοποιήσαμε w=3 επίπεδα pH (5.0, 5.5, 6.0) και s=2 επίπεδα σορβικού οξέος (0, 100 p.p.m.). Για τον κάθε συνδυασμό sa και pH υπάρχουν k=3 παρατηρήσεις. Μία εβδομάδα μετά μετρήθηκε η ποσότητα σαλμονέλας που επιβίωσε (log(πυκνότητα/ml)). Τα δεδομένα ήταν: Sa pH repli cations 1 2 3 --------------------------------------------------0 6.0 8.2 8.4 8.3 5.5 5.9 6.0 6.1 5.0 4.3 4.3 4.2 100 6.0 7.6 7.8 7.6 5.5 5.0 5.3 5.8 5.0 4.1 4.4 4.2 Η ANOVA παρουσιάζεται με τον εξής πίνακα: Source of variation df SS MS=SS/df F=MS/s2 ---------------------------------------------------------------------------------------------------------pH w-1=2 42.46 21.23 590 sa s-1=1 0.86 0.86 23.89 Interaction pHXsa (w-1)*(s-1)=2 0.34 0.17 4.72 2 Error (Residual) 17-2-1-2=12 0.43 s =0.036 ----------------------------------------------------------------------------------------------------------Total n=18-1=17 Ελέγχουμε αν τα επίπεδα pH διαφέρουν συγκρίνοντας την τιμή F=(pH MS)/(Residual MS)=590 με το 5% σημείο της F-κατανομής με 2 και 12 df (pH df και Residual df) που είναι 3.89 (δες Πίνακα Fκατανομής) Επειδή η τιμή της F=590 είναι μεγαλύτερη από το 3.89, υπάρχει σημαντική διαφορά μεταξύ των επιπέδων pH (P<0.05) 5% points of the F-distribution Source of variation df SS MS=SS/df F=MS/s2 ---------------------------------------------------------------------------------------------------------pH w-1=2 42.46 21.23 590 sa s-1=1 0.86 0.86 23.89 Interaction pHXsa (w-1)*(s-1)=2 0.34 0.17 4.72 2 Error (Residual) 17-2-1-2=12 0.43 s =0.036 ----------------------------------------------------------------------------------------------------------Total n=18-1=17 Ελέγχουμε αν τα επίπεδα sa διαφέρουν συγκρίνοντας την τιμή F=(sa MS)/(Residual MS)=23.89 με το 5% σημείο της F-κατανομής με 1 και 12 df (sa df και Residual df) που είναι 4.75 (δες Πίνακα Fκατανομής) Επειδή η τιμή της F=23.89 είναι μεγαλύτερη από το 4.75, υπάρχει διαφορά μεταξύ των επιπέδων pH (P<0.05) Source of variation df SS MS=SS/df F=MS/s2 ---------------------------------------------------------------------------------------------------------pH w-1=2 42.46 21.23 590 sa s-1=1 0.86 0.86 23.89 Interaction pHXsa (w-1)*(s-1)=2 0.34 0.17 4.72 2 Error (Residual) 17-2-1-2=12 0.43 s =0.036 ----------------------------------------------------------------------------------------------------------Total n=18-1=17 Ελέγχουμε αν υπάρχει αλληλεπίδραση μεταξύ pH και sa συγκρίνοντας την τιμή F=(Interaction MS)/(Residual MS)=4.72 με το 5% σημείο της F-κατανομής με 2 και 12 df (Interaction df και Residual df) που είναι 3.89 (δες Πίνακα F-κατανομής) Επειδή η τιμή της F=4.72 είναι μεγαλύτερη από το 3.89, υπάρχει αλληλεπίδραση μεταξύ pH και sa (P<0.05) Αλληλοεπίδραση Η ύπαρξη της αλληλεπίδρασης σημαίνει ότι η διαφορά (D) sa0-sa100 δεν είναι σταθερή για τα διαφορετικά επίπεδα pH. Sa Οι μέσες τιμές για τον κάθε συνδυασμό sa και pH είναι: pH sa 6.0 5.5 5.0 means -------------------------------------------------------------0 8.3 6.1 4.3 6.2 100 7.7 5.4 4.2 5.8 -------------------------------------------------------------pH means 8.0 5.7 4.3 6.0 Οι διαφορές (D) sa0-sa100 για κάθε επίπεδο pH είναι: Αλληλεπίδραση σημαίνει ότι οι διαφορές (D) διαφέρουν μεταξύ τους Μπορούμε να κάνουμε σύγκριση των μέσων τιμών δύο επιπέδων pH ή δύο επιπέδων sa χρησιμοποιώντας το t-test (όπως και στην oneway ANOVA) Επίσης, μπορούμε να κάνουμε σύγκριση των μέσων τιμών δύο επιπέδων pH για ένα επίπεδο του sa χρησιμοποιώντας πάλι το t-test (όπως και στην one-way ANOVA) Άσκηση 4. Να συγκριθεί η αποτελεσματικότητα, λαμβάνοντας υπόψη την επίδραση του φύλου, δύο νέον φαρμάκων Nebivolol vs. Telmisartan. Η αποτελεσματικότητα αξιολογήθηκε με βάση την συστολική πίεση (SBP) πριν την χορήγηση θεραπείας και μετά από τρεις μήνες: patient 1 2 3 4 5 6 7 8 Nebivolol baseline 3rd month 150 120 158 127 153 120 165 113 165 120 160 120 165 137 150 118 Sex M M M M M F F F patient 1 2 3 4 5 6 7 8 Telmisartan baseline 3rd month 158 130 160 133 160 12 152 120 154 123 155 127 156 117 152 117 Sex M M M M F F F F Αν το Total SS is 12876, το Sex SS is 892 και το Drug SS is 405, 1) ελέγξτε αν υπάρχει αλληλεπίδραση μεταξύ Sex και φαρμάκων? Ερμηνεύστε τα αποτελέσματα. Tests of Between-Subjects Effects Dependent Variable: Change in SBP Source sex Drug sex * Drug Error Total Type III Sum of Squares 892.388 405.372 412.001 11160.967 12876.438 df 1 1 1 12 15 Mean Square 892.388 405.372 412.001 930.081 F .959 .436 .443 Sig . .347 .522 .518 Μετατροπή των δεδομένων Μετατροπή των δεδομένων Για να είναι έγκυρος ένας στατιστικός έλεγχος όπως t-test ή ANOVA πρέπει να υποθέσουμε ότι: 1) οι παρατηρήσεις έχουν κανονική κατανομή και 2) οι διακυμάνσεις των ομάδων που συγκρίνονται είναι ίσες. Αν δεν πληρούνται οι παραπάνω υποθέσεις και τα δείγματα είναι μικρά σε μέγεθος τότε τα δεδομένα χρειάζεται να μετασχηματισθούν στους λογαρίθμους τους. Η ανάλυση τότε θα βασίζεται στα λογαριθμοποιημένα δεδομένα. Αν τα δεδομένα είναι συχνότητες τότε ίσως χρειάζεται να μετασχηματισθούν στις τετραγωνικές τους ρίζες. Ο λογάριθμος (log) μίας ποσότητας x είναι η ποσότητα y, y=log(x), έτσι ώστε x=ey, όπου e=2.718. Ο λογάριθμος του 1 είναι 0 και του 0 είναι άπειρο. Μπορούμε να βρούμε τον λογάριθμο μόνο θετικών τιμών. 100 Frequency 80 60 40 20 0 0-20 20-40 40-60 60-80 80- 100- 120- 140- 160- 180- 200- 220- 240- 260- 280- 100 120 140 160 180 200 220 240 260 280 300 Bilirubin(μmol/l) 30 Frequency Παράδειγμα: Η κατανομή των τιμών χολερυθρίνης ορού μίας ομάδας ατόμων δεν ακολουθεί την κανονική κατανομή. Τότε με έναν λογαριθμικό μετασχηματισμό τα δεδομένα ακολουθούν κανονική κατανομή. 25 20 15 10 5 0 2.0- 2.2- 2.4- 2.6- 2.8- 3.0- 3.2- 3.4- 3.6- 3.8- 4.0- 4.2- 4.4- 4.6- 4.8- 5.2- 5.4- 5.6- 2.2 2.4 2.6 2.8 3.0 3.2 3.4 3.6 3.8 4.2 4.4 4.6 4.8 5.0 5.4 5.6 5.8 4.0 ln(bilirubin)