Multivariate Statistische Verfahren

Transcript Multivariate Statistische Verfahren

Multivariate Statistische
Verfahren
Logistische Funktion, Logistische Regression und Klassifikation
Poisson-Regression
Psychologisches Institut der
Universität Mainz
SS 2012
U. Mortensen
1
Überblick
Grundbegriffe der Dynamik
Logistische Funktionen, logistische Regression und Klassifikation
Weitere Analysen von Häufigkeiten: Poisson-Regression, loglineare Analysen
Zeitliche Entwicklungen: Ereignisanalyse (Analyse von ‚Wartezeiten‘)
2
Vorbemerkungen: Exponentielles und logistisches Wachstum
Funktionen und ihre Ableitungen
f ( x) sei irgendeine Funktion von x. Etwa
f ( x)  k , k eine Konstante
f ( x)  ax  b,
f ( x)  ax 2
f ( x)  sin( ax)e  x  cos(bx)esin( cx ) ,
etc
2
f ( x)  k , k eine Konstante
Die Funktion hat überall den gleichen Wert k , dh sie verändert
nirgends ihren Wert - die Veränderung hat überall den Wert Null.
f ( x)  ax  b
Die Funktion ist linear - sie verändert sich für alle x im gleichen Ausmaß a
(f Ort, x  t Zeit - Bewegung mit konstanter Geschwindigkeit)
.
f ( x)  ax 2
Die Funktion wächst immer schneller - Veränderung des Wachsens mit x.
3
Wie kann man die Veränderung einer Funktion beschreiben?
f ( x  h)  f ( x) : Veränderung von f
zwischen x und x  h
f ( x  h)  f ( x )
 f ( x) 
h
Rate der Veränderung an der
Stelle x (Steigung der Sekante)
f ( x  h)  f ( x) df ( x)

 f '( x)
h
dx
Infinitesimale Rate der Veränderung an der
Stelle x (Steigung der Tangente) =
Differentialquotient
(Maß der Veränderung von f an der Stelle x)
lim h0
4
Beispiele
f ( x)  ax  b
f ( x)  ax 2
f ( x  h)  f ( x) a( x  h)  ax


h
h
ax  ah  ax
 a für alle h
h
a ( x  h) 2  ax 2 a ( x 2  h 2  2hx)  ax 2


h
h
ax 2  ah 2  2ahx  ax 2
 ah  2ax
h
lim h0 ah  2ax  2ax.
Die Rate der Veränderung ist
konstant für alle x.
Die Rate der Veränderung ist
proportional zu x.
5
Differential und Integral
Die Umkehrung der Differentiation ist die Integration:
Bestimmtes Integral:
Unbestimmtes Integral:
 f '( x)dx  f ( x)  c

b
a
f '( x)dx  f (b)  f (a)
Beispiel:
Beispiel:
2
axdx

ax
c


b
a
 xdx   b2   a 2   (b2  a 2 )
Wahrscheinlichkeitsdichte f und Wahrscheinlichkeitsfunktion F :

x

f (u )du  F ( x)  P( X  x)
6
Differentialgleichungen
Ausgangspunkt: ist die Funktion f(x) gegeben, so liegt die Ableitung f‘(x) fest,
und umgekehrt: ist f‘(x) gegeben, so ist auch f(x) bestimmt (bis auf additive
Konstante beim unbestimmten Integral)
Oft sucht man eine Funktion, von der man nur weiß, wie sie sich mit x
Verändert, d.h. man hat eine Differentialgleichung, deren Lösung die gesuchte
Funktion ist:
Beispiel:
df ( x )
 af ( x )
dx
Das Differential (die Ableitung) der gesuchten Funktion sei
proportional zur Funktion.
7
Differentialgleichungen
Auf diese Differentialgleichung wird man geführt, wenn man den Fall betrachtet, dass eine Größe
stets um einen bestimmten Anteil ihres Wertes wächst:
Nach der Zeiteinheit h  1 gelte
f (t  1)  f (t )   f (t )  (1   ) f (t ), d.h.
f (t  1)
 1    .
f (t )
Außerdem
f (t  1)  f (t )   f (t )  (1   ) f (t ), d.h.
f (t  1)  f (t )
  f (t ).
1
Es läßt sich zeigen, dass dann
f (t )  ce at
gilt, d.h. f ist die Exponentialfunktion,
und f ist die einzige Funktion, die der
Gleichung
df (t )
 f '(t )  af (t )
dt
genügt.
Exponentielles Wachstum einer Population:
Zeiten mit Quadraten sind „Verdoppelungszeiten“, dh
Zeiten, zu denen sich die Population jeweils verdoppelt hat.
8
Differentialgleichungen
Verdoppelungszeiten:
Gilt
f (t  1)  f (t )   f (t )  (1   ) f (t ),
bzw.
f (t )  ce
at
so ist die Verdoppelungszeit durch
td 
log 2
log(1   )
gegeben.

.7
Verzinsung:
Das Anfangskapital sei x0 , die jährliche Verzinsung betrage 5%. Die Verdoppelungszeit ist 14 Jahre, nach k Verdoppelungsk
zeiten hat sich x0 um 2 vervielfacht.

Ölverbrauch:
Im Jahr t0 hat man x0 Barrel Öl verbraucht,
jährlich wird 1.5% ( =.015) mehr Öl verbraucht.
Dann hat sich nach td  70 / 1.5  47 Jahren der
jährliche Verbrauch verdoppelt, d.h. in den letzten
Jahren hat die Welt so viel Öl verbraucht wie in
der gesamten Zeit bis t0 !
Allgemein: benötigt man zum Verbrauch
einer Ressource n Verdoppelungszeiten,
so hat man nach n  1 Zeiten die Hälfte
verbraucht, und während der letzten Verdoppelungszeit verbraucht man den Rest!
9
Differentialgleichungen
Exponentielles Wachstum der
Weltbevölkerung
10
Differentialgleichungen
Ist die Wachstumsrate konstant, so ist das Wachstum exponentiell. Wie ist
Das Wachstum, wenn die Rate nicht konstant ist, es zB Sättigung im Wachstum gibt?
Logistisches Wachstum
Verhulst bekam 1838 den Auftrag, das Wachstum der Stadt
Paris vorherzusagen – die Vorhersage wurde für die
Planung neuer Wohnungen (frz logis), Strassen,
zugehöriger Kanalisation benötigt.
Verhulst nahm an, dass es für eine Stadt eine maximale
Größe K (Trägerkonstante) geben müsse, da die Stadt aus
dem Umland mit Wasser und Nahrung versorgt werden
muß.
Pierre Verhulst (1804- 1849),
belgischer Mathematiker
11
Differentialgleichungen
Ist N (t ) die Anzahl der Bewohner zur Zeit
N (t )
t , so muß
 1 für alle t sein.
K
Statt
dN (t )
 rN (t ) setzt Verhulst nun
dt
dN (t )
Offenbar folgt
 (t ) 

0, N (t )  K
r , N (t )  0
Die Veränderung ist einerseits
proportional zu N (t ), andererseits
  N (t )( K  N (t )), mit N (t )  K .
dt
K ist maximale Population ("Trägerkonstante" )
zur noch verbleibenden Ressource
N  N (t ). Je weniger von der Ressouce
noch vorhanden ist, desto kleiner die
Veränderung.


Mit  (t )  K  1 
dN (t )
N (t ) 
 hat man
K 
  ( t ) N ( t ).
dt
(zeitabhängige Proportionalitätskonstante)
12
Differentialgleichungen
dN (t )
dt
dN (t )
dt


  (t ) N (t )  rN (t ) 1 
N (t ) 
N (t ) N (t )
K 
K
  rN (t )  r
rN (t ) für N (t ) klein (exponentielles Wachstum)



r (1  N (t ) / K ) für N (t ) groß (negativ expon. Wachstum)
Logistisches Wachstum der
Lebenserwartung in Norwegen
13
Differentialgleichungen
Das klassische Modell der Epidemiologie
Annahmen:
1. Gegeben sei eine Population mit Umfang N
2. Ein Element der Population hat das Merkmal A oder hat es nicht
3. Das Merkmal (Gerücht, Krankheit) wird durch Kontakt weitergegeben
4. Alle Elemente der Population sind gleich infizierbar.
Das "triviale" Modell:
1. N  
2. X (t ) Anzahl Infizierter zur Zeit t , X (t  h) Zahl Infizierter zur Zeit t  h
 durchschnittliche Anzahl von Kontakten noch nicht Infizierter.
Dann soll gelten
X (t  h)  X (t )   hX (t )
14
Differentialgleichungen
Es folgt
x(t  h)  X (t )
x(t  h)  X (t )
  X (t ), so dass lim h 0
 X '(t )   X (t ),
h
h
d.h. X (t ) wächst exponentiell!
Das klassische Modell:
N  , X (t ) Infizierte, S (t )  N  X (t ) noch nicht Infizierte, und
N  X (t )  S (t )  konstant.
Jeder der X (t ) Infizierten kann mit jedem nicht Infizierten Kontakt
haben; die Anzahl der möglichen Kontakte ist dann S (t ) X (t ). Mithin
X (t  h)  X (t )   hS (t ) X (t ), d.h.
X (t  h)  X (t )
  S (t ) X (t )   ( N  X (t )) X (t ).
h

dX (t )
  ( N  X (t )) X (t ).
dt
(logistische Gleichung)
15
Differentialgleichungen
dX (t )
  ( N  X (t )) X (t ).
dt
X (t )  N  dX (t ) / dt  0, d.h. kleiner werdende Veränderung der Anzahl Infizierter
X(t)  0  dX (t ) / dt  0, d.h. nur langsam wachsende Anzahl Infizierter
Lösung der Differentialgleichung:
N
N  X (0)
,
A

,   N
X (0)
1  Ae  t )
(Logistische Funktion)
X (t ) 
Wachstumsverläufe für  =.1
und   .075, N  100
16
Differentialgleichungen – Interaktion von Emotionen
Dollard & Miller 1939: Frustration erzeugt Aggression
Einmal so…
Und das nächste
Mal so:
Existiert ein überhaupt ein
Zusammenhang?
x1 Frustration, x2 Aggression
dx1
 a11 x1  a12 x2  u1
dt
dx2
 a12 x1  a22 x2  u2
dt
gekoppelte Differentialgleichungen,
u1 , u2 Störungen (etwa: ''Impulse'')
17
Differentialgleichungen – Interaktion von Emotionen
aij sind Konstante bzw. im Vergleich zu x1 .x2 langsam variierende
Funktionen, die durch andere Emotionen/Zuständlichkeiten beeinflußt werden.
Reaktionen auf einen frustrierenden „Stoß“:
Keine Regression im
üblichen Sinn!
Keine Regression im
üblichen Sinn – Oszillation
bis zur Gleichgewichtslage!
18
Differentialgleichungen – Interaktion von Emotionen
Keine Regression im
üblichen Sinn – eher eine
Explosion!
Keine Regression im
üblichen Sinn – eher ein
permanentes Pendeln!
Untersuchungen im Rahmen des Allgemeinen Linearen Modells (ANOVA, Regressionsanalyse
etc) erfassen die Dynamik grundsätzlich nicht!
19
Logistische Verteilung, Regression und Klassifikation
Die logistische Verteilung
Es sei F ( x )  P ( X  x), und es gelte
dF ( x )
dx
 f ( x)   F ( x)(1  F ( x))
1
F ( x) 
 (x  )  


3

1  exp  
Der Faktor  / 3 resultiert aus der
Normierung: es muß 0  F ( x)  1
gelten.
E ( X )   , Var ( X )  
P( X  x)  1  F ( x)

1
 (x  )  
1  exp 

3
 
A sei ein zufälliges Ereignis, Y sei
eine Indikatorvariable:
Y  0, wenn A nicht eingetreten ist,
Y  1 sonst:
A trete ein, wenn X  x, und A trete
nicht ein, wenn X  x, so dass
P (Y  0 | x)  F ( x),
P (Y  1 | x)  1  F ( x).
Regression:
Beispiel (stark vereinfacht): A stehe für Herzinfarkt.
X sei Ausmaß der Verkalkung der Herzkranzgefäße,
x sei ein kritisches Ausmaß. Für X  x folgt ein Infarkt,
für X  x nicht.
Klassifikation:
Beispiel: A bedeute, dass eine Person einer
bestimmten Klasse angehört (zB für Job geeignet,
oder "ist depressiv"), X repräsentiert komplexes
Merkmal ("Symptom"). X  x signalisiert Zugehörigkeit
20
zur Klasse.
Logistische Verteilung, Regression und Klassifikation
Die Wahrscheinlichkeiten P(Y  1 | x) und P(Y  0 | x) hängen von den Parametern
 und  der Verteilung F ( x) ab.
Um diese Abhängigkeit zu modellieren, schreibt man F ( x)
in reparametrisierter Form an:
1
1
F ( x) 

,
 ( x   )   1  exp(a0  a1 )
1  exp  


3

x 

mit a0  
, a1 
 3
 3
 kann von unabhängigen Variablen abhängen: x1 die Anzahl
Zigaretten, die eine Person täglich raucht, x2 das Alter der Person, etc
so dass   1 x1   2 x2 .
21
Logistische Verteilung, Regression und Klassifikation
Vergleich logistische Verteilung – Gauss-Verteilung
22
Logistische Verteilung, Regression und Klassifikation
P (Y  1| x)  P (Y  1| x,  )  P (Y  1| x, x1 , x2 ) und
1

1  exp((a0  a1 (1 x1   2 x2 )))
1

1  exp(b0  b1 x1  b2 x2 )
P (Y  1| x, x1 , x2 ) 
(erneute Reparametrisierung, b 0 = - a0 , b1  -a11 , b 2  -a1 2 ).
Dies ist die logistische Regression oder Klassifikation:
1
P(Y  1| x1 , x2 ) 
1  exp(b0  b1 x1  b2 x2 )
Frage: Impliziert dieser "Ansatz" die Annahme der logistischen Verteilung?
23
Logistische Verteilung, Regression und Klassifikation
Es soll entschieden werden, ob ein Objekt oder eine Person in die Kategorie C1 (Y  1)
oder in die Kategorie C2 (Y  0) gehört. x  ( x1 , , xn ) seien Prädiktoren.
Dann gilt (Bayes)
P ( x | C1 ) P (C1 )
P (C1 | x) 

1
P ( x | C1 ) P (C1 )


P( x)
P ( x | C1 ) P (C1 )  P ( x | C2 ) P (C2 )
1
1

,
 logistische Funktion?
P ( x | C2 ) P (C2 ) 1  e a ( x )
P ( x | C1 ) P (C1 )
mit
 P( x | C2 ) P (C2 ) 
.
 P( x | C1 ) P(C1 ) 
(Hier wird von a  e
a ( x )  log 
log a
Gebrauch gemacht!)
x sei multivariatGauss-verteilt:
1
 1

1
f ( x | Ci ) 
exp   ( x  i ) '  ( x  i  , i  1, 2
n
1/ 2
(2 ) |  |
 2

Nach ein wenig Algebra ergibt sich dann
P(C1 | x) 
1
1  exp(b0  b1 x1 
 bn xn )
Gauss-Verteilungen mit identischen VarianzKovarianz-Matrizen führen auf die
logistische Funktion!
24
Logistische Regression
P (C1 | x ) 
1
1  exp(b0  b1 x1 
Wahrscheinlichkeit

 bn xn )
1  exp(b0  b1 x1 
exp(b0  b1 x1 
Wie multiple Regression –
Kein Fehlerterm!
 bn xn ) 
 bn xn ) 

Nichtlineare Beziehung zwischen den
unabhängigen Variablen und der
Wahrscheinlichkeit!
1
P (C1 | x )
1  P(C1 | x)
P (C1 | x)
1 p
p
( p  P(C1 x))
Wettchance
b0  b1 x1 
1 p 
 Logit

 p 
 bn xn  log 
Lineare Beziehung zwischen Prädiktoren und Logit!
25
Logistische Verteilung, Regression und Klassifikation
Wahrscheinlichkeit einer Koronarerkrankung in Abhängigkeit vom Blutdruck
26
Logistische Regression
• Wie werden die Koeffizienten geschätzt?
• Wie werden sie interpretiert?
Schätzung:
b
0
 b1 x1 
1 p 
 Logit

 p 
 bn xn  log 
Da kein Fehler e existiert, kann auch keine Summe
e
2
i
i
minimalisiert werden, d.h. die Methode der Kleinsten Quadrate
ist nicht anwendbar. Daher Schätzung nach der MaximimLikelihood-Methode.
27
Logistische Regression -- Interpretation
Wettchance (Odds) und Wahrscheinlichkeit
Wahrscheinlichkeit als Funktion der
Odds wird auf (0, 1) abgebildet
Odds als Funktion der Wahrscheinlichkeit
wird auf (0, unendlich) abgebildet.
28
Logistische Regression -- Interpretation
1 p
 exp(b0  b1 x1   bn xn )  eb0 eb1x1 ebn xn
p
- die Prädiktoren gehen multiplikativ in die Odds ein!
x1  x2 
 xn  0 
1  p0
e
b0
p0
- p0 definiert die Wahrscheinlichkeit des Ereignisses für "neutrale" Werte
der Prädiktoren.
x1  1 
p
1 p
e e e
b0
b1
b2 x2
e
bn xn
reflektiert das Gewicht b1 von x1 für gegebene Werte der übrigen Prädiktoren
29
Logistische Regression – Odds, relatives Risiko, etc
Einige grundlegende Begriffe lassen sich anhand eines dichotomen Merkmals
erläutern.
Die Quotienten
1 
P ( B1 | A1 )
P ( B2 | A1
und  2 
P ( B1 | A2 )
heißen Wettchancen (Odds)
P ( B2 | A2 )
Die Odds lassen sich aus den Häufigkeiten der Tabelle errechnen:
1 
n11 / n1
n12 / n1
und  2 
n21 / n2 
n22 / n2 
30
Logistische Regression – Odds, relatives Risiko, etc
Das Verhältnis
P( B1 | A1 ) P( B2 | A2 ) n11n22


P( B2 | A1 ) P( B1 | A2 ) n12 n21
heißt Kreuzproduktverhältnis
Das relative Risiko für einen Herzinfarkt ist
demnach
P( B1 | A1 ) 104 / 11037
RHI 

 .5501
P( B1 | A2 ) 189 / 11034
Der Quotient
P( B j | A1 )
R
, j  1, 2
P( B j | A2 )
heißt relatives Risiko.
Das relative "Risiko", keinen
Herzinfarkt zu bekommen ist dann
P ( B2 | A1 ) 10933 / 11027
RkeinHI 

 1.0078
P ( B2 | A2 ) 10875 / 11034
Die Risiken sind nicht komplementär!
31
Logistische Regression – Odds, relatives Risiko, etc
Die Chance (Odds), einen Herzinfarkt zu bekommen, wenn man Aspirin
nimmt, sind
1

P( B1 | A1 )
104 / 11037

 .00951,
P ( B2 | A1 ) 10875 / 11034
die Chance, einen Herzinfakrt zu bekommen, wenn man
kein Aspirin
nimmt, sind
2 
P( B1 | A2 )
189 / 11034

 .01743
P( B2 | A2 ) 10845 / 11034
und das Kreuzproduktverhältnis ist

1 n11n22 .00951


 .546
 2 n12 n21 .01743
32
Logistische Regression – Schätzung der Parameter
Es sei x  1, wenn Aspirin gegeben wird, x  0, wenn Placebo verabreicht wird.
HI = Herzinfarkt
P(HI ja| Aspirin) 
1 
exp(b0  b1 )
1
1
( x  1), P(HI nein|Aspirin)  1 

1  exp(b0  b1 )
1  exp(b0  b1 ) 1  exp(b0  b1 )
exp(b0  b1 ) / (1  exp(b0  b1 ))(1  exp(b0  b1 ))
P(HI ja| Aspirin)

 exp(b0  b1 )
P(HI nein|Aspirin)
1
Analog: dazu 2 
P(HI ja| Placebo)
 exp(b0 )
P(HI nein|Placebo)
1 eb0 b1
Kreuzprod'verhältnis:  
 b0  eb0 b1b0  eb1  b1  log   .606
2
e
b0  log 1  log
n11
 .017
n12
33
Logistische Regression – Zusammenfassung
Wettchancen (Odds)
1 p
:
p
Eine allgemeine Definition ist
1 
P ( B2 | A1 )
=
1  P ( B1 | A1 )
, 2 
P ( B2 | A2 )
=
1  P ( B1 | A2 )
P ( B1 | A1 )
P ( B1 | A1 )
P ( B1 | A2 )
P ( B1 | A2 )
B1 = das interessierende Ereignis, A1 und A2 verschiedene Bedingungen.
Relatives Risiko:
P( B1 | A1 )
P( B2 | A1 )
R1 
, R2 
P( B1 | A2 )
P( B2 | A2 )
Vergleich der Wirkung verschiedener Bedingungen in Bezug
auf jeweils ein (zufälliges) Ereignis.
Kreuzproduktverhältnis
 
!
2
liefert Parameterschätzung.
34
Logistische Regression – Infektionsrisiko
Infektionsrisiko bei Kaiserschnittgeburten
1, nicht geplant
1, RF
1, AB
x1  
, x2  
, x3  
, x  ( x1 , x2 , x3 )
0, geplant
0, kein RF
0, kein AB
Logit = log
P(Infektion|x)
 b0  b1 x1  b2 x2  b3 x3 (Haupteffektmodell)
P(keine Infektion|x)
35
Logistische Regression – Infektionsrisiko
P(Infektion|x)
 eb0 eb1x1 eb2 x2 eb3x3
P(keine Infektion|x)
P(Infektion|xi )
Für spezielle Vektoren x 
 i lassen sich Schätzungen der
i
P(keine Infektion|x )
Parameter gewinnen:
i
Ein nicht geplanter Kaiserschnitt erhöht die Chance einer Infektion um den
Faktor exp(1.07)  2.92,
Ein vorhandener Risikofaktor erhöht die Chance einer Infektion um den
Faktor exp(2.03)  7.6,
Ein Antibiotikum erniedrigt die Chance einer Infektion um den Faktor exp(3.25)  .039
36
Logistische Regression – Infektionsrisiko
kein Antibiotikum  Chance =
P(Infektion)
1
P(keine Infektion)
mit Antibiotikum  Chance =
P(Infektion)
 .0388
P(keine Infektion)
Modelle mit Wechselwirkungen:
log
P(Infektion|x)
 b0  b1 x1  b2 x2  b3 x3  b4 x1 x2
P(keine Infektion|x)
(Wechselwirkung 'Planung des Kaiserschnitts - Risikofaktor)
37
Logistische Regression – Infektionsrisiko
38
Poisson-Regression
Man hat eine Stichprobe von n Fällen, k davon haben das interessierende Merkmal,
n  k haben es nicht. Der Anteil der Fälle in der Population mit dem Merkmal sei p,
und die Fälle werden unabhängig voneinander erhoben.
n Bernoulli-Versuche mit "Erfolgs"wahrscheinlichkeit p :
n
P( K  k | n, p)    p k (1  p) nk , E ( K )  np, Var ( K )  np(1  p)
k 
Generell gilt k  x1  x2 
 xn , xi  {0,1}
Approximationen:
(1) Grenzwertsatz von deMoivre-Laplace :für großen Wert von n :
n  np
z
 N (0,1) (Standardnormalverteilung)
np (1  p )
(2) Grenzwertsatz von Poisson: n   und np   eine Konstante:
P( K  k |  )  e

k
, k  0,1, 2,3
k!
E ( K )   , Var(K )  
39
Poisson-Regression
Anmerkungen:
(1)  muß nicht klein sein,
(2) Man muß nicht von der Annahme ausgehen, dass n unendlich
groß ist. Man kann die Poisson-Verteilung einfach als eine
eigene Verteilung definieren, ohne auf die Herleitung als Approximation
der Binomialverteilung auffassen.
 heißt auch der "'Intensitätsparameter" der Verteilung.
Man kann zB die Häufigkeit bestimmter Ereignisse während eines Zeitintervalls
der Dauer t betrachten. Die Wahrscheinlichkeit von K  k ist dann
P( K  k |  , t )  e
 t
( t ) k
.
k!
Wird das Ereignis (Unfall, Aktionspotential ("Feuern" eines Neurons), etc) unter
identischen Bedingungen betrachtet, hängt die beobachtete Anzahl von derDauer
der Beobachtung bzw des Zählvorgangs ab!
40
Poisson-Verteilungen (lb = lambda)
lb = 5
lb = 3
lb = 10
41
Poisson-Verteilungen - Beispiele
Generell: „Kleine“ Anzahlen
Poisson-verteilte Häufigkeiten zeigen „Cluster“ – das sind Anhäufungen von Ereignissen.
Diese Anhäufungen resultieren aus der Zufälligkeit der Ereignisse und sind nicht notwendig
Ausdruck irgendwelcher systematischer Tendenzen.
Systematische Tendenzen kann es ebenfalls geben – aber man muß prüfen, ob die Clusterings
solche Tendenzen enthalten.
Beispiele:
• Verletzungen von Kindern in einem Distrikt (http://www.ij-healthgeographics.com/content/7/1/51 )
• Trauma-Forschung – domestic violence (Gagnon et al 2008)
• Häufung von Galaxien (Saslaw, W. C. "Some Properties of a Statistical Distribution Function for Galaxy Clustering." Astrophys.
J. 341, 588-598, 1989. )
• Häufigkeit epileptischer Anfälle in einer Gruppe von Patienten im Laufe eines Jahres
• Häufigkeit von Arrythmien in 24-Stunden EEGs
• Häufigkeiten von Infektionen in einer Stadt (existiert „infective agent“?)
42
Poisson-Regression
Der Wert von  reflektiert bestimmte Randbedingungen,  = Konstante
bedeutet, dass die Randbedingungen konstant sind.
Die Randbedingungen können durch bestimmte unabhängige Variablen
charakterisiert sein. Wie läßt sich der Einfluß der einzelnen Variablen abschätzen?
Ansatz 1:   b0  b1 x1 
 bn xn
Es muß notwendig   0 gelten (  np)  Verzerrung der bi
Ansatz 2: log-lineares Modell:
  exp(b0  b1 x1 
 bn xn )
Keine Einschränkung bezüglich der bi
43
Poisson-Regression
Log-lineares Modell mit Wechselwirkungen_
  exp(b0  b1 x1 
 bn xn  bn1 x1 x2 
)
Beispiel: (nach Frome 1983, Analysis of rates using Poisson Regression Models,
 Reanalyse der Daten von Doll Hill (1966): Lungenkrebs und Rauchen)
 jk  exp(    j   k )  exp(    j )exp( k ) geschätzte Anzahl Lungenkrebstoter per
100 000 Mann-Jahre,  j Effekt der j -ten Altersgruppe,  k Effekt k -ter Effekt des Rauchens
Age Fit: exp(    j ), Smoking Effekt: exp( k )
44
Poisson-Regression
Alternatives Modell (Whittemore & Keller 1978):
 (t , d )  (  ad  )t 
d Betrag des Karzinogens per Zeiteinheit (konstante Rate)
t Zeitpunkt, von dem an dem Karzinogen ausgesetzt (time from first exposure)
 Hintergrund (= Nichtraucher) Inzidenzrate. ad  (  1) Todesrate für
Lungenkrebs.  (t , d ) liefert Hazard-Rate, wie sie in der (noch zu behandelnden)
Ereignisanalyse verwendet wird.
Das Modell ist an molekularbiologischen Prozessen bei der
Krebsentstehung orientiert. Der Ansatz der Modellbildung ist
auch für psychologische Prozesse interessant.
Inferenzstatistische Fragen werden in einer separaten Präsentation
vorgestellt.
45

Multivariate Statistische Verfahren

Transcript Multivariate Statistische Verfahren

Directory