2010Unterlagen

Transcript 2010Unterlagen

Emmerich Kneringer
Angewandte Statistik
und Datenanalyse
WS 2010 – 704.025
Brauchbar fürs
F-Praktikum 1
home page:
physik.uibk.ac.at/fp1
Vortrag:
Mo 4. Okt. 2010
1430-1700 RR 15
Übersicht

Einführendes Beispiel


Evaluation
Vorbereitung auf das F-Praktikum


Datenanalyse-Software (Origin)
"curve fitting made easy"
a.
b.
c.

2
Def. einer Fitfunktion
Gauss oder Lorentz
Myonlebensdauer
Interpretation der Fehlerangabe
Beispiel
Evaluation von Lehrveranstaltungen


Eine kritische Betrachtung
Ausgangsfrage


Daten


3
Gibt es einen Zusammenhang zwischen der
Anzahl der evaluierenden StudentInnen und
der Benotung?
Evaluationen der 4 Semester
WS 00/01 - SS 02
2128 Benotungen
Evaluation - Fragebogen
4
5
Auswertung mit Excel
1. Methode: Punktewolke
6
Verbesserung:

Auch das Dekanat kam schon auf die Idee,
dass man Intervalle (=Klassen) bilden könnte

Anstatt für eine bestimmte Anzahl von abgegebenen
Fragebögen (z.B. 4-6) die Noten als Punkte
einzuzeichenen, kann man die Noten
histogrammieren


7
Klassenbildung
falls man sich die Verteilung ansehen will
oder man berechnet gleich den Mittelwert und die
Standardabweichung (=Streuung) der Verteilung
Ein Beispiel für Daten, bei denen
der Fehler überschätzt wurde!
Versuche:
Anpassung von zwei Geraden
Die Fehlerbalken sind nicht korrekt!
Anstatt des Fehlers der Datenpunkte wurde die Streuung der Daten eingezeichnet!
8
Auswertung mit Origin
2. Methode: Mittelwert mit Fehler
Das beste,
das man
machen kann!
9
Interpretation
10

Mit Methode 2 kann man deutlich erkennen, dass
Lehrveranstaltungen, bei denen wenige StudentInnen das
Evaluationsformular ausfüllten, besser benotet wurden.
Mit der Punktewolkemethode ist dies kaum erkennbar.

Die Ausgangsfrage wäre also so zu beantworten:
Es gibt einen statistisch signifikanten Zusammenhang
zwischen der Anzahl der evaluierenden StudentInnen und
der Benotung bis zu einer Anzahl von 20 evaluierenden
StudentInnen. Darüber sind die Daten mit der Hypothese
konistent, dass es keinen Zusammenhang gibt.
Erklärung
11

Die hier gewählte Methode 2 funktioniert so, dass die
Information der 3. Dimension auf einen Mittelwert mit Fehler
reduziert wird.
Dies kann dann 2-dimensional dargestellt werden (siehe oben).

Die Punktewolkemethode verwendet in diesem konkreten Fall
der 'rationalen Datenpunkte' die Information der 3. Dimension
nicht und ist daher ungeeignet.
Emmerich Kneringer
Crash-Kurs Origin
Benutzerdefinierte Fit-Funktion
und Multipeak Fits
2. Teil
A. Benutzerdefinierte Fit-Funktion
1> Wählen Sie die Spalten Ampl(Y) und Err(yEr±)
und wählen Sie Zeichnen: Punktdiagramm.
2> Wählen Sie 'Analyse  Nichtlinearer Kurven Fit
 Fortgeschrittenes Fit-Hilfsmittel'.
Klicken Sie auf die Schaltfläche ´Weitere...´ um in den erweiterten Modus zu gelangen.
Wenn diese Schaltfläche nicht vorhanden ist, sind Sie schon in diesem Modus.
13
Benutzerdefinierte Fit-Funktion (2)
3> Wählen Sie Funktion: Neu.
4> Geben Sie folgende Daten in die Felder ein:
Name: Beliebig ...
Type: User-Defined
Eigene Parameternamen: Aktiv
(Anzahl der Parameter wird ausgeblendet)
Parameter Namen: A1,t1,A2,x0,w
Unabhängige Var.: x
Abhängige Var.: y
Definition: A1*exp(-x/t1)+A2*exp(-((x-x0)^2)/w)
Von: Ausdruck
5> Aktivieren Sie "Vor Gebrauch kompilieren".
6> Klicken Sie auf Speichern.
14
nicht die übliche Notation
Benutzerdef.
Fit-Funktion (3)
7> Klicken Sie auf "Prüfen" um die Funktionsdefinition zu kompilieren/prüfen.
8> Wählen Sie 'Aktion  Datensatz.'
9> Setzen Sie Peak_Ampl als Abhängige Variable (Y)
und Peak_Pos als unabhängige Variable (X).
10> Wählen Sie 'Optionen  Kontrolle' und dann 'mit Instrument' als Gewichtungsmethode.
11> Wählen Sie 'Funktion  Speichern'.
12> Wählen Sie 'Aktion  Fit'. Initialisieren Sie Ihre Parameter folgendermaßen:
15
Benutzerdef.
Fit-Funktion (4)
... Initialisieren Sie Ihre Parameter folgendermaßen:
A1 = 50
t1 = 24
A2 = 19
x0 = 30
w1 = 10
16
Nachher
17
Weiteres Beispiel einer benutzerdef.
Fit-Funktion: Daten (.OPJ)

FP1-Versuche "Glasfaseroptik" (108) und
"Gauss-Strahlen und optische Resonatoren" (118)
FORMULA: W0*sqrt(1+(x-f)^2/z0^2)
ein Student:
18
Beispiel
Daten
B. Welche Funktion passt hier?
Gauß?
 ( x  xc ) 2 
A

y
exp 
2
2
2 


Lorentz?
19
A
w/ 2
 ( x  xc ) 2  ( w / 2) 2

y
w
Die Funktionen
unterscheiden sich
in den Ausläufern!
Probiere Gauß und Lorentz
Gauß
Lorentz
20
Beide Modelle haben Probleme
mit den Ausläufern!
Die Ausläufer kann man hier am besten
mit einer 2. Gaußverteilung mit grösserer
Breite beschreiben  muli-peak Fit.
2-mal Gauß: keine Gewichtung
w = 2
21
Was wurde hineingesteckt?
“Wahrheit:”
w1 = 4.4, w2 = 2.2
A1 = 1000, A2 = 2000
2-mal Gauß: statistische Gewichtung
Mittelwerte und Breiten hängen nicht
sehr von der Art der Gewichtung ab,
die Amplituden jedoch schon!
22
Richtig ist:
statistische Gewichtung!
MultiPeak Fit
1> Wählen Sie Spalte Ampl(Y) und dann Diagramm: Punktdiagramm.
2> Wählen Sie Analyse: Fit Überlagerte Impulse  Lorentz ...
3> Wählen Sie drei Impulse in der folgenden Dialogbox aus.
4> Akzeptieren Sie den Wert in der Dialogbox ´Schätzung der halben Breite´.
5> Wählen Sie den ersten Impuls aus, indem Sie die Bildschirmleser durch
Doppelklick auf die Impulsmitte und den Minimalwert setzen.
6> Tun Sie das selbe für die anderen beiden Impulse.
Der Fit wird automatisch ausgeführt. Es werden vier Fitkurven dem Diagramm
hinzugefügt. Drei dieser Kurven sind Fitlinien für jeden einzelnen Impuls und
erscheinen in grün. Die vierte Kurve ist die Gesamtfitlinie. Sie erscheint in
rot hinter den anderen Linien. Wenn Sie vor den Linien erscheinen soll,
doppelklicken Sie auf das graue Symbol für Layer 1 links oben im Fenster.
In der Spalte ´Inhalt des Layers´ können Sie die Reihenfolge ändern
(der Datensatz ganz unten in der Spalte erscheint im Layer ganz vorne!).
23
MultiPeak Fit: Resultat
24
3 Überlagerte Gauß-Funktionen
Rohdaten
25
Daten: gauss3peaks_B
Modell: Gauss
Gleichung:
y=A/(w*sqrt(PI/2)))*exp(-2*((x-xc)/w)^2
Gewicht: Statistisch
Chi^2/DoF
R^2
= 0.79953
= 0.99717
xc1
w1
A1
0.0037  0.0152
1.5373  0.0295
2003.4  69.363
xc2
w2
A2
2.0176  0.0615
3.0501  0.0804
2081.7  98.812
xc3
w3
A3
6.3972  0.2452
5.4826  0.2303
898.83  64.879
Daten: gauss_1peak_inte_1k_cut.dat
Versuch 118: Gauss-Strahlen
Gauss
fitten
Differenzieren
26
Demo zum Ausprobieren (30 Tage):
Origin




am ZID ist Origin 7 (deutsch, SR4) installiert
Vorteile …einfach, man bekommt schnell Ergebnisse
Nachteile …zu einfach, man bekommt leicht falsche Ergebnisse
Alternativen:

http://root.cern.ch




27
http://physik.uibk.ac.at/fp1/statistik+datenanalyse/origin/demos
Freie software (GPL)
Speziell geeignet für Linux
gnuplot
qtiplot
Statistische Methoden der Datenanalyse
Von der Messreihe zur
Verteilungsfunktion

28
1. Messreihe

29
2. Histogramm dazu
3. Normierung
Die Interpretation von  im Sinne der unten angegebenen
Wahrscheinlichkeiten setzt eine Gauss-Verteilung voraus.
Interpretation von 1 , 2 , 3 
=1
68%
m
Zum Vergleich:
Die Standardabweichung  einer Gleichverteilung in [–½, ½] ist 1/12  0.289.
Daher ist die Wahrscheinlichkeit P[–,  ] = 0.577, und P[–2, 2 ] = 1.
30
Beachte: bei komplizierteren Grenzen
muss man folgendermassen vorgehen:
Praxis

zur Auflockerung und zum Abschluss:
Beispiele aus der Praxis

N Datenpunkte, DoF = ? für



linearen Fit
Gauss-Verteilung
Polynom k-ter Ordnung
k = N–1 ?
 2/DoF = 0/0
31
Welches Modell
scheint für diese
Daten geeignet?
Polynomfit
32
2-Verteilung
3 Freiheitsgrade (linearer Fit)
Integrate[PDF[ChiSquareDistribution[3],x],{x,3.99,}]
Out[1] = 0.262546
26%
Polynomfit
y
2/DoF=?
Prob=?
11.4
1.33
n.def
3·10–9
26%
—
Was, wenn Prob = 99%?
Modell falsch,
zuwenig Daten oder
Fehler überschätzt!
33
x
Beim Polynomfit hängt der Parameterfehler nur
vom Fehler der Daten (und den x-Koordinaten!),
nicht jedoch von den y-Werten der Daten ab!
Polynom-Fit:
Animation:
moving-data
34
y = A0 + A1 x + A2 x2 + A3 x3
Beim Polynomfit hängt der Parameterfehler nur
vom Fehler der Daten (und den x-Koordinaten!),
nicht jedoch von den y-Werten der Daten ab!
Polynom-Fit:
Animation: moving-data
y = A0 + A1 x + A2 x2 + A3 x3
35
k
N
( yi   p j xij ) 2
i 1
i2
 ( p1 ,, pk )  
j 0
2
Beweis:



36
Der Fehler beim Least-Squares Parameterfit ist
definiert durch die Variation der Parameter,
wenn man von 2min zu 2min +1 geht.
Daraus folgt, dass die Fehler gleich bleiben, falls die
Funktion 2(p1,…,pk) nur im Parameterraum
verschoben wird.
Da beim Polynomfit 2(p1,…,pk) eine quadratische
Form ist, müssen wir nur zeigen,
dass die Matrix der 2.Ableitungen nicht von yi abhängt.

 2 ( p1 ,, pk ) 
pmpn
k
 2 xin 
( yi   p j xij ) 

2
pm
i 1  i
j 0
N
N
2 xin xim
i 1
i2

Gauss-Fit:
Animation:
moving-data
37
y = Constant*exp(–(x–Mean)2/Sigma2)
Fehler der Fit-Parameter

Man merke sich:


Der Fit-Fehler hängt hauptsächlich von den Daten-Fehlern ab.
Ob ein Fit gut ist oder nicht wird durch den Wert von 2 bestimmt.



Zusätzliche Datenpunkte verkleinern in der Regel die Fehler.
Origin:

38
Dies macht nur wirklich Sinn, wenn die Daten einen Fehler haben.
Was ist, wenn die Daten keinen Fehler haben?
ENDE
39

bis hierher geht das Standardprogramm

falls Zeit ist, oder bei speziellen Fragen,
geht‘s hier weiter
FP1-Versuch
C. Myonlebensdauer theo= 2.2 s
keine Gewichtung

Exponentieller Abfall
1.
2.
3.
4.
ab 0.8 = 1.97 ± 0.025
ab 1.0 = 2.05 ± 0.027
ab 1.2 = 2.07 ± 0.030
ab 1.2 = 2.13 ± 0.050
stat. Gewichtung
Genauigkeit: ~ 1-2 %
bei 10% Abweichung
40
Zeichenbereich der Fit-Funktion erweitern

41
Beispiel Myonlebensdauer
Wahrscheinlichkeitsverteilungen





Gleich-Verteilung
Gauß-Verteilung
Poisson-Verteilung [diskret]
Exponential-Verteilung
Chi2-Verteilung


42

Parameter
Applets (im Internet)
p.d.f. Vergleich
Die Momente der Funktionen
können nur von den
Parametern abhängen!
Tabelle von wichtigen stat. Funktionen
Verteilung
43
p.d.f.
Mittelwert
Varianz 2


(+)/2
()2/12

2

2
n
2n
Der bei einer einzigen Messung erhaltene Fehler
eines Fit-Parameters kann im Prinzip auch aus
der Streuung der Fit-Parameter bei vielen
unabhängigen Experimenten erhalten werden.
Interpretation des (Fit-)Fehlers 2+1
2/ndf
P1
P2
10.45 / 21
50.07  7.076
1.046  0.1477
Konsistenz!
Entries
Mean
RMS
1 Experiment: Bestimmung der
mittleren Lebensdauer aus 50
Messungen (Wahrheit:  = 1).
2500 Experimente
(Statistik der Fit-Parameter)
45
P2 =
2500
0.9989
0.1392
Emmerich Kneringer
Wie soll man den Fehler der Fitparameter angeben können, wenn
keine Einzelfehler gegeben sind?
Anwendung von:
2/DoF ~ 1
SS 2006 - 704037
home page:
physik.uibk.ac.at/statistik
11. Vorlesung
30. Mai 2006
Erinnerung

Fehler bei Mittelwertbildung (Fit einer Konstanten)
1
2
 Fit
47

1
 12

1
 22

1
 N2
Gesamtfehler ist nur eine
Funktion der Einzelfehler!
N
 ( pk )  
2
i 1
 yi  f ( xi , pk )
2
 i2
Definition des Fehlers 'ohne Fehler'?

Datenpunkte ohne Fehler


Gleiches Gewicht gi = g = 1/2 für alle N Datenpunkte
2 best-fit Parameter sind unabhängig von g



Origin macht den Fit für g = 1
dies ergibt einen Wert für das reduzierte Chi-quadrat: 2/DoF
und eine Kovarianzmatrix covij
nun kann man sich nachträglich die 2-Funktion mit diesem Faktor
N
normiert denken:
2
1
 neu ( pk )   / DoF   yi  f ( xi , pk )2
2
i 1
var(X )  cov(X , X ) 
 X   X   X   X  
48
 beste Schätzung für den Datenfehler i = (2/DoF)
 Fehler aus der Kovarianzmatrix muss ebenfalls mit diesem Faktor
skaliert werden – was in Origin automatisch geschieht!
[bezieht sich auf Origin]
Fit mit Datenfehler u. reduziertes 2
49

Wenn der Verdacht besteht, dass die Datenfehler unteroder überschätzt wurden, dann kann man beim Fit mit
Datenfehler das Kästchen
'Sqrt(reduziertes chi^2)
Formel für Fehler' auswählen
(ist per default nicht aktviert).

Ist äquivalent mit einer Umskalierung
der Datenfehler derart,
dass man 2/DoF = 1 erhalten würde.
Beispiel
mit überschätztem Datenfehler

2.78 0.21  1.28

50
Umskalierung der Datenfehler
kann man sich sparen, mit
(siehe auch nächste Seite)
Umskalierung
der Datenfehler:
* 0.21

Auch bei den normalen Hilfsmitteln 'Fit Linear', 'Fit Sigmoide'
steht diese Auswahlkästchen zur Verfügung.
Beachte: selber Fehler
wie in der rechten Grafik
auf der Seite vorher!
51
http://physik.uibk.ac.at/statistik/origin/chi2_fit_m_3Gausszahlen.OPJ
2 -Verteilung und Freiheitsgrade

gegeben N Datenpunkte (mit Gauss-Fehler):
dann ist das minimale 2 eines Fits einer Funktion
mit k Parametern 2 -verteilt mit N-k Freiheitsgraden!



beachte: die einzelnen (der N) Summanden von
2 am Minimum sind nicht mehr unabhängig!
2min pro Freiheitsgrad hat den Erwartungswert 1
zur Illustration

explizite Rechnung für das einfachste Beispiel …nächste Folie
–
(siehe link oben)
52
probiere numerische Simulation mit Origin (z.B. für N=3)
beachte: 2Fit < 2
2 = G12 + G22 +G32
systematisch
kleiner
Definition der Abhängigkeit
eines Parameters von allen
anderen (in Origin):
1
1
Cii (C 1 )ii
Abhängigkeit der Fit-Parameter

Für Fits mit 2 Parametern gilt:

Abhängigkeit = (Korrelationskoeffizient)2
 cov(x, y) 
1
2

 1
r 
1
  
Cii (C )ii
x y


2
r ... Korrelationskoeffizient (der Parameter, nicht der Daten)
C ... Kovarianzmatrix

Es gilt: (X,Y) unabhängig  cov(X,Y) = 0

aber nicht umgekehrt!

53
Bsp.: Daten symmetrisch um y-Achse
cov(X , Y )   X   X  Y  Y  
cov(x,y) = 0 
/ x,y unabhängig
2-d plot der beiden
Zufallsvariablen x und y:
Die Kovarianz cov(x,y)
ist aufgrund der
speziellen Symmetrie
der Punkte gleich 0,
trotzdem kann man
leicht eine Abhängigkeit
erkennen (Parabel).
Beachte: die Beiträge der jeweils zwei
gleichfarbigen Punkte heben sich auf!
54
1
0  Abhängigkeit  1 
1
Cii (C )ii
Speziell für eine Fit mit 2 Parametern:
55
1
Beispiel Myonlebensdauer
Überparametrisierung

Als Modellfunktion (wieviele freie Parameter?)
eignet sich bei der Lebensdauermessung:
( x x0 ) /
f ( x)  y0  Ae


Der konstante Untergrund y0 berücksichtigt die
Myonen, die im Detektor nicht zerfallen. Durch die
Totzeit der Detektorelektronik wird das Histogramm
bei kleinen Zeiten verfälscht und für die Auswertung
muß dieser Teil (bis x0) weggelassen werden.
Abhängigkeit eines Parameters:

56
, x  x0
Ein Wert nahe an 1 bedeutet eine starke Abhängigkeit und
deswegen eine Überparametrisierung.
Origin
57
Weitere Beispiele


Quanten-Zufallszahlengenerator
Wie aussagekräftig ist eine Umfrage?


Gehen Sie auf Nummer sicher?

59
Wie gross ist die Unsicherheit?
Online Test
Animation eines Histograms;
Funktion als Grenzwert eines Hist.

http://physik.uibk.ac.at/hephy/praktikum/paw_animation/paw_animation.html
(erst nach einer grossen Zahl von Messungen bildet sich eine Struktur heraus)

100 mal würfeln

Im Idealfall (mit beliebig vielen Messungen) konvergiert das Histogramm gehen
eine glatte, kontinuierliche Funktion.


61
Ziel der Datenanalyse ist es, mit endlich vielen Messdaten diese Funktion möglichst gut
vorherzusagen. Dies ist die Kunst.
Dazu ein Beispiel:
auf den folgenden 3 Seiten wird an dieselben Daten eine Exponentialfunktion
angepasst, aber auf 3 verschiedene Arten.
Was ist nun richtig?
Die Myonen, die die Pulse auslösen,
kommen zufällig daher.
t
Zeitabstand zwischen 2 Pulsen
62
Zeitabstand: offset y0 = 0!
Der Fehler
ist kleiner!
63
Zeitabstand: statistische Gewichtung
Reduzierter
Fit-Bereich
64
(wegen stat.
Gewichtung)

2010Unterlagen

Transcript 2010Unterlagen

Directory