einführung in die wissenschaftliche datenanalyse · wahrscheinlichkeitstheorie mathematische...
TRANSCRIPT
Einführung in die wissenschaftlicheDatenanalyse
Dr. Michael O. [email protected]
http://www-fp.physik.uni-mainz.de/FPkurs/
Mainz, 22. October 2010
LiteraturGrundbegriffeWahrscheinlichkeitsverteilungenParameterschätzung (Fit)
Einführung in die wissenschaftliche Datenanalyse
Literatur
Volker Blobel und Erich Lohrmann: Statistische und numerischeMethoden der Datenanalyse, Teubner Verlag (1998)Siegmund Brandt: Datenanalyse, BI Wissenschaftsverlag (1999)Philip R. Bevington: Data Reduction and Error Analysis for thePhysical Sciences, McGraw-Hill (1969)Roger J. Barlow: Statistics, John Wiley & Sons (1993)Glen Cowan: Statistical Data Analysis, Oxford University Press(1998)Frederick James: Statistical Methods in Experimental Physics,2nd Edition, World Scientific, 2006
Wes Metzger’s lecture notes:www.hef.kun.nl/~wes/stat_course/statist.pdf
Glen Cowan’s lecture notes:www.pp.rhul.ac.uk/~cowan/stat_course.html
Particle Physics Booklet: http://pdg.lbl.gov/
Einführung in die wissenschaftliche Datenanalyse
Vorbemerkungen
WissenschaftstheorieDer Kritische Rationalismus ist eine von Karl R. Popper (* 28.Juli 1902 in Wien; † 17. September 1994 in London) begründetephilosophische Denkrichtung, die in enger Verbindung mitseinem Modell für den wissenschaftliche Erkenntnisgewinn,dem sog. Falsifikationismus, steht. Logik der Forschung, 1934.
−→Existenz eines wahren Wertesvon Messgrößen und abgeleiteten Größen
Einführung in die wissenschaftliche Datenanalyse
Wahrscheinlichkeitstheorie
Mathematische Statistik, Stochastik:
−→ Axiome von KolmogorowKlassische Statistik, frequentist probability:Pragmatische Wahrscheinlichkeitsdefinition:
p(E) = limN→∞
nN
p steht für probabilityn(E) = Zahl des Eintretens des Ereignisses EN = Zahl der Herbeiführung der gegebenen Bedingungen(Durchführung des Experiments)Experimente müssen (prinzipiell) wiederholbar sein.Nachteil: Strenggenommen sind keineWahrscheinlichkeitsaussagen über die wahren Wertemöglich, lediglich die Angabe von oberen und unterenGrenzen mit einer gewissen Irrtumswahrscheinlichkeit.
Einführung in die wissenschaftliche Datenanalyse
Wahrscheinlichkeitstheorie
Mathematische Statistik, StochastikKlassische Statistik, frequentist probabilityBayes’sche Statistik, subjective probability:Subjektive Annahmen über die Grundgesamtheit gehen indie Wahrscheinlichkeitsberechnung ein.Bildhafte Definition: Wahrscheinlichkeiten werden aus demVerhältnis von (maximalen) “Wetteinsatz” und zuerwartendem Gewinn gebildet.
Wenn es 20 mal mehrgelbe als grüne Taxis gäbe: Würden Sie dem Zeugenimmer noch glauben?
Einführung in die wissenschaftliche Datenanalyse
Wahrscheinlichkeitstheorie
Mathematische Statistik, StochastikKlassische Statistik, frequentist probabilityBayes’sche Statistik, subjective probability:
Subjektive Annahmen über die Grundgesamtheit gehen indie Wahrscheinlichkeitsberechnung ein.
In einer Stadt gibt es zwei Taxiunternehmen, das eine hatgrüne, das andere gelbe Taxis. Bei einem Autounfallkommt ein Mensch zu Schaden. Ein Zeuge hat ein grünesTaxi gesehen. Es kommt zur Gerichtsverhandlung.Der Anwalt des Unternehmens zweifelt die Aussage desZeugen an, da die Lichtverhältnisse schlecht waren. EinTest ergibt, dass in etwa 10% der Fälle bei gleichenBedingungen die Farbe des Taxis verwechselt wird.Würden Sie dem Zeugen glauben?
Wenn es 20 mal mehr gelbe als grüne Taxis gäbe: WürdenSie dem Zeugen immer noch glauben?
Einführung in die wissenschaftliche Datenanalyse
Wahrscheinlichkeitstheorie
Mathematische Statistik, StochastikKlassische Statistik, frequentist probabilityBayes’sche Statistik, subjective probability:
Subjektive Annahmen über die Grundgesamtheit gehen indie Wahrscheinlichkeitsberechnung ein.
In einer Stadt gibt es zwei Taxiunternehmen, das eine hatgrüne, das andere gelbe Taxis. Bei einem Autounfallkommt ein Mensch zu Schaden. Ein Zeuge hat ein grünesTaxi gesehen. Es kommt zur Gerichtsverhandlung.Der Anwalt des Unternehmens zweifelt die Aussage desZeugen an, da die Lichtverhältnisse schlecht waren. EinTest ergibt, dass in etwa 10% der Fälle bei gleichenBedingungen die Farbe des Taxis verwechselt wird.Würden Sie dem Zeugen glauben?Wenn es 20 mal mehr gelbe als grüne Taxis gäbe: WürdenSie dem Zeugen immer noch glauben?
Einführung in die wissenschaftliche Datenanalyse
Wahrscheinlichkeitstheorie
Mathematische Statistik, StochastikKlassische Statistik, frequentist probabilityBayes’sche Statistik, subjective probability:
Subjektive Annahmen über die Grundgesamtheit gehen indie Wahrscheinlichkeitsberechnung ein.
Taxis Zeuge sieht . . . Aussage ist . . .200 gelbe 180 mal “gelb”
20 mal “grün” 20/29 = 69% falsch10 grüne 9 mal “grün” 9/29 = 31% richtig
1 mal “gelb”
Nachteil: Hypothesen beeinflussen die Wahrscheinlichkeit.Vorteile bei seltenen und einmaligen Ereignissen, wieverrauschten Signalen oderKatastrophenwahrscheinlichkeiten.
Im F-Praktikum kommt die klassische Statistik zurAnwendung. Deshalb sollten alle Fehlerangabenals Konfidenzbereiche verstanden werden.
Einführung in die wissenschaftliche Datenanalyse
Wahrscheinlichkeitstheorie
Mathematische Statistik, StochastikKlassische Statistik, frequentist probabilityBayes’sche Statistik, subjective probability:Subjektive Annahmen über die Grundgesamtheit gehen indie Wahrscheinlichkeitsberechnung ein.Nachteil: Hypothesen beeinflussen die Wahrscheinlichkeit.Vorteile bei seltenen und einmaligen Ereignissen, wieverrauschten Signalen oderKatastrophenwahrscheinlichkeiten.
Im F-Praktikum kommt die klassische Statistik zurAnwendung. Deshalb sollten alle Fehlerangabenals Konfidenzbereiche verstanden werden.
Einführung in die wissenschaftliche Datenanalyse
Wahrscheinlichkeitstheorie
Mathematische Statistik, StochastikKlassische Statistik, frequentist probabilityBayes’sche Statistik, subjective probability:Subjektive Annahmen über die Grundgesamtheit gehen indie Wahrscheinlichkeitsberechnung ein.Nachteil: Hypothesen beeinflussen die Wahrscheinlichkeit.Vorteile bei seltenen und einmaligen Ereignissen, wieverrauschten Signalen oderKatastrophenwahrscheinlichkeiten.
Im F-Praktikum kommt die klassische Statistik zurAnwendung. Deshalb sollten alle Fehlerangabenals Konfidenzbereiche verstanden werden.
Einführung in die wissenschaftliche Datenanalyse
Kombination von Wahrscheinlichkeiten
Gegeben sind zwei Arten von Ereignissen, A und B. DieWahrscheinlichkeit für das Autreten von A ist p(A) (B: p(B)).Dann ist die Wahrscheinlichkeit, dass A oder B eintritt:
p(AoderB) = p(A) + p(B)− p(AundB)
Falls sich die Ereignisse A und B gegenseitig ausschließen, giltp(AundB) = 0Beispiel: Zufälliges Ziehen aus einem Deck von Skatkarten.
p(As oder Pik) =432
+832− 1
32=
1132
Spezialfall: B = A (Nicht-Eintreten von A).
p(Aund A) = p(A) + p(A) = 1
Einführung in die wissenschaftliche Datenanalyse
Kombination von Wahrscheinlichkeiten
Die Wahrscheinlichkeit, dass A und B zusammen eintreten, ist:
p(AundB) = p(A) · p(B|A),
p(B|A) ist die bedingte Wahrscheinlichkeit, dass das Ereignis Beintritt, vorausgesetzt, das Ereignis A ist eingetreten.Falls die Ereignisse A und B unabhängig sind - aber auch nurdann - gilt p(B|A) = p(B), bzw.
p(AundB) = p(A) · p(B)
Einführung in die wissenschaftliche Datenanalyse
Tod in den Bergen
In einem Buch über die bergsteigerischen Leistungen vonReinhold Messner ist folgendes zu lesen: “Wenn man bedenkt,dass die Wahrscheinlichkeit, bei einer Expedition auf einenAchttausender umzukommen, 3,4% beträgt, dann hatteMessner eine Wahrscheinlichkeit von 3,4% · 29 = 99%, beiseinen 29 Expeditionen getötet zu werden.”
Das kann doch nicht wahr sein, was ist, wenn Messner zu einer30. Expedition aufbricht?Die Wahrscheinlichkeit, eine Expedition zu überleben istoffensichtlich 1− 0,034 = 0,966. Wenn man annimmt, dass dieeinzelnen Expeditionen unabhängige Ereignisse darstellen, istdie Wahrscheinlichkeit, alle 29 Expeditionen zu überleben:P = 0,96629 = 0,367.
Einführung in die wissenschaftliche Datenanalyse
Tod in den Bergen
In einem Buch über die bergsteigerischen Leistungen vonReinhold Messner ist folgendes zu lesen: “Wenn man bedenkt,dass die Wahrscheinlichkeit, bei einer Expedition auf einenAchttausender umzukommen, 3,4% beträgt, dann hatteMessner eine Wahrscheinlichkeit von 3,4% · 29 = 99%, beiseinen 29 Expeditionen getötet zu werden.”Das kann doch nicht wahr sein, was ist, wenn Messner zu einer30. Expedition aufbricht?
Die Wahrscheinlichkeit, eine Expedition zu überleben istoffensichtlich 1− 0,034 = 0,966. Wenn man annimmt, dass dieeinzelnen Expeditionen unabhängige Ereignisse darstellen, istdie Wahrscheinlichkeit, alle 29 Expeditionen zu überleben:P = 0,96629 = 0,367.
Einführung in die wissenschaftliche Datenanalyse
Tod in den Bergen
In einem Buch über die bergsteigerischen Leistungen vonReinhold Messner ist folgendes zu lesen: “Wenn man bedenkt,dass die Wahrscheinlichkeit, bei einer Expedition auf einenAchttausender umzukommen, 3,4% beträgt, dann hatteMessner eine Wahrscheinlichkeit von 3,4% · 29 = 99%, beiseinen 29 Expeditionen getötet zu werden.”Das kann doch nicht wahr sein, was ist, wenn Messner zu einer30. Expedition aufbricht?Die Wahrscheinlichkeit, eine Expedition zu überleben istoffensichtlich 1− 0,034 = 0,966. Wenn man annimmt, dass dieeinzelnen Expeditionen unabhängige Ereignisse darstellen, istdie Wahrscheinlichkeit, alle 29 Expeditionen zu überleben:P = 0,96629 = 0,367.
Einführung in die wissenschaftliche Datenanalyse
Definitionen
Wahrscheinlichkeitsverteilung Wahrscheinlichkeitsdichteeines Messwertes (=Zufallsvariable)
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.1
0 5 10 15 20 25 30
f(n)
n
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.1
0 5 10 15 20 25 30
f(x)
x
f (n) diskret f (x) kontinuierlichNormierung:
f (n) ≥ 0∑
n
f (n) = 1 f (x) ≥ 0∫ ∞−∞
f (x) dx = 1
Wahrscheinlichkeit:
p(n1 ≤ n ≤ n2) =
n2∑n1
f (n) p(x1 ≤ x ≤ x2) =
∫ x2
x1
f (x) dx
Einführung in die wissenschaftliche Datenanalyse
Definitionen
Integrierte Verteilungsfunktion oder kumulativeWahrscheinlichkeitsverteilung:
F (x) =
∫ x
−∞f (x ′)dx ′, F (−∞) = 0, F (∞) = 1
Beispiel:Zerfallszeit t eines radioaktiven Kerns der mittleren Lebensdauer τ :
f (t) =1τ
e−t/τ F (t) = 1− e−t/τ
0
0.2
0.4
0.6
0.8
1
0 10 20 30 40 50
t/s
f(t)*12s F(t)
Einführung in die wissenschaftliche Datenanalyse
Erwartungswerte und Momente
Mittelwert: Kann eine Zufallsgröße E die Werte E1, E2, . . . , Enannehmen und geschieht dies mit der Wahrscheinlichkeit p(Ei),dann bezeichnet man als Mittelwert der Größe E(“Erwartungswert”)
E = 〈E〉 =n∑
i=1
Ei · p(Ei)
Der Erwartungswert der Funktion h(x) für kontinuierlicheZufallsgrößen:
E [h(x)] =
∫ ∞−∞
h(x) · f (x)dx
Mittelwert: ist der Erwartungswert von x (wichtiger Spezialfall):
E [x ] = x =
∫ ∞−∞
x · f (x)dx
Einführung in die wissenschaftliche Datenanalyse
Erwartungswerte und Momente
Streuung = {Mittelwert der (Abweichung von x)2}1/2
σ2 = (x − x)2 =
∫ ∞−∞
(x − x)2 · f (x)dx
=
∫ ∞−∞
(x2 − 2xx + x2) · f (x)dx = x2 − 2x x + x2 = x2 − x2
σ2 = Varianz, σ = StandardabweichungFür diskrete Verteilungen:
σ2 =1N
(∑x2 − (
∑x)2
N
)Vorsicht: Hier wird die Varianz definiert! Für eineerwartungstreue Schätzung der Varianz wird 1
N durch 1N−1
ersetzt. Siehe: Schätzverfahren
Einführung in die wissenschaftliche Datenanalyse
Erwartungswerte und Momente
Momente: Die Erwartungswerte von xn und von (x − 〈x〉)n
werden n-te algebraische Momente µn und n-te zentraleMomente µ′n genannt.Die Schiefe v(x) einer Zufallsvariablen x ist das auf die drittePotenz der Standardabweichung bezogene zentrale Moment 3.Ordnung µ′3(x):
v =µ′3σ3 =
E [(x − E [x ])3]
σ3
Das 4te zentrale Moment bezogen auf die vierte Potenz derStandardabweichung bezeichnet man als Wölbung (Kurtosis).
Einführung in die wissenschaftliche Datenanalyse
Binomialverteilung
Häufige Fragestellung: Sei p die Wahrscheinlichkeit für dasEintreten des Ereignisses bei einem Versuch - wie groß ist dieWahrscheinlichkeit, dass das Ereignis bei n Versuchen r-maleintritt?
P(r) =
(nr
)pr · (1− p)n−r
P(r) ist korrekt auf 1 normiert. Binomialtheorem mit q = 1− p.Der Mittelwert von r ist:
〈r〉 = E [r ] =n∑
r=0
rP(r)= np
Die Varianz σ2 ist
V [r ] = E [(r − 〈r〉)2] =n∑
r=0
(r − 〈r〉)2P(r)= np(1− p)
Einführung in die wissenschaftliche Datenanalyse
Poisson-Verteilung
Die Poisson-Verteilung ist gegebendurch:
P(r) =µr e−µ
r !
Der Mittelwert ist:
〈r〉 = µ
Die Varianz ergibt sich aus V [r ] =np(1− p) für die Binomialverteilung:
V [r ] = σ2 = np = µ
0
0.1
0.2
0.3
0.4
0.5
0.6
0 2 4 6 8 10
µ = 0.5
0
0.1
0.2
0.3
0.4
0.5
0.6
0 2 4 6 8 10
µ = 1
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0 2 4 6 8 10
µ = 2
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0 2 4 6 8 10
µ = 4
Einführung in die wissenschaftliche Datenanalyse
Das Gesetz der großen Zahl
Angenommen, dass in n statistisch unabhängigenExperimenten das Ereignis j insgesamt nj mal aufgetreten ist.Die Zahlen nj folgen einer Binomialverteilung, und dasVerhältnis hj = nj/n ist die entsprechende Zufallsvariable. DerErwartungswert E [hj ] ist die Wahrscheinlichkeit pj für dasEreignis j :
pj = E [hj ] = E [nj/n]
Für die Varianz gilt dann (Binomialverteilung!):
V [hj ] = σ2(hj) = σ2(nj/n) =1n2 · σ
2(nj) =1n2 · npj(1− pj)
Da das Produkt pj(1− pj) immer ≤ 14 ist, gilt die Ungleichung
σ2(hj) < 1/n
bekannt als das Gesetz der großen Zahl.Einführung in die wissenschaftliche Datenanalyse
Der Zentrale Grenzwertsatz
Der zentrale Grenzwertsatz (ZGS) ist der wichtigste Satz in derStatistik. Unter anderem erklärt er die zentrale Bedeutung derGauß-Verteilung.Die Wahrscheinlichkeitsdichte der Summe w =
∑ni=1 xi einer
Stichprobe aus n unabhängigen Zufallsvariablen xi mit einerbeliebigen Wahrscheinlichkeitsdichte mit Mittelwert 〈x〉 undVarianz σ2 geht in der Grenze n→∞ gegen eineGauß-Wahrscheinlichkeitsdichte mit Mittelwert 〈w〉 = n〈x〉 undVarianz V [w ] = nσ2.
Einführung in die wissenschaftliche Datenanalyse
Illustration: Zentraler Grenzwertsatz
0
0.1
0.2
0.3
0.4
0.5
-3 -2 -1 0 1 2 3
GaussN=1
0
0.1
0.2
0.3
0.4
0.5
-3 -2 -1 0 1 2 3
N=2
0
0.1
0.2
0.3
0.4
0.5
-3 -2 -1 0 1 2 3
N=3
0
0.1
0.2
0.3
0.4
0.5
-3 -2 -1 0 1 2 3
N=10
Dargestellt ist die Summe uniform verteilter Zufallszahlen imVergleich zur Standardnormalverteilung.
Einführung in die wissenschaftliche Datenanalyse
Spezielle Wahrscheinlichkeitsdichten
Gleichverteilung: Diese Wahrscheinlichkeitsdichte ist konstantzwischen den Grenzen x = a und x = b:
f (x) =
{ 1b−a a ≤ x < b0 außerhalb
Mittelwert und Varianz sind:
〈x〉 = E [x ] =a + b
2V [x ] = σ2 =
(b − a)2
12
Die Gleichverteilung wird oft U(a,b) (“uniform”) geschrieben.Besonders wichtig ist die Verteilung U(0,1) mit den Grenzen 0und 1, die eine Varianz 1/12 hat.
Einführung in die wissenschaftliche Datenanalyse
Die Normalverteilung (Gauß-Verteilung)
Die wichtigste Wahrscheinlichkeitsdichte wegen ihrer großenBedeutung in der Praxis.
f (x) =1√2πσ
e−(x−µ)2
2σ2
Die Normalverteilung wird von zwei Parametern bestimmt, demMittelwert µ und der Standardabweichung σ. DieWahrscheinlichkeitsdichte mit dem Mittelwert µ = 0 und derVarianz σ2 = 1 heißt standardisierte Gauß-Verteilung,abgekürzt N(0,1).Die Gauß-Verteilung kann hergeleitet werden als Grenzfall derBinomialverteilung für große Werte von n und r , und aufähnliche Weise auch als Grenzfall der Poisson-Verteilung fürgroße Werte von µ.
Einführung in die wissenschaftliche Datenanalyse
Die Normalverteilung (Gauß-Verteilung)
∫ 1
−1dx N(0,1) = 0,6827 = (1− 0,3173)∫ 2
−2dx N(0,1) = 0,9545 = (1− 0,0455)∫ 3
−3dx N(0,1) = 0,9973 = (1− 0,0027)
FWHM: Dieser Begriff ist oft nützlich, um auf einfache Weisedie Standardabweichung einer Gaußkurve zu schätzen.
FWHM = 2σ√
2ln2 = 2,355σ
Einführung in die wissenschaftliche Datenanalyse
Die Normalverteilung (Gauß-Verteilung) im Vergleich
0 0.05 0.1
0.15 0.2
0.25 0.3
0 2 4 6 8 10 12 14 0
0.05
0.1
0.15
0.2
0 2 4 6 8 10 12 14
Links: Binomialverteilung mit n = 10 und p = 0,6im Vergleich mit der Gauß-Verteilungmit µ = np = 6 und σ =
√np(1− p) =
√2,4.
Rechts: Poisson-Verteilung mit µ = 6 und σ =√
6im Vergleich mit der Gauß-Verteilung.
Einführung in die wissenschaftliche Datenanalyse
Integrierte Gaußfunktion
Die Wahrscheinlichkeitsverteilung wird mit Φ(x) bezeichnet,
Φ(x) =1√2πσ
∫ x
−∞e−
(t−µ)2
2σ2 dt .
In vielen Formelsammlungen finden sich Tabellen derintegrierten standardisierten Gauß-Verteilung,
F (x) =1√2π
∫ z
−∞e−
x22 .
Die integrierte Verteilungsfunktion kann durch die Gauß’scheFehlerfunktion erf(x) ausgedrückt werden,
erf(x) =2√π
∫ x
0e−t2
dt .
Φ(x) =12
(1 + erf
(x − µ√
2σ
)).
Einführung in die wissenschaftliche Datenanalyse
Integrierte Gaußfunktion
0
0.2
0.4
0.6
0.8
1
1.2
-3 -2 -1 0 1 2 3
0.5*(1+erf(x/sqrt(2)))0.4*exp(-0.5*x*x)
Einführung in die wissenschaftliche Datenanalyse
χ2-Verteilung
Falls x1, x2, . . . , xn unabhängige Zufallsvariable sind, die alleeiner Gauß-Wahrscheinlichkeitsdichte folgen mit Mittelwert 0und Varianz 1, so folgt die Summe
u = χ2 =n∑
i=1
x2i
einer χ2-Verteilung fn(u) = fn(χ2) mit n Freiheitsgraden. DieWahrscheinlichkeitsdichte ist:
fn(u) =12
(u2
)n/2−1 e−u/2
Γ(n/2)
Die Wahrscheinlichkeitsdichte fn(u) hat ein Maximum bei(n− 2). Der Mittelwert ist n und die Varianz 2n.
Einführung in die wissenschaftliche Datenanalyse
χ2-Wahrscheinlichkeitsdichte
0
0.05
0.1
0.15
0.2
0.25
0.3
0 2 4 6 8 10
pdf(2,x)pdf(3,x)pdf(4,x)pdf(5,x)pdf(6,x)pdf(7,x)pdf(8,x)pdf(9,x)
Einführung in die wissenschaftliche Datenanalyse
χ2-Verteilungsfunktion
Sie beschreibt die Wahrscheinlichkeit, dass χ2n im Intervall [0, x ] liegt.
0
0.2
0.4
0.6
0.8
1
0 2 4 6 8 10
cdf(2,x)cdf(3,x)cdf(4,x)cdf(5,x)cdf(6,x)cdf(7,x)cdf(8,x)cdf(9,x)
Einführung in die wissenschaftliche Datenanalyse
χ2-Verteilung mit 5 Freiheitsgraden
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0 2 4 6 8 10 12 14
95% c.l.
[0.831 ... 12.83]
Einführung in die wissenschaftliche Datenanalyse
Zufallsvariable in zwei Dimensionen
Die mehrdimensionale Wahrscheinlichkeitsdichte f (x , y) derzwei Zufallszahlen x und y ist definiert durch dieWahrscheinlichkeit, das Variablenpaar (x , y) in den Intervallena ≤ x < b und c ≤ y < d zu finden
P(a ≤ x < b, c ≤ y < d) =
∫ d
c
∫ b
af (x , y) dx dy
Normierung: ∫ ∞−∞
∫ ∞−∞
f (x , y) dx dy = 1
Gilt:f (x , y) = h(x) · g(y)
dann sind die zwei Zufallsvariablen unabhängig.
Einführung in die wissenschaftliche Datenanalyse
Zufallsvariable in zwei Dimensionen
Mittelwerte und Varianzen sind naheliegend (siehe 1. Dim):
< x >= E [x ] =
∫ ∫x f (x , y) dx dy
< y >= E [y ] =
∫ ∫y f (x , y) dx dy
V [x ] =
∫ ∫(x− < x >)2 f (x , y) dx dy = σ2
x
V [y ] =
∫ ∫(y− < y >)2 f (x , y) dx dy = σ2
y
Sei z eine Funktion von x , y :
z = z(x , y)
Damit ist z ebenfalls eine Zufallsvariable.
< z > =
∫ ∫z(x , y) f (x , y) dx dy
σ2z =
⟨(z− < z >)2
⟩Einführung in die wissenschaftliche Datenanalyse
Zufallsvariable in zwei Dimensionen
Einfaches Beispiel:
z(x , y) = a · x + b · y
Erwartungswert von z:
< z > = a∫ ∫
x f (x , y) dx dy + b∫ ∫
y f (x , y) dx dy
= a < x > + b < y >
unproblematisch
Einführung in die wissenschaftliche Datenanalyse
Zufallsvariable in zwei Dimensionen
z(x , y) = a · x + b · yVarianz:
σ2z =
⟨((a · x + b · y)− (a < x > + b < y >))2
⟩=
⟨((a · x − a < x >) + (b · y − b < y >))2
⟩= a2
⟨(x− < x >)2
⟩︸ ︷︷ ︸
σ2x
+b2⟨
(y− < y >)2⟩
︸ ︷︷ ︸σ2
y
+2ab 〈(x− < x >)(y− < y >)〉︸ ︷︷ ︸??
< (x− < x >)(y− < y >) >= cov(x , y) Kovarianz
= σxy =
∫ ∫(x− < x >)(y− < y >) f (x , y) dx dy
Einführung in die wissenschaftliche Datenanalyse
Zufallsvariable in zwei Dimensionen
Normierte Kovarianz:cov(x , y)
σx σy= ρxy Korrelationskoeffizient
gibt ein grobes Maß der Abhängigkeit zweier Variablen an.
−1 ≤ ρxy ≤ 1
Einführung in die wissenschaftliche Datenanalyse
Zufallsvariable in zwei Dimensionen
Für die Determinante der Kovarianzmatrix gilt:∣∣∣∣ σ2x σxy
σxy σ2y
∣∣∣∣ = σ2xσ
2y − σ2
xy = σ2xσ
2y (1− ρ2) ≥ 0
Einführung in die wissenschaftliche Datenanalyse
2-dim Gauß-Verteilung
-3.3
-3.2
-3.1
-3
-2.9
-2.8
-2.7
1.85 1.9 1.95 2 2.05 2.1 2.15
Para
met
er a
2
Parameter a1
Wahrscheinlichkeitsinhalt der Kovarianzellipse: 39,3%
Einführung in die wissenschaftliche Datenanalyse
Kovarianzmatrix in n-Dimensionen
Als Verallgemeinerung der Varianz definiert man dieKovarianzmatrix durch:
Vij =⟨
(~x− < ~x >)(~x− < ~x >)T⟩
Damit ergeben sich als Diagonalelemente der Matrix Vij dieVarianzen und als Nicht-Diagonalelemente die Kovarianzen:
Vii = var(xi) =
∫(xi− < xi >)2 f (~x) dx1 dx2 . . . dxn
Vij = cov(xi , xj) =
∫(xi− < xi >)(xj− < xj >) f (~x) dx1 dx2 . . . dxn .
Einführung in die wissenschaftliche Datenanalyse
Kovarianzmatrix in n-Dimensionen
Die Kovarianzmatrix
Vij =
var(x1) cov(x1, x2) . . . cov(x1, xn)
cov(x2, x1) var(x2) . . . cov(x2, xn). . . . . . . . .
cov(xn, x1) cov(xn, x2) . . . var(xn)
ist eine symmetrische n × n-Matrix. Man schreibt auch:
Vij =
σ2
1 σ12 . . . σ1nσ21 σ2
2 . . . σ2n. . . . . . . . .
σn1 σn2 . . . σ2n
Einführung in die wissenschaftliche Datenanalyse
Faltung
Zwei Zufallsvariablen x und y seien durch ihreWahrscheinlichkeiten fx (x) und fy (y) gegeben. Offensichtlichist ihre Summe w = x + y ebenfalls eine Zufallsvariable. DieWahrscheinlichkeitsdichte der Summe w sei fw (w). Sie wirddurch erhalten durch eine Faltung von x mit y .
fw (w) =
∫ ∫fx (x)fy (y)δ(w − x − y) dx dy
=
∫fx (x)fy (w − x) dx =
∫fy (y)fx (w − y) dy
−→ Charakteristische Funktion
Einführung in die wissenschaftliche Datenanalyse
Transformation von Wahrscheinlichkeitsdichten
Die Wahrscheinlichkeitsdichte fx (x) der Variablen x sollvermöge y = y(x) in eine andere Variable y transformiertwerden:
fx (x)y = y(x)
−→fy (y)
Betrachte: Intervall (x , x + dx)→ (y , y + dx)Bedenke: die Flächen unter den Wahrscheinlichkeitsdichten inden jeweiligen Intervallen müssen gleich sein.
fx (x)dx = fy (y)dy ↪→ fy (y) = fx (x(y))
∣∣∣∣dxdy
∣∣∣∣
Einführung in die wissenschaftliche Datenanalyse
Transformation von Mittelwert und Varianz,Fehlerfortplanzung
Entwicklung um Mittelwert:
y(x) = y(〈x〉) + (x −〈x〉) dydx
∣∣∣∣x=〈x〉
+12
(x −〈x〉)2 d2ydx2
∣∣∣∣x=〈x〉
+ . . .
Bis 2. Ordnung:
E [y ] ' y(〈x〉) + E [x − 〈x〉] dydx
∣∣∣∣x=〈x〉︸ ︷︷ ︸
=0
+12
E [(x − 〈x〉)2]d2ydx2
∣∣∣∣x=〈x〉
〈y〉 ' y(〈x〉) +12σ2
xd2ydx2
∣∣∣∣x=〈x〉︸ ︷︷ ︸
wird oft weggelassen
Einführung in die wissenschaftliche Datenanalyse
Transformation von Mittelwert und Varianz,Fehlerfortplanzung
Für die Varianz nehmen wir an 〈y〉 ' y(〈x〉) und entwickelny(x) um den Mittelwert 〈x〉 bis zur 1. Ordnung:
V [y ] = E[(y − 〈y〉)2
]= E
((x − 〈x〉) dydx
∣∣∣∣x=〈x〉
)2
=
(dydx
∣∣∣∣x=〈x〉
)2
· E[(x − 〈x〉)2
]=
(dydx
∣∣∣∣x=〈x〉
)2
· σ2x
Gesetz der Fehlerfortpflanzung für eine Zufallsvariable.
Einführung in die wissenschaftliche Datenanalyse
Schätzung von Parametern
Problemstellung: Aus fehlerbehafteten Messungen möglichstgenaue Ergebnisse erarbeiten zusammen mit Aussagen überZuverlässigkeit und Grenzen.Vorsicht: Messungen unterliegen einer Reihe vonunkontrollierbaren Einflüssen, welche zufällig genannt werden -sie sind also mit statistischen Fehlern versehen. Daneben gibtes aber noch systematische Fehler, die durch eine fehlerhafteMethode hervorgerufen werden, etwa durch falscheMessinstrumente oder falsche Formeln bei der Auswertung.Systematische Fehler müssen anders behandelt werden alsstatistische Fehler. So können sie auch durch Mittelung übermehrere Messungen nicht reduziert werden.
Einführung in die wissenschaftliche Datenanalyse
Schätzung von Parametern
Formal: Messung von n unabhängigen Werten x1, x2, . . . , xn derZufallsvariablen x bzw. ~x . (Stichprobe)Aufgabe: Beste Schätzung eines (mehrerer) Parameter. DieseSchätzung ist selbst auch eine Zufallsvariable. Deshalb sollenauch Aussagen über Fehler und Korrelationskoeffizientengemacht werden.Allgemeine Kriterien für eine Methode zur Bestimmung vonParametern mit Schätzwert a und wahrem Wert a0:
1 Konsistenz: limn→∞
a = a0.
2 Erwartungstreue: E[a] = a0.3 Effizienz: Varianz von a klein.4 Robustheit gegenüber falschen Daten und
Voraussetzungen.Wobei die letzten beiden Kriterien häufig im Widerspruch sind.
Einführung in die wissenschaftliche Datenanalyse
Robuste Schätzung von Mittelwerten
x =1n
n∑i=1
xi
Konsistenz? ok (Zentraler Grenzwertsatz)Erwartungstreue? ok E[x ] = 1
n∑n
i=1 E[xi ] =< x >.Effizienz?Robustheit?
Einführung in die wissenschaftliche Datenanalyse
Mittelwert einer symmetrischen Verteilung
Für symmetrische Verteilungen (die keine Gauß-Verteilungensind) ist das Stichprobenmittel weder effizient noch robust.
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
−4 −2 0 2 4
Wah
rsch
einl
ichk
eits
dich
te p
(x)
Zufallsvariable x
f(x)g(x)h(x)
Breit-Wigner-Verteilung: f (x) = 1π
1x2+1
Gauß-Verteilung: g(x) = 1√2π
e−x2/2
Doppelt-Exponentiell: h(x) = 12e−|x |
Einführung in die wissenschaftliche Datenanalyse
Mittelwert einer symmetrischen Verteilung
Besser: Getrimmter Mittelwert (Mittelwert mit Abschneiden)Weglassen der (1− 2r)n/2 größten und kleinsten Messwerteeiner Stichprobe.
Grenzfälle:r = 0,5: Mittelwertr → 0: Median.
Für eine unbekannte sym. Ver-teilung liefert r = 0,23 das ro-bustete Verfahren mit einer Ef-fizienz von 82%.
Einführung in die wissenschaftliche Datenanalyse
Mittelwert einer Gleichverteilung
Die genaueste Schätzung ist gegeben durch:
x =x + x
2
mit x (x) kleinster (größter) Wert der Stichprobe.
0
200
400
600
800
1000
1200
1400
1600
1800
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Häu
figke
it
Mittelwert der Stichprobe
1e−10
1e−09
1e−08
1e−07
1e−06
1e−05
0.0001
0.001
0.01
0.1
10 100 1000 10000 100000 1e+06 1e+07 1e+08
abso
lute
r F
ehle
r
Größe der Stichprobe
Die beste Schätzung liefert die bessere Varianz, die wie (1/n)2
(statt (1/√
n)2) gegen Null geht.
Einführung in die wissenschaftliche Datenanalyse
Beispiel für eine Stichprobe
li/cm ni ni li/cm ni l2i /cm2
18,9 1 18,9 357,2119,1 1 19,1 364,8119,2 2 38,4 737,2819,3 1 19,3 372,4919,4 4 77,6 1505,4419,5 3 58,5 1140,7519,6 9 176,4 3457,4419,7 8 157,6 3104,7219,8 11 217,8 4312,4419,9 9 179,1 3564,0920,0 5 100,0 2000,0020,1 7 140,7 2828,0720,2 8 161,6 3264,3220,3 9 182,7 3708,8120,4 6 122,4 2496,9620,5 3 61,5 1260,7520,6 2 41,2 848,7220,7 2 41,4 856,9820,8 2 41,6 865,2820,9 2 41,8 873,6221,0 4 84,0 1764,0021,2 1 21,2 449,44∑
100 2002,8 40133,62
Stichprobe von 100 Längenmessungen:
N =∑
ni = 100
Mittelwert? Varianz?
〈l〉 =1N
∑ni li = 20,028 cm
s2 =1
N − 1
(∑ni l2i −
1N
(∑ni li)2)
= 0,2176 cm2
l = 〈l〉 ± s√N
= (20,028± 0,047) cm
s = s ± s√2(N − 1)
= (0,466± 0,033) cm
Einführung in die wissenschaftliche Datenanalyse
Beispiel für eine Stichprobe
li/cm ni ni li/cm ni l2i /cm2
18,9 1 18,9 357,2119,1 1 19,1 364,8119,2 2 38,4 737,2819,3 1 19,3 372,4919,4 4 77,6 1505,4419,5 3 58,5 1140,7519,6 9 176,4 3457,4419,7 8 157,6 3104,7219,8 11 217,8 4312,4419,9 9 179,1 3564,0920,0 5 100,0 2000,0020,1 7 140,7 2828,0720,2 8 161,6 3264,3220,3 9 182,7 3708,8120,4 6 122,4 2496,9620,5 3 61,5 1260,7520,6 2 41,2 848,7220,7 2 41,4 856,9820,8 2 41,6 865,2820,9 2 41,8 873,6221,0 4 84,0 1764,0021,2 1 21,2 449,44∑
100 2002,8 40133,62
Stichprobe von 100 Längenmessungen:
N =∑
ni = 100
Mittelwert? Varianz?
〈l〉 =1N
∑ni li = 20,028 cm
s2 =1
N − 1
(∑ni l2i −
1N
(∑ni li)2)
= 0,2176 cm2
l = 〈l〉 ± s√N
= (20,028± 0,047) cm
s = s ± s√2(N − 1)
= (0,466± 0,033) cm
Einführung in die wissenschaftliche Datenanalyse
Beispiel für eine Stichprobe
li/cm ni ni li/cm ni l2i /cm2
18,9 1 18,9 357,2119,1 1 19,1 364,8119,2 2 38,4 737,2819,3 1 19,3 372,4919,4 4 77,6 1505,4419,5 3 58,5 1140,7519,6 9 176,4 3457,4419,7 8 157,6 3104,7219,8 11 217,8 4312,4419,9 9 179,1 3564,0920,0 5 100,0 2000,0020,1 7 140,7 2828,0720,2 8 161,6 3264,3220,3 9 182,7 3708,8120,4 6 122,4 2496,9620,5 3 61,5 1260,7520,6 2 41,2 848,7220,7 2 41,4 856,9820,8 2 41,6 865,2820,9 2 41,8 873,6221,0 4 84,0 1764,0021,2 1 21,2 449,44∑
100 2002,8 40133,62
Stichprobe von 100 Längenmessungen:
N =∑
ni = 100
Mittelwert? Varianz?
〈l〉 =1N
∑ni li = 20,028 cm
s2 =1
N − 1
(∑ni l2i −
1N
(∑ni li)2)
= 0,2176 cm2
l = 〈l〉 ± s√N
= (20,028± 0,047) cm
s = s ± s√2(N − 1)
= (0,466± 0,033) cm
Einführung in die wissenschaftliche Datenanalyse
Beispiel für eine Stichprobe
0
2
4
6
8
10
12
18.5 19 19.5 20 20.5 21 21.5
Häu
figke
it
Länge / cm
"length.dat"Gauß(µ=20.028,σ=0.466)
Gauß(µ=20.0,σ=0.5)
Einführung in die wissenschaftliche Datenanalyse
Die Maximum-Likelihood-Methode
Stichprobe von n Werten xi . Zugrunde liegendeWahrscheinlichkeitsdichte f (x |a) sei bekannt und normiert∫
f (x |a) dx = 1.Likelihood-Funktion:
L(a) = f (x1|a) · f (x2|a) · . . . · f (xn|a) =n∏
i=1
f (xi |a)
Die beste Schätzung für a entspricht dem Maximum derLikelihood-Funktion.Maximum wie üblich durch Ableiten und Nullsetzen:
dL(a)
daoder
∂L(ak )
∂akfür alle k
Einführung in die wissenschaftliche Datenanalyse
Die Maximum-Likelihood-Methode
In der Praxis meist Logarithmus der Likelihood-Funktionl(a) = ln L(a) bzw. negativer Logarithmus:
F (a) = −l(a) = −n∑
i=1
ln f (xi |a)
Natürlich muss F (a) minimiert werden.↪→ negative Log-Likelihood-Funktion
Einführung in die wissenschaftliche Datenanalyse
Die Maximum-Likelihood-Methode
Einführung in die wissenschaftliche Datenanalyse
Methode der kleinsten Quadrate
Geschichte: Von Legendre, Gauß und Laplace zu Beginn des19. Jahrhunderts eingeführt.Die Methode der kleinsten Quadrate ist damit älter als dieallgemeinere Maximum Likelihood-Methode.In diesem Kapitel werden direkte Messwerte mit derEigenschaft von Zufallsvariablen (Daten) durchweg mit yibezeichnet.n-malige Messung einer Größe x liefert also y1, y2, . . . , yn:
yi = x + εi
εi ist die Abweichung yi ↔ x (Messfehler).
Einführung in die wissenschaftliche Datenanalyse
Methode der kleinsten Quadrate
Die gemessenen Werte weichen von dem wahren Wert umeinen Betrag ab, der durch die Standardabweichung σbeschrieben wird.Im Sinne der Statistik sind die yi eine Stichprobe, welchereine Wahrscheinlichkeitsdichte zugrunde liegt.Es soll eine funktionelle Beziehung (Modell) für die wahrenWerte vorliegen.Dieses Modell kann von zusätzlichen Variablen aj(Parametern) abhängen.Für diese Parameter gibt es keine direkte Messung.
Das Modell wird durch eine oder mehrere Gleichungen derForm
f (a1,a2, . . . ,ap, y1, y2, . . . , yn) = 0
beschrieben. Diese Gleichungen heißen Bedingungen.
Einführung in die wissenschaftliche Datenanalyse
Methode der kleinsten Quadrate
Das Modell kann benutzt werden, um Korrekturen ∆yi für dieMesswerte yi zu finden, so dass die korrigierten Werte dieBedingungen exakt erfüllen.Das Prinzip der kleinsten Quadrate verlangt, dass die Summeder Quadrate der Residuen ∆yi den kleinstmöglichen Wertannimmt.Im einfachsten Fall unkorrelierter Daten, die alle die gleicheStandardabweichung haben, entspricht das der Forderung:
S =n∑
i=1
∆y2i = Minimum
Man kann so Werte für die nicht gemessenen Parameter unterallgemeinen Bedingungen ermitteln −→ indirekte Messung
Einführung in die wissenschaftliche Datenanalyse
Methode der kleinsten Quadrate
Die Methode der kleinsten Quadrate hat einige optimalestatistische Eigenschaften und führt oft zu einfachen Lösungen.Andere Vorschriften sind denkbar, führen aber im allgemeinenzu komplizierten Lösungen.
n∑i=1
|∆yi | = Minimum oder max |∆yi | = Minimum
Einführung in die wissenschaftliche Datenanalyse
Methode der kleinsten Quadrate
Allgemeiner Fall:Daten werden beschrieben durch n-Vektor y.Verschiedene Standardabweichungen und mitKorrelationen, beschrieben durch die Kovarianzmatrix V.
Bedingung der kleinsten Quadrate in Matrixform:
S = ∆yT V−1∆y
Hierbei ist ∆y der Residuenvektor.
Einführung in die wissenschaftliche Datenanalyse
Lineare kleinste QuadrateBeispiel: Im Weinanbau werden die jeweils im Herbst geerntetenErträge in Tonnen je 100 m2 (t/ar) gemessen. Es ist bekannt, dassder Jahresertrag bereits im Juli ziemlich gut prognostiziert werdenkann, und zwar durch die Bestimmung der mittleren Anzahl vonBeeren, die je Traube gebildet worden sind.
Jahr Ertrag (yi ) Cluster (xi )1971 5,6 116,371973 3,2 82,771974 4,5 110,681975 4,2 97,501976 5,2 115,881977 2,7 80,191978 4,8 125,241979 4,9 116,151980 4,7 117,361981 4,1 93,311982 4,4 107,461983 5,4 122,30
2.5
3
3.5
4
4.5
5
5.5
6
80 90 100 110 120
Ert
rag/
(t/a
r) y
Clusterzahl x
Einführung in die wissenschaftliche Datenanalyse
Lineare kleinste Quadrate
Anpassung einer Geraden f (x) = a + b · x mit Hilfe von gnuplot:degrees of freedom (FIT_NDF) : 10rms of residuals (FIT_STDFIT) = sqrt(WSSR/ndf) :0.364062variance of residuals (reduced chisquare) =WSSR/ndf : 0.132541
Final set of parameters Asymptotic Standard Error======================= ==========================a = -1.0279 +/- 0.7836 (76.23%)b = 0.0513806 +/- 0.00725 (14.11%)
correlation matrix of the fit parameters:a b
a 1.000b -0.991 1.000
Einführung in die wissenschaftliche Datenanalyse
Bestimmung von Parameterwerten
Bestimmung von Parameterwerten a aus Messungen anhandeines linearen Modells.Der Vektor a der Parameter hat p Elemente a1,a2, . . . ,ap.Die Messwerte bilden den Vektor y von n Zufallsvariablen mitElementen y1, y2, . . . , yn.Der Erwartungswert von y ist gegeben als Funktion derVariablen x der Form:
y(x) = f (x ,a) = a1f1(x) + a2f2(x) + . . .+ apfp(x).
Damit ist der Erwartungswert jeder Einzelmessung yi gegebendurch
E [yi ] = f (xi , a) = yi
wobei die Elemente von a die wahren Werte des Parameters asind.
Einführung in die wissenschaftliche Datenanalyse
Bestimmung von Parameterwerten
Die Residuenri = yi − f (xi ,a)
haben für a = a die Eigenschaften
E [ri ] = 0 E [r2i ] = V [ri ] = σ2
i .
Die einzigen Annahmen hier sind Unverzerrtheit und eineendliche Varianz der Wahrscheinlichkeitsdichte der Residuen.Insbesondere ist es nicht zwingend nötig, dass sie gauß-verteiltist.
Einführung in die wissenschaftliche Datenanalyse
Normalgleichungen im Fall gleicher Fehler
Alle Daten sollen die gleiche Varianz haben und unkorreliertsein.Nach dem Prinzip der kleinsten Quadrate muss die Summe derQuadrate der Residuen in Bezug auf die Parametera1,a2, . . . ,ap minimiert werden:
S =n∑
i=1
r2i =
n∑i=1
(yi − a1f1(xi)− a2f2(xi)− . . .− apfp(xi))2
Bedingungen für das Minimum:
∂S∂a1
= 2n∑
i=1
f1(xi) (a1f1(xi) + a2f2(xi) + . . .+ apfp(xi)− yi) = 0
. . . . . .
∂S∂ap
= 2n∑
i=1
fp(xi) (a1f1(xi) + a2f2(xi) + . . .+ apfp(xi)− yi) = 0
Einführung in die wissenschaftliche Datenanalyse
Normalgleichungen im Fall gleicher Fehler
Die Bedingung kann in Form der sogenanntenNormalgleichungen geschrieben werden
a1∑
f1(xi)2 + . . . + ap
∑f1(xi)fp(xi) =
∑yi f1(xi)
a1∑
f2(xi)f1(xi) + . . . + ap∑
f2(xi)fp(xi) =∑
yi f2(xi). . .
a1∑
fp(xi)f1(xi) + . . . + ap∑
fp(xi)2 =
∑yi fp(xi)
Die Schätzwerte von a1,a2, . . . ,ap nach kleinsten Quadratenfolgen als die Lösung dieser Normalgleichung.
Einführung in die wissenschaftliche Datenanalyse
Matrixschreibweise
Matrixschreibweise und Matrixalgebra vereinfachen dieFormulierung wesentlich.Die n × p Werte fj(xi) werden als Elemente einer n × p Matrixaufgefasst. Die p Parameter aj und die n Messwerte yi bildenSpaltenvektoren.
A =
f1(x1) f2(x1) . . . fp(x1)f1(x2) f2(x2) . . . fp(x2). . .. . .f1(xn) f2(xn) . . . fp(xn)
a =
a1a2. . .ap
y =
y1y2. . .. . .yn
Einführung in die wissenschaftliche Datenanalyse
Matrixschreibweise
Der n-Vektor der Resudien ist damit
r = y− Aa.
Die Summe S ist
S = rT r = (y− Aa)T (y− Aa)
= yT y− 2aT AT y + aT AT Aa
Bedingung für das Minimum
−2AT y + 2AT Aa = 0
oder in der Matrixform der Normalgleichungen
(AT A)a = AT y
Die Lösung kann mit Standardverfahren der Matrixalgebraberechnet werden:
a = (AT A)−1AT y
Einführung in die wissenschaftliche Datenanalyse
Kovarianzmatrix der Parameter
Die Kovarianzmatrix ist die quadratische n × n-Matrix
V[y] =
var(y1) cov(y1, y2) . . . cov(y1, yn)
cov(y2, y1) var(y2) . . . cov(y2, yn). . . . . . . . .
cov(yn, y1) cov(yn, y2) . . . var(yn)
Hier ist die Kovarianzmatrix eine Diagonalmatrix:
V[y] =
σ2 0 . . . 00 σ2 . . . 0. . . . . . . . .
0 0 . . . σ2
Einführung in die wissenschaftliche Datenanalyse
Kovarianzmatrix der Parameter
Für eine lineare Beziehung a = By gilt die Standardformel derFehlerfortpflanzung:
V[a] = BV[y]BT
mit B = (AT A)−1AT wird daraus
V[a] = (AT A)−1AT V[y]A(AT A)−1
oder für den vorliegenden Fall gleicher Fehler einfach
V[a] = σ2 (AT A)−1
Einführung in die wissenschaftliche Datenanalyse
Quadratsumme der Residuen
Die Summe S der Quadrate der Residuen im Minimum ist
S = yT y− 2aT AT y + aT AT A(AT A)−1AT y = yT y− aT AT y.
Der Erwartungswert E [S] ist
E [S] = σ2 (n − p) .
Ist die Varianz der Messdaten nicht bekannt, so erhält man ausS den Schätzwert
σ2 = S/(n − p).
Dies ist für große Werte von (n − p) eine gute Schätzung.
Einführung in die wissenschaftliche Datenanalyse
Korrektur der Datenwerte
Nach Berechnung der Parameter mit linearen kleinstenQuadraten können Werte der Funktion f (x) für beliebige xbestimmt werden durch
y(x) = f (x , a) =
p∑j=1
aj fj(x).
Speziell für die Werte xi , die zu den Messwerten yi gehören,ergeben sich die korrigierten Datenpunkte zu
y = Aa.
Fehlerfortplanzung liefert die Kovarianzmatrix
V[y] = AV[a]AT = σ2 A(AT A)−1AT
Einführung in die wissenschaftliche Datenanalyse
Der Fall unterschiedlicher Fehler
Wenn die einzelnen Datenpunkte statistisch unabhängig sind,dann ist die Kovarianzmatrix
V[y] =
σ2
1 0 . . . 00 σ2
2 . . . 0. . . . . . . . .
0 0 . . . σ2n
Der Ausdruck für die Summe der Residuenquadrate lautet nun:
S =∑
i
r2i
σ2i
= Minimum
Man führt die Gewichtsmatrix W(y) ein als inverse Matrix derKovarianzmatrix
W(y) = V[y]−1 =
1/σ2
1 0 . . . 00 1/σ2
2 . . . 0. . . . . . . . .
0 0 . . . 1/σ2n
Einführung in die wissenschaftliche Datenanalyse
Der Fall unterschiedlicher Fehler
Die Summe der Quadrate der gewichteten Residuen
S = rT W(y)r = (y− Aa)T W(y)(y− Aa)
muss nun bezüglich der Parameter minimiert werden. Es ergibtsich:
a = (AT WA)−1AT WyV[a] = (AT WA)−1
Die Summe der Residuenquadrate für a = a hat die Form
S = yT Wy− aT AT Wy
und den Erwartungswert E [S] = n − p .Die Kovarianzmatrix der korrigierten Datenpunkte ist
V[y] = A(AT WA)−1AT
Einführung in die wissenschaftliche Datenanalyse
Kleinste Quadrate in der Praxis: Geradenanpassung
Geradenanpassung mit der Funktion y = f (x ,a) = a1 + a2x .Messwerte yi liegen an den genau bekannten Punkten xi vor.
A =
1 x11 x21 x3. . .1 xn
V =
σ2
1 0 0 . . . 00 σ2
2 0 00 0 σ2
3 0. . . . . .
0 0 0 . . . σ2n
a =
(a1a2
)y =
y1y2y3. . .yn
W = V−1 wii =1σ2
i
Einführung in die wissenschaftliche Datenanalyse
Kleinste Quadrate in der Praxis: Geradenanpassung
Lösung:
AT WA =
( ∑wi
∑wixi∑
wixi∑
wix2i
)=
(S1 SxSx Sxx
)
AT Wy =
( ∑wiyi∑
wixiyi
)=
(SySxy
)(
S1 SxSx Sxx
) (a1a2
)=
(SySxy
)
a = (AT WA)−1AT WyV[a] = (AT WA)−1
(S1 SxSx Sxx
)−1
=1D
(Sxx −Sx−Sx S1
)mit D = S1Sxx − S2
x
Einführung in die wissenschaftliche Datenanalyse
Kleinste Quadrate in der Praxis: Geradenanpassung
Die Lösung ist
a1 = (SxxSy − SxSxy )/Da2 = (−SxSy − S1Sxy )/D
und die Kovarianzmatrix ist
V[a] =1D
(Sxx −Sx−Sx S1
).
Weiterhin ist die Summe der Residuenquadrate
S = Syy − a1Sy − a2Sxy
Für einen Wert y = a1 + a2x , berechnet an der Stelle x , ist dieStandardabweichung die Wurzel aus der Varianz:
V [y ] = V [a1] + x2V [a2] + 2xV [a1, a2] = (Sxx − 2xSx + x2S1)/D
Einführung in die wissenschaftliche Datenanalyse
Zusammenfassung
In der klassischen Statistik werden Fehlerangaben inForm von Konfidenzbereiche gemacht.Vorsicht bei Zählexperimenten mit kleinen Raten:Poisson- statt Gauß-Verteilung (Schiefe, Erwartungstreue)Vorsicht bei Nicht-Gauß-Verteilung - insbesondere beiverzerrten (schiefen) Verteilungen.Statt dem kleinste Quadrate Verfahren sollte dann etwadas Maximum-Likelihood Verfahren Anwendung finden.Der Matrixformulismus für das kleinste Quadrate Verfahrenist ein sehr mächtiges Werkzeug. EffizentesteParameterschätzung für lineare Modelle, beinhaltetFehlerfortpflanzung, geeignet als Optimierungsverfahrenauch für nicht-lineare Probleme.
Einführung in die wissenschaftliche Datenanalyse
Charakteristische Funktion
Ist x eine reelle Zufallsvariable mit der Verteilungsfunktion F (x)und der Wahrscheinlichkeitsdichte f (x), so bezeichnet man alsihre charakteristische Funktion den Erwartungswert der Größeexp(ıtx):
ϕ(t) = E [exp(ıtx)]
also im Fall einer kontinuierlichen Variablen ein Fourier-Integralmit seinen bekannten Transformationseigenschaften:
ϕ(t) =
∫ ∞−∞
exp(ıtx) f (x)dx
Insbesondere gilt für die zentralen Momente:
λn = E [xn] =
∫ ∞−∞
xn f (x)dx
ϕ(n)(t) =dnϕ(t)
dtn =
∫ ∞−∞
xn exp(ıtx) f (x)dx
ϕ(n)(0) = ınλn
Einführung in die wissenschaftliche Datenanalyse
χ2-Verteilung
Falls x1, x2, . . . , xn unabhängige Zufallsvariable sind, die alleeiner Gauß-Wahrscheinlichkeitsdichte folgen mit Mittelwert 0und Varianz 1, so folgt die Summe
u = χ2 =n∑
i=1
x2i
einer χ2-Verteilung fn(u) = fn(χ2) mit n Freiheitsgraden. DieWahrscheinlichkeitsdichte ist:
fn(u) =12
(u2
)n/2−1 e−u/2
Γ(n/2)
Die Wahrscheinlichkeitsdichte fn(u) hat ein Maximum bei(n − 2). Der Mittelwert ist n und die Varianz 2n.
Einführung in die wissenschaftliche Datenanalyse
χ2-Verteilung
http://de.wikipedia.org/wiki/Gammafunktion
Γ(n) = (n − 1)!
Γ(12
) =√π
Γ(x + 1) = x · Γ(x)
Einführung in die wissenschaftliche Datenanalyse
χ2-Verteilung
Einführung in die wissenschaftliche Datenanalyse
χ2-Verteilung
Die Größe
Q(χ2|n) = 1− P(χ2|n)
= 1− F (χ2)
= 1−∫ χ2
0fn(ν)dν
gegen χ2 für n Freiheitsgrade
Einführung in die wissenschaftliche Datenanalyse
χ2-Verteilung
Die Größe
Q(χ2|n) = 1− P(χ2|n)
= 1− F (χ2)
= 1−∫ χ2
0fn(ν)dν
gegen χ2 für n Freiheitsgrade
Einführung in die wissenschaftliche Datenanalyse
t-Verteilung
Die t-Verteilung tritt auf bei Tests der statistischenVerträglichkeit eines Stichproben-Mittelwertes x mit einemvorgegebenen Mittelwert µ, oder der statistischenVerträglichkeit zweier Stichproben-Mittelwerte.Die Wahrscheinlichkeitsdichte der t-Verteilung ist gegebendurch
fn(t) =1√nπ
Γ((n + 1)/2)
Γ(n/2)
(1 +
t2
n
)−(n+1)/2
Einführung in die wissenschaftliche Datenanalyse
t-Verteilung
Die Studentschen t-Verteilungen f (t) (links) im Vergleich zurstandardisierten Gauß-Verteilung (gestrichelt) sowie dieintegrierten Studentschen t-Verteilungen
∫ t−∞ f (x)dx (rechts).
Einführung in die wissenschaftliche Datenanalyse
t-Verteilung
Quantile der t-Verteilung, P =∫ t−∞ fn(x)dx .
Einführung in die wissenschaftliche Datenanalyse
F -Verteilung
Gegeben sind n1 Stichprobenwerte einer Zufallsvariablen x undn2 Stichprobenwerte derselben Zufallsvariablen. Die besteSchätzung der Varianzen aus beiden Datenkollektionen seiens2
1 und s22. Die Zufallszahl
F =s2
1
s22
folgt dann einer F -Verteilung mit (n1,n2) Freiheitsgraden. Es istKonvention, dass F immer größer als eins ist.Die Wahrscheinlichkeitsdichte von F ist gegeben durch
f (F ) =
(n1
n2
)n1/2 Γ((n1 + n2)/2)
Γ(n1/2)Γ(n2/2)F (n1−2)/2
(1 +
n1
n2F)−(n1+n2)/2
Einführung in die wissenschaftliche Datenanalyse
Quantile der F -Verteilung, Konfidenz = 0,68
Einführung in die wissenschaftliche Datenanalyse
Quantile der F -Verteilung, Konfidenz = 0,90
Einführung in die wissenschaftliche Datenanalyse
Quantile der F -Verteilung, Konfidenz = 0,95
Einführung in die wissenschaftliche Datenanalyse
Quantile der F -Verteilung, Konfidenz = 0,99
Einführung in die wissenschaftliche Datenanalyse