wahrscheinlichkeitstheorie
DESCRIPTION
Wahrscheinlichkeitstheorie. Literatur. Hans Irtel Entscheidungs- und testtheoretische Grundlagen der Psychologischen Diagnostik Frankfurt am Main: Verlag Peter Lang, 1996 (ISBN 3-631-49374-6) im Web als PDF. Gliederung. Mengenlehre Wahrscheinlichkeitsraum Bedingte Wahrscheinlichkeiten - PowerPoint PPT PresentationTRANSCRIPT
Wahrscheinlichkeitstheorie
Literatur
• Hans Irtel
Entscheidungs- und testtheoretische Grundlagen der Psychologischen Diagnostik
Frankfurt am Main: Verlag Peter Lang, 1996 (ISBN 3-631-49374-6)
im Web als PDF
Gliederung
• Mengenlehre
• Wahrscheinlichkeitsraum
• Bedingte Wahrscheinlichkeiten
• Zufallsvariablen
• Kombinatorik
• Wahrscheinlichkeitsverteilungen
Warum brauchen wir die Wahrscheinlichkeitstheorie?
• Psychologische Daten unterliegen vielen Einflußgrößen, viele davon sind nicht kontrollierbar.
• Eine Wiederholung einer Erhebung liefert nicht mit Sicherheit das gleiche Ergebnis.
• Bei einem guten Test reproduzibel: Statistische Daten (Mittelwerte, Streuungen)
Warum brauchen wir die Mengenlehre?
• Wahrscheinlichkeitsberechnungen beruhen auf dem Vergleich der Mächtigkeit von Mengen.
Mengenlehre I• Naive Mengenlehre (Cantor)
– Eine Menge ist eine Zusammenfassung von bestimmten wohl unterschiedenen Objekten (Elementen)
– Schreibweisen: M = {a,b,c...}, M={xN|x>7}, – Teilmenge: AB (xAxB), BA
– Vereinigungsmenge: AB = {x|xAxB}
– Schnittmenge: AB = {x|xAxB}
– Komplement, Differenz: A = \ A {x|xxA}
– Kommutativität, Assoziativität, Distributivität
– De Morgan: AB = AB, AB = AB
– A sei eine Menge. Potenzmenge: Menge aller Teilmengen X={x|xA}
– Menge aller Mengen
– Menge aller Mengen die sich nicht selbst enthalten (Russell)
– Russell: Typentheorie. Zermelo-Fraenkel-Mengenlehre. Gödel.
Mengenlehre II
• kartesisches Produkt: AB = {(a,b)|aAbB}
• ABC, AAA = A3
• binäre Relation: RAB. Statt (a,b)R schreibe aRb.Beispiel: K = {(a,b)|(a,b)NNa<b}– reflexiv a: aRa
– symmetrisch a,b: (aRb bRa)
– transitiv a,b,c: (aRb bRc aRc)
– äquivalent: RAA reflexiv, symmetrisch, und transitiv. a~b
– Äquivalenzklasse: KA, K,aKbK a~b,aKa~b bK
Schreibweise: {xA|x~a} = [a]K=[a], K'=[b] K=K' KK'=
A
AB
B
Mengenlehre III
• Zerlegung: Sei A eine Menge, und ~ eine Äquivalenzrelation auf A.
Dann heißt die Menge A/~ aller Äquivalenzklassen von A bzgl. ~
die von ~ induzierte Zerlegung.– K,LA/~ KL KL=– Vereinigungsmenge aller Elemente von A/~
– Definition von ~ über eine Zerlegung
– Zerlegung eines Hypothesenraums für die Hypothesenprüfung nach Bayes
Mengelehre IV
• Eine binäre Relation f auf AB heißt eine Abbildung,wenn gilt– f ist linkstotal: aA bB sodaß (a,b)f.– f ist rechtseindeutig: (a,b)f (a,c)f b=c– A: Definitionsbereich, B: Wertebereich von f.– alternativer Name: Funktion. – Schreibweisen: (a,b)f, afb, b=f(a), f: AB, – MA, NB : f(M)=N heißt „Bild von M“, f–1(N)=M „Urbild von N“– surjektiv: bB aA sodaß (a,b)f. rechtstotal. bitotal.– injektiv: (a,c)f (b,c)f a=b. linkseindeutig. eineindeutig.– bijektiv: surjektiv und injektiv.– Sei f bijektiv. Dann ist auch die „Umkehrabbildung“ f –1 bijektiv.– endlich, unendlich; abzählbar, überabzählbar
Mengenlehre und Logik
• Verwandtschaft von Mengenlehre und Logik– A– A– Hausaufgaben (unter anderem):
• überprüfen, welche Gesetze der Mengelehregenauso in der Logik gelten.
• vertraut machen mit Wahrheitstafeln! , , , ,
Zufallsexperimente
• Ergebnis nicht mit Sicherheit vorhersagbar,Menge aller möglichen Ergebnisse bekannt.„Ergebnisraum“ = {1, 2, 3, ...}– Beispiel: Detektionsexperiment
• Ergebnisraum: = {+,}
– Beispiel: Stellung von Ehepaaren zu Geschwindigkeitsbegrenzung auf Autobahnen
• Ergebnisraum: = {0,1,2} (Zahl der Ja-Antworten)
• Ergebnisraum: = {(J,J),(J,N),(N,J),(N,N)}
– Ergebnisraum hängt• von der Struktur des Experimentes
• und von der Fragestellung ab
Ereignisse
• Teilmenge A des Ergebnisraums ist ein „Ereignis“.– Ergebnis i (direkt) beobachtbar: Ausgang des Experiments– Ereignis = wahrscheinlichkeitstheoretisches Konzept:
„Ereignis tritt ein / wird (indirekt) beobachtet “ = Ergebnis Ereignis
– Beispiel: E = „Ehepaar antwortet gleich“ = {0,1,2}: E = {0,2} = {(J,J),(J,N),(N,J),(N,N)}: E = {(J,J),(N,N)}
– Elementarereignis: Ereignis mit nur einem Element, {i}– Ergebnisraum und leere Menge sind Ereignisse
– Operationen auf Ereignissen: Vereinigung, Schnittmenge, Komplement
Wahrscheinlichkeiten von Ereignissen
für endliche oder abzählbare(„diskrete“) Ergebnisräume:
• Wahrscheinlichkeit:P: Potenzmenge() R so daß– P({i}) 0,
– P({1}) + P({2}) + P({3}) + .... = 1.
– P(A) = AP({})
– keine weitere Annahmen über P({i}),insbesondere nicht gleichwahrscheinlich
• Problem bei überabzählbaren Mengen
-Algebra
• Axiomatische Definition nach Kolmogorov:
Sei ein Ergebnisraum, und S eine Menge von Teilmengen von ,dann heißt S eine -Algebra in , wenn gilt S
– A S A S
– A1, A2, A3... S A1 A2 A3... S
• S ist abgeschlossen bzgl. Komplement, , • S kann abzählbar sein,
auch wenn überabzählbar ist.
Wahrscheinlichkeitsraum
• Sei ein Ergebnisraum und S eine -Algebra in .Dann ist die Abbildung P: S R eine Wahrscheinlichkeit, wenn gilt:– P(A) 0 für alle AS,
– P() = 1, -Additivität: A1, A2, A3... S , paarweise disjunkt
P(A1 A2 A3...) = P(A1) + P(A2) + P(A3) +...
• Übungen: , P(A), AB
Bedingte Wahrscheinlichkeit
• Seien A und B Ereignisse, mit P(B)>0.Dann wird die bedingte Wahrscheinlichkeit, daß A eintritt „gegeben B“, definiert als:
P(A|B) P(AB)/P(B)
• Beispiel: ein Säckchen enthalte weiße und schwarze Spielsteine aus Holz und aus Plastik:
40 weiße aus Holz, 10 weiße aus Plastik,30 schwarze aus Holz, 20 schwarze aus Plastik.
Ich ziehe einen Stein. Wie groß ist P(w|H), p(H|w), p(H), p(w), ...
• P(AB) = P(A|B) P(B) = P(B|A) P(A)
Stochastische Unabhängigkeit
• A und B sind stochastisch unabhängig, wenn gilt:P(A|B) = P(A)
• Fragen: P(B|A) = ? P(AB) = ? P(A|B) = ?• Beispiel: A tritt nach B ein. A ist unabhängig von B,
wenn das erste „Teilergebnis“ (aus B oder aus B) keinen Einfluß auf die Wahrscheinlichkeit für das Auftreten von A hat.
• Zwei Ereignisse seien disjunkt. Beide haben eine Wahrscheinlichkeit größer Null.Können sie unabhängig sein?
Unabhängige Familien
• Sei C eine Menge von Ereignissen.C heißt Familie unabhängiger Ereignisse, wenn für alle endlichen Teilmengen von C gilt:P(A1A2A3...) = P(A1) P(A2) P(A3) ...
• Reicht paarweise Unabhängigkeit aller Elemente für die Unabhängigkeit der Familie?
Bayes
• Sei {B1, B2, ...} eine Zerlegung von .(paarweise disjunkt, Vereinigung aller Bi = ).Dann gilt:
N
iii
jjjjj
BPBAP
BPBAP
AP
BPBAPABP
1
)()|(
)()|(
)(
)()|()|(
• Beispiel: Bi (unbeobachtbare) Hypothesen, A (beobachtbare) Versuchsergebnisse,P(A|Bi) bekannt („Voraussagen“), P(Bi) a priori Wahrscheinlichkeiten für Hypothesen,P(Bi|A) a posteriori Wahrscheinlichkeiten der Hypothesen.
Beispiel: Entscheidungstheorie• Jeder Stimulus löst eine interne Repräsentation aus, die sich durch einen
eindimensionalen Parameter e beschreiben läßt.
• e ist Gauß-verteilt , mit = 1 und µ = 0 (Rauschen) bzw. µ = d‘ (Signal).
• Bei Ja/Nein-Aufgaben setzt die VP ein Kriterium k und sagt „Ja“ wenn e > k.
„Ja“„Nein“RauschenSignal
d‘0
0 2 ek
0
1
0 1p(Ja|R)
p(Ja|S)
)()(
)(
)|()()|()(
)|()()|(
0'
'
ee
e
RePRPSePSP
SePSPeSP
d
d
• P (S | e) ist eine monotone Funktion von e: Ein Kriterium in e ist gleichzeitig ein Kriterium in P (S | e).
Bedingte Unabhängigkeit
• Sei ein Ergebnisraum, S eine -Algebra in ,P eine Wahrscheinlichkeit auf S, und C ein Ereignis.Dann ist auch PC: S R mit PC(A) = P(A|C)eine Wahrscheinlichkeit auf S.
• Zwei Ereignisse A und B heißen „bedingt unabhängig bezüglich C“, wenn sie bezüglich PC unabhängig sind:PC(A|B) = PC(A).PC(AB) = PC(A) PC(B)P(AB|C) = P(A|C) P(B|C)
Zufallsvariablen
• Warum brauchen wir Zufallsvariablen?– Mit Mengen kann man nicht „rechnen“ (+,,...).– Abbildung von auf R bzw. R = R {,}
• reelle Zufallsvariablen
– Abbildung von auf abzählbare Menge bzw. N• diskrete Zufallsvariablen
Reelle Zufallsvariablen
• Sei ein Ergebnisraum, S eine -Algebra in ,P eine Wahrscheinlichkeit auf S.X: (R bzw.) R heißt (reelle) Zufallsvariable genau dann wenn xR: {|X()x} S
• S = {,}, X ? • Das Urbild jedes Intervalls (,x] ist ein Ereignis.
(S-Meßbarkeit von X).– Dies ermöglicht die Übertragung der Wahrscheinlichkeit P
von der -Algebra S auf den Wertebereich von X.
Verteilungsfunktion
• Definition der Verteilungsfunktion F(x) = P({|X()x}) = P(Xx)
– monoton steigend (warum?)– F(), F(+)
• Gibt es für die reelle Zufallsvariable X: Reine nichtnegative Funktion f: R R
mit F(x) = x
f(y) dy,dann ist f die Wahrscheinlichkeitsdichte von X.
– P(axb) = a
b f(y) dy
f(y) dy = ???
Diskrete Zufallsvariablen
• Sei ein Ergebnisraum, S eine -Algebra in ,P eine Wahrscheinlichkeit auf S.X: E (E abzählbar) heißt diskretes Zufallselement.Zusätzlich ER: X ist diskrete Zufallsvariable.
• Definition der Wahrscheinlichkeitsfunktion p(x) = P({|X()=x}) = P(X=x)
• BE: P(B) = xBp(x).
• Zufallsvariable X: Verteilungsfunktion F(x) = P(Xx) = yxp(y).
• AS: Indikatorfunktion 1A() = 1 wenn A, 0 sonst.
Unabhängige Zufallsvariablen
• Reelle Zufallsvariablen X1, X2, ... sindstochastisch unabhängig, wenn für alle x1, x2, ... R gilt:
P(X1x1, X2x2, ...) = P(X1x1) P(X2x2) ...
• Wenn alle Xi Dichten besitzen, gilt
F(x1,x2,...) = x1
f1(y1) dy1
x2 f2(y2) dy2 ...
= x1
x2 ... f1(y1) f2(y2) dy1 dy2 ...
Wahrscheinlichkeitsdichte
f(x1,x2,...) = f1(x1) f2(x2) ...
Zufallsstichprobe
• Folge von Zufallsexperimenten in einer Population– Jedes Element der Population hat die gleiche
Wahrscheinlichkeit, beobachtet zu werden.
– einzelne Beobachtung: Ergebnis und X() registrieren.
– Die einzelnen Beobachtungen müssen stochastisch unabhängig sein.
• Folge Xi stochastisch unabhängiger und identisch verteilter (P(Xix)=F(x)) Zufallsvariablen.
Modus, Median, Quantile
• Sei X eine reelle Zufallsvariable mit Verteilungsfunktion F(x) und Wahrscheinlichkeitsdichte f(x).– Modus: f(xm) hat ein (lokales?) Maximum -Quantil: F(x) = – Median: 0,5-Quantil
• Sei X eine diskrete Zufallsvariable mit Wahrscheinlichkeitsfunktion p(x) und Verteilungsfunktion F(x).– Modus: p(xm) ist maximal -Quantil: P(Xx) P(Xx) 1–
Erwartungswert, Varianz
• Sei X eine reelle Zufallsvariable mit Wahrscheinlichkeitsdichte f(x).
– Erwartungswert: E (X) =
xf(x) dx
– Varianz: V(X) = ²(X) = E ( (X–E (X))² ) = E (X²) – E (X)²
– Standardabweichung (X) (positive Wurzel von V(X))
• Sei X eine diskrete Zufallsvariable mit Wahrscheinlichkeitsfunktion p(x).– Erwartungswert: E (X) = xX() xp(x)
– Varianz und Standardabweichung wie oben
Rechenregeln mit E und V
• Zufallsvariable „a“ sei konstant: E (a) = a.• E ist linear: E (aX + bY) = a E (X) + b E (Y)• Zufallsvariable „a“ sei konstant: V(a) = 0.• V(X+a) = V(X)• V(aX) = a²V(X)
Vorhersage
• Seien X und Y zwei Zufallsvariablen.• Wie genau erlaubt die Kenntnis von X,
den Wert von Y vorherzusagen, und welcher Wert wäre das?Vorhergesagter Wert Y' = F (X)
• Vereinfachung: Existiert ein linearer Zusammenhang?
Y' = a + b XY' = a + b X + e
Linearität
• Fast jeder Zusammenhang ist– lokal linear– global nichtlinear
Das lineare Modell
• Y' = a + b X• Y' = a + b X + e• e = Y – Y'• E (e) = 0• Ziel: E (e²) minimieren• E (Y) = a + b E (X)• Achsabschnitt
a = E (Y) – b E (X)• Steigung b = ???
Y
X
Y' = a +
b X
ei
Varianz und Kovarianz
• V(X) = VXX = E ( (X–E (X))² )
• V(Y) = VYY = E ( (Y–E (Y))² )
• V(X,Y) = VXY = E ( (X–E (X))(Y–E (Y)) )
• VYX = VXY = E (X·Y) – E (X) E (Y)
• Vxy ist positiv, wenn positive Abweichungen in X mit positiven Abweichungen in Y einhergehen, und negative mit negativen.
• Vxy ist negativ, wenn...
• Vxy ist Null, wenn...
z-transformierte Zufallsvariablen
• Y = a + b X + e
• E (Y) = a + b E (X)
• Wenn X und Y z-transformiert sind,wenn also gilt: E (X) = E (Y) = 0und VXX = VYY = 1,dann gilt für die Regressionsgerade:
Achsabschnitt a = 0
und Steigung b = VXY = E (X·Y)
Vertauschung von X und Y
• Wenn man bei z-transformierten Zufallsvariablen X und Y vertauscht, bleibt die Steigung der Regressionsgerade gleich...
Y
X
Y' = b X
ei
Y
X
X' =
(1/b
) Y
ei
X' = b Y
Koordinaten-ursprung
Korrelationskoeffizient und Steigung
• Steigung bY·X = VXY / VXX
• Steigung bX·Y = VXY / VYY 1 / bY·X = VXX / VXY
• rXY = VXY / (VXX VYY)
• bY·X = rXY (VYY/VXX) = rXY SY/SX
• bX·Y = rXY (VXX/VYY) = rXY SX/SY
• rXY² = VXY² / (VXX VYY)
• E (e²) = VYY ( 1 – rXY² ) = ( 1 – rXY² ) für z-transformierte Daten
Rechenregeln mit Kovarianz
• V(aX + bY) = a²VXX + b²VYY + 2abVXY
• V(i=1...nXi) = i=1...n j=1...n VXiXj
• VX+Y,Z = VXZ + VYZ
• Sind X und Y stochastisch unabhängig, dann gilt– E (X·Y) = E (X) E (Y)
– VXY = 0
– Z=X+Y: VZZ = VX + VY
– Z=X–Y: VZZ =