wahrscheinlichkeitstheorie

Wahrscheinlichkeitstheorie

Literatur

• Hans Irtel

Entscheidungs- und testtheoretische Grundlagen der Psychologischen Diagnostik

Frankfurt am Main: Verlag Peter Lang, 1996 (ISBN 3-631-49374-6)

im Web als PDF

Gliederung

• Mengenlehre

• Wahrscheinlichkeitsraum

• Bedingte Wahrscheinlichkeiten

• Zufallsvariablen

• Kombinatorik

• Wahrscheinlichkeitsverteilungen

Warum brauchen wir die Wahrscheinlichkeitstheorie?

• Psychologische Daten unterliegen vielen Einflußgrößen, viele davon sind nicht kontrollierbar.

• Eine Wiederholung einer Erhebung liefert nicht mit Sicherheit das gleiche Ergebnis.

• Bei einem guten Test reproduzibel: Statistische Daten (Mittelwerte, Streuungen)

Warum brauchen wir die Mengenlehre?

• Wahrscheinlichkeitsberechnungen beruhen auf dem Vergleich der Mächtigkeit von Mengen.

Mengenlehre I• Naive Mengenlehre (Cantor)

– Eine Menge ist eine Zusammenfassung von bestimmten wohl unterschiedenen Objekten (Elementen)

– Schreibweisen: M = {a,b,c...}, M={xN|x>7}, – Teilmenge: AB (xAxB), BA

– Vereinigungsmenge: AB = {x|xAxB}

– Schnittmenge: AB = {x|xAxB}

– Komplement, Differenz: A = \ A {x|xxA}

– Kommutativität, Assoziativität, Distributivität

– De Morgan: AB = AB, AB = AB

– A sei eine Menge. Potenzmenge: Menge aller Teilmengen X={x|xA}

– Menge aller Mengen

– Menge aller Mengen die sich nicht selbst enthalten (Russell)

– Russell: Typentheorie. Zermelo-Fraenkel-Mengenlehre. Gödel.

Mengenlehre II

• kartesisches Produkt: AB = {(a,b)|aAbB}

• ABC, AAA = A3

• binäre Relation: RAB. Statt (a,b)R schreibe aRb.Beispiel: K = {(a,b)|(a,b)NNa<b}– reflexiv a: aRa

– symmetrisch a,b: (aRb bRa)

– transitiv a,b,c: (aRb bRc aRc)

– äquivalent: RAA reflexiv, symmetrisch, und transitiv. a~b

– Äquivalenzklasse: KA, K,aKbK a~b,aKa~b bK

Schreibweise: {xA|x~a} = [a]K=[a], K'=[b] K=K' KK'=

A

AB

B

Mengenlehre III

• Zerlegung: Sei A eine Menge, und ~ eine Äquivalenzrelation auf A.

Dann heißt die Menge A/~ aller Äquivalenzklassen von A bzgl. ~

die von ~ induzierte Zerlegung.– K,LA/~ KL KL=– Vereinigungsmenge aller Elemente von A/~

– Definition von ~ über eine Zerlegung

– Zerlegung eines Hypothesenraums für die Hypothesenprüfung nach Bayes

Mengelehre IV

• Eine binäre Relation f auf AB heißt eine Abbildung,wenn gilt– f ist linkstotal: aA bB sodaß (a,b)f.– f ist rechtseindeutig: (a,b)f (a,c)f b=c– A: Definitionsbereich, B: Wertebereich von f.– alternativer Name: Funktion. – Schreibweisen: (a,b)f, afb, b=f(a), f: AB, – MA, NB : f(M)=N heißt „Bild von M“, f–1(N)=M „Urbild von N“– surjektiv: bB aA sodaß (a,b)f. rechtstotal. bitotal.– injektiv: (a,c)f (b,c)f a=b. linkseindeutig. eineindeutig.– bijektiv: surjektiv und injektiv.– Sei f bijektiv. Dann ist auch die „Umkehrabbildung“ f –1 bijektiv.– endlich, unendlich; abzählbar, überabzählbar

Mengenlehre und Logik

• Verwandtschaft von Mengenlehre und Logik– A– A– Hausaufgaben (unter anderem):

• überprüfen, welche Gesetze der Mengelehregenauso in der Logik gelten.

• vertraut machen mit Wahrheitstafeln! , , , ,

Zufallsexperimente

• Ergebnis nicht mit Sicherheit vorhersagbar,Menge aller möglichen Ergebnisse bekannt.„Ergebnisraum“ = {1, 2, 3, ...}– Beispiel: Detektionsexperiment

• Ergebnisraum: = {+,}

– Beispiel: Stellung von Ehepaaren zu Geschwindigkeitsbegrenzung auf Autobahnen

• Ergebnisraum: = {0,1,2} (Zahl der Ja-Antworten)

• Ergebnisraum: = {(J,J),(J,N),(N,J),(N,N)}

– Ergebnisraum hängt• von der Struktur des Experimentes

• und von der Fragestellung ab

Ereignisse

• Teilmenge A des Ergebnisraums ist ein „Ereignis“.– Ergebnis i (direkt) beobachtbar: Ausgang des Experiments– Ereignis = wahrscheinlichkeitstheoretisches Konzept:

„Ereignis tritt ein / wird (indirekt) beobachtet “ = Ergebnis Ereignis

– Beispiel: E = „Ehepaar antwortet gleich“ = {0,1,2}: E = {0,2} = {(J,J),(J,N),(N,J),(N,N)}: E = {(J,J),(N,N)}

– Elementarereignis: Ereignis mit nur einem Element, {i}– Ergebnisraum und leere Menge sind Ereignisse

– Operationen auf Ereignissen: Vereinigung, Schnittmenge, Komplement

Wahrscheinlichkeiten von Ereignissen

für endliche oder abzählbare(„diskrete“) Ergebnisräume:

• Wahrscheinlichkeit:P: Potenzmenge() R so daß– P({i}) 0,

– P({1}) + P({2}) + P({3}) + .... = 1.

– P(A) = AP({})

– keine weitere Annahmen über P({i}),insbesondere nicht gleichwahrscheinlich

• Problem bei überabzählbaren Mengen

-Algebra

• Axiomatische Definition nach Kolmogorov:

Sei ein Ergebnisraum, und S eine Menge von Teilmengen von ,dann heißt S eine -Algebra in , wenn gilt S

– A S A S

– A1, A2, A3... S A1 A2 A3... S

• S ist abgeschlossen bzgl. Komplement, , • S kann abzählbar sein,

auch wenn überabzählbar ist.

Wahrscheinlichkeitsraum

• Sei ein Ergebnisraum und S eine -Algebra in .Dann ist die Abbildung P: S R eine Wahrscheinlichkeit, wenn gilt:– P(A) 0 für alle AS,

– P() = 1, -Additivität: A1, A2, A3... S , paarweise disjunkt

P(A1 A2 A3...) = P(A1) + P(A2) + P(A3) +...

• Übungen: , P(A), AB

Bedingte Wahrscheinlichkeit

• Seien A und B Ereignisse, mit P(B)>0.Dann wird die bedingte Wahrscheinlichkeit, daß A eintritt „gegeben B“, definiert als:

P(A|B) P(AB)/P(B)

• Beispiel: ein Säckchen enthalte weiße und schwarze Spielsteine aus Holz und aus Plastik:

40 weiße aus Holz, 10 weiße aus Plastik,30 schwarze aus Holz, 20 schwarze aus Plastik.

Ich ziehe einen Stein. Wie groß ist P(w|H), p(H|w), p(H), p(w), ...

• P(AB) = P(A|B) P(B) = P(B|A) P(A)

Stochastische Unabhängigkeit

• A und B sind stochastisch unabhängig, wenn gilt:P(A|B) = P(A)

• Fragen: P(B|A) = ? P(AB) = ? P(A|B) = ?• Beispiel: A tritt nach B ein. A ist unabhängig von B,

wenn das erste „Teilergebnis“ (aus B oder aus B) keinen Einfluß auf die Wahrscheinlichkeit für das Auftreten von A hat.

• Zwei Ereignisse seien disjunkt. Beide haben eine Wahrscheinlichkeit größer Null.Können sie unabhängig sein?

Unabhängige Familien

• Sei C eine Menge von Ereignissen.C heißt Familie unabhängiger Ereignisse, wenn für alle endlichen Teilmengen von C gilt:P(A1A2A3...) = P(A1) P(A2) P(A3) ...

• Reicht paarweise Unabhängigkeit aller Elemente für die Unabhängigkeit der Familie?

Bayes

• Sei {B1, B2, ...} eine Zerlegung von .(paarweise disjunkt, Vereinigung aller Bi = ).Dann gilt:

N

iii

jjjjj

BPBAP

BPBAP

AP

BPBAPABP

1

)()|(

)()|(

)(

)()|()|(

• Beispiel: Bi (unbeobachtbare) Hypothesen, A (beobachtbare) Versuchsergebnisse,P(A|Bi) bekannt („Voraussagen“), P(Bi) a priori Wahrscheinlichkeiten für Hypothesen,P(Bi|A) a posteriori Wahrscheinlichkeiten der Hypothesen.

Beispiel: Entscheidungstheorie• Jeder Stimulus löst eine interne Repräsentation aus, die sich durch einen

eindimensionalen Parameter e beschreiben läßt.

• e ist Gauß-verteilt , mit = 1 und µ = 0 (Rauschen) bzw. µ = d‘ (Signal).

• Bei Ja/Nein-Aufgaben setzt die VP ein Kriterium k und sagt „Ja“ wenn e > k.

„Ja“„Nein“RauschenSignal

d‘0

0 2 ek

0

1

0 1p(Ja|R)

p(Ja|S)

)()(

)(

)|()()|()(

)|()()|(

0'

'

ee

e

RePRPSePSP

SePSPeSP

d

d

• P (S | e) ist eine monotone Funktion von e: Ein Kriterium in e ist gleichzeitig ein Kriterium in P (S | e).

Bedingte Unabhängigkeit

• Sei ein Ergebnisraum, S eine -Algebra in ,P eine Wahrscheinlichkeit auf S, und C ein Ereignis.Dann ist auch PC: S R mit PC(A) = P(A|C)eine Wahrscheinlichkeit auf S.

• Zwei Ereignisse A und B heißen „bedingt unabhängig bezüglich C“, wenn sie bezüglich PC unabhängig sind:PC(A|B) = PC(A).PC(AB) = PC(A) PC(B)P(AB|C) = P(A|C) P(B|C)

Zufallsvariablen

• Warum brauchen wir Zufallsvariablen?– Mit Mengen kann man nicht „rechnen“ (+,,...).– Abbildung von auf R bzw. R = R {,}

• reelle Zufallsvariablen

– Abbildung von auf abzählbare Menge bzw. N• diskrete Zufallsvariablen

Reelle Zufallsvariablen

• Sei ein Ergebnisraum, S eine -Algebra in ,P eine Wahrscheinlichkeit auf S.X: (R bzw.) R heißt (reelle) Zufallsvariable genau dann wenn xR: {|X()x} S

• S = {,}, X ? • Das Urbild jedes Intervalls (,x] ist ein Ereignis.

(S-Meßbarkeit von X).– Dies ermöglicht die Übertragung der Wahrscheinlichkeit P

von der -Algebra S auf den Wertebereich von X.

Verteilungsfunktion

• Definition der Verteilungsfunktion F(x) = P({|X()x}) = P(Xx)

– monoton steigend (warum?)– F(), F(+)

• Gibt es für die reelle Zufallsvariable X: Reine nichtnegative Funktion f: R R

mit F(x) = x

f(y) dy,dann ist f die Wahrscheinlichkeitsdichte von X.

– P(axb) = a

b f(y) dy

f(y) dy = ???

Diskrete Zufallsvariablen

• Sei ein Ergebnisraum, S eine -Algebra in ,P eine Wahrscheinlichkeit auf S.X: E (E abzählbar) heißt diskretes Zufallselement.Zusätzlich ER: X ist diskrete Zufallsvariable.

• Definition der Wahrscheinlichkeitsfunktion p(x) = P({|X()=x}) = P(X=x)

• BE: P(B) = xBp(x).

• Zufallsvariable X: Verteilungsfunktion F(x) = P(Xx) = yxp(y).

• AS: Indikatorfunktion 1A() = 1 wenn A, 0 sonst.

Unabhängige Zufallsvariablen

• Reelle Zufallsvariablen X1, X2, ... sindstochastisch unabhängig, wenn für alle x1, x2, ... R gilt:

P(X1x1, X2x2, ...) = P(X1x1) P(X2x2) ...

• Wenn alle Xi Dichten besitzen, gilt

F(x1,x2,...) = x1

f1(y1) dy1

x2 f2(y2) dy2 ...

= x1

x2 ... f1(y1) f2(y2) dy1 dy2 ...

Wahrscheinlichkeitsdichte

f(x1,x2,...) = f1(x1) f2(x2) ...

Zufallsstichprobe

• Folge von Zufallsexperimenten in einer Population– Jedes Element der Population hat die gleiche

Wahrscheinlichkeit, beobachtet zu werden.

– einzelne Beobachtung: Ergebnis und X() registrieren.

– Die einzelnen Beobachtungen müssen stochastisch unabhängig sein.

• Folge Xi stochastisch unabhängiger und identisch verteilter (P(Xix)=F(x)) Zufallsvariablen.

Modus, Median, Quantile

• Sei X eine reelle Zufallsvariable mit Verteilungsfunktion F(x) und Wahrscheinlichkeitsdichte f(x).– Modus: f(xm) hat ein (lokales?) Maximum -Quantil: F(x) = – Median: 0,5-Quantil

• Sei X eine diskrete Zufallsvariable mit Wahrscheinlichkeitsfunktion p(x) und Verteilungsfunktion F(x).– Modus: p(xm) ist maximal -Quantil: P(Xx) P(Xx) 1–

Erwartungswert, Varianz

• Sei X eine reelle Zufallsvariable mit Wahrscheinlichkeitsdichte f(x).

– Erwartungswert: E (X) =

xf(x) dx

– Varianz: V(X) = ²(X) = E ( (X–E (X))² ) = E (X²) – E (X)²

– Standardabweichung (X) (positive Wurzel von V(X))

• Sei X eine diskrete Zufallsvariable mit Wahrscheinlichkeitsfunktion p(x).– Erwartungswert: E (X) = xX() xp(x)

– Varianz und Standardabweichung wie oben

Rechenregeln mit E und V

• Zufallsvariable „a“ sei konstant: E (a) = a.• E ist linear: E (aX + bY) = a E (X) + b E (Y)• Zufallsvariable „a“ sei konstant: V(a) = 0.• V(X+a) = V(X)• V(aX) = a²V(X)

Vorhersage

• Seien X und Y zwei Zufallsvariablen.• Wie genau erlaubt die Kenntnis von X,

den Wert von Y vorherzusagen, und welcher Wert wäre das?Vorhergesagter Wert Y' = F (X)

• Vereinfachung: Existiert ein linearer Zusammenhang?

Y' = a + b XY' = a + b X + e

Linearität

• Fast jeder Zusammenhang ist– lokal linear– global nichtlinear

Das lineare Modell

• Y' = a + b X• Y' = a + b X + e• e = Y – Y'• E (e) = 0• Ziel: E (e²) minimieren• E (Y) = a + b E (X)• Achsabschnitt

a = E (Y) – b E (X)• Steigung b = ???

Y

X

Y' = a +

b X

ei

Varianz und Kovarianz

• V(X) = VXX = E ( (X–E (X))² )

• V(Y) = VYY = E ( (Y–E (Y))² )

• V(X,Y) = VXY = E ( (X–E (X))(Y–E (Y)) )

• VYX = VXY = E (X·Y) – E (X) E (Y)

• Vxy ist positiv, wenn positive Abweichungen in X mit positiven Abweichungen in Y einhergehen, und negative mit negativen.

• Vxy ist negativ, wenn...

• Vxy ist Null, wenn...

z-transformierte Zufallsvariablen

• Y = a + b X + e

• E (Y) = a + b E (X)

• Wenn X und Y z-transformiert sind,wenn also gilt: E (X) = E (Y) = 0und VXX = VYY = 1,dann gilt für die Regressionsgerade:

Achsabschnitt a = 0

und Steigung b = VXY = E (X·Y)

Vertauschung von X und Y

• Wenn man bei z-transformierten Zufallsvariablen X und Y vertauscht, bleibt die Steigung der Regressionsgerade gleich...

Y

X

Y' = b X

ei

Y

X

X' =

(1/b

) Y

ei

X' = b Y

Koordinaten-ursprung

Korrelationskoeffizient und Steigung

• Steigung bY·X = VXY / VXX

• Steigung bX·Y = VXY / VYY 1 / bY·X = VXX / VXY

• rXY = VXY / (VXX VYY)

• bY·X = rXY (VYY/VXX) = rXY SY/SX

• bX·Y = rXY (VXX/VYY) = rXY SX/SY

• rXY² = VXY² / (VXX VYY)

• E (e²) = VYY ( 1 – rXY² ) = ( 1 – rXY² ) für z-transformierte Daten

Rechenregeln mit Kovarianz

• V(aX + bY) = a²VXX + b²VYY + 2abVXY

• V(i=1...nXi) = i=1...n j=1...n VXiXj

• VX+Y,Z = VXZ + VYZ

• Sind X und Y stochastisch unabhängig, dann gilt– E (X·Y) = E (X) E (Y)

– VXY = 0

– Z=X+Y: VZZ = VX + VY

– Z=X–Y: VZZ =

wahrscheinlichkeitstheorie

Documents