Download - Anwendungen mit SAS: Direkt aus der Praxis! Block 1 · Anwendungen mit SAS: Direkt aus der Praxis! Block 1 Deskriptive Statistik und Simulation von Zufallsvariablen Fachhochschule

Anwendungen mit SAS: Direkt aus der Praxis!

Block 1

Deskriptive Statistik und Simulation von Zufallsvariablen

Fachhochschule KoblenzFachbereich Mathematik und Technik

Dr. Denise Rey

28. November 2008

1

Inhalt1. Warum muss man Daten analysieren?

2. Wahrscheinlichkeit und Zufallsvariable

3. Bekannte Verteilungen

5. Pseudo Zufallszahlen

6. Simulation - Inverse Methode

7. Simulation - Annehmen-Verwerfen Methode

8. Simulation von Poisson Prozessen

9. Simulation von Markov Ketten

10. Anwendungen aus der Praxis

Anwendungen mit SAS. Denise Rey.

2

Warum muss man Daten analysieren?

Beispiel 1. Faire Muenze

(a) 1111111111111111111111111

(b) 10101010101010101010101010

(c) 10010011100100111001001110010011

(d) 011011100101110111100010011010

(e) 101110010111111001000000110101001

String: x1, x2, . . . , xn

Laengen: 25,26,32,30,32


3


Beispiel 1. Faire MuenzeIst die Muenze fair? Wir schauen uns die relative Haufigkeitenvon 1 und 0 an:

f0 :=#i : xi = 0

n(1)

f1 :=#i : xi = 1

n(2)

Faire Muenze

f0 ≈ 1/2 ≈ f1 (3)

Reicht der Begriff der fairen Muenze aus um die Zufaelligkeit zudefinieren?


4


Beispiel 1. Faire Muenze(a) 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 1111 11 11 11 11 (25-1 Bloecke)

(b) 10 01 10 01 10 01 10 01 10 01 10 01 10 01 10 (25 Bloecke)

(c) 10 00 01 10 00 01 11 11 10 00 01 10 00 01 11 11 1000 01 10 00 01 11 11 10 00 01 10 00 01 11 (31 Bloecke)

(d) 01 11 10 01 11 11 10 00 01 10 01 11 11 10 01 11 1111 10 00 00 01 10 00 01 11 10 01 10 (29 Bloecke)

(e) 10 01 11 11 10 00 01 10 01 11 11 11 11 10 00 01 1000 00 00 00 00 01 11 10 01 10 01 10 00 01 (31 Bloecke)

5


Test auf Zufaelligkeit der Ordnung 1

Falls die relative Haeufigkeiten von 0 und 1 (approximativ) 1/2

sind, dann ist der Test bestanden:

f0 :=#i : xi = 0

n≈

1

2≈ f1 :=

#i : xi = 1n

.

Test auf Zufaelligkeit der Ordnung 2

Falls die relative Haeufigkeiten der Bloecke 00,01,10,11 (approx-

imativ) 1/4 sind, dann ist der Test bestanden:

f00 =#i : (xi, xi+1) = (0,0)

n− 1, f01 =

#i : (xi, xi+1) = (0,1)n− 1

f10 =#i : (xi, xi+1) = (1,0)

n− 1, f11 =

#i : (xi, xi+1) = (1,1)n− 1

6


Definition 1 Die Aequipartition EigenschaftEin (langer) string erfuellt die Aequipartition Eigenschaft wenn erdie Tests auf Zufaelligkeit aller Ordnungen k=1,2,3,... besteht.

Test Ordnung 1:a durchgefallen

Test Ordnung 2:a,b durchgefallen

Test Ordnung 8:a,b,c,durchgefallen(c) 10010011 10010011 10010011 10010011


7


Was ist mit (d)?(d) 0 1 10 11 100 101 110 111 1000 1001 1010Champernowne Number: 0.1234567891011121314

• (d) als unendliche Zahl besteht Tests der Zufaelligkeit allerOrdnungen

• (d) erfuellt nicht das Kriterium der Unvorhersagbarkeit.

Was ist mit (e)?(e) Ist eine Pseudo Zufallszahl generiert mit dem PC.


8


Wann ist ein zufaelliger String zufaellig?

• vM von Mises Kriterium: Haeufigkeiten von 0 und 1 sindstabil oder die Aequipartition Eigenschaft.

• K Kolmogorov Kriterium: Der String ist komplex (z.B. un-vorhersagbar).

• ML Martin Lf Kriterium: String ist nicht typisch.

In der Literatur existieren viele statistische Tests auf Zufaelligkeitvon Strings bzw. Stichproben.


9

Wahrscheinlichkeit, Zufaellige Variable

Definition 2 Das Zufaellige ExperimentEin zufaelliges Experiment liegt vor, wenn

1. auch unter identischen Bedingungen durchgefuehrte Wiederholungen ein

und desselben Experiments unterschiedliche Ergebnisse aufweisen koennen

2. die Menge aller moeglichen Ergebnisse des Experiments ist bekannt.

Das mathematische Modell eines zufaelligen Experimentes istder Wahrscheinlichkeitsraum

(Ω,B, P )

wobeiω ∈ Ω ein Elementarereignis ist (sample point)B ⊂ B ein zusammengestelltes Ereignis ist (random events)P (B) die Wahrscheinlichkeit des Ereignisses ist


10


Definition 3 Die WahrscheinlichkeitSei (Ω,B, P ) ein Wahrscheinlichkeitsraum. Die Wahrscheinlichkeitist eine Funktion P : B→ [0,1] so dass1. P (Ω) = 12. Fuer jede disjunkte Reihe A1, A2, . . . haben wirP (⋃iAi) =

∑i P (Ai)

Definition 4 Bedingte WahrscheinlichkeitFuer zwei Untermengen im Stichprobenraum A,B ⊂ Ω ist dieWahrscheinlichkeit von A, gegeben B:

P (A|B) =P (A ∩B)

P (B)(4)

Definition 5 UnabhaengigkeitZwei Ereignisse A und B heissen unabhaengig falls

P (A|B) = P (A)⇔ P (A ∩B) = P (A)P (B) (5)

11

Mathematica Demos


12


Definition 6 ZufallsvariableEine Zufallsvariable X ist eine messbare Funktion von einemWahrscheinlichkeitsraum in einen Messraum.

X : (Ω,B, P )→ (Ω′,B′).

Eine reele Zufallsvariable ist eine messbare Funktion

X : Ω 3 ω → X(ω) ∈ Rund

X−1((∞, x]) ∈ B, ∀x ∈ R.

Definition 7 VerteilungsfunktionEine reele Zufallsvariable X ist durch die Verteilungsfunktiondefiniert F : R→ [0,1] FX(x) = P (ω|X(ω) ≤ x), x ∈ R.


13


Definition 8 Stetige ZufallsvariableEine (reele) Zufallsvariable X heisst (absolut) stetige Zufallsvari-able wenn es eine nichtnegative Dichtefunktion f ≥ 0 gibt so dass

FX(x) =∫ x−∞

fX(t)dt,∫ ∞−∞

fX(x)dx = 1

Definition 9 Diskrete ZufallsvariableEine diskrete Zufallsvariable X kann nur eindliche oder zaehlbareAnzahl an Auspraegungen haben x1, x2, . . . ∈ R (oder Rd) miteiner positiven Wahrscheinlichkeit und die Verteilungsfunktionist definiert folgendeweise

pi := P (X = xi),∑i

pi = 1.


14

Bekannte Verteilungen

Bekannte stetige Verteilungen

Name Notation f(x) x ∈ Param.Uniform U(α, β) 1

β−α [α, β] α < β

Normal N(µ, σ2) 1σ√

(2π)e−1

2

(x−µσ

)2

R σ > 0, µ ∈ R

Exponential Exp(λ) λe−λx R+ λ > 0


15


Bekannte diskrete Verteilungen

Name Notation P(X=x) x ∈ Param.Bernoulli Be(p) px(1− p)1−x 0,1 0 ≤ p ≤ 1

Binomial Bi(n, p)(nx

)px(1− p)n−x 0,1, . . . , n 0 ≤ p ≤ 1, n ∈ N

Poisson Po(λ) e−λλx

x N λ > 0Geometric Ge(p) p(1− p)x−1 1,2, . . . 0 ≤ p ≤ 1


16


Wie beschreiben wir Daten?

Lagemasse: Mittelwert, Median, Quantile.

Streuungsmasse: Varianz, Standardabweichung, Range, Interquar-

tile Range, Variationskoeffizient.

Form: Schiefe, Woelbung.

Chebyshev’s Law

Wenigstens 1−(1/k2) der Beobachtungen einer Stichprobe befinden

sich innerhalb k Standardabweichungen s Entfernung vom Stich-

probenmittelwert x.


17


Erwartung und Varianzen fuer bekannte Verteilungen

Vert. E[X] V ar[X]Be(p) p p(1− p)Bi(n, p) np np(1− p)Po(λ) λ λ

Ge(p) 1/p (1− p)/p2

U(α, β) (α+ β)/2 (β − α)2/12Exp(λ) 1/λ 1/λ2

No(µ, σ2) µ σ2


18

Pseudo Zufallszahlen

Muenzen, Wuerfel, mechanische und elektronische Geraete erzeu-gen reine zufaellige Ergebnisse. Diese sind nicht optimal aus denGruenden

a. Zu langsamb. Keine Reproduzierbarkeit der Beobachtungen moeglichc. Unabhaengigkeit wurde in den Beobachtungen bemerkt

Die Zufallszahlen erzeugt von dem Computer basieren auf de-terministische Algorithmen und heissen deswegen Pseudo Zu-fallszahlen. Nichtsdestotrotz, die Pseudo Zufallszahlen besitzendie statistische Eigenschaften von reinen zufaelligen Zahlen (z.B.Komplexitaet oder Stabilitaet der relativen Haeufigkeiten von 0und 1 in einem binaeren String).


19

Pseudo Zufallszahlen

Definition 10 Der Lineare Congruentiale Zufallsgenerator

Xi+1 = a ∗Xi + c(mod m)

Bezeichnungen:

X0 Seed

a Multiplikator (multiplier)

c Inkrement

m Modulus.

Definition 11 Pseuo Zufallszahlen

Ui =Xim

In SAS: m = 231 − 1, a = 397204094.


20

SAS Simulation U(alpha,beta).sas

SAS Seed.sas


21

Simulation von Zufallsvariablen via Inverse Methode

Sei X eine Zufallsvariable mit der Verteilungsfunktion F . F als

nicht fallende Funktion hat die verallgemeinerte Inverse

F−1 : [0,1]→ R, F−1(y) = infx : F (x) ≥ y, 0 ≤ y ≤ 1.

Satz 12 Sei U ∼ (0,1). Dann X := F−1(U) hat die Verteilungs-

funktion F .

Beweis. F ist invertierbar und P (U ≤ u) = u. Dann

P (X ≤ x) = P (F−1(U) ≤ x) = P (U ≤ F (x)) = F (x).

Definition 13 Algorithm Inverse Methode

1. Generiere eine Zufallsvariable U ∼ U(0,1).

2. Erzeuge X = F−1(U).


22


Beispiel. Exponential verteilte Zufallsvariable

X ∼ Exp(λ) mit der Dichtefunktion:

f(x) =

λe−λx x ≥ 00 Rest

Die Verteilungsfunktion ist dann:

F (x) = P (X ≤ x) =∫ x

0λe−λtdt = (−e−λt)

∣∣∣x0

= 1− e−λx.

Die Inverse der Verteilungsfunktion ist dann:

U = F (x) = 1− e−λx ⇒ e−λx = 1− U ⇒ X =−ln(1− U)

λ⇒

F−1(u) =−ln(1− U)

λ.

23


Beispiel. Exponential verteilte Zufallsvariable

Satz 14 U ∼ U(0,1)⇒ 1− U ∼ U(0,1).

Beweis.

F (x) = P (1−U ≤ x) = P (U ≥ 1−x) = 1−P (U ≤ 1−x) = 1−1+x = x.

Algorithm Generierung Exponentialverteilung

1. Generiere U ∼ U(0,1).

2. Erzeuge X = −1λU ∼ Exp(λ).


24

Inverse Mehode Exponential.sas

SAS Simulation Exp(lambda).sas


25


Beispiel. Bernoulli Verteilung

Sei X ∼ Be(p)

P (X = x) = px(1− p)1−x, x = 0,1

Algorithm Generierung Bernoulli

1. Generiere U ∼ U(0,1)

2. Falls U ≤ p dann X := 1, sonst X := 0.


26


Beispiel. Binomial VerteilungSei X ∼ Bi(n, p).

P (X = x) =(nx

)px(1− p)1−x, x = 0,1, . . . , n.

Falls Xi ∼ Be(p), 1 ≤ i ≤ n i.i.d. dann X =∑ni=1Xi ∼ Bi(n, p).

Algorithm Generierung Binomial1. Generiere Xi ∼ Be(p), 1 ≤ i ≤ n.2. Erzeuge X =

∑ni=1Xi ∼ Bi(n, p).

Fuer n gross (in SAS falls n > 50) wird eine Approximationmit der Normalverteilung benutzt:

P (XBi(n,p) ≤ x)→ N(np, np(1− p)).

27

Inverse Methode Bernoulli & Binomial.sas

SAS Simulation Bernoulli & Discrete.sas


28

Simulation von Zufallsvariablen via

Annehmen-Verwerfen Methode

Zu benutzen wenn die Inverse der Verteilungsfunktion analytisch

schwer oder gar nicht zu erzeugen ist.

Sei F eine Verteilungsfunktion mit Dichte f . Wir nehmen an:

- f ist in [a, b] beschraenkt, c = supf(x) : x ∈ [a, b]- f(x) = 0, ∀x /∈ [a, b]

Algorithm

1. Generiere X ∼ U(a, b)

2. Generiere Y ∼ U(0, c) unabhaengig von X.

3. Falls Y ≤ f(X), dann Z := X. Sonst, gehe zu Schritt 1.


29



Verallgemeinertes Algorithm Annehmen-Verwerfen

Sei g eine Dichte so dass Φ(x) = Cg(x) die Dichtefunktion ma-

jorisiert i.e. Φ(x) ≥ f(x)∀x. g wird vorgeschlagene (proposal)

Dichte genannt.

1. Generiere X ∼ g(x).

2. Generiere U ∼ U(0,1) unabhaengig von X.

3. Falls U ≤ f(X)/(Cg(X)), dann Z := X. Sonst, gehe zu

Schritt 1.


30



Eigenschaften:

1. Mann soll von der Dichte g einfach Zufallsvariablen generieren

koennen.

2. Die Effizienz dieser Prozedur wird gemessen in 1/C. Die

Effizienz gross fuer C ≈ 1 (dies passiert wenn g(x) in der Naehe

von f(x) ist.


31



Beispiel. Die Target Dichte sei

f(x) =

2x, 0 ≤ x ≤ 10 otherwise

Wir nehmen g(x) = 1, 0 ≤ x ≤ 1 und C = 2.

Dann f(x)/Cg(x) = x.

Algorithm 1. Generiere X ∼ U(0,1)

2. Generiere U ∼ U(0,1) unabhaengig von X.

3. Falls U ≤ X dann erzeuge Z := X. Sonst, gehe zu Schritt 1.


32

Acceptance Region.sas


33

SAS Simulation N(mu,sigma).sas

SAS Simulation Po(lambda).sas

SAS Simulation Bivariate Normal.sas


34

Simulation von Poisson Prozessen

Definition 15 Der Stochastische Prozess

Unter einem stochastichen Prozess mit dem Parameterraum Tund dem Zustandsraum E versteht man eine Familie von Zu-fallsvariablen (Xt)t∈T wobei E die Menge aller Zustaende (Werte)bezeichnet die die Xt fuer alle t ∈ T annehmen koennte.

Aufteilung der stochastischen Prozesse:- T,E endlich oder abzaehlbar unendlich dann diskreter stochatischer Prozessmit diskreter Zeit- T endlich oder abzaehlbar unendlich und E Intervall dann stetiger Prozessmit diskreter Zeit- T Intervall und E endlich oder abzaehlbar unendlich dann diskreter Prozessmit stetiger Zeit- T,E Intervalle dann stetiger stochastischer Prozess mit stetiger Zeit.


35


Der Poisson Prozess

Seien T1, T2, . . ., Ti ∈ [0, T ] Zeitpunkte des Eintreffens (arrivaltimes). Ein Zaehlprozess ist definiert durch Nt := supk : Tk ≤ tdie Anzahl der Treffer im Zeitintervall [0, t].

Definition 16 Homogener Poisson ProzessEin Zaehlprozess (Nt)t≥0 heisst Poisson Prozess mit der Intensi-taet λ > 0 falls1. N(0) = 02. (Nt)t≥0 ist ein stochastischer Prozess mit unabhaengigenZuwaechsen3. Die Zuwaechse des Prozesses in einem Intervall [s, t] genuegeneiner Poissonverteilung Po(λ(t− s)).


36


Beispiele von Poisson Prozessen:

1. Anzahl der Kunden, die je Tag einen bestimmten Dienstleis-

tungsbettrieb aufsuchen

2. Anzahl der Pflanzen die sich in einem fixierten Areal befinden

3. Anzahl von Partikeln die je Zeiteinheit durch eine radioaktive

Substanz emittiert werden


37


Eigenschaften1. λ ist die Rate des Eintreffens: Nt ∼ Po(λt)⇒ E[Nt] = λt.2. P (Nt ≥ n) = P (Tn ≤ t)3. Alternative Definition: Ein Poisson Prozesses Nt mit Inten-sitaet λ ist gegeben wenn und nur wenn die Intervalle A1 = T1,A2 = T2−T1 unabhaengige und Exp(λ) verteilte Zufallsvariablensind.

Algorithm zur Simulation von einem Poisson Prozess indem Intervall [0, T ]1. Setze T0 = 0, n = 1.2. Generiere eine unabhaengige Zufallsvariable Un ∼ U(0,1)3. Setze Tn = Tn−1 − 1

λ log(Un) und definiere ein Eintreffen.4. Falls Tn > T dann Stop. Sonst, setze n := n+ 1 und gehe zuSchritt 2.

38

Poisson Process.sas


39

Simulation von Markov Ketten

Definition 17 Markov Process

Ein stochastischer Prozess X0, X1, . . . mit diskreter Zeit und

mit dem Zustandsraum Z : 0,±1,±2, . . .heisst Markovsche Kette

mit diskreter Zeit falls die Markov Eigenschaft eingehalten wird

⇔ ∀n ∈ N∗ und ∀ i0, i1, . . . , in mit ik ∈ Z gilt folgende Beziehung:

P (Xn+1 = in+1|Xn = in, . . . , X1 = i1, X0 = i0) = P (Xn+1 = in+1|Xn = in).


40


Definition 18 Uebergangswahrscheinlichkeiten

pi,j(n) := P (Xn+1 = j|Xn = i)

Definition 19 Homogene Markov Kette

pi,j(n) = p(i, j), ∀n = 0,1,2, . . .

Definition 20 Anfangsverteilung einer Markov Kette

π(0) := P (X0 = i), i ∈ Z

Bei gegebener Anfangsverteilung π(0) und bekannter Matrix derUebergangswahrscheinlichkeiten P = p(i, j)i,j∈Z ist die MarkovscheKette vollstaending bestimmt. Es lassen sich alle n-dimensionalenVerteilungen berechnen:

P (X0 = i0, X1 = i1, . . . , Xn = in) = π(0)i0· p(i0, i1) · · · p(in−1, in).

41


Gegeben eine Anfangsverteilung π(0) und eine Uebergangswahrschein-

lichkeitsmatrix P gilt der Algorithmus fuer die Simulation von

einer Markov Kette X0, X1, . . .:

Algorithm Simulation Markov Ketten

1. Simuliere X0 ∼ π(0). Setze n = 0.

2. Simuliere Xt+1 anhand der Verteilung der entsprechenden

xt = it Reihe der Matrix P , p(itj), j ∈ Z3. Setze t = t+ 1 und gehe zu Schritt 2.


42


Simulation Random Walk

(Xt)t∈N, Xt ∈ Z.

p(i, i+ 1) = p p(i, i− 1)) = q = 1− p, ∀i ∈ ZP (X0 = 0) = 1⇒ π0.

Algorithm

1. Sei X0 = 0, n = 0

2. Sei It ∼ Be(p). Dann die Markov Kette ist erzeugt durch

Xt+1 = Xt + 2 ∗ It − 2, t ∈ Z∗.


43

Markov Random Walk Process.sas


44

Weitere wichtige Themen im Bereich Simulationen:

- Zufallsvektoren mit einer gegebenen Kovarianzstruktur

- Simulation und Optimierung

- Markov Chain Monte Carlo (MCMC)


45

Einsatzbereiche von Simulationen:

- Computersimulationen, Computerspiele

- Traffic Systems

- Produktionslinien

- Wettersimulationen

- Katastrophensimulationen


46

Literatur

1. Introductory Statistics and Random Phenomena. Manfred

Denker et al. Birkhaeuser Boston. (1998)

2. Simulation and the Monte Carlo Method. Reuven Y. Rubin-

stein et al. Wiley Series in Probability and statistics. (2008)

3. Mathematica www.wolfram.com


47

Download - Anwendungen mit SAS: Direkt aus der Praxis! Block 1 · Anwendungen mit SAS: Direkt aus der Praxis! Block 1 Deskriptive Statistik und Simulation von Zufallsvariablen Fachhochschule

Top Related