Anwendungen mit SAS: Direkt aus der Praxis!
Block 1
Deskriptive Statistik und Simulation von Zufallsvariablen
Fachhochschule KoblenzFachbereich Mathematik und Technik
Dr. Denise Rey
28. November 2008
1
Inhalt1. Warum muss man Daten analysieren?
2. Wahrscheinlichkeit und Zufallsvariable
3. Bekannte Verteilungen
5. Pseudo Zufallszahlen
6. Simulation - Inverse Methode
7. Simulation - Annehmen-Verwerfen Methode
8. Simulation von Poisson Prozessen
9. Simulation von Markov Ketten
10. Anwendungen aus der Praxis
Anwendungen mit SAS. Denise Rey.
2
Warum muss man Daten analysieren?
Beispiel 1. Faire Muenze
(a) 1111111111111111111111111
(b) 10101010101010101010101010
(c) 10010011100100111001001110010011
(d) 011011100101110111100010011010
(e) 101110010111111001000000110101001
String: x1, x2, . . . , xn
Laengen: 25,26,32,30,32
Anwendungen mit SAS. Denise Rey.
3
Warum muss man Daten analysieren?
Beispiel 1. Faire MuenzeIst die Muenze fair? Wir schauen uns die relative Haufigkeitenvon 1 und 0 an:
f0 :=#i : xi = 0
n(1)
f1 :=#i : xi = 1
n(2)
Faire Muenze
f0 ≈ 1/2 ≈ f1 (3)
Reicht der Begriff der fairen Muenze aus um die Zufaelligkeit zudefinieren?
Anwendungen mit SAS. Denise Rey.
4
Warum muss man Daten analysieren?
Beispiel 1. Faire Muenze(a) 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 1111 11 11 11 11 (25-1 Bloecke)
(b) 10 01 10 01 10 01 10 01 10 01 10 01 10 01 10 (25 Bloecke)
(c) 10 00 01 10 00 01 11 11 10 00 01 10 00 01 11 11 1000 01 10 00 01 11 11 10 00 01 10 00 01 11 (31 Bloecke)
(d) 01 11 10 01 11 11 10 00 01 10 01 11 11 10 01 11 1111 10 00 00 01 10 00 01 11 10 01 10 (29 Bloecke)
(e) 10 01 11 11 10 00 01 10 01 11 11 11 11 10 00 01 1000 00 00 00 00 01 11 10 01 10 01 10 00 01 (31 Bloecke)
5
Warum muss man Daten analysieren?
Test auf Zufaelligkeit der Ordnung 1
Falls die relative Haeufigkeiten von 0 und 1 (approximativ) 1/2
sind, dann ist der Test bestanden:
f0 :=#i : xi = 0
n≈
1
2≈ f1 :=
#i : xi = 1n
.
Test auf Zufaelligkeit der Ordnung 2
Falls die relative Haeufigkeiten der Bloecke 00,01,10,11 (approx-
imativ) 1/4 sind, dann ist der Test bestanden:
f00 =#i : (xi, xi+1) = (0,0)
n− 1, f01 =
#i : (xi, xi+1) = (0,1)n− 1
f10 =#i : (xi, xi+1) = (1,0)
n− 1, f11 =
#i : (xi, xi+1) = (1,1)n− 1
6
Warum muss man Daten analysieren?
Definition 1 Die Aequipartition EigenschaftEin (langer) string erfuellt die Aequipartition Eigenschaft wenn erdie Tests auf Zufaelligkeit aller Ordnungen k=1,2,3,... besteht.
Test Ordnung 1:a durchgefallen
Test Ordnung 2:a,b durchgefallen
Test Ordnung 8:a,b,c,durchgefallen(c) 10010011 10010011 10010011 10010011
Anwendungen mit SAS. Denise Rey.
7
Warum muss man Daten analysieren?
Was ist mit (d)?(d) 0 1 10 11 100 101 110 111 1000 1001 1010Champernowne Number: 0.1234567891011121314
• (d) als unendliche Zahl besteht Tests der Zufaelligkeit allerOrdnungen
• (d) erfuellt nicht das Kriterium der Unvorhersagbarkeit.
Was ist mit (e)?(e) Ist eine Pseudo Zufallszahl generiert mit dem PC.
Anwendungen mit SAS. Denise Rey.
8
Warum muss man Daten analysieren?
Wann ist ein zufaelliger String zufaellig?
• vM von Mises Kriterium: Haeufigkeiten von 0 und 1 sindstabil oder die Aequipartition Eigenschaft.
• K Kolmogorov Kriterium: Der String ist komplex (z.B. un-vorhersagbar).
• ML Martin Lf Kriterium: String ist nicht typisch.
In der Literatur existieren viele statistische Tests auf Zufaelligkeitvon Strings bzw. Stichproben.
Anwendungen mit SAS. Denise Rey.
9
Wahrscheinlichkeit, Zufaellige Variable
Definition 2 Das Zufaellige ExperimentEin zufaelliges Experiment liegt vor, wenn
1. auch unter identischen Bedingungen durchgefuehrte Wiederholungen ein
und desselben Experiments unterschiedliche Ergebnisse aufweisen koennen
2. die Menge aller moeglichen Ergebnisse des Experiments ist bekannt.
Das mathematische Modell eines zufaelligen Experimentes istder Wahrscheinlichkeitsraum
(Ω,B, P )
wobeiω ∈ Ω ein Elementarereignis ist (sample point)B ⊂ B ein zusammengestelltes Ereignis ist (random events)P (B) die Wahrscheinlichkeit des Ereignisses ist
Anwendungen mit SAS. Denise Rey.
10
Wahrscheinlichkeit, Zufaellige Variable
Definition 3 Die WahrscheinlichkeitSei (Ω,B, P ) ein Wahrscheinlichkeitsraum. Die Wahrscheinlichkeitist eine Funktion P : B→ [0,1] so dass1. P (Ω) = 12. Fuer jede disjunkte Reihe A1, A2, . . . haben wirP (⋃iAi) =
∑i P (Ai)
Definition 4 Bedingte WahrscheinlichkeitFuer zwei Untermengen im Stichprobenraum A,B ⊂ Ω ist dieWahrscheinlichkeit von A, gegeben B:
P (A|B) =P (A ∩B)
P (B)(4)
Definition 5 UnabhaengigkeitZwei Ereignisse A und B heissen unabhaengig falls
P (A|B) = P (A)⇔ P (A ∩B) = P (A)P (B) (5)
11
Mathematica Demos
Anwendungen mit SAS. Denise Rey.
12
Wahrscheinlichkeit, Zufaellige Variable
Definition 6 ZufallsvariableEine Zufallsvariable X ist eine messbare Funktion von einemWahrscheinlichkeitsraum in einen Messraum.
X : (Ω,B, P )→ (Ω′,B′).
Eine reele Zufallsvariable ist eine messbare Funktion
X : Ω 3 ω → X(ω) ∈ Rund
X−1((∞, x]) ∈ B, ∀x ∈ R.
Definition 7 VerteilungsfunktionEine reele Zufallsvariable X ist durch die Verteilungsfunktiondefiniert F : R→ [0,1] FX(x) = P (ω|X(ω) ≤ x), x ∈ R.
Anwendungen mit SAS. Denise Rey.
13
Wahrscheinlichkeit, Zufaellige Variable
Definition 8 Stetige ZufallsvariableEine (reele) Zufallsvariable X heisst (absolut) stetige Zufallsvari-able wenn es eine nichtnegative Dichtefunktion f ≥ 0 gibt so dass
FX(x) =∫ x−∞
fX(t)dt,∫ ∞−∞
fX(x)dx = 1
Definition 9 Diskrete ZufallsvariableEine diskrete Zufallsvariable X kann nur eindliche oder zaehlbareAnzahl an Auspraegungen haben x1, x2, . . . ∈ R (oder Rd) miteiner positiven Wahrscheinlichkeit und die Verteilungsfunktionist definiert folgendeweise
pi := P (X = xi),∑i
pi = 1.
Anwendungen mit SAS. Denise Rey.
14
Bekannte Verteilungen
Bekannte stetige Verteilungen
Name Notation f(x) x ∈ Param.Uniform U(α, β) 1
β−α [α, β] α < β
Normal N(µ, σ2) 1σ√
(2π)e−1
2
(x−µσ
)2
R σ > 0, µ ∈ R
Exponential Exp(λ) λe−λx R+ λ > 0
Anwendungen mit SAS. Denise Rey.
15
Bekannte Verteilungen
Bekannte diskrete Verteilungen
Name Notation P(X=x) x ∈ Param.Bernoulli Be(p) px(1− p)1−x 0,1 0 ≤ p ≤ 1
Binomial Bi(n, p)(nx
)px(1− p)n−x 0,1, . . . , n 0 ≤ p ≤ 1, n ∈ N
Poisson Po(λ) e−λλx
x N λ > 0Geometric Ge(p) p(1− p)x−1 1,2, . . . 0 ≤ p ≤ 1
Anwendungen mit SAS. Denise Rey.
16
Bekannte Verteilungen
Wie beschreiben wir Daten?
Lagemasse: Mittelwert, Median, Quantile.
Streuungsmasse: Varianz, Standardabweichung, Range, Interquar-
tile Range, Variationskoeffizient.
Form: Schiefe, Woelbung.
Chebyshev’s Law
Wenigstens 1−(1/k2) der Beobachtungen einer Stichprobe befinden
sich innerhalb k Standardabweichungen s Entfernung vom Stich-
probenmittelwert x.
Anwendungen mit SAS. Denise Rey.
17
Bekannte Verteilungen
Erwartung und Varianzen fuer bekannte Verteilungen
Vert. E[X] V ar[X]Be(p) p p(1− p)Bi(n, p) np np(1− p)Po(λ) λ λ
Ge(p) 1/p (1− p)/p2
U(α, β) (α+ β)/2 (β − α)2/12Exp(λ) 1/λ 1/λ2
No(µ, σ2) µ σ2
Anwendungen mit SAS. Denise Rey.
18
Pseudo Zufallszahlen
Muenzen, Wuerfel, mechanische und elektronische Geraete erzeu-gen reine zufaellige Ergebnisse. Diese sind nicht optimal aus denGruenden
a. Zu langsamb. Keine Reproduzierbarkeit der Beobachtungen moeglichc. Unabhaengigkeit wurde in den Beobachtungen bemerkt
Die Zufallszahlen erzeugt von dem Computer basieren auf de-terministische Algorithmen und heissen deswegen Pseudo Zu-fallszahlen. Nichtsdestotrotz, die Pseudo Zufallszahlen besitzendie statistische Eigenschaften von reinen zufaelligen Zahlen (z.B.Komplexitaet oder Stabilitaet der relativen Haeufigkeiten von 0und 1 in einem binaeren String).
Anwendungen mit SAS. Denise Rey.
19
Pseudo Zufallszahlen
Definition 10 Der Lineare Congruentiale Zufallsgenerator
Xi+1 = a ∗Xi + c(mod m)
Bezeichnungen:
X0 Seed
a Multiplikator (multiplier)
c Inkrement
m Modulus.
Definition 11 Pseuo Zufallszahlen
Ui =Xim
In SAS: m = 231 − 1, a = 397204094.
Anwendungen mit SAS. Denise Rey.
20
SAS Simulation U(alpha,beta).sas
SAS Seed.sas
Anwendungen mit SAS. Denise Rey.
21
Simulation von Zufallsvariablen via Inverse Methode
Sei X eine Zufallsvariable mit der Verteilungsfunktion F . F als
nicht fallende Funktion hat die verallgemeinerte Inverse
F−1 : [0,1]→ R, F−1(y) = infx : F (x) ≥ y, 0 ≤ y ≤ 1.
Satz 12 Sei U ∼ (0,1). Dann X := F−1(U) hat die Verteilungs-
funktion F .
Beweis. F ist invertierbar und P (U ≤ u) = u. Dann
P (X ≤ x) = P (F−1(U) ≤ x) = P (U ≤ F (x)) = F (x).
Definition 13 Algorithm Inverse Methode
1. Generiere eine Zufallsvariable U ∼ U(0,1).
2. Erzeuge X = F−1(U).
Anwendungen mit SAS. Denise Rey.
22
Simulation von Zufallsvariablen via Inverse Methode
Beispiel. Exponential verteilte Zufallsvariable
X ∼ Exp(λ) mit der Dichtefunktion:
f(x) =
λe−λx x ≥ 00 Rest
Die Verteilungsfunktion ist dann:
F (x) = P (X ≤ x) =∫ x
0λe−λtdt = (−e−λt)
∣∣∣x0
= 1− e−λx.
Die Inverse der Verteilungsfunktion ist dann:
U = F (x) = 1− e−λx ⇒ e−λx = 1− U ⇒ X =−ln(1− U)
λ⇒
F−1(u) =−ln(1− U)
λ.
23
Simulation von Zufallsvariablen via Inverse Methode
Beispiel. Exponential verteilte Zufallsvariable
Satz 14 U ∼ U(0,1)⇒ 1− U ∼ U(0,1).
Beweis.
F (x) = P (1−U ≤ x) = P (U ≥ 1−x) = 1−P (U ≤ 1−x) = 1−1+x = x.
Algorithm Generierung Exponentialverteilung
1. Generiere U ∼ U(0,1).
2. Erzeuge X = −1λU ∼ Exp(λ).
Anwendungen mit SAS. Denise Rey.
24
Inverse Mehode Exponential.sas
SAS Simulation Exp(lambda).sas
Anwendungen mit SAS. Denise Rey.
25
Simulation von Zufallsvariablen via Inverse Methode
Beispiel. Bernoulli Verteilung
Sei X ∼ Be(p)
P (X = x) = px(1− p)1−x, x = 0,1
Algorithm Generierung Bernoulli
1. Generiere U ∼ U(0,1)
2. Falls U ≤ p dann X := 1, sonst X := 0.
Anwendungen mit SAS. Denise Rey.
26
Simulation von Zufallsvariablen via Inverse Methode
Beispiel. Binomial VerteilungSei X ∼ Bi(n, p).
P (X = x) =(nx
)px(1− p)1−x, x = 0,1, . . . , n.
Falls Xi ∼ Be(p), 1 ≤ i ≤ n i.i.d. dann X =∑ni=1Xi ∼ Bi(n, p).
Algorithm Generierung Binomial1. Generiere Xi ∼ Be(p), 1 ≤ i ≤ n.2. Erzeuge X =
∑ni=1Xi ∼ Bi(n, p).
Fuer n gross (in SAS falls n > 50) wird eine Approximationmit der Normalverteilung benutzt:
P (XBi(n,p) ≤ x)→ N(np, np(1− p)).
27
Inverse Methode Bernoulli & Binomial.sas
SAS Simulation Bernoulli & Discrete.sas
Anwendungen mit SAS. Denise Rey.
28
Simulation von Zufallsvariablen via
Annehmen-Verwerfen Methode
Zu benutzen wenn die Inverse der Verteilungsfunktion analytisch
schwer oder gar nicht zu erzeugen ist.
Sei F eine Verteilungsfunktion mit Dichte f . Wir nehmen an:
- f ist in [a, b] beschraenkt, c = supf(x) : x ∈ [a, b]- f(x) = 0, ∀x /∈ [a, b]
Algorithm
1. Generiere X ∼ U(a, b)
2. Generiere Y ∼ U(0, c) unabhaengig von X.
3. Falls Y ≤ f(X), dann Z := X. Sonst, gehe zu Schritt 1.
Anwendungen mit SAS. Denise Rey.
29
Simulation von Zufallsvariablen via
Annehmen-Verwerfen Methode
Verallgemeinertes Algorithm Annehmen-Verwerfen
Sei g eine Dichte so dass Φ(x) = Cg(x) die Dichtefunktion ma-
jorisiert i.e. Φ(x) ≥ f(x)∀x. g wird vorgeschlagene (proposal)
Dichte genannt.
1. Generiere X ∼ g(x).
2. Generiere U ∼ U(0,1) unabhaengig von X.
3. Falls U ≤ f(X)/(Cg(X)), dann Z := X. Sonst, gehe zu
Schritt 1.
Anwendungen mit SAS. Denise Rey.
30
Simulation von Zufallsvariablen via
Annehmen-Verwerfen Methode
Eigenschaften:
1. Mann soll von der Dichte g einfach Zufallsvariablen generieren
koennen.
2. Die Effizienz dieser Prozedur wird gemessen in 1/C. Die
Effizienz gross fuer C ≈ 1 (dies passiert wenn g(x) in der Naehe
von f(x) ist.
Anwendungen mit SAS. Denise Rey.
31
Simulation von Zufallsvariablen via
Annehmen-Verwerfen Methode
Beispiel. Die Target Dichte sei
f(x) =
2x, 0 ≤ x ≤ 10 otherwise
Wir nehmen g(x) = 1, 0 ≤ x ≤ 1 und C = 2.
Dann f(x)/Cg(x) = x.
Algorithm 1. Generiere X ∼ U(0,1)
2. Generiere U ∼ U(0,1) unabhaengig von X.
3. Falls U ≤ X dann erzeuge Z := X. Sonst, gehe zu Schritt 1.
Anwendungen mit SAS. Denise Rey.
32
Acceptance Region.sas
Anwendungen mit SAS. Denise Rey.
33
SAS Simulation N(mu,sigma).sas
SAS Simulation Po(lambda).sas
SAS Simulation Bivariate Normal.sas
Anwendungen mit SAS. Denise Rey.
34
Simulation von Poisson Prozessen
Definition 15 Der Stochastische Prozess
Unter einem stochastichen Prozess mit dem Parameterraum Tund dem Zustandsraum E versteht man eine Familie von Zu-fallsvariablen (Xt)t∈T wobei E die Menge aller Zustaende (Werte)bezeichnet die die Xt fuer alle t ∈ T annehmen koennte.
Aufteilung der stochastischen Prozesse:- T,E endlich oder abzaehlbar unendlich dann diskreter stochatischer Prozessmit diskreter Zeit- T endlich oder abzaehlbar unendlich und E Intervall dann stetiger Prozessmit diskreter Zeit- T Intervall und E endlich oder abzaehlbar unendlich dann diskreter Prozessmit stetiger Zeit- T,E Intervalle dann stetiger stochastischer Prozess mit stetiger Zeit.
Anwendungen mit SAS. Denise Rey.
35
Simulation von Poisson Prozessen
Der Poisson Prozess
Seien T1, T2, . . ., Ti ∈ [0, T ] Zeitpunkte des Eintreffens (arrivaltimes). Ein Zaehlprozess ist definiert durch Nt := supk : Tk ≤ tdie Anzahl der Treffer im Zeitintervall [0, t].
Definition 16 Homogener Poisson ProzessEin Zaehlprozess (Nt)t≥0 heisst Poisson Prozess mit der Intensi-taet λ > 0 falls1. N(0) = 02. (Nt)t≥0 ist ein stochastischer Prozess mit unabhaengigenZuwaechsen3. Die Zuwaechse des Prozesses in einem Intervall [s, t] genuegeneiner Poissonverteilung Po(λ(t− s)).
Anwendungen mit SAS. Denise Rey.
36
Simulation von Poisson Prozessen
Beispiele von Poisson Prozessen:
1. Anzahl der Kunden, die je Tag einen bestimmten Dienstleis-
tungsbettrieb aufsuchen
2. Anzahl der Pflanzen die sich in einem fixierten Areal befinden
3. Anzahl von Partikeln die je Zeiteinheit durch eine radioaktive
Substanz emittiert werden
Anwendungen mit SAS. Denise Rey.
37
Simulation von Poisson Prozessen
Eigenschaften1. λ ist die Rate des Eintreffens: Nt ∼ Po(λt)⇒ E[Nt] = λt.2. P (Nt ≥ n) = P (Tn ≤ t)3. Alternative Definition: Ein Poisson Prozesses Nt mit Inten-sitaet λ ist gegeben wenn und nur wenn die Intervalle A1 = T1,A2 = T2−T1 unabhaengige und Exp(λ) verteilte Zufallsvariablensind.
Algorithm zur Simulation von einem Poisson Prozess indem Intervall [0, T ]1. Setze T0 = 0, n = 1.2. Generiere eine unabhaengige Zufallsvariable Un ∼ U(0,1)3. Setze Tn = Tn−1 − 1
λ log(Un) und definiere ein Eintreffen.4. Falls Tn > T dann Stop. Sonst, setze n := n+ 1 und gehe zuSchritt 2.
38
Poisson Process.sas
Anwendungen mit SAS. Denise Rey.
39
Simulation von Markov Ketten
Definition 17 Markov Process
Ein stochastischer Prozess X0, X1, . . . mit diskreter Zeit und
mit dem Zustandsraum Z : 0,±1,±2, . . .heisst Markovsche Kette
mit diskreter Zeit falls die Markov Eigenschaft eingehalten wird
⇔ ∀n ∈ N∗ und ∀ i0, i1, . . . , in mit ik ∈ Z gilt folgende Beziehung:
P (Xn+1 = in+1|Xn = in, . . . , X1 = i1, X0 = i0) = P (Xn+1 = in+1|Xn = in).
Anwendungen mit SAS. Denise Rey.
40
Simulation von Markov Ketten
Definition 18 Uebergangswahrscheinlichkeiten
pi,j(n) := P (Xn+1 = j|Xn = i)
Definition 19 Homogene Markov Kette
pi,j(n) = p(i, j), ∀n = 0,1,2, . . .
Definition 20 Anfangsverteilung einer Markov Kette
π(0) := P (X0 = i), i ∈ Z
Bei gegebener Anfangsverteilung π(0) und bekannter Matrix derUebergangswahrscheinlichkeiten P = p(i, j)i,j∈Z ist die MarkovscheKette vollstaending bestimmt. Es lassen sich alle n-dimensionalenVerteilungen berechnen:
P (X0 = i0, X1 = i1, . . . , Xn = in) = π(0)i0· p(i0, i1) · · · p(in−1, in).
41
Simulation von Markov Ketten
Gegeben eine Anfangsverteilung π(0) und eine Uebergangswahrschein-
lichkeitsmatrix P gilt der Algorithmus fuer die Simulation von
einer Markov Kette X0, X1, . . .:
Algorithm Simulation Markov Ketten
1. Simuliere X0 ∼ π(0). Setze n = 0.
2. Simuliere Xt+1 anhand der Verteilung der entsprechenden
xt = it Reihe der Matrix P , p(itj), j ∈ Z3. Setze t = t+ 1 und gehe zu Schritt 2.
Anwendungen mit SAS. Denise Rey.
42
Simulation von Markov Ketten
Simulation Random Walk
(Xt)t∈N, Xt ∈ Z.
p(i, i+ 1) = p p(i, i− 1)) = q = 1− p, ∀i ∈ ZP (X0 = 0) = 1⇒ π0.
Algorithm
1. Sei X0 = 0, n = 0
2. Sei It ∼ Be(p). Dann die Markov Kette ist erzeugt durch
Xt+1 = Xt + 2 ∗ It − 2, t ∈ Z∗.
Anwendungen mit SAS. Denise Rey.
43
Markov Random Walk Process.sas
Anwendungen mit SAS. Denise Rey.
44
Weitere wichtige Themen im Bereich Simulationen:
- Zufallsvektoren mit einer gegebenen Kovarianzstruktur
- Simulation und Optimierung
- Markov Chain Monte Carlo (MCMC)
Anwendungen mit SAS. Denise Rey.
45
Einsatzbereiche von Simulationen:
- Computersimulationen, Computerspiele
- Traffic Systems
- Produktionslinien
- Wettersimulationen
- Katastrophensimulationen
Anwendungen mit SAS. Denise Rey.
46
Literatur
1. Introductory Statistics and Random Phenomena. Manfred
Denker et al. Birkhaeuser Boston. (1998)
2. Simulation and the Monte Carlo Method. Reuven Y. Rubin-
stein et al. Wiley Series in Probability and statistics. (2008)
3. Mathematica www.wolfram.com
Anwendungen mit SAS. Denise Rey.
47