4 modellierung und prognose mit arma, arima und sa- · pdf file4 modellierung und prognose mit...
TRANSCRIPT
4 Modellierung und Prognose
mit ARMA, ARIMA und SA-
RIMA Modellen
Ein Problem von großer praktischer Bedeutung ist
naturlich die Schatzung der unbekannten Parameter
eines ARMA(p, q) Prozesses (mit Mittelwert µ)
Xt − µ− ϕ1(Xt−1 − µ)− · · · − ϕp(Xt−p − µ)
= ϵt + θ1ϵt−1 + · · ·+ θqϵt−q
mit {ϵt} ∼ WN(0, σ2) aus einer gegebenen Zeitrei-
he X1, . . . , Xn der Lange n. In einem ersten Schritt
wird naturlich µ durch den empirischen Mittelwert X
ersetzt.
• In den nachfolgenden Abschnitten wird jeweils vor-
ausgesetzt, dass die dort behandelten Schatzme-
thoden auf die zentrierte, durch den Mittelwert
korrigierte Zeitreihe Xt = Xt−X angewandt wer-
den. X schatzt den wahren Mittelwert µ. Der Schatz-
fehler |X − µ| spielt fur die meisten Zwecke im
Vergleich zu anderen Ungenauigkeiten keine Rol-
le.
Zeitreihenanalyse@LS-Kneip 4–1
4.1 Kleinste-Quadrate Methoden
In der Literatur wurden zahlreiche z.B. auf Kleinste-
Quadrate Methoden basierende Algorithmen vorge-
schlagen, die es erlauben, auf relativ einfache Wei-
se approximative Losungen zu bestimmen. Bei rela-
tiv kurzen Zeitreihen liefern ML Verfahren (siehe Ab-
schnitt 4.2) i.a. bessere Schatzer als andere Methoden.
4.1.1 AR(p)-Modell
Sei {Xt} ein AR(p) Prozess. Fur den zentrierten Pro-
zess ergibt sich dann
Xt = ϕ1Xt−1 + · · ·+ ϕpXt−p + ϵt
mit ϵt ∼ WN(0, σ2). Eine Modellanpassung erfordert
die Schatzung der unbekannten Parameter ϕ1, . . . , ϕp.
Fur die Modelldiagnose, Parametertests und Konfi-
denzintervall ist es weiterhin unumganglich, auch die
Varianz σ2 der Zufallsschocks ϵt zu schatzen.
Kleinste-Quadrate Schatzer: Bestimme Schatzun-
gen ϕ1, . . . , ϕp der wahren Koeffizienten durch Mini-
mieren vonn∑
t=p+1
(Xt − Xt
)2
=
n∑t=p+1
(Xt − ϕ1Xt−1 − · · · − ϕpXt−p
)2
Zeitreihenanalyse@LS-Kneip 4–2
uber alle moglichen Werte von ϕ1, . . . , ϕp. Die resul-
tierenden Kleinste-Quadrate Schatzer ϕ1, . . . , ϕp wer-
den auch als ”Regressionsschatzer” von ϕ1, . . . , ϕp be-
zeichnet. Sie ergeben sich als Losung der Normal-
gleichungenn∑
t=p+1XtXt−1
...n∑
t=p+1XtXt−p
=
n∑
t=p+1X2
t−1 · · ·n∑
t=p+1Xt−1Xt−p
......
n∑t=p+1
Xt−pXt−1 . . .n∑
t=p+1X2
t−p
ϕ1
...
ϕp
Die Kleinste-Quadrate Schatzer sind fur großes n ap-
proximativ aquivalent zu den in Kapitel 3 vorgestell-
ten Yule-Walker Schatzern ϕ∗1, . . . , ϕ
∗p. Diese ergeben
sich als Losungen des Gleichungssystemsρ(1)
ρ(2)...
ρ(p)
=
1 ρ(1) . . . ρ(p− 1)
ρ(1) 1 . . . ρ(p− 2)...
......
ρ(p− 1) ρ(p− 2) . . . 1
ϕ∗1
ϕ∗2
...
ϕ∗p
Zeitreihenanalyse@LS-Kneip 4–3
Dieses Gleichungssystem lasst sich auch in der Formγ(1)
γ(2)...
γ(p)
=
γ(0) γ(1) . . . γ(p− 1)
γ(1) γ(0) . . . γ(p− 2)...
......
γ(p− 1) γ(p− 2) . . . γ(0)
ϕ∗1
ϕ∗2
...
ϕ∗p
schreiben. Fur große n und 0 ≤ h, j ≤ p gilt dann
1n
n∑t=p+1
Xt−hXt−j ≈ 1n
n−|h−j|∑t=1
XtXt+|h−j| = γ(h− l),
und die Normalgleichungen entsprechen (approxima-
tiv) den Yule-Walker Gleichungen.
Es lasst sich weiterhin zeigen, dass die Yule-Walker
Schatzer ebenso wie die Kleinste-Quadrate Schatzer
asymptotisch aquivalent zu den in Abschnitt 4.2 vor-
gestellten Maximum-Likelihood Schatzern fur die Pa-
rameter ϕj sind.
Schatzer fur σ2: Es gilt
γ(0) = E((Xt)2)
= ϕ1E(XtXt−1) + · · ·+ ϕpE(XtXt−p) + E(Xtϵt)
= ϕ1γ(1) + · · ·+ ϕpγ(p) + σ2
⇒ σ2 = γ0 − ϕ1γ(1)− · · · − ϕpγ(p)
Zeitreihenanalyse@LS-Kneip 4–4
Ersetzt man γ durch die empirische Autokovarianz-
funktion, erhalt man den Schatzer
σ2 = γ0 − ϕ1γ(1)− · · · − ϕpγ(p)
4.1.2 ARMA(p, q)-Modell
Sei {Xt} ein AR(p) Prozess. Fur den zentrierten Pro-
zess ergibt sich dann
Xt − ϕ1Xt−1 − · · · − ϕpXt−p
= ϵt + θ1ϵt−1 + · · ·+ θqϵt−q
Die Hauptschwierigkeit bei der Behandlung dieser Mo-
delle besteht in der Tatsache, dass die Werte ϵt, ϵt−1, . . .
nicht beobachtbar sind. Man beachte jedoch, dass
ϵt = Xt −p∑
s=1
ϕsXt−s −q∑
s=1
θsϵt−s︸ ︷︷ ︸Xwahr,t
,
wobei sich Xwahr,t aus vergangenenWerten Xt−1, Xt−2, . . .
und ϵt−1, ϵt−2, . . . der Zeitreihe und der Innovationen
berechnen lasst.
Die allgemeine Idee der verschiedenen Kleinste-Qua-
drate Methoden zur Schatzung der Parameter ϕj , θk
Zeitreihenanalyse@LS-Kneip 4–5
von ARMA(p.q) Modellen lasst sich nun folgenderma-
ßen beschreiben:
• Die unbekannten Zufallsschocks ϵt werden durch
Schatzwerte (Residuen)
ϵt = Xt − Xt
ersetzt, wobei Xt eine Prognose von Xt aus den
Zeireihenwerten in vorangegangenen Perioden t−1, t− 2, . . . ist.
• Schatzungen ϕj und θk werden durch minimieren
von∑t
(Xt − Xt
)2=∑t
(Xt −
p∑s=1
ϕsXt−s −q∑
s=1
θsϵt−s
)2
bestimmt.
Die einzelnen Verfahren unterscheiden sich imWesent-
lichen nur durch die Art und Weise der Berechnung
von ϵt. Man beachte, dass die Werte von Xt ≡ Xt(ϕ, θ)
bzw. ϵt = Xt − Xt(ϕ, θ) selbst wiederum von den je-
weiligen Parameterwerten abhangen. Im Allgemeinen
erhalt man daher ein nichtlineares Minimierungspro-
blem, das sich nur iterativ losen lasst.
Zeitreihenanalyse@LS-Kneip 4–6
Der bedingte Kleinste-Quadrate Ansatz. Man
setzt Xt = 0 fur t ≤ 1 und
ϵ1 = X1 − X1 = X1
ϵ2 = X2 − ϕ1X1 − θ1ϵ1︸ ︷︷ ︸X2
...
ϵt = Xt −p∑
s=1
ϕsXt−s −q∑
s=1
θsϵt−s︸ ︷︷ ︸Xt
Das unbedingte Kleinste Quadrate Verfahren fuhrt
auf Schatzer, die asymptotisch mit den Maximum-
Likelihood Schatzern ubereinstimmen (siehe 4.2).
Der Hannen-Rissanen Algorithmus: Zur Bestim-
mung der Xt ϵt wird ein AR(m) Modell mit m >
max{p, q} an die Daten angpasst⇒Yule-Walker Schatzer
ϕ1, . . . , ϕm der zugehorigen Parameter. Die resultie-
renden Residuen
ϵt = Xt − Xt = Xt −m∑s=1
ϕsXt−s
dienen sodann als Schatzungen der Zufallsschocks.
Zeitreihenanalyse@LS-Kneip 4–7
4.2 Maximum-Likelihood
Der Maximum-Likelihood Ansatz beruht auf der Zu-
satzannahme, dass {Xt} ein streng stationarer Gauß-
prozess ist. Die Zufallsvaraiblen X1, . . . , Xn sind dann
multivariat normalverteilt.
Anmerkung:Die Grundidee der Maximum-Likelihood
Schatzung lasst sich folgendermaßen darstellen (De-
tails siehe Abschnitt 4.10.3):
• Aufstellen einer ”Likelihoodfunktion” L(ϕ, θ, σ2)
in Abhangigkeit von den unbekannten Koeffizien-
ten ϕ = (ϕ1, . . . , ϕp), θ = (θ1, . . . , θq) und σ2 =
var(ϵt).
• Bei diskreten Zufallsvariablen quantifiziert die Li-
kelihoodfunktion die Wahrscheinlichkeit, dass ge-
rade die tatsachlich beobachtetenWerte x1, . . . , xn
auftreten, falls die wahre Werte der Koeffizienten
mit den jeweils betrachteten Werten ubereinstim-
men. Bei stetigen (z.B. normalverteilten) Vertei-
lung ist L(ϕ, θ, σ) gleich dem jeweiligen Wert der
Dichtefunktion.
• Die Maximum-Likelihood Schatzungen σ2, ϕ und
θ maximieren L(ϕ, θ, σ2) uber alle moglichen Wer-
te von σ2, ϕ, θ.
Zeitreihenanalyse@LS-Kneip 4–8
• Die Maximum-Likelihood Schatzung bestimmt da-
her diejenigen Koeffizienten, fur die die tatsachlich
beobachteten Daten x1, . . . , xn am ”plausiblesten”
sind (hochstmoglicheWahrscheinlichkeit bzw. großt-
moglicher Dichtewert).
Fur einen Gaußprozess lasst sich fur alle moglichen
Werte von σ2, ϕ, θ die zugehorige Likelihoodfunktion
aus den Formeln fur die Dichte der multivariaten Nor-
malverteilung berechnen (siehe Abschnitt 4.10.2).
Nach einigen (komplizierten!) Rechnungen kann man
zeigen, dass sich die Maximum-Likelihood Schatzung
folgendermaßen darstellen lassen:
Zeitreihenanalyse@LS-Kneip 4–9
ϕ = (ϕ1, . . . , ϕp), θ = (θ1, . . . , θq) minimieren
l(ϕ, θ) = ln(1
n
n∑t=1
(Xt − Xt)2
rt−1) +
1
n
n∑t=1
ln rt−1
bezuglich allen moglichen Werten von σ2, ϕ, θ und
σ2 =1
n
n∑t=1
(Xt − Xt)2
rt−1,
wobei
* Xt - bestmoglicher Prognosewert von Xt (in Abhangig-
keit von σ2, ϕ, θ) aus den vergangenen Werten der
Zeitreihe: Fur t ≥ max{p, q} gilt
Xt =
p∑s=1
ϕsXt−s +
q∑s=1
θt−1,s (Xt−s − Xt−s︸ ︷︷ ︸ϵt−s
)
* Die jeweiligen Werte von θt,s und rt ≡ rt(ϕ, θ, σ2)
ergeben sich fur t = 1, 2, . . . rekursiv aus dem so-
genannten Innovations-Algorithmus (die Formeln
sind in dem Buch von Brockwell und Davis zu
finden).
* Ist t merklich großer al max{p, q}, so gilt appro-
ximativ: θt,s = θs und rt = 1.
Zeitreihenanalyse@LS-Kneip 4–10
Anmerkung: Es gilt
−2 lnL(ϕ, θ, σ2) = l(ϕ, θ) (+Konstante)
Ein großes Problem der Maximum-Likelihood Schatzung
(ML) ist naturlich die praktische Berechnung der
Koeffizienten. Es gibt i.Allg. keine Moglichkeit, exak-
te Losungen in einer geschlossenen analytischen Form
darzutellen. In allen modernen statistischen Programm-
paketen sind jedoch Optimierungsverfahren (iterative
Algorithmen) implementiert, die es erlauben, die ML
Schatzungen numerisch zu berechnen.
Es existiert ein enger Zusammenhang zwischen den
im vorigen Abschnitt betrachteten Kleinste-Quadrate
Schatzern und dem Maximum-Likelihood Ansatz:
• Fur t ≫ max p, q gilt θt,s ≈ θs, rt ≈ 1 und daher
Xt ≈p∑
s=1
ϕsXt−s +
q∑s=1
θs (Xt−s − Xt−s︸ ︷︷ ︸ϵt−s
)
sowie 1n
∑nt=1 ln rt−1 → 0 fur n → ∞.
Fur eine lange Zeitreihe ist der Einfluss der An-
fangswerte vernachlassigbar, und Minimieren von
Zeitreihenanalyse@LS-Kneip 4–11
l(ϕ, θ) ist daher asymptotisch aquivalent zum Mi-
nimieren von
n∑t=1
(Xt − Xt)2
ML Schatzer und die genannten Kleinste-Quadrate
Schatzer stimmen daher asymptotisch (approxi-
mativ) uberein.
• Ein Unterschied besteht jedoch bei relativ kurzen
Zeitreihen (n klein im Vergleich zu p und q). ML
fuhrt auf diejenigen Parameterwerte, die auf der
Grundlage eines optimalen Prognose-Algorithmus
den kleinsten quadratischen Abstand zwischen Xt
und Xt liefern. Bei kurzen Zeitreihen liefert Maximum-
Likelihood i. Allg. genauere Schatzungen als ein-
fache Kleinste-Quadrate Methoden.
• Das Vorgehen des Maximum-Likelihood Ansatzes
ist auch dann sinnvoll, wenn {Xt} kein streng
stationarer Gaußprozess ist. Es lasst sich zeigen,
dass auch unter den meisten anderen Verteilungs-
annahmen die aus dem oben beschrieben ML Ver-
fahren resultierenden Schatzer asymptotsch effizi-
ent sind. Ausnahmen sind z.B. Verteilungen mit
”langen Enden” (→ Ausreißer!).
Zeitreihenanalyse@LS-Kneip 4–12
4.3 Inferenz
Die Eigenschaften von ML Schatzern fur ARMA Mo-
delle lassen sich aus der allgemeinen Theorie von
Maximum-Likelihood Schatzern ableiten. Es lasst
sich zeigen, dass fur einen Gaußprozess unter schwa-
chen Bedingungen folgendes gilt:
• Die ML Schatzer ϕj , θk von sind asymptotisch
effiziente Schatzer von ϕj , θk. Fur großes n gilt
fur einen beliebigen alternative Schatzer ϕ∗
E((ϕj − ϕj)2) ≤ E((ϕ∗
j − ϕj)
j = 1, . . . , p (analog fur θ)
• Die ML Schatzer ϕj , θk sind konsistente Schatzer
der unbekannten Parameter. Die Verteilung der
Schatzwerte ist asymptotisch normal. Fur großes
n gilt approximativ
ϕj ∼ Np(ϕj , v2j /n)
θk ∼ Nq(θk, v∗2j /n)
Die Werte v2j bzw. v∗2k in den Varianztermen v2j /n
bzw. v∗2k /n hangen selbst wiederum von den wah-
ren Werten der Koeffizienten ab. Einsetzen der
Zeitreihenanalyse@LS-Kneip 4–13
Schatzwerte erlaubt eine konsistente Approxima-
tion.
• In statistischen Programmpaketen wird zusatzlich
zu den Schatzwerten ϕj und θk auch Approxima-
tionen vj/√n und v∗k/
√n der zugehorigen Stan-
dardfehler angegeben.
• Von großer praktischer Bedeutung sind Tests der
Nullhypothesen H0 : ϕj = 0 bzw. H0 : θk =
0. Zum Testen wird jeweils die sogenannte ”t-
Statistik” verwandt:
t =ϕj
vj/√n
bzw t =θk
v∗k/√n
Unter H0 ist t asymptotisch N(0, 1) verteilt (ei-
nige Programmpakete benutzen auch Approxima-
tionen durch t-Verteilungen). Die Programmpake-
te berechnen sodann den zugehorigen p-Wert (”p-
value”, ”significance level”).
Interpretation:
– p-Wert< 0, 05 ⇒ Koeffizient signifikant; ein Test
zum Niveau α = 5% lehnt die Nullhypothese ab.
– p-Wert< 0, 01 ⇒ Koeffizient hochsignifikant; ein
Test zum Niveau α = 1% lehnt die Nullhypothese
ab.
Zeitreihenanalyse@LS-Kneip 4–14
• Bei ARMAModellen hoherer Dimension (p und/oder
q groß) kommt es haufig vor, dass einige Para-
meter ϕj und/oder θk nicht signifikant sind, und
daher fur die wahren Werte moglicherweise ϕj =
0 und/oder θk = 0 gilt. Zur Vereinfachung des
Modells werden solche nichtsignifikanten ”Lags”
haufig aus dem Modell entfernt. Das so reduzier-
te Modell wird dann neu an die Daten angepasst,
indem man l(ϕ, θ) unter den Nebenbedingungen
ϕj = 0, θk = 0 uber die verbleibenden Parameter
minimiert (”constrained Likelihood”).
• Bei der Elimination nichtsignifikanter Lags muss
sehr sorgfaltig vorgegangen werden. Die Elimina-
tion eines bestimmten Lags aus dem Modell kann
zu veranderten Schatzwerten und Signifikanzen bei
anderen Lags fuhren. Existieren mehrere nichtsi-
gnifikante Lags, so ist ein schrittweises Vorgehen
notwendig, bei dem die betreffenden Lags eines
nach dem anderen aus dem Modell entfernt wer-
den. In jedem Schritt sind die in Abschnitt 4.5
beschriebenen Diagnoseverfahren anzuwenden um
sicherzustellen, das das reduzierte Modell eine ge-
nauso gute oder bessere Modellanpassung liefert
wie das Originalmodell.
Zeitreihenanalyse@LS-Kneip 4–15
4.4 Prognoseverfahren
In Kapitel 3.5 wurde bereits ein ”optimales” Progno-
severfahren beschrieben, das jedoch die Kenntnis der
wahren Parameterwerte voraussetzt. In der Praxis wer-
den diese durch die geschatzten Parameterwerte ap-
proximiert. Zum Beispiel:
�
�
�
�
Ein-Schritt Prognose (h = 1) eines ARMA(p, q)-
Prozesses
Xn+1 =X + ϕ1Xn + . . . ϕpXn+1−p
+ θn,1(Xn − Xn) + · · ·+ θn,q(Xn−q − Xn−q)
”Geschatztes“ 95% Prognoseintervall:
[Xn+1 ± 1.96σ]
Der Schatzfehler bei der Berechnung von Pradiktions-
intervallen in erster Ordnung vernachlassigbar.
Zeitreihenanalyse@LS-Kneip 4–16
4.5 Modelldiagnose
Ein wichtiger Schritt bei der Anpassung eines Zeitrei-
henmodells ist die nachfolgende Modellvalidierung. In
der Praxis wird bei der Modellbildung oft so vorge-
gangen, dass zunachst aus der Struktur von ACF und
PACF eine Reihe von moglichen Modellen ausgwahlt
wird. Jeder dieser ”Modellkandidaten” wird dann mit
den besprochenen Techniken an die Daten angepasst
(Schatzung der Parameter). Mit Hilfe von Diagnose-
techniken wird sodann das am besten passende Modell
ausgwahlt.
Es gibt eine ganze Reihe verschiedener Diagnosetech-
niken, die in erster Linie auf die nach Elimination von
Trend und Saisonfigur erhaltene stationare Zeitreihe
abzielen. Eine oft angewandte Moglichkeit ist z.B. der
Vergleich der empirischen ACF und PACF mit den aus
dem Modell folgenden theoretischen Werten. Fur eine
sinnvolle Interpretation ist es wichtig, den Schatzfeh-
ler zu quantifizieren und auf die in Kapitel 3 bespro-
chenen Verfahren zur Konstruktion von Konfidenzin-
tervallen zuruckzugreifen.
Von noch großerer praktischer Bedeutung sind jedoch
Verfahren der Residualanalyse und die Verwendung
von Selektionskriterien wie Akaikes AIC.
Zeitreihenanalyse@LS-Kneip 4–17
4.5.1 Residualanalyse
Die Grundidee der Residualanalyse beruht auf der ein-
fachen Beobachtung, dass sichfur ein korrektesARMA(p, q)
Modell die Zeitreihe der Residuen
ϵt = Xt −p∑
s=1
ϕsXt−s −q∑
s=1
θsϵt−s︸ ︷︷ ︸Xwahr,t
als Weißes Rauschen darstellen lassen muss.
Da die wahren Residuen naturlich nicht bekannt sind,
stutzt man sich in der Praxis auf die geschatzten Re-
siduen
ϵt = Xt − Xt
wie sie auch bei der Schatzung benutzt werden.
Anmerkung: Um Residuen mit gleicher Varianz auch fur
kleines t zu erhalten, werden von manchmal die reskalier-
ten Residuen ϵt =ϵt
σr1/2t
vorgezogen.
Bei einem korrekt spezifizierten ARMA-Modell sollte
die Zeitreihe der {ϵt} (bzw. {ϵt} einer Realisie-
rung von Weißem Rauschen ahneln.
Zeitreihenanalyse@LS-Kneip 4–18
• In einem ersten Schritt der Residualanalyse wird
die jeweilige Struktur der Autokorrelationsfunk-
tion und der partiellen Autokorrelationsfunktion
uberpruft. Da die {ϵt} fur ein korrektes Modell ap-
proximativ Weißes Rauschen sind, sollten ungfahr
95% aller Werte von ρ(h) innerhalb der Schranken
±1.96/√n liegen.
• Eine weitere Uberprufung der Hypothese, dass die
{ϵt} approximativ Weißes Rauschen sind kann so-
dann mit Hilfe von Tests auf Weißes Rauschen
geschehen.
– Durbin-Watson Statistik
d =
∑n−1t=1 (ϵt+1 − ϵt)
2∑nt=1 ϵ
2t
Falls {ϵt} approximativ Weißes Rauschen, so
sollte der Wert von d nahe 2 sein. Die in Ka-
pitel 2 angegebene Verteilung unter der Null-
hypothese gilt jedoch nur fur die ”wahren” In-
novationen ϵt und ubertragt sich nicht auf die
Residuen ϵt. In der Praxis werden daher Signi-
fikanztests i.Allg. mit Hilfe des Durbin-Watson
h-Tests durchgefuhrt, der auf einer modifizier-
Zeitreihenanalyse@LS-Kneip 4–19
ten Teststatistik beruht
h = (1− 0, 5 · d)√
n
1− nv2
Unter H0 folgt d asymptotisch einer Standard-
normalverteilung.
– Ljung-Box-Test: Fur ein vorgegebenesH ba-
siert dieser Test auf der Statistik
Q = n(n+ 2)H∑
h=1
ρ(h)2
n− h
Fur großes n gilt q ∼ χ2H . Die Hypothese, dass
{ϵt} approximativ Weißes Rauschen ist, wird
abgelehnt, falls Q zu groß ist.
Es handelt sich hier um eine Modifikation des
in Kapitel 2 vorgestellten Portmanteau Tests.
– Es existieren weiterhin Verfahren, die auf dem
Ansatz beruhen, dass die geschatzten ρ(h) bei
Weißem Rauschen fur verschiedene Werte von
h voneinander unkorreliert sind, und daher ei-
ne genugend große Zahl von Vorzeichenwech-
seln aufweisen sollten (Turning points, Diffe-
rence Sign Test, etc.).
Zeitreihenanalyse@LS-Kneip 4–20
4.5.2 Gutekriterien
Es gibt eine Reihe von wichtigen Kriterien zur Beurtei-
lung der Modellanpassung. RATS verwendet folgende
Maßzahlen:
• Centered R2: R2 = 1−∑n
t=1(Xt−Xt)2∑n
t=1 X2t
• Adjusted R2: R2 = 1−∑n
t=1(Xt−Xt)2/(n−p−q−1)∑n
t=1 X2/(n−1)
• Uncentered R2: R2uncentered = 1−
∑nt=1(Xt−Xt)
2∑nt=1 X2
t
Es gilt 0 ≤ R2 ≤ 1. Falls R2 groß ist, z.B. R2 > 0, 8,
so folgt, dass sich die aus dem Modell berechneten
Prognosewerte Xt im Mittel uber alle Perioden nicht
sehr stark von den zentrierten Zeitreihenwerten Xt un-
terscheiden. Schlecht spezifizierte, inkorrekte ARMA
Modelle werden tendenziell einen eher niedrigen Wert
von R2 liefern.
Ein Grundproblem besteht naturlich in der Wahl der
Ordnungen p und q eines geeigneten ARMA(p, q)-
Modells. Fur diesen Zweck ist R2 keine geeignete Maß-
zahl, da eine Erhohung von p oder q notwendiger-
weise zu einem hoheren Wert von R2 fuhrt. Mehr
Information liefert hier der ”Adjusted R2”, der die
Zeitreihenanalyse@LS-Kneip 4–21
Anzahl der im Modell geschatzten Parameter beruck-
sichtigt.
In der Praxis werden jedoch spezifische Selektionskri-
terien wie Akaikes Informationskriterium (AIC) oder
das Schwartz-Kriterium (SBC) vorgezogen. Sie dienen
dazu, aus einer Reihe von ”Kandidatenmodellen” das
beste auszuwahlen.
• Die Grundidee der Parameterschatzung mit der
Maximum-Likelihood Methode ubertragt sich so-
fort auf den Vergleich verschiedener Modelle. Man
betrachtet den Wert der Likelihoodfunktion fur
die verschiedenen ”Kandidatenmodelle” und wahlt
tendenziell dasjenige aus, bei dem die Likelihood
so groß wie moglich wird. Haufig wird statt der
eigentlichen Likelihoodfunktion der resultierende
Wert von
−2 lnL(ϕ, θ, σ) = l(ϕ, θ) (+Konstante)
betrachtet mit ϕ = (ϕ1, . . . , ϕp)′, θ = (θ1, . . . , θq)
′.
Ein gutes Modell sollte dann auf einen moglichst
kleinen Wert fuhren.
• Beim Vergleich von Modellen ist jedoch eine zusatz-
liche Schwierigkeit zu beachten. Ein ARMA(p, q)
ist naturlich ein spezielles ARMA(p + 1, q + 1)
Zeitreihenanalyse@LS-Kneip 4–22
Modell mit ϕp+1 = θq+1 = 0. Selbst wenn das
ARMA(p, q) richtig ist, werden fur Maximum-
Likelihood Schatzungen zufallsbedingt i.Allg. πp+1 =0 bzw. θq+1 = 0 gelten, und notwendigerweise
−2 lnL(ϕ1, . . . , ϕp, ϕp+1, θ1, . . . , θq, θq+1, σ)
< −2 lnL(ϕ1, . . . , ϕp, θ1, . . . , θp, σ)
Die Selektionskriterien kompensieren diesen Ef-
fekt durch Einfuhrung eines”Strafterms“ der um-
so großer wird, je hoher die Ordnungen p bzw. q
des Prozesses sind. AIC und SBC unterscheiden
sich nur durch die Große des Strafterms.
AIC = −2 log
(L(Xn|ϕ, θ, σ)
)+ 2(p+ q + 1)
SBC = −2 log
(L(Xn|ϕ, θ, σ)
)+ (p+ q + 1) · lnn
Vergleicht man mehrere verschiedene Modelle, so wird
man tendenziell dasjenige auswahlen, das den klein-
sten AIC (SBC) Wert besitzt.
Zeitreihenanalyse@LS-Kneip 4–23
4.6 Beispiel: Australischer Rotwein
logged red wine data
1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 19916.00
6.25
6.50
6.75
7.00
7.25
7.50
7.75
8.00
logged red wine data, difference at lag 1
1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991-0.90
-0.72
-0.54
-0.36
-0.18
-0.00
0.18
0.36
0.54
logged red wine data, diff at lag1, sdifference at lag 1
1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991-0.50
-0.25
0.00
0.25
0.50
Zeitreihenanalyse@LS-Kneip 4–24
ACF, diff at lag=1
5 10 15 20 25 30 35-1.00
-0.75
-0.50
-0.25
0.00
0.25
0.50
0.75
1.00
ACF, diff at lag=1, sdiff at lag=1
5 10 15 20 25 30 35-1.00
-0.75
-0.50
-0.25
0.00
0.25
0.50
0.75
1.00
PACF, diff at lag=1, sdiff at lag=1
5 10 15-1.00
-0.75
-0.50
-0.25
0.00
0.25
0.50
0.75
1.00
Zeitreihenanalyse@LS-Kneip 4–25
Australischer Rotwein: Monatlich verkaufte Mengen
(in Kilolitern) von australischem Rotwein von Januar
1980 bis Oktober 1991. Wir betrachten die Zeitreihe
der logaritmierten Mengen.
Die Zeitreihe besitzt sowohl einen Trend als auch ei-
ne saisonale Komponente. Trend und Saison werden
durch Differenzenbildung eliminiert:
X∗t = ∆Xt = Xt −Xt−1
Yt = (1− L12)X∗t = X∗
t −X∗t−12
Es wird davon ausgegangen, dass die resultierenden
Zeitreihe Yt von Differenzen stationar ist und durch
ein geeignetes ARMA-Modell beschrieben werden kann.
Betrachtete ”Kandidatenmodelle”:
• MA(1): Yt = µ+ ϵt + θϵt−1
• MA(13): Yt = µ+ ϵt + θ1ϵt−1 + · · ·+ θ13ϵt−13
Zeitreihenanalyse@LS-Kneip 4–26
1) Schatzergebnisse fur ein MA(1)-Modell
Yt = µ+ ϵt + θϵt−1
Box-Jenkins - Estimation by Gauss-Newton
Convergence in 14 Iterations.
Final criterion was 0.0000042 < 0.0000100
Dependent Variable LOGX
Monthly Data From 1981:02 To 1991:10
Usable Observations 129 Degr. of Freedom 128
Centered R**2 0.843547 R Bar **2 0.843547
Uncentered R**2 0.999623 T x R**2 128.951
Mean of Dependent Variable 7.2739434755
Std Error of Dependent Variable 0.3588303010
Standard Error of Estimate 0.1419323284
Sum of Squared Residuals 2.5785325864
Durbin-Watson Statistic 1.731259
Q(32-1) 72.643285
Significance Level of Q 0.00003413
Variable Coeff Std Error T-Stat Signif
MA1 -0.7601 0.0579 -13.1329 0.00000
Zeitreihenanalyse@LS-Kneip 4–27
1) Schatzergebnisse fur ein MA(13)-Modell
Yt = µ+ ϵt + θ1ϵt−1 + · · ·+ θ13ϵt−13
Box-Jenkins - Estimation by Gauss-Newton
Convergence in 23 Iterations.
Final criterion was 0.0000094 < 0.0000100
Dependent Variable LOGX
Monthly Data From 1981:02 To 1991:10
Usable Observations 129 Degr. of Freedom 128
Centered R**2 0.909793 R Bar **2 0.900461
Uncentered R**2 0.999783 T x R**2 128.972
Mean of Dependent Variable 7.2739434755
Std Error of Dependent Variable 0.3588303010
Standard Error of Estimate 0.1132100098
Sum of Squared Residuals 1.4867147317
Durbin-Watson Statistic 1.891331
Q(32-1) 13.319504
Significance Level of Q 0.82182052
AIC 77.15738
SBC 114.33494
Zeitreihenanalyse@LS-Kneip 4–28
Variable Coeff Std Error T-Stat Signif
MA1 -0.7350 0.0824 -8.9178 0.0000
MA2 0.0390 0.0904 0.43122 0.6671
MA3 -0.1364 0.08978 -1.5194 0.1313
MA4 0.0396 0.0909 0.4362 0.6635
MA5 0.2038 0.0912 2.2359 0.0273
MA6 -0.3133 0.0916 -3.4207 0.0008
MA7 0.1147 0.0959 1.1957 0.2343
MA8 0.1858 0.0941 1.9739 0.0508
MA9 -0.1232 0.0941 -1.3104 0.1926
MA10 0.1018 0.0948 1.0744 0.2849
MA11 -0.1568 0.0951 -1.6475 0.1021
MA12 -0.6784 0.09612 -7.0541 0.0000
MA13 0.4943 0.0885 5.5872 0.0000
Schrittweise Eliminierung von nicht signifikanten θj
fuhrt auf das Modell
Yt = µ+ ϵt + θ1ϵt−1 + θ2ϵt−12 + θ3ϵt−13
Fur dieses Modell ergeben sich folgende Schatzergeb-
nisse:
Zeitreihenanalyse@LS-Kneip 4–29
Box-Jenkins - Estimation by Gauss-Newton
Convergence in 17 Iterations.
Final criterion was 0.0000069 < 0.0000100
Dependent Variable LOGX
Monthly Data From 1981:02 To 1991:10
Usable Observations 129 Degr. of Freedom 126
Centered R**2 0.895993 R Bar **2 0.894342
Uncentered R**2 0.999749 T x R**2 128.968
Mean of Dependent Variable 7.2739434755
Std Error of Dependent Variable 0.3588303010
Standard Error of Estimate 0.1166380547
Sum of Squared Residuals 1.7141589111
Durbin-Watson Statistic 1.899511
Q(32-1) 22.004764
Significance Level of Q 0.81999213
AIC 75.52101
SBC 84.10044
Variable Coeff Std Error T-Stat Signif
MA1 -0.7732 0.0575 -13.455 0.0000
MA12 -0.7314 0.0704 -10.3852 0.0000
MA13 0.5323 0.0839 0 6.3451 0.0000
Zeitreihenanalyse@LS-Kneip 4–30
ACF ma=1
5 10 15 20-1.00
-0.75
-0.50
-0.25
0.00
0.25
0.50
0.75
1.00
ACF ma=13(full) diff=1,sdiff=1
5 10 15 20-1.00
-0.75
-0.50
-0.25
0.00
0.25
0.50
0.75
1.00
PACF
5 10 15-1.00
-0.75
-0.50
-0.25
0.00
0.25
0.50
0.75
1.00
Zeitreihenanalyse@LS-Kneip 4–31
ACF, ma=1,12,13
5 10 15 20-1.00
-0.75
-0.50
-0.25
0.00
0.25
0.50
0.75
1.00
PACF
5 10 15-1.00
-0.75
-0.50
-0.25
0.00
0.25
0.50
0.75
1.00
Zeitreihenanalyse@LS-Kneip 4–32
4.7 ARIMA Modelle
ARMA Prozesse modellieren stationare Zeitreihe. Wie
jedoch schon in Kapitel 2 diskutiert, besitzen in der
Realitat viele Zeitreihen einen Trend. Die Grundidee
der Box-Jenkins Modellierungsphilosophie besteht in
der Trendelimination durch Differenzenbildung. Im Rah-
men dieses Ansatzes werden bei der Modellbildung so-
lange die jeweils sinnvollen Differenzenoperatoren an-
gewendet, bis der Output als stationar anzusehen ist.
Allgemein nennt man eine Zeireihe {Xt} ”integriert
von der Ordnung d”, wenn seine d-fachen Differen-
zen ∆dXt = (1 − L)dXt ein stationarer Prozess sind.
Man schreibt Xt ∼ I(d).�
�
Definition: Sei d ≥ 0. Eine Zeitreihe Xt ∼ I(d)
wird als ARIMA(p, d, q) Prozess bezeichnet (Auto-
regressive Integrated Moving Average Prozess), falls
Yt := (1− L)dXt
ein kausaler ARMA(p, q) Prozess (mit Mittelwert
µY ) ist.
Falls µY = 0, lasst sich ein ARIMA(p, d, q) Prozess
abgekurzt in folgender Form darstellen:
ϕ(L)(1− L)dXt = θ(L)ϵt, ϵt ∼ WN(0, σ2)
Zeitreihenanalyse@LS-Kneip 4–33
Beispiele:
• Der in Kapitel 2 eingefuhrte Random Walk
Xt = Xt−1 + ϵt
ist ein ARIMA(0, 1, 0) Prozess.
• Ein Beispiel fur einen ARIMA(0, 1, 1) Prozess ist
das lineare Trendmodell
Xt = β0 + β1t+ ϵt
Einfache Differenzenbildung fuhrt auf das (nicht
invertierbare!)MA(1) Modell (mit Mittelwert β1 =
µY )
Yt = (1− L)Xt = β1 + ϵt − ϵt−1
(1−L)2Xt liefert ein (nicht invertierbares)MA(2)
Modell mit Mittelwert 0. Xt lasst sich also auch
als ARIMA(0, 2, 2) Modell schreiben
• Ein lineares Trendmodell der Form
Xt = β0 + β1t+ ϵt + θϵt−1
lasst sich als ARIMA(0, 1, 2) Modell auffassen,
denn nach Differenzenbildung erhalt man dasMA(2)
Modell
Yt = (1− L)Xt = β1 + ϵt + (θ − 1)ϵt−1 − θϵt−2
Zeitreihenanalyse@LS-Kneip 4–34
Behandlung von ARIMA Modellen
• Differenzenbildung und Berechnung von
Yt = (1− L)dXt
• Anpassung eines geeigneten ARMA Modells
an die Zeitreihe {Yt}. Dies beinhaltet Parame-
terschatzung, Modelldiagnose und Modellselekti-
on.
• Die Prognose zukunftiger Werte Yn+1, Yn+2, . . .
erfolgt auf der Grundlage der in den Abschnitten
3.5 und 4.4 vorgestellten Prognoseverfahren.
• Eine Prognose zukunftiger Werte Xn+1, Xn+2, . . .
der Originalzeitreihe erfolgt uber eine Umkeh-
rung der Differenzenbildung. Ist d = 1, so gilt
Xt+1 = Yt+1 +Xt fur jede Periode t. Allgemein:
Xt+1 = Yt+1 −d∑
j=1
d
j
(−1)jXt+1−j
⇒ Ein-Schritt Prognose
Xn+1 = Yn+1 −d∑
j=1
d
j
(−1)jXn+1−j
Prognoseintervalle errechnen sich aus den Progno-
seintervallen fur Yn+1.
Zeitreihenanalyse@LS-Kneip 4–35
4.8 SARIMA Modelle
SARIMA Modelle beinhalten einen Differenzenfilter,
der auf Elimination der Saisonfigur abzielt. Man be-
trachtet also Zeitreihen, die zusatzlich zu einem even-
tuellen Trend eine Saisonfigur der Periodizitat s be-
sitzen (z.B. s = 4 bei Quartalsdaten, s = 12 fur mo-
natliche Daten).�
�
�
�
Definition: Eine Zeitreihe {Xt} wird als
SARIMA(p, d, q) × (P,D,Q)s Prozess (saisonaler
ARIMA Prozess mit Periode s) bezeichnet, falls
Yt = (1− L)d(1− Ls)DXt
ein kausaler ARMA Prozess (mit Mittelwert µY ) der
Form
ϕ(L)Φ(Ls)(Yt − µY ) = θ(L)Θ(Ls)ϵt,
ϵt ∼ WN(0, σ2), ist, wobei
ϕ(L) = 1− ϕ1L− · · · − ϕpLp
Φ(Ls) = 1− Φ1Ls − · · · − ΦPL
Ps
θ(L) = 1 + θ1L+ · · ·+ θqLq
Θ(Ls) = 1 + Θ1Ls + · · ·+ΘQL
Qs
Zeitreihenanalyse@LS-Kneip 4–36
In der Praxis ist D fast immer 1, P und Q sind in den
meisten Fallen sehr klein. Typischerweise ist s = 12
fur monatliche Daten, s = 4 fur Quartalsdaten, etc.
• Man betrachte eine Zeitreihe {Xt} von monatli-
chen Daten, die eine Saisonkomponente der Peri-
odizitat s = 12 aufweise. Saisonelimination durch
Differenzenbildung fuhrt auf
Yt = (1− L12)Xt = Xt −Xt−12
Wenn sich nun {Yt} als kausaler ARMA(p, q) Pro-
zess modellieren lasst, so ist {Xt} ein
SARIMA(p, 0, q)× (0, 1, 0)12 Prozess.
• In manchen Anwendungen reicht die Saisonelimi-
nation durch Differenzenbildung jedoch nicht aus,
um eine stationare Zeitreihe zu erhalten. Beispiels-
weise kann
Y ∗t = (1− L12)Xt = Xt −Xt−12
noch einen Trend besitzen. Man betrachtet dann
Yt = (1− L)(1− L12)Xt = Y ∗t − Y ∗
t−1
= Xt −Xt−1 −Xt−12 +Xt−13
Wenn nun {Yt} ein kausaler ARMA(p, q) Pro-
zess ist, so lasst sich die Originalzeitreihe {Xt}
Zeitreihenanalyse@LS-Kneip 4–37
als SARIMA(p, 1, q)×(0, 1, 0)12 Prozess beschrei-
ben.
Die Einfuhrung der”zusatzlichen“ Ordnungen P und
Q in der Definition eines SARIMA Modell ist dadurch
motiviert, dass in der Praxis die Lags t−s, t−2s, etc.,
haufig eine Sonderrolle einnehmen. Dies sieht man sehr
einfach bei der Betrachtung deterministischer Kompo-
nentenmodelle.
• Eine Zeitreihe von Quartalsdaten besitze eine kon-
stante Saisonfigur der Periodizitat s = 4 und lasse
sich durch das einfache Komponentenmodell
Xt = β0 + β1t+ St + ϵt
mit St+4 = St fur alle t, {ϵt} ∼ WN(0, σ2), be-
schreiben. Saisonelimination durch Differenzenbil-
dung fuhrt auf
Yt = (1− L4)Xt = 4β1 + ϵt − ϵt−4
{Yt} ist kausal (aber nicht invertierbar) und µY =
4β1.
Zeitreihenanalyse@LS-Kneip 4–38
– Yt lasst sich als spezieller MA(4) Prozess
Yt = µY + ϵt + θ1ϵt−1 + θ2ϵt−2 + θ3ϵt−3 + θ4ϵt−4
mit θ1 = θ2 = θ3 = 0 und θ4 = −1 auffassen. {Xt}ist folglich als SARIMA(0, 0, 4)×(0, 1, 0)4 Prozess
beschreibar.
Diese Modellierung von {Xt} ist jedoch”unokono-
misch“, da sie in keiner Weise berucksichtigt, dass
θ1 = θ2 = θ3 = 0.
– Eine sinnvollere Modellierung von {Xt} im Rah-
men des SARIMA Ansatzes besteht in einer Ber-
schreibung der Zeitreihe als
SARIMA(0, 0, 0)× (0, 1, 1)4 Prozess.
Mit Θ1 = −1 gilt
Yt − µY = ϵt +Θ1ϵt−4 = Θ(L4)ϵt
• Als weiteres Beispiel betrachte man
Xt = β0 + β1t+ St + ϵt + θϵt−1
{Xt} ist ein
SARIMA(0, 0, 1)× (0, 1, 1)4 Prozess.
mit Θ1 = −1 und θ1 = θ.
Zeitreihenanalyse@LS-Kneip 4–39
Behandlung von SARIMA Modellen
• Differenzenbildung und Berechnung von
Yt = (1− L)d(1− Ls)DXt
• Anpassung eines geeigneten ARMA Modells
an die Zeitreihe {Yt}. Dies beinhaltet Parame-
terschatzung, Modelldiagnose und Modellselekti-
on.
• Die Prognose zukunftiger Werte Yn+1, Yn+2, . . .
erfolgt auf der Grundlage der in den Abschnitten
3.5 und 4.4 vorgestellten Prognoseverfahren.
• Eine Prognose zukunftiger Werte Xn+1, Xn+2, . . .
der Originalzeitreihe erfolgt uber eine Umkeh-
rung der Differenzenbildung.
Zeitreihenanalyse@LS-Kneip 4–40
4.9 Tests auf Einheitswurzeln
(Unit-Root Tests)
In der Praxis ist es oft von großer Bedeutung zu ent-
scheiden, ob ein Prozesss stationar ist oder einen Trend
besitzt. Neben der Verwendung von Diagnosewerkzeu-
gen (wie ACF, PACF) gibt es Tests, die bei dieser
Entscheidung eine Hilfestellung geben konnen. Von
besonderer Bedeutung sind die Dickey-Fuller Tests.
Sie beruhen auf der Annahme eines autoregressiven
Prozesses und testen die Hypothese, dass der zugrun-
deliegenden Prozess eine Einheitswurzel (”uni-root”)
besitzt und daher nicht stationar ist.
Es gibt eine ganze Reihe von verschiedenen Dickey-
Fuller Tests, die sich in den jeweils zugrundeliegenden
Annahmen uber die stochastische Struktur der Zeitrei-
he unterscheiden. Fehlspezifikationen konnen zu ver-
zerrten Resultaten fuhren.
1) Einfacher AR(1)-Prozess (keine Konstante, kein
det. Trend)
Xt = ϕXt−1 + ϵt
t = 1, . . . , n. Die zu testende Nullhypothese lautet
H0 : ϕ = 1 d.h., Xt ist ein Random Walk
Zeitreihenanalyse@LS-Kneip 4–41
Mit einem statistischen Programmpaket (z.B: RATS)
lassen sich der Kleinste-Quadrate Schatzer ϕ und ei-
ne Approximation v des zugehorigen Standardfehlers
berechnen. Als Teststatistiken werden nun
t =ϕ
voder t∗ = n · ρ(1)
verwendent. Im ersten Fall spricht das RATS Manu-
al von der ”t-Test-Form”, im zweiten Fall von der
”Test-statistic” des Dickey-Fuller Tests.
Das Problem besteht nun darin, dass unter der Null-
hypothese H0 : ϕ = 1 die Verteilung von t eine soge-
nannte Dickey-Fuller Verteilung ist, die nicht durch ei-
ne Normalverteilung (bzw. t-Verteilung) approximiert
werden kann. Krtische Werte der Dickey-Fuller Ver-
teilung sind tabelliert; sie konnen jedoch auch mittels
Monte-Carlo Simulationen berechnet werden.
2) AR(1)-Prozess mit Konstante
Xt = δ + ϕXt−1 + ϵt
Man benutzt die gleichen Test wie bei einem einfachen
AR(1)-Prozess. Die Verteilung von t = ϕv unter der
Nullhypothese verandert sich jedoch durch die Einbe-
ziehung der Konstante δ.
Zeitreihenanalyse@LS-Kneip 4–42
3) AR(1)-Prozess, Konstante und deterministischer
Trend.
Xt = δ + ϕXt−1 + γt+ ϵt
Statistische Programmpakete (z.B. RATS) liefern Kleinste-
Quadrate Schatzer ϕ und γ und die zugehorigen Stan-
dardfehler vϕ und vγ .
Unter H0 : ϕ = 1 besitzt t = ϕ/vϕ wiederum ei-
ne Dickey-Fuller Verteilung (dies sich jedoch von den
Verteilungen fur einen einfachen AR(1)-Prozess ohne
bzw. mit Konstante unterscheidet).
Statistische Interpretation:
• Annahme von H0 : ϕ = 1 ⇒ stochastischer Trend
+ ev. deterministischer Trend.
• Ablehnung von H0 : ϕ = 1 ⇒ |ϕ| < 1 ⇒ kein
stochastischer Trend, aber eventuell ein determi-
nistischer Trend, falls sich γ signifikant von Null
unterscheidet (die Verteilung von t = γ/vγ lasst
sich asymptotisch (n groß) durch eine Normalver-
teilung (bzw. t-Verteilung) approximieren).
– Annahme von H0 : γ = 0: Zeitreihe Xt bereits
stationar
– Ablehnung von H0 : γ = 0: Existenz eines de-
terministischen Trends; Trendbereinigung durch
Zeitreihenanalyse@LS-Kneip 4–43
Regression und anschließenden Analyse der trend-
bereinigten Zeitreihe
4) Erweiterter Dickey-Fuller Test: Beim erweiterten
Dickey-Fuller Test wird die stochastische Struktur der
Zeitreihe durch einen AR(p)-Prozess, p > 1, model-
liert.
Beispiel: AR(2)
Xt = ϕ1Xt−1 + ϕ2Xt−2 + ϵt
oder ∆Xt = (ϕ1 − 1) Xt−1 + ϕ2Xt−2 +ϵt
=⇒ ∆Xt = (ϕ1 + ϕ2 − 1)︸ ︷︷ ︸π
Xt−1 − ϕ2∆Xt−1 + εt
Man kann zeigen dass die Existenz einer Einheits Wurzel
(Nicht-Stationaritat) aequivalent ist zu
H0 : π = ϕ1 + ϕ2 − 1 = 0
Man berechnet nun den Kleinste-Quadrate Schatzer π
und den zugehorigen Standardfehler vπ. Als Teststa-
tistik dient t = π/vπ. Unter H0 besitzt t eine Dickey-
Fuller Verteilung.
Verallgemeinerung: AR(p)-Prozess
∆Xt = π Xt−1 − ϕ2∆Xt−1 − · · · − ϕp∆Xt−p+1 + ϵt
Zeitreihenanalyse@LS-Kneip 4–44
mit π = ϕ1 + · · · + ϕp − 1. Als Teststatistik dient
wiederum t = π/vπ.
Naturlich kann auch beim erweiterten Dickey-Fuller
Test entsprechend dem in den Fallen 2) und 3) be-
sprochenen Vorgehen, dem Modell eine Konstante δ
bzw. ein deterministischer Trend hinzugefugt werden.
Allgemeines Vorgehen: Fuer Prozesse, die nicht AR(p)
sind, wahlt man p so hoch dass ϵt = Xt−ϕ1Xt−1−· · ·−ϕpXt−p eine gute Approximation an weisses Rauschen
ergibt (dies ist notwendige Annahme fuer die Gultig-
keit der asymptotischen Verteilung nach Dickey-Fuller).
Bei zu vielen Lags verliert der Test an Macht. Haufig
wird das AIC-Kriterium zur Bestimmung der Anzahl
der Lags benutzt.
Verteilung unter H0
Quantile der Verteilungen der Test-Statistiken unter
H0 findet man in Tafeln. Die folgende Tabelle stammt
aus Fuller, 1976, p. 373 und gilt fur die Statistik in
t-Test-Form. Fur weitere Tafeln siehe Tabelle B6 in
dem Buch von Hamilton.
Zeitreihenanalyse@LS-Kneip 4–45
no constant, constant, constant,
no trend no trend trend
n=25
n=50
n=100
n=250
n=500
n=∞
1% 5%
-2.66 -1.95
-2.62 -1.95
-2.60 -1.95
-2.58 -1.95
-2.58 -1.95
-2.58 -1.95
1% 5%
-3.75 -3.00
-3.58 -2.93
-3.51 -2.89
-3.46 -2.88
-3.44 -2.87
-3.43 –2.86
1% 5%
-4.83 -3.60
-4.15 -3.50
-4.04 -3.45
-3.99 -3.43
-3.98 -3.42
-3.96 -3.41
Wir gewinnen einen Eindruck der Verteilung durch
Monte Carlo Simulation (siehe unten). Dies haben wir
auf 1000 simulierten Random Walks der Laenge 100
durchgefuehrt. Die Verteilung wird aus den so erhalte-
nen 1000 t−Statistiken approximiert und stimmt gut
mit den von Dickey-Fuller bestimmten Quantilen ube-
rein .
-3.2 -2.4 -1.6 -0.8 -0.0 0.8 1.6 2.4
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
-3.6 -2.4 -1.2 0.0 1.2
0.0
0.1
0.2
0.3
0.4
0.5
t-test, H0, keine Konstante t-test, H0, Konstante
Zeitreihenanalyse@LS-Kneip 4–46
Die Verteilungen gelten approximativ auch im erwei-
terten Fall, d.h. bei Einbeziehung zusatzlicher Lags.
RATS liefert zur Berechnung verschiedener Tests auf
Einheitswurzeln das Programm dfunit.src. Dieses Pro-
gramm behandelt nur die Falle 2) Konstante, ohne
Trend und 3) Konstante + Trend.
**********************************************************************
*this program computes the distribution of the DICKEY-FULLER t-test
*by monte carlo simulation
*using t-statistics of the reg cof for the case of no constant
*and the RATS program dfunit.src for the case of a constant
*ku, mainz, dec.18th, 2003
***********************************************************************
end xxx
*source(noecho) ’C:\Program Files\Estima\WinRATS 5.02\dfunit.src’
source(noecho) D:\utikal\teach\Ws03\rats\arima\unit roots\dfmod1.prg
dec integer nsamp nsim
compute nsam = 100
compute nsim = 1000
allo 100
seed 123
Zeitreihenanalyse@LS-Kneip 4–47
*simulate random walk, compute reg.cof, and write into file
*repeat whithin a loop 1000 times.
do draw = 1,nsim
set x = %RAN(1)
set x 2 nsam = x{1}+%RAN(1)
diff x / difx
set difx = difx{-1}
linreg(noprint) difx
#x
disp %TSTATS
*compare with dfunit.src provided by RATS for the case of an included
constant,
*note: dfmod1 is dfunit, modified to suppress print
*and globalized the output variable ’tttest’ containing value of the t-test
@dfmod1(lags=0,ttest) x
disp tttest
end do draw
Zeitreihenanalyse@LS-Kneip 4–48
Anwendung: CPI
(”consumer price index”), USA, viertel jaehrlich, 1.
Quartal 1959 - 4. Quartal 2000 (168 Beobachtungen).
log cpi
1959 1963 1967 1971 1975 1979 1983 1987 1991 1995 19993.25
3.50
3.75
4.00
4.25
4.50
4.75
5.00
5.25
dif1log(cpi)
1959 1963 1967 1971 1975 1979 1983 1987 1991 1995 1999-0.005
0.000
0.005
0.010
0.015
0.020
0.025
0.030
0.035
0.040
Zeitreihenanalyse@LS-Kneip 4–49
dif2log(cpi)
1959 1963 1967 1971 1975 1979 1983 1987 1991 1995 1999-0.015
-0.010
-0.005
0.000
0.005
0.010
0.015
Dickey Fuller Test mit Konstante und Trend
zusatz lags log(cpi) dif1log(cpi) dif2log(cpi)
0 -0.49578 -3.71364 -16.35020
1 -1.29347 -2.93138 -14.42225
2 -1.64938 -2.07166 -7.89260
4 -1.74715 -2.47350 -6.06860
Resultat: Der CPI ist offensichtlich I(2).
Zeitreihenanalyse@LS-Kneip 4–50
4.10 Mathematisch statistischer
Anhang
4.10.1 Charakterisierung von
eindimensionalen Verteilungen
z.B.: Haushaltseinkommen in Deutschland, Renditen auf
dem amerikanischen Aktienmarkt, Korpergroße japanischer
Frauen, ...
Verteilungsfunktion F von X:
F (x) = P (X ≤ x) fur jedes x ∈ R
• diskrete Zufallsvariable: X nimmt nur abzahlbar
viele Werte x1, x2, x3, . . . an
Wahrscheinlichkeitsfunktion: P (X = xi) = f(xi)
F (x) =∑
xi≤x
fi
• stetige Zufallsvariable: Es existiert eine Dichte-
funktion f , so daß
F (x) =x∫
−∞f(x)dx
Zeitreihenanalyse@LS-Kneip 4–51
Wahrscheinlichkeitsdichte:f(x) � 0; Z +1�1 f(x)dx = 1:Verteilungsfunktion:F(x) monoton wachsendF(�1) = 0; F(+1) = 1:
Dichtefunktion
-3 -2 -1 0 1 2 3
x
0.2
0.4
0.6
0.8
1f(
x)
f(x)
bF(b)
Verteilungsfunktion
-3 -2 -1 0 1 2 3
x
00.
20.
40.
60.
81
F(x
)
F(x)
b
F(b)
Zeitreihenanalyse@LS-Kneip 4–52
Wichtige Parameter einer stetigen Z.v. X
• Mittelwert (Erwartungswert)
µ = E(X) =
∫ ∞
−∞xf(x)dx
• Varianz
σ2 = V ar(X) = E((X − µ)2
)= E(X2)− µ2
• Erwartungswert einer transformierten Zufallsva-
riablen X → g(X)
E(g(X)) =
∫ ∞
−∞g(x)f(x)dx
Schatzer auf der Grundlage einer einfachen Zu-
fallsstichprobe X1, . . . , Xn
• Mittelwert: X = 1n
∑ni=1 Xi
• Varianz: S2 = 1n−1
∑ni=1(Xi − X)2
Zeitreihenanalyse@LS-Kneip 4–53
Die Normalverteilung N(µ, σ2)
Viele statistische Verfahren basieren auf der Annah-
me, daß eine Z.v.X normalverteilt ist, d.h.X ∼ N(µ, σ2)
Wahrscheinlichkeitsdichte:
f(x) = 1σ√2πe−(x−µ)2/2σ2
fur −∞ < x < ∞, σ > 0
• E(X) = µ, V ar(X) = σ2
Standardisierte Normalverteilung N(0, 1)
• X ∼ N(µ, σ2) ⇒ Z = X−µσ ∼ N(0, 1)
• Standardisierte Dichtefunktion und Verteilungs-
funktion
ϕ(x) =1√2π
e−x2/2, Φ(z) =
∫ z
−∞ϕ(x)dx
• N(0, 1) ist tabelliert und
P (X ≤ x) = P (X − µ
σ≤ x− µ
σ) = P (Z ≤ x− µ
σ)
Zeitreihenanalyse@LS-Kneip 4–54
Dichtefunktion (Normalverteilung)
-3 -2 -1 0 1 2 3 4 5 6x
0.20.4
0.60.8
11.2
f(x)
N(0,1)
N(2,1/3)
N(2,1)
N(2,2)
Dichtefunktion (Standard-Normalverteilung N(0,1))
-4 -3 -2 -1 0 1 2 3 4x
00.1
0.20.3
0.4
f(x)
Verteilungsfunktion (Standard-Normalverteilung N(0,1))
-4 -3 -2 -1 0 1 2 3 4x
00.2
50.5
0.75
1
F(x)
Zeitreihenanalyse@LS-Kneip 4–55
4.10.2 Gaußprozesse und die multivariate
Normalverteilung
• Ein n-dimensionaler Zufallsvektor ist ein Spalten-
vektor X = (X1, . . . , Xn)T , dessen einzelne Ele-
mente alle Zufallsvariablen sind.
Diskrete Zufallsvariable: X nimmt nur abzahlbar
viele Werte x1, x2, · · · ∈ IRn an:
Wahrscheinlichkeitsfunktion:
f(x1, . . . , xn) = P (X1 = x1, . . . , Xn = xn)
Stetige Zufallsvariable: Die gemeinsame Verteilung von
X1, . . . , Xn wird beschrieben durch eine multivariate
Dichtefunktion: f(x1, . . . , xn)
Eigenschaften von Dichtefunktionen:
• f(x1, . . . , xn) ≥ 0
•∫∞−∞ . . .
∫∞−∞ f(x1, . . . , xn)dx1 . . . dxn = 1
•P (X ∈ [a1, b1]× · · · × [an, bn])
=∫ b1a1
. . .∫ bnan
f(x1, . . . , xn)dx1 . . . dxn
Zeitreihenanalyse@LS-Kneip 4–56
Unabhangigkeit:
Die Zufallsvariablen X1, . . . , Xn sind voneinander
unabhangig, wenn fur alle x = (x1, . . . , xn)T gilt
f(x1, . . . , xn) = f1(x1) · f2(x2) · . . . · fn(xn)
• Die obige Definition ist eine Formalisierung der
intuitiven Idee, dass X1, . . . , Xn unabhangig von-
einander sind, wenn sie sich gegenseitig nicht be-
einflussen. Kenntnis der Werte von Xi liefert kei-
nerlei Informationen uber Xj .
• Beispiel aus der Zeitreihenanalyse: {ϵt} ∼ IID(µ, σ2)
⇒ ϵ1, . . . , ϵn sind voneinander unabhangig
Zeitreihenanalyse@LS-Kneip 4–57
Dichte der zweidimensionalen Standardnormalvertei-
lung:X1 ∼ N(0, 1),X2 ∼ N(0, 1),X1 unabhangig von
X2
⇒ f(x1, x2) =1
2πe−x2
1/2e−x22/2
Zeitreihenanalyse@LS-Kneip 4–58
Die wichtigste multivariate Verteilung ist die soge-
nannte ”multivariate Normalverteilung”.
Ein Zufallsvektor X = (X1, . . . , Xn)T ist multivariat
normalverteilt, falls folgende Bedingungen erfullt sind:
• Jede einzelne Variable ist normalverteilt, Xi ∼N(µi, σ
2i ), i = 1, . . . , n
• Jede Linearkombination der Form Y = c1X1 +
c2X2 + · · · + cnXn = ist univariat normalverteilt
Y ∼ N(c1µ1+· · ·+cnµn,∑n
i=1
∑nj=1 cov(Xi, Xj))
Parameter der multivariaten Normalverteilung:
Mittelwerte, Varianzen und Kovarianzen der einzel-
nen Variablen.
Spezialfall: i.i.d. Gaußsches Weißes Rauschen: {Xt} ∼IID(µ, σ2) und Xt ∼ N(µ, σ2)
⇒ X = (X1, . . . , Xn)T multivariat normalverteilt mit
Dichtefunktion:
f(x1, x2, . . . , xn) = f1(x1)f2(x2) . . . fn(xn)
= (1√2πσ
)n exp(n∑
i=1
(xi − µ)2
2σ2)
f(x1, . . . , xn) ≡ f(x1, . . . , xn|µ, σ2) hangt nur von
den Werten von µ und σ2 ab (alle Kovarianzen = 0)
Zeitreihenanalyse@LS-Kneip 4–59
Im allgemeinen Fall werden alle Varianzen und Ko-
varianzen der einzelnen Variablen in der sogenannten
Kovarianzmatrix zusammengefasst:
Σ :=
var(X1) cov(X1, X2) · · · cov(X1,Xn)
cov(X2,X1) var(X2) · · · cov(X2,Xn)
· · ·
· · ·
· · ·
cov(Xn, X1) cov(Xn,X2) · · · var(Xn)
Dichtefunktion der multivariaten Normalverteilung:
f(x1, . . . , xn) =1
(2π)n/2|Σ|1/2exp(−1
2(x−µ)TΣ−1(x−µ))
mit x = (x1, . . . , xn)T und µ = (µ1, . . . , µn)
T
Wir schreiben dann kurz
X = (X1, . . . , Xn)T ∼ Nn(µ,Σ)
Zeitreihenanalyse@LS-Kneip 4–60
Zeitreihenanalyse: Der Gaußprozess�
�
�
�
Zeitreihenanalyse: Ein stochastischer Prozess
{Xt} heißt Normalprozess oder Gaußprozess,
wenn fur jede endliche Auswahl von Zeitpunk-
ten t1, t2, . . . , tn die entsprechenden n-dimensionalen
ZufallsvariablenXt1 , . . . , Xtn multivariat normalver-
teilt sind.
• Fur einen Gaußprozess sind strenge und schwache
Stationaritat aquivalent.
• Ist X1, . . . , Xn der beobachtete Abschnitt eines
stationaren Gaußprozesses, so gilt
X = (X1, . . . , Xn)T ∼ Nn(µ,Γn)
• Die Parameter dieser multivariaten Normalvertei-
lung sind der gemeinsame Mittelwert µ = E(X1) =
· · · = E(Xn) und die in der Matrix Γn zusammen-
gefassten Werte der Autovarianzfunktion:
Γn =
γ(0) γ(1) · · · γ(n− 1)
γ(1) γ(0) · · · γ(n− 2)...
......
γ(n− 1) γ(n− 2) · · · γ(0)
Zeitreihenanalyse@LS-Kneip 4–61
Bei der Analyse von ARMA-Prozessen {Xt} wird haufig
zusatzlich angenommen, dass die Zeitreihe ein Gauß-
Prozess ist.
• ARMA(p, q)-Prozess (mit Mittelwert µ):
Xt − µ =ϕ1(Xt−1 − µ) + · · ·+ ϕp(Xt−p − µ)
+ ϵt + θ1ϵt−1 + · · ·+ θqϵt−q
FallsX1, . . . , Xn multivariat normal sind, so erhalt
man die Dichtefunktion
f(x1, . . . , xn) =1
(2π)n/2|Γn|1/2exp(−1
2(x−µ)TΓ−1
n (x−µ))
• Die Elemente der Autokovarianzmatrix Γn (=
Werte von γ(h)) errechnen sich in Abhangigkeit
von µ, ϕ1, . . . , ϕp, θ1, . . . , θp und σ2. Die Struktur
der Dichtefunktion
f(x1, . . . , xn) = f(x1, . . . , xn|µ, ϕ, θ, σ2)
lasst sich daher aus den Koeffizienten des Prozes-
ses berechnen.
Zeitreihenanalyse@LS-Kneip 4–62
4.10.3 Maximum Likelihood-Schatzung
Beispiel: Eine Firma besitze einen relativ großen La-
gerbestand an Gluhbirnen. Um sich einen Eindruck
von dem Anteil defekter Gluhbirnen zu verschaffen,
wird eine Zufallsstichprobe von 5 Birnen gezogen. 3
davon sind defekt.
Statistisches Modell:
• ZufallsvariableX =
1 falls Gluhbirne defekt
0 sonst
X ∼ Bernoulli(p)
p = P [X = 1] - Anteil der defekten Gluhbirnen
• Einfache Zufallsstichprobe X1, . . . , X5. Die beob-
achteten Werte sind
x1 = 1, x2 = 0, x3 = 1, x4 = 1, x5 = 0
Problem: Schatzung des wahren Wertes von p?
Idee der Maximum Likelihood-Schatzung: Man
betrachtet allemoglichenWerte 0 ≤ p ≤ 1 und wahlt
dann denjenigen aus, der die beobachteten Daten am
besten erklart.
Zeitreihenanalyse@LS-Kneip 4–63
Die Wahrscheinlichkeit, genau die beobachtete Stich-
probe x1, . . . , x5 zu ziehen, hangt von p ab:
P [X1 = x1, X2 = x2, X3 = x3, X4 = x4, X5 = x5|p]
= P [X1 = x1] · P [X2 = x2] · P [X3 = x3]
· P [X4 = x4] · P [X5 = x5]
= p · (1− p) · p · p · (1− p)
= p3(1− p)2�
�
�
�
⇒ Fur alle p ∈ [0, 1]: Falls p der wahre Wert ist, so
gilt
L(p) = P [X1 = x1, . . . , X5 = x5|p] = p3(1− p)2
L(p) wird als”Likelihoodfunktion“ bezeichnet.
Fur alle 0 ≤ p ≤ 1 gibt L(p) also die Wahrscheinlich-
keit an, dass die beobachteten Werte x1, . . . , x5 auf-
treten, falls der betrachtete Wert p gleich dem wah-
ren Wert ist. Der Ansatz der Maximum Likelihood-
Schatzung besteht nun darin, denjenigen Wert aus-
zuwahlen fur den diese Wahrscheinlichkeit maximal
ist.
• p = 0⇒ L(p) = 0⇒ beobachtete Werte unmoglich!
Zeitreihenanalyse@LS-Kneip 4–64
• p = 0, 1 ⇒ L(p) = 0, 13 · 0, 92 = 0, 00081
• p = 0, 2 ⇒ L(p) = 0, 23 · 0, 82 = 0, 00512
0.0 0.2 0.4 0.6 0.8 1.0
p
0.00
0.01
0.02
0.03
0.04
L(p)
L(p) wird am Punkt p = 0.6 maximal ⇒ p = 0.6 ist
die”Maximum Likelihood-Schatzung“ des unbe-
kannten wahren Wertes von p.
p = 0.6 ist im Beispiel derjenige Wert von p ∈ [0, 1],
fur den die Wahrscheinlichkeit, dass gerade die beob-
achteten Werte x1, . . . , x5 auftreten, maximal ist.
Zeitreihenanalyse@LS-Kneip 4–65
Das Maximum Likelihood-Prinzip
Das obige Beispiel liefert eine Illustration des Maxi-
mum Likelihood-Prinzip zur Konstruktion einer Schatz-
funktion. Allgemein lasst sich dieses Prinzip folgender-
maßen darstellen:
Statistisches Modell:
• n Zufallsvariablen
X1, . . . , Xn Die gemeinsame Verteilung derXi hangt
von einem Parameter(vektor) ϑ ab, dessen wahrer
Wert unbekannt ist.
• beobachtete (realisierte) Werte: x1, . . . , xn
Problem: Schatze ϑ
�� ��1. Schritt: Berechnen der Likelihoodfunktion L(ϑ)
Die Likelihoodfunktion ergibt sich in Abhangigkeit von
allen prinzipiell moglichen Werten von ϑ. Sie quan-
tifiziert (bei diskreten Zufallsvariablen) die Wahrschein-
lichkeit, dass gerade die beobachtetenWerte x1, . . . , xn
auftreten, falls der wahreWert des Parameter(vektors)
mit dem betrachteten Wert ϑ ubereinstimmt.
Zeitreihenanalyse@LS-Kneip 4–66
• Diskrete Verteilung mit Wahrscheinlichkeitsfunk-
tion f(x1, . . . , xn) ≡ f(x1, . . . , xn|ϑ)
L(ϑ) ≡ L(x1, . . . , xn|ϑ) = P [X1 = x1, . . . , Xn = xn|ϑ]
= f(x1, . . . , xn|ϑ)
• Stetige Verteilung mit Dichtefunktion f
L(ϑ) ≡ L(x1, . . . , xn|ϑ) = f(x1, . . . , xn|ϑ)
�
�
�
�
2. Schritt: Maximieren von L(ϑ) bezuglich allen prin-
zipiell moglichen Werten ϑ liefert die”Maximum
Likelihood-Schatzung“ ϑ des wahren Parameter-
wertes,
L(ϑ) = maxϑ
L(ϑ)
Schatzwert: ϑ ⇔ argmaxϑ
L(x1, . . . , xn|ϑ)
Schatzfunktion: ϑ ⇔ argmaxϑ
L(X1, . . . , Xn|ϑ)
Zeitreihenanalyse@LS-Kneip 4–67
Illustration:Maximum Likelihood-Schatzung des Mit-
telwerts µ von i.i.d. Gaußschem Weißen Rauschen mit
bekannter Varianz σ2 = 1 (n = 20)
L(µ) = f(x1|µ) · · · f(x20|µ); f(x|µ) = 1√2π
exp(− (x−µ)2
2
)µ = 2 ⇒ Likelihood L(2) klein:
-2 -1 0 1 2 3 4
x
0.0
0.1
0.2
0.3
0.4
f(xi| 2)
µ = 1 ⇒ Likelihood L(1) > L(2)
-2 -1 0 1 2 3 4x
0.0
0.1
0.2
0.3
0.4
f(xi| 1)
Maximale Likelihood fur µ = x = −0.29 ⇒ µ = −0.29
-2 -1 0 1 2 3 4x
0.0
0.1
0.2
0.3
0.4
f(xi|-0.29)
Zeitreihenanalyse@LS-Kneip 4–68
Anwendung: Maximum Likelihood-Schatzung
eines Anteilswertes
• X1, . . . , Xn unabhangig und identisch verteilt;
Xi ∼ Bernoulli(p);
zu schatzen: wahrer Anteilswert p
• beobachtet: s =n∑
i=1
xi mal”1“ und n− s mal
”0“
• Damit ergibt sich
L(p) = P [X1 = x1] · · ·P [X2 = x2] . . . P [Xn = xn]
= ps(1− p)n−s
• Maximum-Likelihood: p maximiert L(p)
• Eine Losung des Maximierungsproblems ergibt sich
durch Ableiten und Nullsetzen:
∂L(p)
∂p= sps−1(1− p)n−s − ps(n− s)(1− p)n−s−1
⇒ 0 = sps−1(1− p)n−s − ps(n− s)(1− p)n−s−1
⇒ p =s
n=
∑ni=1 xi
n= x
• Berechnung der zweiten Ableitung: L(p) nimmt
an der Stelle p ein Maximum an.
⇒ p = X ist Maximum Likelihood-Schatzer des An-
teilswertes
Zeitreihenanalyse@LS-Kneip 4–69
Logarithmierte Likelihood
Vorgehen zur Bestimmung einer Maximum Likelihood-
Schatzung: Ableiten von L(ϑ) und anschließendes Null-
setzen.
Problem: Oft”unfreundliche“ Ausdrucke
Ausweg: Vereinfachung der Berechnungen durch Ver-
wendung der
”Log-Likelihoodfunktion“ lnL(ϑ)
• ϑ maximiert L(ϑ) ↔ ϑ maximiert lnL(ϑ)
Ansatz zur Berechnung von ϑ:
1. Differenzieren: l(ϑ) = ∂ lnL(ϑ)∂ϑ
2. Nullsetzen: ϑ Losung von l(ϑ) = 0
3. Verifikation, dass ϑ wirklich ein Maximum ist
Achtung: Ist ϑ = (ϑ1, . . . , ϑk)′ eine Parametervektor,
so beinhaltet dies die Berechnung aller k partiellen
Ableitungen und eine anschließende Losung des (evtl
nichtlinearen) Gleichungssystems l(ϑ) = 0.
Zeitreihenanalyse@LS-Kneip 4–70
Anwendung: Maximum Likelihood-Schat-zung des Mittelwerts von GaußschemWei-ßen Rauschen
• Sei {Xt} ∼ IID(µ, σ2) mit
Xt ∼ N(µ, σ2); σ2 bekannt
zu schatzen: wahrer Mittelwert µ
• n beobachtete Werte der Zeitreihe: x1, . . . , xn
• Likelihoodfunktion:
L(µ) = f(x1|µ) · · · f(xn|µ)
= (1√2πσ
)n exp(n∑
i=1
(xi − µ)2
2σ2)
• Log-Likelihoodfunktion:
lnL(µ) = n · ln 1√2πσ
+n∑
i=1
− (xi − µ)2
2σ2
• Ableitung nach µ:
l(µ) =∂ lnL(µ)
∂µ=
n∑i=1
− (xi − µ)
σ2
Zeitreihenanalyse@LS-Kneip 4–71
• Berechnung von µ:
0 = l(µ) =n∑
i=1
−xi − µ
σ2
⇒ 0 =
n∑i=1
(xi − µ) =
n∑i=1
xi − nµ
⇒ µ =
∑ni=1 xi
n= x
Anmerkung: Durch analoge Rechnungen ergibt sich
bei unbekannter Varianz
s2 =1
n
n∑i=1
(xi − x)2
als Maximum Likelihood-Schatzung von σ2
Zeitreihenanalyse@LS-Kneip 4–72
4.10.4 Schatzer und ihre Verteilungen
Sei X ∼ N(µ, σ2)
Einfache Zufallsstichprobe: X1, . . . , Xn
Dann gilt:
X ∼ N(µ,σ2
n)
⇒ Konfidenzintervall zum Niveau 1 − α fur µ bei
bekannten σ
µ ∈ [X ± z1−α/2σ√n]
z1−α/2 - 1 − α/2-Quantil der Standardnormalvertei-
lung; z0.975 = 1.96
√n(X − µ)
S∼ Tn−1
Tn−1 - Studentsche t-Verteilung mit n − 1 Freiheits-
graden
⇒ Konfidenzintervall fur µ bei unbekannter Vari-
anz
µ ∈ [X ± t1−α/2;n−1S√n]
Zeitreihenanalyse@LS-Kneip 4–73
(n− 1)S2
σ2∼ χ2
n−1
χ2n−1 - χ2 Verteilung mit n− 1 Freiheitsgraden
Zentraler Grenzwertsatz
Seien X1, . . . , Xn unabhangig und identisch verteilte
Zufallsvariablen mit E(Xi) = µ und V ar(Xi) = σ2 >
0.
• Die Folge von Zufallsvariablen
Zn =
∑ni=1 Xi − nµ√
nσ2=
√n
(X − µ
σ
)konvergiert mit steigendem n gegen die standar-
disierte Normalverteilung N(0, 1)
• Fur genugend großes n sind die Beziehungen X ∼N(µ, σ2
n ),√n(X−µ)
S ∼ Tn−1, (n − 1)S2
σ2 ∼ χ2n−1
approximativ erfullt.
Zeitreihenanalyse@LS-Kneip 4–74
4.10.5 Statistische Testverfahren
Beispiel: t-Test
Einfache Zufallsstichprobe:X1, . . . , Xn unabhangig
und identisch N(µ, σ2) verteilt.
• Einseitiger Test
Nullhypothese H0: : µ = µ0
Alternative H1: µ > µ0
• Zweiseitiger Test
Nullhypothese H0: µ = µ0
Alternative H1: µ = µ0
Statististischer Test: Verfahren zur Entschei-
dung zwischen H0 und H1 auf der Grundlage der be-
obachteten Daten�
�
�
�Fehler 1. Art: H0 wird abgelehnt, obwohl H0 rich-
tig ist
Fehler 2. Art: H0 wird angenommen, obwohl H0
falsch ist
Signifikanztest zum Niveau α (z.B. α = 5%)
P ( Fehler 1. Art ) ≤ α
Zeitreihenanalyse@LS-Kneip 4–75
Teststatistik des t-Tests:
T =
√n(X − µ0)
S
Test zum Niveau α
• Einseitiger Test: Ablehnung von H0, falls
Tbeobachtet ≥ tn−1;1−α
• Zweiseitiger Test: Ablehnung von H0, falls
|Tbeobachtet| ≥ tn−1;1−α/2
Der p-Wert (Uberschreitungswahrschein-lichkeit):
• Einseitiger Test:
p-Wert = P (Tn−1 ≥ Tbeobachtet)
• Zweiseitiger Test:
p-Wert = P (|Tn−1| ≥ |Tbeobachtet|)
Zeitreihenanalyse@LS-Kneip 4–76
Allgemein: p-Wert =Wahrscheinlichkeit, unterH0
den beobachteten Prufgroßenwert oder einen in Rich-
tung der Alternative extremeren Wert zu erhalten.
Interpretation:
• ”Glaubwurdigkeit” vonH0:H0 ist wenig glaubwurdig,
falls der p-Wert sehr klein ist
• Der in einer konkreten Anwendung berechnete p-
Wert hangt von dem beobachteten Datensatz
ab. Er liefert Informationen uber die Resultate der
zugehorigen Signifikanztests zu den verschiedenen
Niveaus α :
α > p-Wert ⇒ Ablehnung von H0
α < p-Wert ⇒ Beibehaltung von H0
In der Praxis:
• Test ”signifikant”, falls p-Wert < 0.05 (d.h. ein
Test zum Niveau 5% fuhrt zur Ablehnung vonH0)
• Haufig: Test ”schwach ”signifikant, falls 0.05 >
p-Wert > 0.01 (d.h. ein Test zum Niveau 5% fuhrt
zur Ablehnung von H0; ein Test zum Niveau 1%
fuhrt dagegen zur Beibehaltung von H0)
Zeitreihenanalyse@LS-Kneip 4–77
Beispiel:
Daten: X1 = 19.20, X2 = 17.40, X3 = 18.50, X4 =
16.50, X5 = 18.90, n = 5.
⇒ X = 18.1
Testproblem: H0 : µ = 17 gegen H1 : µ = 17
Tbeobachtet =
√5(18.1− 17)
1.125= 2.187
⇒ p-Wert = P (|Tn−1| ≥ 2.187) = 0.094
Tests zu verschiedenen Niveaus α:
α = 0.2 ⇒ 2.187 > t4,0.9 = 1.533 ⇒ Ablehnung von
H0
α = 0.1 ⇒ 2.187 > t4,0.95 = 2.132 ⇒ Ablehnung von
H0
α = 0.094 = p-Wert ⇒ 2.187 = t4,0.953 = 2.187
⇒ Ablehnung von H0
α = 0.05 ⇒ 2.187 < t4,0.975 = 2.776 ⇒ Annahme von
H0
α = 0.01 ⇒ 2.187 < t4,0.995 = 4.604 ⇒ Annahme von
H0
Zeitreihenanalyse@LS-Kneip 4–78