4 modellierung und prognose mit arma, arima und sa- · pdf file4 modellierung und prognose mit...

4 Modellierung und Prognose

mit ARMA, ARIMA und SA-

RIMA Modellen

Ein Problem von großer praktischer Bedeutung ist

naturlich die Schatzung der unbekannten Parameter

eines ARMA(p, q) Prozesses (mit Mittelwert µ)

Xt − µ− ϕ1(Xt−1 − µ)− · · · − ϕp(Xt−p − µ)

= ϵt + θ1ϵt−1 + · · ·+ θqϵt−q

mit {ϵt} ∼ WN(0, σ2) aus einer gegebenen Zeitrei-

he X1, . . . , Xn der Lange n. In einem ersten Schritt

wird naturlich µ durch den empirischen Mittelwert X

ersetzt.

• In den nachfolgenden Abschnitten wird jeweils vor-

ausgesetzt, dass die dort behandelten Schatzme-

thoden auf die zentrierte, durch den Mittelwert

korrigierte Zeitreihe Xt = Xt−X angewandt wer-

den. X schatzt den wahren Mittelwert µ. Der Schatz-

fehler |X − µ| spielt fur die meisten Zwecke im

Vergleich zu anderen Ungenauigkeiten keine Rol-

le.

Zeitreihenanalyse@LS-Kneip 4–1

4.1 Kleinste-Quadrate Methoden

In der Literatur wurden zahlreiche z.B. auf Kleinste-

Quadrate Methoden basierende Algorithmen vorge-

schlagen, die es erlauben, auf relativ einfache Wei-

se approximative Losungen zu bestimmen. Bei rela-

tiv kurzen Zeitreihen liefern ML Verfahren (siehe Ab-

schnitt 4.2) i.a. bessere Schatzer als andere Methoden.

4.1.1 AR(p)-Modell

Sei {Xt} ein AR(p) Prozess. Fur den zentrierten Pro-

zess ergibt sich dann

Xt = ϕ1Xt−1 + · · ·+ ϕpXt−p + ϵt

mit ϵt ∼ WN(0, σ2). Eine Modellanpassung erfordert

die Schatzung der unbekannten Parameter ϕ1, . . . , ϕp.

Fur die Modelldiagnose, Parametertests und Konfi-

denzintervall ist es weiterhin unumganglich, auch die

Varianz σ2 der Zufallsschocks ϵt zu schatzen.

Kleinste-Quadrate Schatzer: Bestimme Schatzun-

gen ϕ1, . . . , ϕp der wahren Koeffizienten durch Mini-

mieren vonn∑

t=p+1

(Xt − Xt

)2

=

n∑t=p+1

(Xt − ϕ1Xt−1 − · · · − ϕpXt−p

)2


uber alle moglichen Werte von ϕ1, . . . , ϕp. Die resul-

tierenden Kleinste-Quadrate Schatzer ϕ1, . . . , ϕp wer-

den auch als ”Regressionsschatzer” von ϕ1, . . . , ϕp be-

zeichnet. Sie ergeben sich als Losung der Normal-

gleichungenn∑

t=p+1XtXt−1

...n∑

t=p+1XtXt−p

=

n∑

t=p+1X2

t−1 · · ·n∑

t=p+1Xt−1Xt−p

......

n∑t=p+1

Xt−pXt−1 . . .n∑

t=p+1X2

t−p

ϕ1

...

ϕp

Die Kleinste-Quadrate Schatzer sind fur großes n ap-

proximativ aquivalent zu den in Kapitel 3 vorgestell-

ten Yule-Walker Schatzern ϕ∗1, . . . , ϕ

∗p. Diese ergeben

sich als Losungen des Gleichungssystemsρ(1)

ρ(2)...

ρ(p)

=

1 ρ(1) . . . ρ(p− 1)

ρ(1) 1 . . . ρ(p− 2)...

......

ρ(p− 1) ρ(p− 2) . . . 1

ϕ∗1

ϕ∗2

...

ϕ∗p


Dieses Gleichungssystem lasst sich auch in der Formγ(1)

γ(2)...

γ(p)

=

γ(0) γ(1) . . . γ(p− 1)

γ(1) γ(0) . . . γ(p− 2)...

......

γ(p− 1) γ(p− 2) . . . γ(0)

ϕ∗1

ϕ∗2

...

ϕ∗p

schreiben. Fur große n und 0 ≤ h, j ≤ p gilt dann

1n

n∑t=p+1

Xt−hXt−j ≈ 1n

n−|h−j|∑t=1

XtXt+|h−j| = γ(h− l),

und die Normalgleichungen entsprechen (approxima-

tiv) den Yule-Walker Gleichungen.

Es lasst sich weiterhin zeigen, dass die Yule-Walker

Schatzer ebenso wie die Kleinste-Quadrate Schatzer

asymptotisch aquivalent zu den in Abschnitt 4.2 vor-

gestellten Maximum-Likelihood Schatzern fur die Pa-

rameter ϕj sind.

Schatzer fur σ2: Es gilt

γ(0) = E((Xt)2)

= ϕ1E(XtXt−1) + · · ·+ ϕpE(XtXt−p) + E(Xtϵt)

= ϕ1γ(1) + · · ·+ ϕpγ(p) + σ2

⇒ σ2 = γ0 − ϕ1γ(1)− · · · − ϕpγ(p)


Ersetzt man γ durch die empirische Autokovarianz-

funktion, erhalt man den Schatzer

σ2 = γ0 − ϕ1γ(1)− · · · − ϕpγ(p)

4.1.2 ARMA(p, q)-Modell

Sei {Xt} ein AR(p) Prozess. Fur den zentrierten Pro-

zess ergibt sich dann

Xt − ϕ1Xt−1 − · · · − ϕpXt−p

= ϵt + θ1ϵt−1 + · · ·+ θqϵt−q

Die Hauptschwierigkeit bei der Behandlung dieser Mo-

delle besteht in der Tatsache, dass die Werte ϵt, ϵt−1, . . .

nicht beobachtbar sind. Man beachte jedoch, dass

ϵt = Xt −p∑

s=1

ϕsXt−s −q∑

s=1

θsϵt−s︸︷︷︸Xwahr,t

,

wobei sich Xwahr,t aus vergangenenWerten Xt−1, Xt−2, . . .

und ϵt−1, ϵt−2, . . . der Zeitreihe und der Innovationen

berechnen lasst.

Die allgemeine Idee der verschiedenen Kleinste-Qua-

drate Methoden zur Schatzung der Parameter ϕj , θk


von ARMA(p.q) Modellen lasst sich nun folgenderma-

ßen beschreiben:

• Die unbekannten Zufallsschocks ϵt werden durch

Schatzwerte (Residuen)

ϵt = Xt − Xt

ersetzt, wobei Xt eine Prognose von Xt aus den

Zeireihenwerten in vorangegangenen Perioden t−1, t− 2, . . . ist.

• Schatzungen ϕj und θk werden durch minimieren

von∑t

(Xt − Xt

)2=∑t

(Xt −

p∑s=1

ϕsXt−s −q∑

s=1

θsϵt−s

)2

bestimmt.

Die einzelnen Verfahren unterscheiden sich imWesent-

lichen nur durch die Art und Weise der Berechnung

von ϵt. Man beachte, dass die Werte von Xt ≡ Xt(ϕ, θ)

bzw. ϵt = Xt − Xt(ϕ, θ) selbst wiederum von den je-

weiligen Parameterwerten abhangen. Im Allgemeinen

erhalt man daher ein nichtlineares Minimierungspro-

blem, das sich nur iterativ losen lasst.


Der bedingte Kleinste-Quadrate Ansatz. Man

setzt Xt = 0 fur t ≤ 1 und

ϵ1 = X1 − X1 = X1

ϵ2 = X2 − ϕ1X1 − θ1ϵ1︸︷︷︸X2

...

ϵt = Xt −p∑

s=1

ϕsXt−s −q∑

s=1

θsϵt−s︸︷︷︸Xt

Das unbedingte Kleinste Quadrate Verfahren fuhrt

auf Schatzer, die asymptotisch mit den Maximum-

Likelihood Schatzern ubereinstimmen (siehe 4.2).

Der Hannen-Rissanen Algorithmus: Zur Bestim-

mung der Xt ϵt wird ein AR(m) Modell mit m >

max{p, q} an die Daten angpasst⇒Yule-Walker Schatzer

ϕ1, . . . , ϕm der zugehorigen Parameter. Die resultie-

renden Residuen

ϵt = Xt − Xt = Xt −m∑s=1

ϕsXt−s

dienen sodann als Schatzungen der Zufallsschocks.


4.2 Maximum-Likelihood

Der Maximum-Likelihood Ansatz beruht auf der Zu-

satzannahme, dass {Xt} ein streng stationarer Gauß-

prozess ist. Die Zufallsvaraiblen X1, . . . , Xn sind dann

multivariat normalverteilt.

Anmerkung:Die Grundidee der Maximum-Likelihood

Schatzung lasst sich folgendermaßen darstellen (De-

tails siehe Abschnitt 4.10.3):

• Aufstellen einer ”Likelihoodfunktion” L(ϕ, θ, σ2)

in Abhangigkeit von den unbekannten Koeffizien-

ten ϕ = (ϕ1, . . . , ϕp), θ = (θ1, . . . , θq) und σ2 =

var(ϵt).

• Bei diskreten Zufallsvariablen quantifiziert die Li-

kelihoodfunktion die Wahrscheinlichkeit, dass ge-

rade die tatsachlich beobachtetenWerte x1, . . . , xn

auftreten, falls die wahre Werte der Koeffizienten

mit den jeweils betrachteten Werten ubereinstim-

men. Bei stetigen (z.B. normalverteilten) Vertei-

lung ist L(ϕ, θ, σ) gleich dem jeweiligen Wert der

Dichtefunktion.

• Die Maximum-Likelihood Schatzungen σ2, ϕ und

θ maximieren L(ϕ, θ, σ2) uber alle moglichen Wer-

te von σ2, ϕ, θ.


• Die Maximum-Likelihood Schatzung bestimmt da-

her diejenigen Koeffizienten, fur die die tatsachlich

beobachteten Daten x1, . . . , xn am ”plausiblesten”

sind (hochstmoglicheWahrscheinlichkeit bzw. großt-

moglicher Dichtewert).

Fur einen Gaußprozess lasst sich fur alle moglichen

Werte von σ2, ϕ, θ die zugehorige Likelihoodfunktion

aus den Formeln fur die Dichte der multivariaten Nor-

malverteilung berechnen (siehe Abschnitt 4.10.2).

Nach einigen (komplizierten!) Rechnungen kann man

zeigen, dass sich die Maximum-Likelihood Schatzung

folgendermaßen darstellen lassen:


ϕ = (ϕ1, . . . , ϕp), θ = (θ1, . . . , θq) minimieren

l(ϕ, θ) = ln(1

n

n∑t=1

(Xt − Xt)2

rt−1) +

1

n

n∑t=1

ln rt−1

bezuglich allen moglichen Werten von σ2, ϕ, θ und

σ2 =1

n

n∑t=1

(Xt − Xt)2

rt−1,

wobei

* Xt - bestmoglicher Prognosewert von Xt (in Abhangig-

keit von σ2, ϕ, θ) aus den vergangenen Werten der

Zeitreihe: Fur t ≥ max{p, q} gilt

Xt =

p∑s=1

ϕsXt−s +

q∑s=1

θt−1,s (Xt−s − Xt−s︸︷︷︸ϵt−s

)

* Die jeweiligen Werte von θt,s und rt ≡ rt(ϕ, θ, σ2)

ergeben sich fur t = 1, 2, . . . rekursiv aus dem so-

genannten Innovations-Algorithmus (die Formeln

sind in dem Buch von Brockwell und Davis zu

finden).

* Ist t merklich großer al max{p, q}, so gilt appro-

ximativ: θt,s = θs und rt = 1.


Anmerkung: Es gilt

−2 lnL(ϕ, θ, σ2) = l(ϕ, θ) (+Konstante)

Ein großes Problem der Maximum-Likelihood Schatzung

(ML) ist naturlich die praktische Berechnung der

Koeffizienten. Es gibt i.Allg. keine Moglichkeit, exak-

te Losungen in einer geschlossenen analytischen Form

darzutellen. In allen modernen statistischen Programm-

paketen sind jedoch Optimierungsverfahren (iterative

Algorithmen) implementiert, die es erlauben, die ML

Schatzungen numerisch zu berechnen.

Es existiert ein enger Zusammenhang zwischen den

im vorigen Abschnitt betrachteten Kleinste-Quadrate

Schatzern und dem Maximum-Likelihood Ansatz:

• Fur t ≫ max p, q gilt θt,s ≈ θs, rt ≈ 1 und daher

Xt ≈p∑

s=1

ϕsXt−s +

q∑s=1

θs (Xt−s − Xt−s︸︷︷︸ϵt−s

)

sowie 1n

∑nt=1 ln rt−1 → 0 fur n → ∞.

Fur eine lange Zeitreihe ist der Einfluss der An-

fangswerte vernachlassigbar, und Minimieren von


l(ϕ, θ) ist daher asymptotisch aquivalent zum Mi-

nimieren von

n∑t=1

(Xt − Xt)2

ML Schatzer und die genannten Kleinste-Quadrate

Schatzer stimmen daher asymptotisch (approxi-

mativ) uberein.

• Ein Unterschied besteht jedoch bei relativ kurzen

Zeitreihen (n klein im Vergleich zu p und q). ML

fuhrt auf diejenigen Parameterwerte, die auf der

Grundlage eines optimalen Prognose-Algorithmus

den kleinsten quadratischen Abstand zwischen Xt

und Xt liefern. Bei kurzen Zeitreihen liefert Maximum-

Likelihood i. Allg. genauere Schatzungen als ein-

fache Kleinste-Quadrate Methoden.

• Das Vorgehen des Maximum-Likelihood Ansatzes

ist auch dann sinnvoll, wenn {Xt} kein streng

stationarer Gaußprozess ist. Es lasst sich zeigen,

dass auch unter den meisten anderen Verteilungs-

annahmen die aus dem oben beschrieben ML Ver-

fahren resultierenden Schatzer asymptotsch effizi-

ent sind. Ausnahmen sind z.B. Verteilungen mit

”langen Enden” (→ Ausreißer!).


4.3 Inferenz

Die Eigenschaften von ML Schatzern fur ARMA Mo-

delle lassen sich aus der allgemeinen Theorie von

Maximum-Likelihood Schatzern ableiten. Es lasst

sich zeigen, dass fur einen Gaußprozess unter schwa-

chen Bedingungen folgendes gilt:

• Die ML Schatzer ϕj , θk von sind asymptotisch

effiziente Schatzer von ϕj , θk. Fur großes n gilt

fur einen beliebigen alternative Schatzer ϕ∗

E((ϕj − ϕj)2) ≤ E((ϕ∗

j − ϕj)

j = 1, . . . , p (analog fur θ)

• Die ML Schatzer ϕj , θk sind konsistente Schatzer

der unbekannten Parameter. Die Verteilung der

Schatzwerte ist asymptotisch normal. Fur großes

n gilt approximativ

ϕj ∼ Np(ϕj , v2j /n)

θk ∼ Nq(θk, v∗2j /n)

Die Werte v2j bzw. v∗2k in den Varianztermen v2j /n

bzw. v∗2k /n hangen selbst wiederum von den wah-

ren Werten der Koeffizienten ab. Einsetzen der


Schatzwerte erlaubt eine konsistente Approxima-

tion.

• In statistischen Programmpaketen wird zusatzlich

zu den Schatzwerten ϕj und θk auch Approxima-

tionen vj/√n und v∗k/

√n der zugehorigen Stan-

dardfehler angegeben.

• Von großer praktischer Bedeutung sind Tests der

Nullhypothesen H0 : ϕj = 0 bzw. H0 : θk =

0. Zum Testen wird jeweils die sogenannte ”t-

Statistik” verwandt:

t =ϕj

vj/√n

bzw t =θk

v∗k/√n

Unter H0 ist t asymptotisch N(0, 1) verteilt (ei-

nige Programmpakete benutzen auch Approxima-

tionen durch t-Verteilungen). Die Programmpake-

te berechnen sodann den zugehorigen p-Wert (”p-

value”, ”significance level”).

Interpretation:

– p-Wert< 0, 05 ⇒ Koeffizient signifikant; ein Test

zum Niveau α = 5% lehnt die Nullhypothese ab.

– p-Wert< 0, 01 ⇒ Koeffizient hochsignifikant; ein

Test zum Niveau α = 1% lehnt die Nullhypothese

ab.


• Bei ARMAModellen hoherer Dimension (p und/oder

q groß) kommt es haufig vor, dass einige Para-

meter ϕj und/oder θk nicht signifikant sind, und

daher fur die wahren Werte moglicherweise ϕj =

0 und/oder θk = 0 gilt. Zur Vereinfachung des

Modells werden solche nichtsignifikanten ”Lags”

haufig aus dem Modell entfernt. Das so reduzier-

te Modell wird dann neu an die Daten angepasst,

indem man l(ϕ, θ) unter den Nebenbedingungen

ϕj = 0, θk = 0 uber die verbleibenden Parameter

minimiert (”constrained Likelihood”).

• Bei der Elimination nichtsignifikanter Lags muss

sehr sorgfaltig vorgegangen werden. Die Elimina-

tion eines bestimmten Lags aus dem Modell kann

zu veranderten Schatzwerten und Signifikanzen bei

anderen Lags fuhren. Existieren mehrere nichtsi-

gnifikante Lags, so ist ein schrittweises Vorgehen

notwendig, bei dem die betreffenden Lags eines

nach dem anderen aus dem Modell entfernt wer-

den. In jedem Schritt sind die in Abschnitt 4.5

beschriebenen Diagnoseverfahren anzuwenden um

sicherzustellen, das das reduzierte Modell eine ge-

nauso gute oder bessere Modellanpassung liefert

wie das Originalmodell.


4.4 Prognoseverfahren

In Kapitel 3.5 wurde bereits ein ”optimales” Progno-

severfahren beschrieben, das jedoch die Kenntnis der

wahren Parameterwerte voraussetzt. In der Praxis wer-

den diese durch die geschatzten Parameterwerte ap-

proximiert. Zum Beispiel:

�

�

�

�

Ein-Schritt Prognose (h = 1) eines ARMA(p, q)-

Prozesses

Xn+1 =X + ϕ1Xn + . . . ϕpXn+1−p

+ θn,1(Xn − Xn) + · · ·+ θn,q(Xn−q − Xn−q)

”Geschatztes“ 95% Prognoseintervall:

[Xn+1 ± 1.96σ]

Der Schatzfehler bei der Berechnung von Pradiktions-

intervallen in erster Ordnung vernachlassigbar.


4.5 Modelldiagnose

Ein wichtiger Schritt bei der Anpassung eines Zeitrei-

henmodells ist die nachfolgende Modellvalidierung. In

der Praxis wird bei der Modellbildung oft so vorge-

gangen, dass zunachst aus der Struktur von ACF und

PACF eine Reihe von moglichen Modellen ausgwahlt

wird. Jeder dieser ”Modellkandidaten” wird dann mit

den besprochenen Techniken an die Daten angepasst

(Schatzung der Parameter). Mit Hilfe von Diagnose-

techniken wird sodann das am besten passende Modell

ausgwahlt.

Es gibt eine ganze Reihe verschiedener Diagnosetech-

niken, die in erster Linie auf die nach Elimination von

Trend und Saisonfigur erhaltene stationare Zeitreihe

abzielen. Eine oft angewandte Moglichkeit ist z.B. der

Vergleich der empirischen ACF und PACF mit den aus

dem Modell folgenden theoretischen Werten. Fur eine

sinnvolle Interpretation ist es wichtig, den Schatzfeh-

ler zu quantifizieren und auf die in Kapitel 3 bespro-

chenen Verfahren zur Konstruktion von Konfidenzin-

tervallen zuruckzugreifen.

Von noch großerer praktischer Bedeutung sind jedoch

Verfahren der Residualanalyse und die Verwendung

von Selektionskriterien wie Akaikes AIC.


4.5.1 Residualanalyse

Die Grundidee der Residualanalyse beruht auf der ein-

fachen Beobachtung, dass sichfur ein korrektesARMA(p, q)

Modell die Zeitreihe der Residuen

ϵt = Xt −p∑

s=1

ϕsXt−s −q∑

s=1

θsϵt−s︸︷︷︸Xwahr,t

als Weißes Rauschen darstellen lassen muss.

Da die wahren Residuen naturlich nicht bekannt sind,

stutzt man sich in der Praxis auf die geschatzten Re-

siduen

ϵt = Xt − Xt

wie sie auch bei der Schatzung benutzt werden.

Anmerkung: Um Residuen mit gleicher Varianz auch fur

kleines t zu erhalten, werden von manchmal die reskalier-

ten Residuen ϵt =ϵt

σr1/2t

vorgezogen.

Bei einem korrekt spezifizierten ARMA-Modell sollte

die Zeitreihe der {ϵt} (bzw. {ϵt} einer Realisie-

rung von Weißem Rauschen ahneln.


• In einem ersten Schritt der Residualanalyse wird

die jeweilige Struktur der Autokorrelationsfunk-

tion und der partiellen Autokorrelationsfunktion

uberpruft. Da die {ϵt} fur ein korrektes Modell ap-

proximativ Weißes Rauschen sind, sollten ungfahr

95% aller Werte von ρ(h) innerhalb der Schranken

±1.96/√n liegen.

• Eine weitere Uberprufung der Hypothese, dass die

{ϵt} approximativ Weißes Rauschen sind kann so-

dann mit Hilfe von Tests auf Weißes Rauschen

geschehen.

– Durbin-Watson Statistik

d =

∑n−1t=1 (ϵt+1 − ϵt)

2∑nt=1 ϵ

2t

Falls {ϵt} approximativ Weißes Rauschen, so

sollte der Wert von d nahe 2 sein. Die in Ka-

pitel 2 angegebene Verteilung unter der Null-

hypothese gilt jedoch nur fur die ”wahren” In-

novationen ϵt und ubertragt sich nicht auf die

Residuen ϵt. In der Praxis werden daher Signi-

fikanztests i.Allg. mit Hilfe des Durbin-Watson

h-Tests durchgefuhrt, der auf einer modifizier-


ten Teststatistik beruht

h = (1− 0, 5 · d)√

n

1− nv2

Unter H0 folgt d asymptotisch einer Standard-

normalverteilung.

– Ljung-Box-Test: Fur ein vorgegebenesH ba-

siert dieser Test auf der Statistik

Q = n(n+ 2)H∑

h=1

ρ(h)2

n− h

Fur großes n gilt q ∼ χ2H . Die Hypothese, dass

{ϵt} approximativ Weißes Rauschen ist, wird

abgelehnt, falls Q zu groß ist.

Es handelt sich hier um eine Modifikation des

in Kapitel 2 vorgestellten Portmanteau Tests.

– Es existieren weiterhin Verfahren, die auf dem

Ansatz beruhen, dass die geschatzten ρ(h) bei

Weißem Rauschen fur verschiedene Werte von

h voneinander unkorreliert sind, und daher ei-

ne genugend große Zahl von Vorzeichenwech-

seln aufweisen sollten (Turning points, Diffe-

rence Sign Test, etc.).


4.5.2 Gutekriterien

Es gibt eine Reihe von wichtigen Kriterien zur Beurtei-

lung der Modellanpassung. RATS verwendet folgende

Maßzahlen:

• Centered R2: R2 = 1−∑n

t=1(Xt−Xt)2∑n

t=1 X2t

• Adjusted R2: R2 = 1−∑n

t=1(Xt−Xt)2/(n−p−q−1)∑n

t=1 X2/(n−1)

• Uncentered R2: R2uncentered = 1−

∑nt=1(Xt−Xt)

2∑nt=1 X2

t

Es gilt 0 ≤ R2 ≤ 1. Falls R2 groß ist, z.B. R2 > 0, 8,

so folgt, dass sich die aus dem Modell berechneten

Prognosewerte Xt im Mittel uber alle Perioden nicht

sehr stark von den zentrierten Zeitreihenwerten Xt un-

terscheiden. Schlecht spezifizierte, inkorrekte ARMA

Modelle werden tendenziell einen eher niedrigen Wert

von R2 liefern.

Ein Grundproblem besteht naturlich in der Wahl der

Ordnungen p und q eines geeigneten ARMA(p, q)-

Modells. Fur diesen Zweck ist R2 keine geeignete Maß-

zahl, da eine Erhohung von p oder q notwendiger-

weise zu einem hoheren Wert von R2 fuhrt. Mehr

Information liefert hier der ”Adjusted R2”, der die


Anzahl der im Modell geschatzten Parameter beruck-

sichtigt.

In der Praxis werden jedoch spezifische Selektionskri-

terien wie Akaikes Informationskriterium (AIC) oder

das Schwartz-Kriterium (SBC) vorgezogen. Sie dienen

dazu, aus einer Reihe von ”Kandidatenmodellen” das

beste auszuwahlen.

• Die Grundidee der Parameterschatzung mit der

Maximum-Likelihood Methode ubertragt sich so-

fort auf den Vergleich verschiedener Modelle. Man

betrachtet den Wert der Likelihoodfunktion fur

die verschiedenen ”Kandidatenmodelle” und wahlt

tendenziell dasjenige aus, bei dem die Likelihood

so groß wie moglich wird. Haufig wird statt der

eigentlichen Likelihoodfunktion der resultierende

Wert von

−2 lnL(ϕ, θ, σ) = l(ϕ, θ) (+Konstante)

betrachtet mit ϕ = (ϕ1, . . . , ϕp)′, θ = (θ1, . . . , θq)

′.

Ein gutes Modell sollte dann auf einen moglichst

kleinen Wert fuhren.

• Beim Vergleich von Modellen ist jedoch eine zusatz-

liche Schwierigkeit zu beachten. Ein ARMA(p, q)

ist naturlich ein spezielles ARMA(p + 1, q + 1)


Modell mit ϕp+1 = θq+1 = 0. Selbst wenn das

ARMA(p, q) richtig ist, werden fur Maximum-

Likelihood Schatzungen zufallsbedingt i.Allg. πp+1 =0 bzw. θq+1 = 0 gelten, und notwendigerweise

−2 lnL(ϕ1, . . . , ϕp, ϕp+1, θ1, . . . , θq, θq+1, σ)

< −2 lnL(ϕ1, . . . , ϕp, θ1, . . . , θp, σ)

Die Selektionskriterien kompensieren diesen Ef-

fekt durch Einfuhrung eines”Strafterms“ der um-

so großer wird, je hoher die Ordnungen p bzw. q

des Prozesses sind. AIC und SBC unterscheiden

sich nur durch die Große des Strafterms.

AIC = −2 log

(L(Xn|ϕ, θ, σ)

)+ 2(p+ q + 1)

SBC = −2 log

(L(Xn|ϕ, θ, σ)

)+ (p+ q + 1) · lnn

Vergleicht man mehrere verschiedene Modelle, so wird

man tendenziell dasjenige auswahlen, das den klein-

sten AIC (SBC) Wert besitzt.


4.6 Beispiel: Australischer Rotwein

logged red wine data

1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 19916.00

6.25

6.50

6.75

7.00

7.25

7.50

7.75

8.00

logged red wine data, difference at lag 1

1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991-0.90

-0.72

-0.54

-0.36

-0.18

-0.00

0.18

0.36

0.54

logged red wine data, diff at lag1, sdifference at lag 1

1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991-0.50

-0.25

0.00

0.25

0.50


ACF, diff at lag=1

5 10 15 20 25 30 35-1.00

-0.75

-0.50

-0.25

0.00

0.25

0.50

0.75

1.00

ACF, diff at lag=1, sdiff at lag=1

5 10 15 20 25 30 35-1.00

-0.75

-0.50

-0.25

0.00

0.25

0.50

0.75

1.00

PACF, diff at lag=1, sdiff at lag=1

5 10 15-1.00

-0.75

-0.50

-0.25

0.00

0.25

0.50

0.75

1.00


Australischer Rotwein: Monatlich verkaufte Mengen

(in Kilolitern) von australischem Rotwein von Januar

1980 bis Oktober 1991. Wir betrachten die Zeitreihe

der logaritmierten Mengen.

Die Zeitreihe besitzt sowohl einen Trend als auch ei-

ne saisonale Komponente. Trend und Saison werden

durch Differenzenbildung eliminiert:

X∗t = ∆Xt = Xt −Xt−1

Yt = (1− L12)X∗t = X∗

t −X∗t−12

Es wird davon ausgegangen, dass die resultierenden

Zeitreihe Yt von Differenzen stationar ist und durch

ein geeignetes ARMA-Modell beschrieben werden kann.

Betrachtete ”Kandidatenmodelle”:

• MA(1): Yt = µ+ ϵt + θϵt−1

• MA(13): Yt = µ+ ϵt + θ1ϵt−1 + · · ·+ θ13ϵt−13


1) Schatzergebnisse fur ein MA(1)-Modell

Yt = µ+ ϵt + θϵt−1

Box-Jenkins - Estimation by Gauss-Newton

Convergence in 14 Iterations.

Final criterion was 0.0000042 < 0.0000100

Dependent Variable LOGX

Monthly Data From 1981:02 To 1991:10

Usable Observations 129 Degr. of Freedom 128

Centered R**2 0.843547 R Bar **2 0.843547

Uncentered R**2 0.999623 T x R**2 128.951

Mean of Dependent Variable 7.2739434755

Std Error of Dependent Variable 0.3588303010

Standard Error of Estimate 0.1419323284

Sum of Squared Residuals 2.5785325864

Durbin-Watson Statistic 1.731259

Q(32-1) 72.643285

Significance Level of Q 0.00003413

Variable Coeff Std Error T-Stat Signif

MA1 -0.7601 0.0579 -13.1329 0.00000


1) Schatzergebnisse fur ein MA(13)-Modell

Yt = µ+ ϵt + θ1ϵt−1 + · · ·+ θ13ϵt−13







Centered R**2 0.909793 R Bar **2 0.900461

Uncentered R**2 0.999783 T x R**2 128.972






Q(32-1) 13.319504


AIC 77.15738

SBC 114.33494



MA1 -0.7350 0.0824 -8.9178 0.0000

MA2 0.0390 0.0904 0.43122 0.6671

MA3 -0.1364 0.08978 -1.5194 0.1313

MA4 0.0396 0.0909 0.4362 0.6635

MA5 0.2038 0.0912 2.2359 0.0273

MA6 -0.3133 0.0916 -3.4207 0.0008

MA7 0.1147 0.0959 1.1957 0.2343

MA8 0.1858 0.0941 1.9739 0.0508

MA9 -0.1232 0.0941 -1.3104 0.1926

MA10 0.1018 0.0948 1.0744 0.2849

MA11 -0.1568 0.0951 -1.6475 0.1021

MA12 -0.6784 0.09612 -7.0541 0.0000

MA13 0.4943 0.0885 5.5872 0.0000

Schrittweise Eliminierung von nicht signifikanten θj

fuhrt auf das Modell

Yt = µ+ ϵt + θ1ϵt−1 + θ2ϵt−12 + θ3ϵt−13

Fur dieses Modell ergeben sich folgende Schatzergeb-

nisse:








Centered R**2 0.895993 R Bar **2 0.894342

Uncentered R**2 0.999749 T x R**2 128.968






Q(32-1) 22.004764


AIC 75.52101

SBC 84.10044


MA1 -0.7732 0.0575 -13.455 0.0000

MA12 -0.7314 0.0704 -10.3852 0.0000

MA13 0.5323 0.0839 0 6.3451 0.0000


ACF ma=1

5 10 15 20-1.00

-0.75

-0.50

-0.25

0.00

0.25

0.50

0.75

1.00

ACF ma=13(full) diff=1,sdiff=1

5 10 15 20-1.00

-0.75

-0.50

-0.25

0.00

0.25

0.50

0.75

1.00

PACF

5 10 15-1.00

-0.75

-0.50

-0.25

0.00

0.25

0.50

0.75

1.00


ACF, ma=1,12,13

5 10 15 20-1.00

-0.75

-0.50

-0.25

0.00

0.25

0.50

0.75

1.00

PACF

5 10 15-1.00

-0.75

-0.50

-0.25

0.00

0.25

0.50

0.75

1.00


4.7 ARIMA Modelle

ARMA Prozesse modellieren stationare Zeitreihe. Wie

jedoch schon in Kapitel 2 diskutiert, besitzen in der

Realitat viele Zeitreihen einen Trend. Die Grundidee

der Box-Jenkins Modellierungsphilosophie besteht in

der Trendelimination durch Differenzenbildung. Im Rah-

men dieses Ansatzes werden bei der Modellbildung so-

lange die jeweils sinnvollen Differenzenoperatoren an-

gewendet, bis der Output als stationar anzusehen ist.

Allgemein nennt man eine Zeireihe {Xt} ”integriert

von der Ordnung d”, wenn seine d-fachen Differen-

zen ∆dXt = (1 − L)dXt ein stationarer Prozess sind.

Man schreibt Xt ∼ I(d).�

�

Definition: Sei d ≥ 0. Eine Zeitreihe Xt ∼ I(d)

wird als ARIMA(p, d, q) Prozess bezeichnet (Auto-

regressive Integrated Moving Average Prozess), falls

Yt := (1− L)dXt

ein kausaler ARMA(p, q) Prozess (mit Mittelwert

µY ) ist.

Falls µY = 0, lasst sich ein ARIMA(p, d, q) Prozess

abgekurzt in folgender Form darstellen:

ϕ(L)(1− L)dXt = θ(L)ϵt, ϵt ∼ WN(0, σ2)


Beispiele:

• Der in Kapitel 2 eingefuhrte Random Walk

Xt = Xt−1 + ϵt

ist ein ARIMA(0, 1, 0) Prozess.

• Ein Beispiel fur einen ARIMA(0, 1, 1) Prozess ist

das lineare Trendmodell

Xt = β0 + β1t+ ϵt

Einfache Differenzenbildung fuhrt auf das (nicht

invertierbare!)MA(1) Modell (mit Mittelwert β1 =

µY )

Yt = (1− L)Xt = β1 + ϵt − ϵt−1

(1−L)2Xt liefert ein (nicht invertierbares)MA(2)

Modell mit Mittelwert 0. Xt lasst sich also auch

als ARIMA(0, 2, 2) Modell schreiben

• Ein lineares Trendmodell der Form

Xt = β0 + β1t+ ϵt + θϵt−1

lasst sich als ARIMA(0, 1, 2) Modell auffassen,

denn nach Differenzenbildung erhalt man dasMA(2)

Modell

Yt = (1− L)Xt = β1 + ϵt + (θ − 1)ϵt−1 − θϵt−2


Behandlung von ARIMA Modellen

• Differenzenbildung und Berechnung von

Yt = (1− L)dXt

• Anpassung eines geeigneten ARMA Modells

an die Zeitreihe {Yt}. Dies beinhaltet Parame-

terschatzung, Modelldiagnose und Modellselekti-

on.

• Die Prognose zukunftiger Werte Yn+1, Yn+2, . . .

erfolgt auf der Grundlage der in den Abschnitten

3.5 und 4.4 vorgestellten Prognoseverfahren.

• Eine Prognose zukunftiger Werte Xn+1, Xn+2, . . .

der Originalzeitreihe erfolgt uber eine Umkeh-

rung der Differenzenbildung. Ist d = 1, so gilt

Xt+1 = Yt+1 +Xt fur jede Periode t. Allgemein:

Xt+1 = Yt+1 −d∑

j=1

d

j

(−1)jXt+1−j

⇒ Ein-Schritt Prognose

Xn+1 = Yn+1 −d∑

j=1

d

j

(−1)jXn+1−j

Prognoseintervalle errechnen sich aus den Progno-

seintervallen fur Yn+1.


4.8 SARIMA Modelle

SARIMA Modelle beinhalten einen Differenzenfilter,

der auf Elimination der Saisonfigur abzielt. Man be-

trachtet also Zeitreihen, die zusatzlich zu einem even-

tuellen Trend eine Saisonfigur der Periodizitat s be-

sitzen (z.B. s = 4 bei Quartalsdaten, s = 12 fur mo-

natliche Daten).�

�

�

�

Definition: Eine Zeitreihe {Xt} wird als

SARIMA(p, d, q) × (P,D,Q)s Prozess (saisonaler

ARIMA Prozess mit Periode s) bezeichnet, falls

Yt = (1− L)d(1− Ls)DXt

ein kausaler ARMA Prozess (mit Mittelwert µY ) der

Form

ϕ(L)Φ(Ls)(Yt − µY ) = θ(L)Θ(Ls)ϵt,

ϵt ∼ WN(0, σ2), ist, wobei

ϕ(L) = 1− ϕ1L− · · · − ϕpLp

Φ(Ls) = 1− Φ1Ls − · · · − ΦPL

Ps

θ(L) = 1 + θ1L+ · · ·+ θqLq

Θ(Ls) = 1 + Θ1Ls + · · ·+ΘQL

Qs


In der Praxis ist D fast immer 1, P und Q sind in den

meisten Fallen sehr klein. Typischerweise ist s = 12

fur monatliche Daten, s = 4 fur Quartalsdaten, etc.

• Man betrachte eine Zeitreihe {Xt} von monatli-

chen Daten, die eine Saisonkomponente der Peri-

odizitat s = 12 aufweise. Saisonelimination durch

Differenzenbildung fuhrt auf

Yt = (1− L12)Xt = Xt −Xt−12

Wenn sich nun {Yt} als kausaler ARMA(p, q) Pro-

zess modellieren lasst, so ist {Xt} ein

SARIMA(p, 0, q)× (0, 1, 0)12 Prozess.

• In manchen Anwendungen reicht die Saisonelimi-

nation durch Differenzenbildung jedoch nicht aus,

um eine stationare Zeitreihe zu erhalten. Beispiels-

weise kann

Y ∗t = (1− L12)Xt = Xt −Xt−12

noch einen Trend besitzen. Man betrachtet dann

Yt = (1− L)(1− L12)Xt = Y ∗t − Y ∗

t−1

= Xt −Xt−1 −Xt−12 +Xt−13

Wenn nun {Yt} ein kausaler ARMA(p, q) Pro-

zess ist, so lasst sich die Originalzeitreihe {Xt}


als SARIMA(p, 1, q)×(0, 1, 0)12 Prozess beschrei-

ben.

Die Einfuhrung der”zusatzlichen“ Ordnungen P und

Q in der Definition eines SARIMA Modell ist dadurch

motiviert, dass in der Praxis die Lags t−s, t−2s, etc.,

haufig eine Sonderrolle einnehmen. Dies sieht man sehr

einfach bei der Betrachtung deterministischer Kompo-

nentenmodelle.

• Eine Zeitreihe von Quartalsdaten besitze eine kon-

stante Saisonfigur der Periodizitat s = 4 und lasse

sich durch das einfache Komponentenmodell

Xt = β0 + β1t+ St + ϵt

mit St+4 = St fur alle t, {ϵt} ∼ WN(0, σ2), be-

schreiben. Saisonelimination durch Differenzenbil-

dung fuhrt auf

Yt = (1− L4)Xt = 4β1 + ϵt − ϵt−4

{Yt} ist kausal (aber nicht invertierbar) und µY =

4β1.


– Yt lasst sich als spezieller MA(4) Prozess

Yt = µY + ϵt + θ1ϵt−1 + θ2ϵt−2 + θ3ϵt−3 + θ4ϵt−4

mit θ1 = θ2 = θ3 = 0 und θ4 = −1 auffassen. {Xt}ist folglich als SARIMA(0, 0, 4)×(0, 1, 0)4 Prozess

beschreibar.

Diese Modellierung von {Xt} ist jedoch”unokono-

misch“, da sie in keiner Weise berucksichtigt, dass

θ1 = θ2 = θ3 = 0.

– Eine sinnvollere Modellierung von {Xt} im Rah-

men des SARIMA Ansatzes besteht in einer Ber-

schreibung der Zeitreihe als

SARIMA(0, 0, 0)× (0, 1, 1)4 Prozess.

Mit Θ1 = −1 gilt

Yt − µY = ϵt +Θ1ϵt−4 = Θ(L4)ϵt

• Als weiteres Beispiel betrachte man

Xt = β0 + β1t+ St + ϵt + θϵt−1

{Xt} ist ein

SARIMA(0, 0, 1)× (0, 1, 1)4 Prozess.

mit Θ1 = −1 und θ1 = θ.


Behandlung von SARIMA Modellen

• Differenzenbildung und Berechnung von

Yt = (1− L)d(1− Ls)DXt

• Anpassung eines geeigneten ARMA Modells

an die Zeitreihe {Yt}. Dies beinhaltet Parame-

terschatzung, Modelldiagnose und Modellselekti-

on.

• Die Prognose zukunftiger Werte Yn+1, Yn+2, . . .

erfolgt auf der Grundlage der in den Abschnitten

3.5 und 4.4 vorgestellten Prognoseverfahren.

• Eine Prognose zukunftiger Werte Xn+1, Xn+2, . . .

der Originalzeitreihe erfolgt uber eine Umkeh-

rung der Differenzenbildung.


4.9 Tests auf Einheitswurzeln

(Unit-Root Tests)

In der Praxis ist es oft von großer Bedeutung zu ent-

scheiden, ob ein Prozesss stationar ist oder einen Trend

besitzt. Neben der Verwendung von Diagnosewerkzeu-

gen (wie ACF, PACF) gibt es Tests, die bei dieser

Entscheidung eine Hilfestellung geben konnen. Von

besonderer Bedeutung sind die Dickey-Fuller Tests.

Sie beruhen auf der Annahme eines autoregressiven

Prozesses und testen die Hypothese, dass der zugrun-

deliegenden Prozess eine Einheitswurzel (”uni-root”)

besitzt und daher nicht stationar ist.

Es gibt eine ganze Reihe von verschiedenen Dickey-

Fuller Tests, die sich in den jeweils zugrundeliegenden

Annahmen uber die stochastische Struktur der Zeitrei-

he unterscheiden. Fehlspezifikationen konnen zu ver-

zerrten Resultaten fuhren.

1) Einfacher AR(1)-Prozess (keine Konstante, kein

det. Trend)

Xt = ϕXt−1 + ϵt

t = 1, . . . , n. Die zu testende Nullhypothese lautet

H0 : ϕ = 1 d.h., Xt ist ein Random Walk


Mit einem statistischen Programmpaket (z.B: RATS)

lassen sich der Kleinste-Quadrate Schatzer ϕ und ei-

ne Approximation v des zugehorigen Standardfehlers

berechnen. Als Teststatistiken werden nun

t =ϕ

voder t∗ = n · ρ(1)

verwendent. Im ersten Fall spricht das RATS Manu-

al von der ”t-Test-Form”, im zweiten Fall von der

”Test-statistic” des Dickey-Fuller Tests.

Das Problem besteht nun darin, dass unter der Null-

hypothese H0 : ϕ = 1 die Verteilung von t eine soge-

nannte Dickey-Fuller Verteilung ist, die nicht durch ei-

ne Normalverteilung (bzw. t-Verteilung) approximiert

werden kann. Krtische Werte der Dickey-Fuller Ver-

teilung sind tabelliert; sie konnen jedoch auch mittels

Monte-Carlo Simulationen berechnet werden.

2) AR(1)-Prozess mit Konstante

Xt = δ + ϕXt−1 + ϵt

Man benutzt die gleichen Test wie bei einem einfachen

AR(1)-Prozess. Die Verteilung von t = ϕv unter der

Nullhypothese verandert sich jedoch durch die Einbe-

ziehung der Konstante δ.


3) AR(1)-Prozess, Konstante und deterministischer

Trend.

Xt = δ + ϕXt−1 + γt+ ϵt

Statistische Programmpakete (z.B. RATS) liefern Kleinste-

Quadrate Schatzer ϕ und γ und die zugehorigen Stan-

dardfehler vϕ und vγ .

Unter H0 : ϕ = 1 besitzt t = ϕ/vϕ wiederum ei-

ne Dickey-Fuller Verteilung (dies sich jedoch von den

Verteilungen fur einen einfachen AR(1)-Prozess ohne

bzw. mit Konstante unterscheidet).

Statistische Interpretation:

• Annahme von H0 : ϕ = 1 ⇒ stochastischer Trend

+ ev. deterministischer Trend.

• Ablehnung von H0 : ϕ = 1 ⇒ |ϕ| < 1 ⇒ kein

stochastischer Trend, aber eventuell ein determi-

nistischer Trend, falls sich γ signifikant von Null

unterscheidet (die Verteilung von t = γ/vγ lasst

sich asymptotisch (n groß) durch eine Normalver-

teilung (bzw. t-Verteilung) approximieren).

– Annahme von H0 : γ = 0: Zeitreihe Xt bereits

stationar

– Ablehnung von H0 : γ = 0: Existenz eines de-

terministischen Trends; Trendbereinigung durch


Regression und anschließenden Analyse der trend-

bereinigten Zeitreihe

4) Erweiterter Dickey-Fuller Test: Beim erweiterten

Dickey-Fuller Test wird die stochastische Struktur der

Zeitreihe durch einen AR(p)-Prozess, p > 1, model-

liert.

Beispiel: AR(2)

Xt = ϕ1Xt−1 + ϕ2Xt−2 + ϵt

oder ∆Xt = (ϕ1 − 1) Xt−1 + ϕ2Xt−2 +ϵt

=⇒ ∆Xt = (ϕ1 + ϕ2 − 1)︸︷︷︸π

Xt−1 − ϕ2∆Xt−1 + εt

Man kann zeigen dass die Existenz einer Einheits Wurzel

(Nicht-Stationaritat) aequivalent ist zu

H0 : π = ϕ1 + ϕ2 − 1 = 0

Man berechnet nun den Kleinste-Quadrate Schatzer π

und den zugehorigen Standardfehler vπ. Als Teststa-

tistik dient t = π/vπ. Unter H0 besitzt t eine Dickey-

Fuller Verteilung.

Verallgemeinerung: AR(p)-Prozess

∆Xt = π Xt−1 − ϕ2∆Xt−1 − · · · − ϕp∆Xt−p+1 + ϵt


mit π = ϕ1 + · · · + ϕp − 1. Als Teststatistik dient

wiederum t = π/vπ.

Naturlich kann auch beim erweiterten Dickey-Fuller

Test entsprechend dem in den Fallen 2) und 3) be-

sprochenen Vorgehen, dem Modell eine Konstante δ

bzw. ein deterministischer Trend hinzugefugt werden.

Allgemeines Vorgehen: Fuer Prozesse, die nicht AR(p)

sind, wahlt man p so hoch dass ϵt = Xt−ϕ1Xt−1−· · ·−ϕpXt−p eine gute Approximation an weisses Rauschen

ergibt (dies ist notwendige Annahme fuer die Gultig-

keit der asymptotischen Verteilung nach Dickey-Fuller).

Bei zu vielen Lags verliert der Test an Macht. Haufig

wird das AIC-Kriterium zur Bestimmung der Anzahl

der Lags benutzt.

Verteilung unter H0

Quantile der Verteilungen der Test-Statistiken unter

H0 findet man in Tafeln. Die folgende Tabelle stammt

aus Fuller, 1976, p. 373 und gilt fur die Statistik in

t-Test-Form. Fur weitere Tafeln siehe Tabelle B6 in

dem Buch von Hamilton.


no constant, constant, constant,

no trend no trend trend

n=25

n=50

n=100

n=250

n=500

n=∞

1% 5%

-2.66 -1.95

-2.62 -1.95

-2.60 -1.95

-2.58 -1.95

-2.58 -1.95

-2.58 -1.95

1% 5%

-3.75 -3.00

-3.58 -2.93

-3.51 -2.89

-3.46 -2.88

-3.44 -2.87

-3.43 –2.86

1% 5%

-4.83 -3.60

-4.15 -3.50

-4.04 -3.45

-3.99 -3.43

-3.98 -3.42

-3.96 -3.41

Wir gewinnen einen Eindruck der Verteilung durch

Monte Carlo Simulation (siehe unten). Dies haben wir

auf 1000 simulierten Random Walks der Laenge 100

durchgefuehrt. Die Verteilung wird aus den so erhalte-

nen 1000 t−Statistiken approximiert und stimmt gut

mit den von Dickey-Fuller bestimmten Quantilen ube-

rein .

-3.2 -2.4 -1.6 -0.8 -0.0 0.8 1.6 2.4

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.45

-3.6 -2.4 -1.2 0.0 1.2

0.0

0.1

0.2

0.3

0.4

0.5

t-test, H0, keine Konstante t-test, H0, Konstante


Die Verteilungen gelten approximativ auch im erwei-

terten Fall, d.h. bei Einbeziehung zusatzlicher Lags.

RATS liefert zur Berechnung verschiedener Tests auf

Einheitswurzeln das Programm dfunit.src. Dieses Pro-

gramm behandelt nur die Falle 2) Konstante, ohne

Trend und 3) Konstante + Trend.

**********************************************************************

*this program computes the distribution of the DICKEY-FULLER t-test

*by monte carlo simulation

*using t-statistics of the reg cof for the case of no constant

*and the RATS program dfunit.src for the case of a constant

*ku, mainz, dec.18th, 2003

***********************************************************************

end xxx

*source(noecho) ’C:\Program Files\Estima\WinRATS 5.02\dfunit.src’

source(noecho) D:\utikal\teach\Ws03\rats\arima\unit roots\dfmod1.prg

dec integer nsamp nsim

compute nsam = 100

compute nsim = 1000

allo 100

seed 123


*simulate random walk, compute reg.cof, and write into file

*repeat whithin a loop 1000 times.

do draw = 1,nsim

set x = %RAN(1)

set x 2 nsam = x{1}+%RAN(1)

diff x / difx

set difx = difx{-1}

linreg(noprint) difx

#x

disp %TSTATS

*compare with dfunit.src provided by RATS for the case of an included

constant,

*note: dfmod1 is dfunit, modified to suppress print

*and globalized the output variable ’tttest’ containing value of the t-test

@dfmod1(lags=0,ttest) x

disp tttest

end do draw


Anwendung: CPI

(”consumer price index”), USA, viertel jaehrlich, 1.

Quartal 1959 - 4. Quartal 2000 (168 Beobachtungen).

log cpi

1959 1963 1967 1971 1975 1979 1983 1987 1991 1995 19993.25

3.50

3.75

4.00

4.25

4.50

4.75

5.00

5.25

dif1log(cpi)

1959 1963 1967 1971 1975 1979 1983 1987 1991 1995 1999-0.005

0.000

0.005

0.010

0.015

0.020

0.025

0.030

0.035

0.040


dif2log(cpi)

1959 1963 1967 1971 1975 1979 1983 1987 1991 1995 1999-0.015

-0.010

-0.005

0.000

0.005

0.010

0.015

Dickey Fuller Test mit Konstante und Trend

zusatz lags log(cpi) dif1log(cpi) dif2log(cpi)

0 -0.49578 -3.71364 -16.35020

1 -1.29347 -2.93138 -14.42225

2 -1.64938 -2.07166 -7.89260

4 -1.74715 -2.47350 -6.06860

Resultat: Der CPI ist offensichtlich I(2).


4.10 Mathematisch statistischer

Anhang

4.10.1 Charakterisierung von

eindimensionalen Verteilungen

z.B.: Haushaltseinkommen in Deutschland, Renditen auf

dem amerikanischen Aktienmarkt, Korpergroße japanischer

Frauen, ...

Verteilungsfunktion F von X:

F (x) = P (X ≤ x) fur jedes x ∈ R

• diskrete Zufallsvariable: X nimmt nur abzahlbar

viele Werte x1, x2, x3, . . . an

Wahrscheinlichkeitsfunktion: P (X = xi) = f(xi)

F (x) =∑

xi≤x

fi

• stetige Zufallsvariable: Es existiert eine Dichte-

funktion f , so daß

F (x) =x∫

−∞f(x)dx


Wahrscheinlichkeitsdichte:f(x) � 0; Z +1�1 f(x)dx = 1:Verteilungsfunktion:F(x) monoton wachsendF(�1) = 0; F(+1) = 1:

Dichtefunktion

-3 -2 -1 0 1 2 3

x

0.2

0.4

0.6

0.8

1f(

x)

f(x)

bF(b)

Verteilungsfunktion

-3 -2 -1 0 1 2 3

x

00.

20.

40.

60.

81

F(x

)

F(x)

b

F(b)


Wichtige Parameter einer stetigen Z.v. X

• Mittelwert (Erwartungswert)

µ = E(X) =

∫ ∞

−∞xf(x)dx

• Varianz

σ2 = V ar(X) = E((X − µ)2

)= E(X2)− µ2

• Erwartungswert einer transformierten Zufallsva-

riablen X → g(X)

E(g(X)) =

∫ ∞

−∞g(x)f(x)dx

Schatzer auf der Grundlage einer einfachen Zu-

fallsstichprobe X1, . . . , Xn

• Mittelwert: X = 1n

∑ni=1 Xi

• Varianz: S2 = 1n−1

∑ni=1(Xi − X)2


Die Normalverteilung N(µ, σ2)

Viele statistische Verfahren basieren auf der Annah-

me, daß eine Z.v.X normalverteilt ist, d.h.X ∼ N(µ, σ2)

Wahrscheinlichkeitsdichte:

f(x) = 1σ√2πe−(x−µ)2/2σ2

fur −∞ < x < ∞, σ > 0

• E(X) = µ, V ar(X) = σ2

Standardisierte Normalverteilung N(0, 1)

• X ∼ N(µ, σ2) ⇒ Z = X−µσ ∼ N(0, 1)

• Standardisierte Dichtefunktion und Verteilungs-

funktion

ϕ(x) =1√2π

e−x2/2, Φ(z) =

∫ z

−∞ϕ(x)dx

• N(0, 1) ist tabelliert und

P (X ≤ x) = P (X − µ

σ≤ x− µ

σ) = P (Z ≤ x− µ

σ)


Dichtefunktion (Normalverteilung)

-3 -2 -1 0 1 2 3 4 5 6x

0.20.4

0.60.8

11.2

f(x)

N(0,1)

N(2,1/3)

N(2,1)

N(2,2)

Dichtefunktion (Standard-Normalverteilung N(0,1))

-4 -3 -2 -1 0 1 2 3 4x

00.1

0.20.3

0.4

f(x)

Verteilungsfunktion (Standard-Normalverteilung N(0,1))

-4 -3 -2 -1 0 1 2 3 4x

00.2

50.5

0.75

1

F(x)


4.10.2 Gaußprozesse und die multivariate

Normalverteilung

• Ein n-dimensionaler Zufallsvektor ist ein Spalten-

vektor X = (X1, . . . , Xn)T , dessen einzelne Ele-

mente alle Zufallsvariablen sind.

Diskrete Zufallsvariable: X nimmt nur abzahlbar

viele Werte x1, x2, · · · ∈ IRn an:

Wahrscheinlichkeitsfunktion:

f(x1, . . . , xn) = P (X1 = x1, . . . , Xn = xn)

Stetige Zufallsvariable: Die gemeinsame Verteilung von

X1, . . . , Xn wird beschrieben durch eine multivariate

Dichtefunktion: f(x1, . . . , xn)

Eigenschaften von Dichtefunktionen:

• f(x1, . . . , xn) ≥ 0

•∫∞−∞ . . .

∫∞−∞ f(x1, . . . , xn)dx1 . . . dxn = 1

•P (X ∈ [a1, b1]× · · · × [an, bn])

=∫ b1a1

. . .∫ bnan

f(x1, . . . , xn)dx1 . . . dxn


Unabhangigkeit:

Die Zufallsvariablen X1, . . . , Xn sind voneinander

unabhangig, wenn fur alle x = (x1, . . . , xn)T gilt

f(x1, . . . , xn) = f1(x1) · f2(x2) · . . . · fn(xn)

• Die obige Definition ist eine Formalisierung der

intuitiven Idee, dass X1, . . . , Xn unabhangig von-

einander sind, wenn sie sich gegenseitig nicht be-

einflussen. Kenntnis der Werte von Xi liefert kei-

nerlei Informationen uber Xj .

• Beispiel aus der Zeitreihenanalyse: {ϵt} ∼ IID(µ, σ2)

⇒ ϵ1, . . . , ϵn sind voneinander unabhangig


Dichte der zweidimensionalen Standardnormalvertei-

lung:X1 ∼ N(0, 1),X2 ∼ N(0, 1),X1 unabhangig von

X2

⇒ f(x1, x2) =1

2πe−x2

1/2e−x22/2


Die wichtigste multivariate Verteilung ist die soge-

nannte ”multivariate Normalverteilung”.

Ein Zufallsvektor X = (X1, . . . , Xn)T ist multivariat

normalverteilt, falls folgende Bedingungen erfullt sind:

• Jede einzelne Variable ist normalverteilt, Xi ∼N(µi, σ

2i ), i = 1, . . . , n

• Jede Linearkombination der Form Y = c1X1 +

c2X2 + · · · + cnXn = ist univariat normalverteilt

Y ∼ N(c1µ1+· · ·+cnµn,∑n

i=1

∑nj=1 cov(Xi, Xj))

Parameter der multivariaten Normalverteilung:

Mittelwerte, Varianzen und Kovarianzen der einzel-

nen Variablen.

Spezialfall: i.i.d. Gaußsches Weißes Rauschen: {Xt} ∼IID(µ, σ2) und Xt ∼ N(µ, σ2)

⇒ X = (X1, . . . , Xn)T multivariat normalverteilt mit

Dichtefunktion:

f(x1, x2, . . . , xn) = f1(x1)f2(x2) . . . fn(xn)

= (1√2πσ

)n exp(n∑

i=1

(xi − µ)2

2σ2)

f(x1, . . . , xn) ≡ f(x1, . . . , xn|µ, σ2) hangt nur von

den Werten von µ und σ2 ab (alle Kovarianzen = 0)


Im allgemeinen Fall werden alle Varianzen und Ko-

varianzen der einzelnen Variablen in der sogenannten

Kovarianzmatrix zusammengefasst:

Σ :=

var(X1) cov(X1, X2) · · · cov(X1,Xn)

cov(X2,X1) var(X2) · · · cov(X2,Xn)

· · ·

· · ·

· · ·

cov(Xn, X1) cov(Xn,X2) · · · var(Xn)

Dichtefunktion der multivariaten Normalverteilung:

f(x1, . . . , xn) =1

(2π)n/2|Σ|1/2exp(−1

2(x−µ)TΣ−1(x−µ))

mit x = (x1, . . . , xn)T und µ = (µ1, . . . , µn)

T

Wir schreiben dann kurz

X = (X1, . . . , Xn)T ∼ Nn(µ,Σ)


Zeitreihenanalyse: Der Gaußprozess�

�

�

�

Zeitreihenanalyse: Ein stochastischer Prozess

{Xt} heißt Normalprozess oder Gaußprozess,

wenn fur jede endliche Auswahl von Zeitpunk-

ten t1, t2, . . . , tn die entsprechenden n-dimensionalen

ZufallsvariablenXt1 , . . . , Xtn multivariat normalver-

teilt sind.

• Fur einen Gaußprozess sind strenge und schwache

Stationaritat aquivalent.

• Ist X1, . . . , Xn der beobachtete Abschnitt eines

stationaren Gaußprozesses, so gilt

X = (X1, . . . , Xn)T ∼ Nn(µ,Γn)

• Die Parameter dieser multivariaten Normalvertei-

lung sind der gemeinsame Mittelwert µ = E(X1) =

· · · = E(Xn) und die in der Matrix Γn zusammen-

gefassten Werte der Autovarianzfunktion:

Γn =

γ(0) γ(1) · · · γ(n− 1)

γ(1) γ(0) · · · γ(n− 2)...

......

γ(n− 1) γ(n− 2) · · · γ(0)


Bei der Analyse von ARMA-Prozessen {Xt} wird haufig

zusatzlich angenommen, dass die Zeitreihe ein Gauß-

Prozess ist.

• ARMA(p, q)-Prozess (mit Mittelwert µ):

Xt − µ =ϕ1(Xt−1 − µ) + · · ·+ ϕp(Xt−p − µ)

+ ϵt + θ1ϵt−1 + · · ·+ θqϵt−q

FallsX1, . . . , Xn multivariat normal sind, so erhalt

man die Dichtefunktion

f(x1, . . . , xn) =1

(2π)n/2|Γn|1/2exp(−1

2(x−µ)TΓ−1

n (x−µ))

• Die Elemente der Autokovarianzmatrix Γn (=

Werte von γ(h)) errechnen sich in Abhangigkeit

von µ, ϕ1, . . . , ϕp, θ1, . . . , θp und σ2. Die Struktur

der Dichtefunktion

f(x1, . . . , xn) = f(x1, . . . , xn|µ, ϕ, θ, σ2)

lasst sich daher aus den Koeffizienten des Prozes-

ses berechnen.


4.10.3 Maximum Likelihood-Schatzung

Beispiel: Eine Firma besitze einen relativ großen La-

gerbestand an Gluhbirnen. Um sich einen Eindruck

von dem Anteil defekter Gluhbirnen zu verschaffen,

wird eine Zufallsstichprobe von 5 Birnen gezogen. 3

davon sind defekt.

Statistisches Modell:

• ZufallsvariableX =

1 falls Gluhbirne defekt

0 sonst

X ∼ Bernoulli(p)

p = P [X = 1] - Anteil der defekten Gluhbirnen

• Einfache Zufallsstichprobe X1, . . . , X5. Die beob-

achteten Werte sind

x1 = 1, x2 = 0, x3 = 1, x4 = 1, x5 = 0

Problem: Schatzung des wahren Wertes von p?

Idee der Maximum Likelihood-Schatzung: Man

betrachtet allemoglichenWerte 0 ≤ p ≤ 1 und wahlt

dann denjenigen aus, der die beobachteten Daten am

besten erklart.


Die Wahrscheinlichkeit, genau die beobachtete Stich-

probe x1, . . . , x5 zu ziehen, hangt von p ab:

P [X1 = x1, X2 = x2, X3 = x3, X4 = x4, X5 = x5|p]

= P [X1 = x1] · P [X2 = x2] · P [X3 = x3]

· P [X4 = x4] · P [X5 = x5]

= p · (1− p) · p · p · (1− p)

= p3(1− p)2�

�

�

�

⇒ Fur alle p ∈ [0, 1]: Falls p der wahre Wert ist, so

gilt

L(p) = P [X1 = x1, . . . , X5 = x5|p] = p3(1− p)2

L(p) wird als”Likelihoodfunktion“ bezeichnet.

Fur alle 0 ≤ p ≤ 1 gibt L(p) also die Wahrscheinlich-

keit an, dass die beobachteten Werte x1, . . . , x5 auf-

treten, falls der betrachtete Wert p gleich dem wah-

ren Wert ist. Der Ansatz der Maximum Likelihood-

Schatzung besteht nun darin, denjenigen Wert aus-

zuwahlen fur den diese Wahrscheinlichkeit maximal

ist.

• p = 0⇒ L(p) = 0⇒ beobachtete Werte unmoglich!


• p = 0, 1 ⇒ L(p) = 0, 13 · 0, 92 = 0, 00081

• p = 0, 2 ⇒ L(p) = 0, 23 · 0, 82 = 0, 00512

0.0 0.2 0.4 0.6 0.8 1.0

p

0.00

0.01

0.02

0.03

0.04

L(p)

L(p) wird am Punkt p = 0.6 maximal ⇒ p = 0.6 ist

die”Maximum Likelihood-Schatzung“ des unbe-

kannten wahren Wertes von p.

p = 0.6 ist im Beispiel derjenige Wert von p ∈ [0, 1],

fur den die Wahrscheinlichkeit, dass gerade die beob-

achteten Werte x1, . . . , x5 auftreten, maximal ist.


Das Maximum Likelihood-Prinzip

Das obige Beispiel liefert eine Illustration des Maxi-

mum Likelihood-Prinzip zur Konstruktion einer Schatz-

funktion. Allgemein lasst sich dieses Prinzip folgender-

maßen darstellen:

Statistisches Modell:

• n Zufallsvariablen

X1, . . . , Xn Die gemeinsame Verteilung derXi hangt

von einem Parameter(vektor) ϑ ab, dessen wahrer

Wert unbekannt ist.

• beobachtete (realisierte) Werte: x1, . . . , xn

Problem: Schatze ϑ

�� 1. Schritt: Berechnen der Likelihoodfunktion L(ϑ)

Die Likelihoodfunktion ergibt sich in Abhangigkeit von

allen prinzipiell moglichen Werten von ϑ. Sie quan-

tifiziert (bei diskreten Zufallsvariablen) die Wahrschein-

lichkeit, dass gerade die beobachtetenWerte x1, . . . , xn

auftreten, falls der wahreWert des Parameter(vektors)

mit dem betrachteten Wert ϑ ubereinstimmt.


• Diskrete Verteilung mit Wahrscheinlichkeitsfunk-

tion f(x1, . . . , xn) ≡ f(x1, . . . , xn|ϑ)

L(ϑ) ≡ L(x1, . . . , xn|ϑ) = P [X1 = x1, . . . , Xn = xn|ϑ]

= f(x1, . . . , xn|ϑ)

• Stetige Verteilung mit Dichtefunktion f

L(ϑ) ≡ L(x1, . . . , xn|ϑ) = f(x1, . . . , xn|ϑ)

�

�

�

�

2. Schritt: Maximieren von L(ϑ) bezuglich allen prin-

zipiell moglichen Werten ϑ liefert die”Maximum

Likelihood-Schatzung“ ϑ des wahren Parameter-

wertes,

L(ϑ) = maxϑ

L(ϑ)

Schatzwert: ϑ ⇔ argmaxϑ

L(x1, . . . , xn|ϑ)

Schatzfunktion: ϑ ⇔ argmaxϑ

L(X1, . . . , Xn|ϑ)


Illustration:Maximum Likelihood-Schatzung des Mit-

telwerts µ von i.i.d. Gaußschem Weißen Rauschen mit

bekannter Varianz σ2 = 1 (n = 20)

L(µ) = f(x1|µ) · · · f(x20|µ); f(x|µ) = 1√2π

exp(− (x−µ)2

2

)µ = 2 ⇒ Likelihood L(2) klein:

-2 -1 0 1 2 3 4

x

0.0

0.1

0.2

0.3

0.4

f(xi| 2)

µ = 1 ⇒ Likelihood L(1) > L(2)

-2 -1 0 1 2 3 4x

0.0

0.1

0.2

0.3

0.4

f(xi| 1)

Maximale Likelihood fur µ = x = −0.29 ⇒ µ = −0.29

-2 -1 0 1 2 3 4x

0.0

0.1

0.2

0.3

0.4

f(xi|-0.29)


Anwendung: Maximum Likelihood-Schatzung

eines Anteilswertes

• X1, . . . , Xn unabhangig und identisch verteilt;

Xi ∼ Bernoulli(p);

zu schatzen: wahrer Anteilswert p

• beobachtet: s =n∑

i=1

xi mal”1“ und n− s mal

”0“

• Damit ergibt sich

L(p) = P [X1 = x1] · · ·P [X2 = x2] . . . P [Xn = xn]

= ps(1− p)n−s

• Maximum-Likelihood: p maximiert L(p)

• Eine Losung des Maximierungsproblems ergibt sich

durch Ableiten und Nullsetzen:

∂L(p)

∂p= sps−1(1− p)n−s − ps(n− s)(1− p)n−s−1

⇒ 0 = sps−1(1− p)n−s − ps(n− s)(1− p)n−s−1

⇒ p =s

n=

∑ni=1 xi

n= x

• Berechnung der zweiten Ableitung: L(p) nimmt

an der Stelle p ein Maximum an.

⇒ p = X ist Maximum Likelihood-Schatzer des An-

teilswertes


Logarithmierte Likelihood

Vorgehen zur Bestimmung einer Maximum Likelihood-

Schatzung: Ableiten von L(ϑ) und anschließendes Null-

setzen.

Problem: Oft”unfreundliche“ Ausdrucke

Ausweg: Vereinfachung der Berechnungen durch Ver-

wendung der

”Log-Likelihoodfunktion“ lnL(ϑ)

• ϑ maximiert L(ϑ) ↔ ϑ maximiert lnL(ϑ)

Ansatz zur Berechnung von ϑ:

1. Differenzieren: l(ϑ) = ∂ lnL(ϑ)∂ϑ

2. Nullsetzen: ϑ Losung von l(ϑ) = 0

3. Verifikation, dass ϑ wirklich ein Maximum ist

Achtung: Ist ϑ = (ϑ1, . . . , ϑk)′ eine Parametervektor,

so beinhaltet dies die Berechnung aller k partiellen

Ableitungen und eine anschließende Losung des (evtl

nichtlinearen) Gleichungssystems l(ϑ) = 0.


Anwendung: Maximum Likelihood-Schat-zung des Mittelwerts von GaußschemWei-ßen Rauschen

• Sei {Xt} ∼ IID(µ, σ2) mit

Xt ∼ N(µ, σ2); σ2 bekannt

zu schatzen: wahrer Mittelwert µ

• n beobachtete Werte der Zeitreihe: x1, . . . , xn

• Likelihoodfunktion:

L(µ) = f(x1|µ) · · · f(xn|µ)

= (1√2πσ

)n exp(n∑

i=1

(xi − µ)2

2σ2)

• Log-Likelihoodfunktion:

lnL(µ) = n · ln 1√2πσ

+n∑

i=1

− (xi − µ)2

2σ2

• Ableitung nach µ:

l(µ) =∂ lnL(µ)

∂µ=

n∑i=1

− (xi − µ)

σ2


• Berechnung von µ:

0 = l(µ) =n∑

i=1

−xi − µ

σ2

⇒ 0 =

n∑i=1

(xi − µ) =

n∑i=1

xi − nµ

⇒ µ =

∑ni=1 xi

n= x

Anmerkung: Durch analoge Rechnungen ergibt sich

bei unbekannter Varianz

s2 =1

n

n∑i=1

(xi − x)2

als Maximum Likelihood-Schatzung von σ2


4.10.4 Schatzer und ihre Verteilungen

Sei X ∼ N(µ, σ2)

Einfache Zufallsstichprobe: X1, . . . , Xn

Dann gilt:

X ∼ N(µ,σ2

n)

⇒ Konfidenzintervall zum Niveau 1 − α fur µ bei

bekannten σ

µ ∈ [X ± z1−α/2σ√n]

z1−α/2 - 1 − α/2-Quantil der Standardnormalvertei-

lung; z0.975 = 1.96

√n(X − µ)

S∼ Tn−1

Tn−1 - Studentsche t-Verteilung mit n − 1 Freiheits-

graden

⇒ Konfidenzintervall fur µ bei unbekannter Vari-

anz

µ ∈ [X ± t1−α/2;n−1S√n]


(n− 1)S2

σ2∼ χ2

n−1

χ2n−1 - χ2 Verteilung mit n− 1 Freiheitsgraden

Zentraler Grenzwertsatz

Seien X1, . . . , Xn unabhangig und identisch verteilte

Zufallsvariablen mit E(Xi) = µ und V ar(Xi) = σ2 >

0.

• Die Folge von Zufallsvariablen

Zn =

∑ni=1 Xi − nµ√

nσ2=

√n

(X − µ

σ

)konvergiert mit steigendem n gegen die standar-

disierte Normalverteilung N(0, 1)

• Fur genugend großes n sind die Beziehungen X ∼N(µ, σ2

n ),√n(X−µ)

S ∼ Tn−1, (n − 1)S2

σ2 ∼ χ2n−1

approximativ erfullt.


4.10.5 Statistische Testverfahren

Beispiel: t-Test

Einfache Zufallsstichprobe:X1, . . . , Xn unabhangig

und identisch N(µ, σ2) verteilt.

• Einseitiger Test

Nullhypothese H0: : µ = µ0

Alternative H1: µ > µ0

• Zweiseitiger Test

Nullhypothese H0: µ = µ0

Alternative H1: µ = µ0

Statististischer Test: Verfahren zur Entschei-

dung zwischen H0 und H1 auf der Grundlage der be-

obachteten Daten�

�

�

�Fehler 1. Art: H0 wird abgelehnt, obwohl H0 rich-

tig ist

Fehler 2. Art: H0 wird angenommen, obwohl H0

falsch ist

Signifikanztest zum Niveau α (z.B. α = 5%)

P ( Fehler 1. Art ) ≤ α


Teststatistik des t-Tests:

T =

√n(X − µ0)

S

Test zum Niveau α

• Einseitiger Test: Ablehnung von H0, falls

Tbeobachtet ≥ tn−1;1−α

• Zweiseitiger Test: Ablehnung von H0, falls

|Tbeobachtet| ≥ tn−1;1−α/2

Der p-Wert (Uberschreitungswahrschein-lichkeit):

• Einseitiger Test:

p-Wert = P (Tn−1 ≥ Tbeobachtet)

• Zweiseitiger Test:

p-Wert = P (|Tn−1| ≥ |Tbeobachtet|)


Allgemein: p-Wert =Wahrscheinlichkeit, unterH0

den beobachteten Prufgroßenwert oder einen in Rich-

tung der Alternative extremeren Wert zu erhalten.

Interpretation:

• ”Glaubwurdigkeit” vonH0:H0 ist wenig glaubwurdig,

falls der p-Wert sehr klein ist

• Der in einer konkreten Anwendung berechnete p-

Wert hangt von dem beobachteten Datensatz

ab. Er liefert Informationen uber die Resultate der

zugehorigen Signifikanztests zu den verschiedenen

Niveaus α :

α > p-Wert ⇒ Ablehnung von H0

α < p-Wert ⇒ Beibehaltung von H0

In der Praxis:

• Test ”signifikant”, falls p-Wert < 0.05 (d.h. ein

Test zum Niveau 5% fuhrt zur Ablehnung vonH0)

• Haufig: Test ”schwach ”signifikant, falls 0.05 >

p-Wert > 0.01 (d.h. ein Test zum Niveau 5% fuhrt

zur Ablehnung von H0; ein Test zum Niveau 1%

fuhrt dagegen zur Beibehaltung von H0)


Beispiel:

Daten: X1 = 19.20, X2 = 17.40, X3 = 18.50, X4 =

16.50, X5 = 18.90, n = 5.

⇒ X = 18.1

Testproblem: H0 : µ = 17 gegen H1 : µ = 17

Tbeobachtet =

√5(18.1− 17)

1.125= 2.187

⇒ p-Wert = P (|Tn−1| ≥ 2.187) = 0.094

Tests zu verschiedenen Niveaus α:

α = 0.2 ⇒ 2.187 > t4,0.9 = 1.533 ⇒ Ablehnung von

H0

α = 0.1 ⇒ 2.187 > t4,0.95 = 2.132 ⇒ Ablehnung von

H0

α = 0.094 = p-Wert ⇒ 2.187 = t4,0.953 = 2.187

⇒ Ablehnung von H0

α = 0.05 ⇒ 2.187 < t4,0.975 = 2.776 ⇒ Annahme von

H0

α = 0.01 ⇒ 2.187 < t4,0.995 = 4.604 ⇒ Annahme von

H0


4 modellierung und prognose mit arma, arima und sa- · pdf file4 modellierung und prognose mit...

Documents