künstliche neuronale netze und prognose nichtlinearer ... · die neueren forschungsbemühungen im...

-3 -2 -1 0 1 2 3

0

0.4

0.8

1.2

1.6

2

fh

( | ). .

Künstliche Neuronale Netze und nichtlineare Prognose univariater Zeitreihen

Roland Schuhr

Prof. Dr. Roland Schuhr

Institut für Empirische Wirtschaftsforschung Bereich Statistik Wirtschaftswissenschaftliche Fakultät der Universität Leipzig

Grimmaische Strasse 12 D-04109 Leipzig

Email: [email protected]

Habilitationsschrift zur Erlangung der venia legendi im Lehrgebiet der Statistik

vorgelegt dem Fachbereich Wirtschaftswissenschaften der

Philipps-Universität zu Marburg von

Roland Schuhr Marburg, März 1998

(Partiell aktualisiert in 2004)

mailto:[email protected]

INHALTSVERZEICHNIS

Seite

Kapitel 1 Einleitung und Überblick............................................................................. 1

1.1 Analyse und Prognose nichtlinearer Zeitreihen.................................................. 1

1.2 Künstliche Neuronale Netze ........................................................................... 3

1.3 Inhalt des Buches............................................................................................ 7

Kapitel 2 Neurophysiologische Aspekte .................................................................... 9

2.1 Funktionelle Gliederung des menschlichen Nervensystems................................ 9

2.2 Informationsverarbeitung durch Nervenzellen................................................... 10

2.3 Lernen und Gedächtnisbildung......................................................................... 15

Kapitel 3 Das klassische Perzeptron.......................................................................... 17

3.1 McCulloch-Pitts-Neurone............................................................................... 17

3.2 Die Netzwerkarchitektur eines einfachen Photo-Perzeptrons............................ 21

3.3 Der Perzeptron-Lernalgorithmus ..................................................................... 25

3.4 Grenzen des Perzeptron-Ansatzes................................................................... 28

Kapitel 4 Least-Mean-Square-Algorithmus und lineare Netzwerke ........................ 31

4.1 Eine einfache Lernmaschine und lineare Regressionsprobleme .......................... 32

4.1.1 Das Lernziel des LMS-Algorithmus .................................................... 34

4.1.2 Der datenerzeugende Prozeß.............................................................. 39

4.2 LMS-Algorithmus und Echtzeit-Lernen........................................................... 46

4.3 Rekursive Kleinste-Quadrate-Schätzung ......................................................... 49

Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004

II

4.4 Stochastische Approximation.......................................................................... 54

4.5 LMS-Algorithmus und zyklisches Lernen......................................................... 56

4.6 Lineare Multi-Output-Netzwerke.................................................................... 59

4.7 Das ADALINE.............................................................................................. 61

Kapitel 5 Backpropagation und Mehrschicht-Perzeptrone ....................................... 65

5.1 Neurone mit sigmoiden Aktivierungsfunktionen................................................ 66

5.2 Netzwerkarchitekturen von Mehrschicht-Perzeptronen.................................... 68

5.3 Der Backpropagation-Algorithmus.................................................................. 72

5.3.1 Mehrschicht-Perzeptrone und nichtlineare Regressionsprobleme .......... 72

5.3.2 Backpropagation und zyklisches Lernen.............................................. 74

5.4 Backpropagation-Varianten und alternative Algorithmen.................................. 78

5.4.1 Beschleunigung von Backpropagation................................................. 78

5.4.2 Lokale Minima ................................................................................... 80

5.4.3 Alternative Optimierungsverfahren....................................................... 82

5.5 Asymptotische Eigenschaften der Backpropagation-Schätzer........................... 92

5.6 Mehrschicht-Perzeptrone und nichtparametrische Regression........................... 97

5.6.1 Das Bias/Varianz-Dilemma ................................................................. 97

5.6.2 Nichtparametrische Raster-Schätzer ................................................... 99

Kapitel 6 Modellierung und Prognose nichtlinearer Zeitreihen................................ 103

6.1 Das Prognoseproblem.................................................................................... 103

6.2 Neuronale-Netzwerk-Tests auf Nichtlinearität des datenerzeugenden

Prozesses ....................................................................................................... 111

6.3 Netzwerkspezifikation..................................................................................... 119

6.3.1 Regularisierung................................................................................... 120

6.3.2 Modellselektion mittels Kreuzvalidierung und Informationskriterien.124

6.3.3 Diagnose der Anzahl verborgener Verarbeitungseinheiten.................... 131


III

Kapitel 7 Mehrschritt-Punktprognosen mit Künstlichen Neuronalen Netzen......... 135

7.1 Rekursive Kleinste-Quadrate-Prognose autoregressiver Prozesse .................... 135

7.1.1 Lineare Autoregression....................................................................... 136

7.1.2 Nichtlineare Autoregression................................................................ 139

7.2 Alternative Prognosetechniken........................................................................ 141

7.3 Experimenteller Vergleich der Prognosetechniken............................................ 145

7.3.1 Design der Simulationsstudie............................................................... 145

7.3.1.1 Auswahl der stochastischen Prozesse.................................................. 146

7.3.1.2 Simulation der stochastischen Prozesse ............................................... 162

7.3.1.3 Spezifikation und Training Künstlicher Neuronaler Netze..................... 163

7.3.1.4 Implementierung der alternativen Prognosetechniken............................ 164

7.3.1.5 Kriterien für den Vergleich der Prognosetechniken.............................. 170

7.3.2 Ergebnisse der Simulationsstudie......................................................... 171

7.3.3 Diskussion der Ergebnisse .................................................................. 182

Kapitel 8 Schätzung von Prognoseregionen mit Künstlichen Neuronalen Netzen... 185

8.1 Konstruktion von Prognoseregionen................................................................ 185

8.2 Schätzung von Prognoseregionen.................................................................... 193

Kapitel 9 Ein empirisches Beispiel: Die Wolf'schen Sonnenflecken........................ 201

9.1 Zeitreihenmodelle............................................................................................ 203

9.2 Künstliche Neuronale Netze ........................................................................... 205

9.3 Punktprognosen.............................................................................................. 213

9.4 Regionprognosen............................................................................................ 224

Kapitel 10 Schlußbemerkungen.................................................................................... 229

Literaturverzeichnis................................................................................................................ 233


1

1 EINLEITUNG UND ÜBERBLICK

1.1 Analyse und Prognose nichtlinearer Zeitreihen

Die Analyse und Prognose wirtschaftlicher Vorgänge mit Hilfe zeitreihenanalytischer Metho-

den hat eine lange Tradition. Die statistische Analyse von Zeitreihendaten liefert Erkenntnisse

über Verhaltensmuster in der Entwicklung ökonomischer Variablen und ermöglicht ein tiefe-

res Verständnis der zugrundeliegenden ökonomischen Prozesse. Wirtschaftliche Entschei-

dungsprozesse sind typischerweise durch Unsicherheit bezüglich der zukünftigen Entwick-

lung entscheidungsrelevanter Variablen gekennzeichnet. Zuverlässige Prognosen führen zu

einer Reduktion der Unsicherheit und erleichtern so die Entscheidungsfindung.

Die traditionellen statistischen Methoden arbeiten überwiegend unter den Annahmen, daß (a)

die Zeitreihen oder Transformationen der Reihen durch stationäre stochastische Prozesse er-

zeugt werden und (b) die probabilistischen Eigenschaften der Prozesse durch lineare Modelle

beschreibbar sind. Desweiteren wird häufig explizit oder implizit ein normalverteilter erzeu-

gender Prozeß unterstellt. Diese Annahmen führen zu einer substanziellen Vereinfachung der

Analyse- und Prognoseproblematik. So können die stochastischen Eigenschaften eines statio-

nären Gaußprozesses bereits vollständig durch seine zeitinvarianten Momente bis zur zweiten

Ordnung (Mittelwert und Autokovarianzen) charakterisiert werden. Die Schätzung der Mo-

mente und die Prognose einer Zeitreihe sind jetzt mit vergleichsweise geringem Aufwand

durchführbar. Innerhalb dieses konzeptionellen Rahmens stellen die von Box & Jenkins

[1970] eingeführten linearen Autoregressiven-Moving-Average-(ARMA)-Modelle und ihre

multivariaten Verallgemeinerungen wie die Vektor-Autoregressiven-Moving-Average-

(VARMA)- Modelle die wohl populärsten Analyse- und Prognosewerkzeuge dar.

Stationarität, Linearität und Normalverteilung sind allerdings mathematische Idealisierungen,

die in vielen Fällen nur grobe Approximationen realer dynamischer Phänomene sein können.

Die neueren Forschungsbemühungen im Bereich der Zeitreihenanalyse zielen deshalb im

besonderen auf die Überwindung der restriktiven Annahmen ab. Seit Ende der 1970ziger

Jahre hat sich das Interesse zunehmend auf die Analyse und Prognose stationärer nichtlinearer

(und damit auch nichtnormalverteilter) Reihen gerichtet. Diese Entwicklung wurde nicht zu-

letzt durch Ergebnisse ökonomischer Studien angeschoben, die aufzeigten, daß zahlreiche



wirtschaftliche Phänomene nur unzureichend durch lineare Modelle beschrieben werden kön-

nen. Beispielhaft seien zwei Ergebnisse genannt: Seit langem ist bekannt, daß Konjunktur-

zyklen typischerweise asymmetrisch sind. Konjunkturelle Abschwungphasen sind tendenziell

kurzlebiger als konjunkturelle Aufschwungphasen. Dieses Phänomen schlägt sich in zahlrei-

chen makroökonomischen Zeitreihen in Form asymmetrischer zyklischer Bewegungsmuster

nieder. Da lineare Zeitreihenmodelle ausschließlich symmetrische zyklische Fluktuationen

generieren, können asymmetrische Konjunkturzyklen als ein Indiz für einen nichtlinearen

datengenerierenden Mechanismus gewertet werden (siehe z.B. Teräsvirta & Anderson

[1993]). Ein anderes, in Analysen hochfrequenter Finanzmarktreihen häufig beobachtetes

nichtlineares Phänomen ist die Volatilitätenclusterung. Die Variabilität von Preisänderungs-

raten oder Renditen auf spekulativen Märkten ist typischerweise nicht zeitkonstant. Phasen

höherer Volatilität wechseln mit Phasen niedriger Volatilität ab. Das Phänomen läßt auf

nichtkonstante bedingte Varianzen der datenerzeugenden Prozesse schließen und ist mit der

Annahme eines stationären Gaußprozesses inkompatibel (siehe z.B. Bollerslev et al. [1994]).

Da nichtlineare Dynamik in sehr unterschiedlichen Formen auftreten kann, sind die Vor-

schläge zur Modellierung nichtlinearer Zeitreihen zahlreich und zum Teil sehr unterschiedlich

motiviert. Es können zwei Klassen von Ansätzen unterschieden werden. Die Grenzziehung ist

hierbei allerdings nicht durchgängig scharf. Die erste Klasse nutzt parametrische Zeitreihen-

modelle als Analyse- und Prognosewerkzeuge. Sie sind vielfach nichtlineare Erweiterungen

linearer autoregressiver Modelle oder linearer ARMA-Modelle. Typische Beispiele sind die

Bilinear-Autoregressiven-Moving-Average-(BARMA)-Modelle von Granger & Andersen

[1978], die Exponentiell-Autoregressiven-(EXPAR)-Modelle von Haggan & Qzaki [1981],

die Threshold-Autoregressiven-(TAR)-Modelle von Tong & Lim [1978], Tong [1983], die

Smooth-Transition-Autoregressiven-(STAR)-Modelle von Chan & Tong [1986] und Granger

& Teräsvirta [1993], die Random-Coefficient-Autoregressiven-(RCAR)-Modelle von Nicholls

& Quinn [1982] sowie die autoregressiven bedingt heteroskedastischen Modelle (ARCH-Mo-

delle) von Engle [1982] und die generalisierten ARCH-Modelle (GARCH-Modelle) von

Bollerslev [1986]. Einen Überblick über diese und andere Ansätze geben z.B. Tong [1990]

und Granger & Teräsvirta [1993].

Die parametrischen Zeitreihenmodelle beschreiben jeweils spezifische Formen von Nicht-

linearität. In der Praxis kann es schwierig sein, zu entscheiden, ob eines und wenn ja, welches

dieser Modelle eine adäquate Erfassung der nichtlinearen Struktur eines datenerzeugenden

Prozesses ermöglicht. Um die subjektive Auswahl eines spezifischen parametrischen Modells

zu vermeiden, setzt eine zweite Klasse von Ansätzen nichtparametrische Regressionstechniken

zur Analyse und Prognose nichtlinearer Zeitreihen ein. So untersucht z.B. Robinson [1983]

den Einsatz nichtparametrischer Kernschätzer zur Schätzung bedingter Mittelwerte und be-


EINLEITUNG UND ÜBERBLICK 3

dingter Dichten datenerzeugender Prozesse. Weitere Ansätze sind die Nichtlinear-Additiven-

Autoregressiven-(NAAR)-Modelle und Hastie & Tibshirani [1990], die Adaptive-Spline-

Threshold-Autoregressiven-(ASTAR)-Modelle von Lewis & Stevens [1991] oder die Functio-

nal-Coefficient-Autoregressiven-(FAR)-Modelle von Chen & Tsay [1993]. Die Ansätze besit-

zen den Vorzug, daß sie sehr flexibel sind und 'die Daten für sich selbst sprechen lassen'. Die

Flexibilität hat allerdings einen Preis: Zuverlässige Analyse- und Prognoseergebnisse dürfen

in aller Regel nur dann erwartet werden, wenn lange Zeitreihen ohne Strukturbrüche verfüg-

bar sind. Im ökonomischen Bereich beschränkt sich der Einsatz dieser Verfahren im wesent-

lichen auf hochfrequente Finanzmarktreihen, die in hinreichender Länge verfügbar sind. Um-

fassende Überblicke über die Verfahren geben Tjøstheim [1994] und Härdle et al. [1997].

1.2 Künstliche Neuronale Netze

Begünstigt wurde der Forschungsaufschwung im Bereich der nichtlinearen Zeitreihenanalyse

seit den späten 1970ziger Jahren durch die Fortschritte der Computertechnologie. Nichtlineare

Modellierung und Prediktion sind rechenaufwendig. Erst die Verfügbarkeit leistungsstarker

Computer machte die Überwindung der Linearitätsrestriktion möglich. Vergleichbares gilt

auch für andere Bereiche der Statistik wie Regressions- und Diskriminanzanalyse.

Zeitlich parallel zu dieser Entwicklung erlebte ein Forschungsbereich der Kognitionswissen-

schaften und der Künstlichen Intelligenz eine Renaissance, der auf den ersten Blick keinerlei

Beziehungen zur nichtlinearen statistischen Modellierung zu haben scheint. Er wird in der

Literatur uneinheitlich als Konnektionismus, Parallel Distributed Processing, Neurocompu-

ting oder Neuroinformatik bezeichnet. Ein wesentliches Ziel dieses Forschungsbereiches ist

es, Erkenntnisse über Organisationsstrukturen und Informationsverarbeitungsmechanismen

biologischer Nervensysteme zur Entwicklung neuartiger Computer zu nutzen, die in der Lage

sind, spezifische, bisher dem Menschen vorbehaltene Intelligenzleistungen nachzuahmen.

Von diesem Ziel ist man heute noch ein gutes Stück entfernt. Die intensive Forschung in den

achtziger und neunziger Jahren führte jedoch zur Entwicklung einer reichen Klasse von Mo-

dellen, die geeignet sind vielfältige Informationsverarbeitungsaufgaben zu lösen. Die Modelle

werden als konnektionistische Modelle, Parallel Distributed Processors oder als Künstliche

Neuronale Netze (KNN) bezeichnet. Nicht ohne Ironie ist, daß das intensive Studium Künst-

licher Neuronaler Netze, die als Alternativen zum herkömmlichen digitalen Universalrechner

intendiert sind, erst durch die Fortschritte der konventionellen Computertechnik möglich

wurde. Die Verfügbarkeit leistungsstarker Rechner erlaubte es den Forschern, in einem Um-

fang Modelle zu simulieren und zu testen, der vor 1980 nicht möglich war.



Keines der bisher entwickelten Modelle erhebt den Anspruch, die Komplexität biologischer

Nervensysteme auch nur annähernd zu erfassen. Aufbau und Funktionsprinzipen von KNN

orientieren sich nur an einigen bekannten (oder sogar nur vermuteten) Organisationsstrukturen

und Informationsverarbeitungsmechanismen des biologischen Vorbildes. Als wichtige Orien-

tierungspunkte erachtet man insbesondere die hochgradige Parallelität der Informationsver-

arbeitung in Nervensystemen, die verteilte Speicherung der Information an den synaptischen

Koppelungsstellen der Nervenzellen und die Gedächtnisbildung durch Lernen. Die For-

schungsbemühungen werden nicht nur durch neurobiologische Aspekte stimuliert. KNN ver-

einigen Erkenntnisse und Konzepte, die in verschiedenen Wissenschaftsdisziplinen erarbeitet

wurden, z.B. in der Psychologie, den Ingenieurswissenschaften, der Informatik, der Physik,

der Mathematik und Statistik. Eine Folge der vielfältigen Forschungseinflüsse ist, daß es eine

allgemein akzeptierte Definition des Begriffs 'Künstliches Neuronales Netz' de facto nicht

gibt. Viele Netzwerkmodelle weisen jedoch spezifische Gemeinsamkeiten auf, deren Hervor-

hebung geeignet ist, eine umfangreiche Modellklasse näher zu charakterisieren.

Ein KNN soll hier anschaulich als ein adaptiver Abbildungsautomat interpretiert werden, der

numerisch codierte Signale x ∈ IR p seines Umsystems als Eingaben empfängt und auf diese

mit numerischen Ausgabesignalen o ∈ IRq antwortet (vgl. Rojas [1993, S.30ff]). Formal läßt

sich das Input-Output-Verhalten durch eine vektorwertige Funktion f IR IRp q: → beschrei-

ben. Der Automat ist charakteristischerweise aus einer größeren Anzahl primitiver Einheiten

aufgebaut, die über gerichtete und gewichtete Verbindungsleitungen miteinander gekoppelt

sind. Die Einheiten fungieren als Schnittstellen zum Umsystem (Eingabe- bzw. Ausgabeein-

heiten) und/oder als Berechnungselemente (Verarbeitungseinheiten, Prozessoren). Die Archi-

tektur des Automaten besitzt die Topologie eines gerichteten und gewichteten Graphen,

dessen Knoten die Einheiten repräsentieren und dessen Kanten die Verbindungen der Ein-

heiten sind. Ferner ist er mit einem Algorithmus ausgestattet, der eine Änderung des Input-

Output-Verhaltens aufgrund von Stimuli des Umsystems ermöglicht.

Die Verarbeitungseinheiten modellieren in stark idealisierter Form die Signalverarbeitung

durch Nervenzellen. Sie werden daher auch als Neurone und die Verbindungen als Synapsen

bezeichnet. Einzelne Verarbeitungseinheiten können, da sehr einfach aufgebaut, keine kom-

plexen Signalverarbeitungsprozesse ausführen. Die Ausführung komplexer Prozesse wird

durch die parallele Aktivität vieler Einheiten und die Signalübertragung zwischen den Ein-

heiten über ihre synaptischen Verbindungen realisiert. Die Verarbeitungseinheiten führen

typischerweise nichtlineare Signaltransformationen durch, so daß das Netzwerk eine nicht-lineare Funktion f modelliert.

Zur Bearbeitung einer Informationsverarbeitungsaufgabe benötigen KNN keinen speziellen

Lösungsalgorithmus. Sie ahmen Lernprozesse biologischer Nervensysteme nach und lösen



Aufgaben aufgrund von 'Erfahrungswissen'. Die Gewichte der synaptischen Verbindungen

spielen hierbei eine Schlüsselrolle. Lernen in KNN bedeutet, die Gewichte derart zu bestim-

men, daß das Netz auf Eingabesignale x mit 'geeigneten' Ausgabesignalen o antwortet. Dies

setzt die Verfügbarkeit von Lerndaten und eines Verfahrens, das den Lernprozeß steuert, vor-

aus. Ein solches Verfahren wird als Lernalgorithmus oder Lernregel bezeichnet. Das Erfah-

rungswissen eines Netzes wird in den Gewichten verteilt gespeichert.

Ein spezifisches KNN-Modell ist charakterisiert durch seine Netztopologie, die Eigenschaften

seiner Berechnungselemente und seinen Lernalgorithmus. Der Modellierungsspielraum, der

sich aus den Kombinationsmöglichkeiten verschiedener Topologien, Berechnungselemente

und Algorithmen ergibt, ist offensichtlich enorm. Richtungsweisende Modellentwicklungen in

den achtziger Jahren sind (neben anderen) die sogenannten Hopfield-Netze (Hopfield [1982,

1984]), die selbstorganisierenden oder topologischen Karten (Kohonen [1982, 1984]), die

Boltzmann-Maschine (Ackley et al. [1985], Hinton & Sejnowski [1986]), die Mehrschicht-

Perzeptrone (Rumelhart et al. [1986a,b]), die ART-(Adaptive Resonance Theory)-Modelle

(Carpenter & Grossberg [1987, 1990]), die bidirektionalen Assoziativspeicher (Kosko [1988])

und die Radialen-Basisfunktionen-Netze (Moody & Darken [1989], Poggio & Girosi [1990]).

Einen kompakten Überblick geben z.B. Hertz et al. [1991] und Haykin [1994] oder die

deutschsprachigen Einführungen von Rojas [1993] und Nauck et al. [1996].

Konzipiert wurden die Modelle zumeist zur Lösung klassischer Informationsverarbeitungs-

probleme aus dem Bereich der Künstlichen Intelligenz. Im Vordergrund standen insbesondere

die assoziative Speicherung von Information sowie die Wiedererkennung und Klassifikation

akustischer und optischer Signale. Die Erwartungen, die an 'Neurocomputer' geknüpft werden,

sind vielfältig. Zum einen sollen durch eine massiv parallele Signalverarbeitung Berechnungs-

vorgänge beschleunigt werden. Zum anderen soll im Vergleich zu herkömmlichen Rechnern

ein höherer Grad an Robustheit und Fehlertoleranz erreicht werden. Da KNN über viele Ver-

arbeitungseinheiten verfügen und Information lokal verteilt im System speichern, führt der

Ausfall einzelner Teilkomponenten nicht notwendig zu wesentlichen Störungen der Gesamt-

systemperformance. Die größten Erwartungen werden an die Adaptivität oder Lernfähigkeit

geknüpft. KNN sollen in einem Lernprozeß Strukturen in Lerndaten erfassen und diese

Strukturen zur Lösung von Informationsverarbeitungsaufgaben interpolieren oder extrapolie-

ren. Der Befähigung zur Inter- und Extrapolation - man spricht auch von der 'Generalisierung

erworbenen Wissens' - wird in Anwendungsbereichen wie beispielsweise der Spracherken-

nung eine besondere Bedeutung beigemessen, da Spracherkennungssysteme mit wechselnden

Sprechern, wechselnden Dialekten, unbekannten Worten oder Redewendungen, etc. konfron-

tiert werden können (vgl. Lippmann [1987]).



In der zweiten Hälfte der achtziger Jahre gelang es zunehmend, den potentiellen Nutzen von

KNN in Bereichen wie der Spracherkennung und Spracherzeugung, der optischen Schrift-

zeichenerkennung, der Restauration 'verrauschter' oder fragmentarischer Bildinformation oder

der Datencodierung und Datenkompression durch Referenzanwendungen zu demonstrieren.

Aufmerksamkeit bei einer breiteren Öffentlichkeit erregte insbesondere das NETtalk Projekt

von Sejnowski & Rosenberg [1987]. Dem NETtalk System gelang es mit einigem Erfolg, die

Transformation von gedrucktem englischen Text in Sprache zu erlernen. Den ersten Referenz-

anwendungen folgte eine Flut von Anwendungsstudien in den unterschiedlichsten Problembe-

reichen. KNN wurden zunehmend als universell einsetzbare datenanalytische Werkzeuge zur

Lösung von Regressions-, Diskriminations-, Klassifikations- oder Datenreduktionsproblemen

begriffen und mit Erfolg genutzt. Auch Ökonomen aus Wissenschaft und Praxis griffen diese

Entwicklung rasch und enthusiastisch auf. Inzwischen liegt eine große Anzahl Publikationen

vor, welche die Einsatzmöglichkeiten von KNN in der Ökonomie ausleuchten. Schwerpunkte

bilden z.B. die Kreditwürdigkeitsprüfung von Bankkunden, die Früherkennung von Unter-

nehmenskrisen, das 'Mining' in Datenbanken und die Prognose ökonomischer Zeitreihen,

insbesondere Finanzmarktreihen. Interessante Einblicke gibt z.B. die Fallstudiensammlung

von Trippi & Turban [1996].

Aus statistischer Sicht ist natürlich interessant, daß KNN in Bereichen Anwendung finden, die

zuvor eine Domäne statistischer Methoden waren. Es kann nicht gänzlich überraschen, daß

konnektionistische und statistische Ansätze eine Reihe von Gemeinsamkeiten aufweisen. Das

Lernproblem in konnektionistischen Modellen ist eng verwandt mit der statistischen Schätz-

problematik. In der Tat haben statistische Methoden die Entwicklung von Lernverfahren nicht

unerheblich beeinflußt. Viele konnektionistische Modelle, wie etwa die Mehrschicht-Per-

zeptrone oder die Radialen-Basisfunktionen-Netze, lassen sich ohne Mühe als statistische

Modelle auffassen und in die statistische Theorie einbetten. Die Beziehungen zwischen kon-

nektionistischen und statistischen Ansätzen wurden bereits in einer ganzen Reihe von Ver-

öffentlichungen herausgearbeitet. Beispielhaft seien hier die Arbeiten von White [1989a,b],

Kuan & White [1994], Cheng & Titterington [1994], Bishop [1995], Ripley [1993, 1994,

1996] und Kay & Titterington [2000] genannt. Die im praktischen Einsatz erzielten Erfolge

und die statistischen Bezüge lassen KNN als interessante Erweiterungen des statistischen

Instrumentariums erscheinen. Ein potentiell ergiebiges Einsatzfeld ist insbesondere die nicht-

lineare Zeitreihenanalyse.



1.3 Inhalt des Buches

In diesem Buch wird der Einsatz einer Klasse Künstlicher Neuronaler Netze, der Mehr-

schicht-Perzeptrone, zur Prognose nichtlinearer stationärer Zeitreihen näher untersucht.

Die Mehrschicht-Perzeptrone (multilayer perceptrons) sind in der Praxis die mit Abstand

populärsten KNN-Modelle. Sie sind (vergleichsweise) einfach auf herkömmlichen Computern

simulierbar und vielseitig als Datenanalyse- und Prognosewerkzeuge einsetzbar. Charakte-

ristisch für die Modellkasse ist eine rückkoppelungsfreie Netzwerktopologie, in der nicht-

lineare Verarbeitungseinheiten in mehreren Schichten angeordnet sind, und ein spezifisches

Lernverfahren, der sogenannte Backpropagation-Algorithmus. In der konnektionistischen

Literatur werden die Modelle daher gelegentlich auch als Multilayer-Feedforward- oder

Backpropagation-Netze bezeichnet.

Aus statistischer Sicht können Mehrschicht-Perzeptrone als quasi-parametrische Regressions-

modelle beschrieben werden; vergleichbar mit statistischen Ansätzen wie den Multivariaten-

Adaptiven-Regressionssplines (MARS) von Friedman [1991] und insbesondere der Pro-

jection-Pursuit-Regression von Friedman & Stuetzle [1981]. Sie sind quasi-parametrisch, weil

sie einerseits eine endliche Menge modifizierbarer Parameter (Gewichte) enthalten, die an-

hand von Daten zu adjustieren sind, aber anderseits als flexible, nicht auf eine spezifische

Funktionsklasse beschränkte Funktionsapproximatoren intendiert sind. Das Backpropagation-

Lernverfahren weist enge Bezüge zur herkömmlichen Nichtlinearen-Kleinste-Quadrate-

Methode auf. Der Ansatz ist potentiell wertvoll, weil er dem Anwender gestattet, die Flexibi-

lität der Modelle durch Variation der Anzahl der Verarbeitungseinheiten und Schichten im

Netzwerk zu steuern. Das Spektrum reicht von sehr einfachen bis hin zu hoch flexiblen, in

ihrem Wesen nichtparametrischen Modellen. Diese Bandbreite läßt Mehrschicht-Perzeptrone

als interessante Instrumente zur Lösung nichtlinearer Regressionsprobleme, einschließlich

Diskrimination und Zeitreihenprognose, erscheinen.

Die ersten Kapitel des Buches richten sich primär an Leser, die mit konnektionistischen Kon-

zepten nicht vertraut sind. In Kapitel 2 wird ein kurzer Überblick über einige neurobiologische

Aspekte der Informationsverarbeitung beim Menschen gegeben, soweit diese für das Ver-

ständnis von KNN-Modellen hilfreich erscheinen. Die Ausführungen sind notwendigerweise

stark vereinfachend. Der Autor, der keinerlei Expertenstatus auf diesem Gebiet für sich in An-

spruch nimmt, hofft, daß die Ausführungen dem Unkundigen zur Orientierung dienen und daß

der Kundige sein Wissen in ihnen wiederfindet. Mehrschicht-Perzeptrone sind aus der Kombi-

nation zweier historisch älterer Ansätze hervorgegangen: den Perzeptronen und dem LMS-

Algorithmus. Die 'klassischen' Perzeptrone werden in Kapitel 3 vorgestellt. Sie wurden bereits



in den 1950ziger Jahren von dem Psychologen Frank Rosenblatt als Lernmaschinen zur Lö-

sung von Musterwiedererkennungsaufgaben entwickelt. Das Studium der Modelle ist nütz-

lich, da sie bereits wesentliche konstruktive Elemente der modernen Netzwerke enthalten und

die biologischen Bezüge in ihnen transparenter sind. Der von Widrow & Hoff [1960] ent-

wickelte Least-Mean-Square-(LMS)-Algorithmus ist der Prototyp des Backpropagation-Algo-

rithmus. Er ist ein statistischer Ansatz; eng verwandt mit der rekursiven Kleinste-Quadrate-

Schätzung und der stochastischen Approximation. Der LMS-Algorithmus wird in Kapitel 4

als ein 'Lernverfahren' für einfache lineare Modelle vorgestellt, und die statistischen Hinter-

gründe werden diskutiert. In Kapitel 5 werden die Ergebnisse der Vorkapitel aufgegriffen und

Mehrschicht-Perzeptrone als ein nichtlinearer, quasi-parametrischer Regressionsansatz moti-

viert. Im Mittelpunkt stehen hierbei der von Rumelhart et al. [1986a,b] popularisierte Back-

propagation-Algorithmus und seine Varianten.

Die weiteren Kapitel des Buches befassen sich mit der Prognoseproblematik. Mehrschicht-

Perzeptrone können zur Prognose univariater und multivariater Zeitreihen eingesetzt werden.

Zur Vereinfachung der Diskussion bleiben die Ausführungen auf univariate Zeitreihen be-

schränkt. Angemerkt sei, daß einige Konzepte problemlos auf multivariate Reihen übertragen

werden können. In Kapitel 6 werden Mehrschicht-Perzeptrone als nichtlineare autoregressive

Zeitreihenmodelle eingeführt und Aspekte der Modellkonstruktion, insbesondere Tests auf

Nichtlinearität von Zeitreihen und die Spezifikation einer geeigneten Netzwerkarchitektur,

diskutiert. Während den Problemen der Modellkonstruktion in der Literatur bereits größere

Aufmerksamkeit geschenkt wurde, fanden die Probleme bei der Ermittlung von Mehrschritt-

Punktprognosen und Mehrschritt-Regionprognosen (Intervallprognosen) weit geringeres In-

teresse. In der Tat ist die Prognose mit nichtlinearen Zeitreihenmodellen ein deutlich kompli-

zierteres und rechenaufwendigeres Unterfangen als die lineare Prognose. Die nichtlineare

Prognose wird daher auch in der zeitreihenanalytischen Literatur erst in der jüngeren Vergan-

genheit intensiver diskutiert. Gegenstand des 7. Kapitels ist die Schätzung optimaler Mehr-

schritt-Punktprognosen im Sinne des Mean-Square-Error-Kriteriums mit Hilfe von KNN. Es

werden verschiedene praktische Schätzmethoden vorgestellt und deren Eigenschaften in einer

Monte-Carlo-Studie untersucht. In Kapitel 8 werden aktuelle Vorschläge zur Konstruktion

von Prognoseregionen für nichtlineare Zeitreihen aufgegriffen und deren Schätzung mit Hilfe

von KNN diskutiert. Eine Demonstration des praktischen Einsatzes der Prognosetechniken

folgt in Kapitel 9 am Beispiel einer bekannten empirischen Benchmark-Reihe, den Wolf'schen

Sonnenflecken. Eine kritische Zusammenfassung und einen Ausblick auf offene Probleme

gibt abschließend das Kapitel 10.


9

2 Neurophysiologische Aspekte

Durch Pionierarbeiten von Camillo Golgi (1844-1926), Santiago Ramón y Cajal (1852-1934)und anderen ist seit Beginn des 20. Jahrhunderts bekannt, daß Nervenzellen (Neurone) diefunktionellen Grundelemente des menschlichen Informationsverarbeitungssystems bilden. DieZellen sind zu einem komplexen, hierarchisch strukturierten neuronalen Netzwerk, dem Ner-vensystem, miteinander verbunden und ermöglichen Informationstransport und Informations-verarbeitung durch Austausch von Signalen untereinander. Nach heutigen Schätzungen be-wegt sich die Anzahl der Nervenzellen des menschlichen Nervensystems in einer Größenord-nung von 1011, wobei eine einzelne Zelle mit Hunderten oder Tausenden anderer Nerven-zellen über Kontaktstellen Signale austauschen kann.

2.1 Funktionelle Gliederung des menschlichen Nervensystems

Unter Vernachlässigung des hier weniger relevanten autonomen Nervensystems, das für dieSteuerung physiologischer Prozesse im Organismus zuständig ist, läßt sich das menschlicheNervensystem funktionell in das periphere Nervensystem und das zentrale Nervensystem(ZNS) gliedern. Das periphere System besteht aus zuleitenden (afferenten) und ableitenden(efferenten) Nervenfasern. Stimuli der Umwelt und des Organismus selbst (etwa Berührung,Druck, Kälte, Wärme, etc.) werden durch nervöse Endorgane der afferenten Fasern, die Re-zeptoren, registriert und als Signale über die Fasern zum ZNS geleitet. Das ZNS integriert undverarbeitet die ankommenden Signale und sendet über die efferenten Fasern des peripherenNervensystems seinerseits Signale zu Effektorzellen (Muskulatur, Drüsen, etc.). Das ZNS be-steht aus dem Gehirn und dem Rückenmark. Das Gehirn führt den Großteil der eigentlichenInformationsverarbeitungsaufgaben des ZNS aus. Das Rückenmark fungiert im wesentlichenals zentrales 'Verbindungskabel' zwischen den einzelnen Körperteilen und dem Gehirn, er-ledigt in geringerem Umfang aber auch selbständig Informationsverarbeitung.

Ein bekanntes Beispiel für Informationsverarbeitung im Rückenmark ist der Kniesehnenreflex(Patellarsehnenreflex). Schlägt man einem Menschen, der mit locker frei hängenden Unter-schenkeln sitzt, unterhalb der Kniescheibe leicht an das Knie, so schnellt der Unterschenkel


10 NEUROPHYSIOLOGISCHE ASPEKTE

nach oben. Die über die Kniescheibe verlaufende Patellarsehne verbindet die Oberschenkel-muskulatur mit dem Schienbein. Durch den Schlag wird sie in die Höhlung zwischen Knie-scheibe und Schienbein gedrückt, was wiederum eine leichte Dehnung der Oberschenkelmus-kulatur (Musculus quadriceps femoris) verursacht. Dehnungsrezeptoren des Muskels sendenden Reiz über mehrere afferente Bahnen (Ia-Fasern) an das Rückenmark. Je Eingangsleitungtransformiert eine einzige Umschaltstelle im Rückenmark die Information und leitet den Reizüber efferente Bahnen (α-Neurone) an den Effektor (Musculus quadriceps femoris) weiter.Die Muskulatur kontrahiert, und der Unterschenkel schnellt nach oben (vgl. Buchholtz [1982,S.12ff]).

2.2 Informationsverarbeitung durch Nervenzellen

Nervenzellen treten in unterschiedlichen Formen auf und nehmen im neuronalen Gesamtsystemunterschiedliche Funktionen wahr. Die Struktur eines generischen Neurons zeigt schematischdie Abbildung 2.1. Die Darstellung orientiert sich am Aufbau der in großer Anzahl in dermenschlichen Großhirnrinde (Neokortex) lokalisierten Pyramidenzellen (Golgi-Typ-I-Neuron).Zentrum des Neurons ist sein Zellkörper (Soma), der den Zellkern und für den Zellstoffwech-sel notwendige Strukturen und Substanzen enthält. Aus dem Zellkörper entspringt eine ver-ästelte Struktur kürzerer Zellfortsätze, die Dendriten, sowie (höchstens) eine längere Nerven-faser, das Axon. Die Dendriten übernehmen Signale anderer Nervenzellen und leiten sie zumSoma, während das Axon die Aufgabe der Signalableitung an andere Neuronen bzw. Effekto-ren hat. Das Axon spaltet sich an seinem Ende in kleine Ästchen auf, die sich zu kugelförmi-

Dendriten

Soma

Zellkern

Axon

Endknöpfchen / Synapsen

Endverästelungen

Abb. 2.1: Schematische Darstellung des Aufbaus einer Nervenzelle (vgl. Alberts et al. [2002, S.638])


NEUROPHYSIOLOGISCHE ASPEKTE 11

gen Synapsenendknöpfchen verdicken. Ein Endknöpfchen ist jeweils Bestandteil einer Kon-taktstelle, der Synapse, die eine Signalübertragung zu einem anderen Neuron ermöglicht. Inder Regel stellt die Synapse Kontakt zu einem Dendriten oder dem Soma der Empfängerzelleher. In seltenen Fällen besteht der Kontakt zu ihrem Axon. Die Länge eines Axons variiert jenach Zelltyp von weniger als einem Millimeter bis zu mehr als einem Meter. Beispielsweiselaufen Axone von Pyramidenzellen der Großhirnrinde über die sogenannten Pyramidenbahnendes Rückenmarks zu den Muskeln. Die Anzahl der Dendriten und der Endknöpfchen variiertebenfalls. Nervenzellen können bis zu 200000 Dendriten und eine entsprechend große Zahlvon Endknöpfchen aufweisen. Der Durchschnittswert beträgt jeweils ca. 10000.

Der Informationsverarbeitung in Neuronennetzen liegen komplexe chemische Prozesse zu-grunde, die hier nur in groben Zügen skizziert werden sollen. Eine ausführliche Darstellungfindet sich beispielsweise in Alberts et al. [2002]. Ein ruhendes, inaktives Neuron hältzwischen dem Innen- und Außenraum der Zelle eine Potentialdifferenz (Ruhepotential) vonca. 60-80 Millivolt (mV) aufrecht. Die negative Ladung liegt auf der Innenseite der Zellmem-bran. Die Potentialdifferenz ist durch eine unterschiedliche Ionenkonzentration innerhalb undaußerhalb der Zelle bedingt. Im Außenraum liegt eine höhere Konzentration von positivenNatriumionen (Na+) und negativen Chloridionen (Cl−) vor, während sich im Innenraum mehrpositive Kaliumionen (K+) befinden. Die Zellmembran ist semipermeabel. Sie ist für die ge-nannten Ionen-Klassen durchlässig. Die Diffusionspotentiale der Ionen ergeben additiv dasGesamt-Ruhepotential. Die Konzentrationsunterschiede werden durch einen Mechanismus derMembran, die Ionenpumpe, unter Energieverbrauch erhalten. Außerdem wirkt stabilisierend,daß im Ruhezustand die Membran für K+-Ionen deutlich durchlässiger als für Na+-Ionen ist.

Ein Nervensignal ist eine kurzzeitige, lokale Änderung des Ruhepotentials, das vom Somaausgehend über das Axon zu anderen Neuronen abgeleitet wird. Das Signal wird in der Regeldurch eine elektrische Erregung der Zellmembran am Axonhügel, der Ansatzstelle des Axonsam Soma, initiiert. Die Durchlässigkeit der Membran für Na+-Ionen steigt schlagartig an, unddie Ionen diffundieren in das Zellinnere. Als Ergebnis dieses Prozesses kehrt sich die Polari-sierung an der Membran um. Die negative Ladung liegt jetzt außen, wobei zwischen Zellinne-rem und Zelläußerem eine Spannung von 20-40 mV aufgebaut wird. Innerhalb von ca. 0.5Millisekunden entsteht ein sogenanntes Aktionspotential. Parallel erhöht sich auch die K+-Ionen-Durchlässigkeit der Membran. Aus dem Inneren diffundierende K+-Ionen haben einendem Aktionspotential entgegengesetzt wirkenden Effekt. Innerhalb einer weiteren Milli-sekunde (Refraktärphase) baut sich wieder ein Ruhepotential auf. Die ursprüngliche Ionen-verteilung wird anschließend durch die Ionenpumpe und die Rückführung der Ionen-Durch-lässigkeit der Membran in den Anfangszustand wiederhergestellt. Den Aufbau eines Aktions-potentials bezeichnet man auch als das Feuern der Nervenzelle. Dem Vorgang liegt eine



Alles-oder-Nichts-Reaktion zugrunde. Erreicht die elektrische Erregung eine bestimmteSchwellenspannung (Depolarisations- oder Reizschwelle), wird ein volles Aktionspotentialmit 20-40 mV aufgebaut. Ansonsten wird kein Aktionspotential initiiert.

Die Erzeugung eines Aktionspotentials ist immer lokal auf einen Teilbereich der Membran be-grenzt. Die lokale Depolarisation des Membranbereichs ist aber ausreichend, um ein Aktions-potential in angrenzenden Bereichen anzuregen. Das Potential pflanzt sich an der Axonmem-bran nach dem Muster fallender Dominosteine vom Soma ausgehend bis zu den Endknöpfchen

mV

+40

0

-40

Na+

K+

^

^Axon

Ruhepotential

Aktionspotential

Momentaufnahme zum Zeitpunkt t = 0 ms

Zellmembran

Wanderungsrichtung

− − − − − − − + + + − − − − − − − − − − − − − − − − − − − − − − − − − − − −

− − − − − − − + + + − − − − − − − − − − − − − − − − − − − − − − − − − − − −

-80

mm

mV

+40

0

-40

-80

Na+

K+

^

^Axon

Ruhepotential

Aktionspotential

Momentaufnahme zum Zeitpunkt t = 1 ms

Zellmembran

Wanderungsrichtung

− − − − − − − − − − − − − − − − + + + − − − − − − − − − − − − − − − − − − − −

− − − − − − − − − − − − − − − − + + + − − − − − − − − − − − − − − − − − − − −

mm

Abb. 2.2: Wanderung des Aktionspotentials (verändert nach Alberts et al. [1987, S.1155]). Die Po-tentialkurven sind wegen der räumlichen Orientierung der Darstellung spiegelverkehrt zuihrer zeitlichen Entwicklung eingezeichnet. [Einheiten: Millimeter (mm), Millisekunden(ms), Millivolt (mV)]



fort (vgl. Abb. 2.2). Die aktiven Membranbereiche sind während ihrer Refraktärphase für er-neute Erregungen unempfindlich. Dadurch sind Rückwirkungen unmöglich und das Aktions-potential wandert zuverlässig in eine Richtung. Das Alles-oder-Nichts-Prinzip verhindert, daßsich auf langen Leitungsbahnen der Impuls abschwächt. Die Nervenzelle kann in kurzer ZeitSequenzen von Aktionspotentialen über das Axon ableiten. Die Impulse sind in Amplitudeund Form gleichartig. Information wird durch Modulation der Frequenz, mit der das Neuronfeuert, und die Dauer der Sequenz kodiert. Der Frequenzmodulation sind natürliche Grenzengesetzt. Die maximale Frequenz liegt bei ca. 200 Impulsen pro Sekunde. Die Wanderungs-geschwindigkeit der Impulse auf dem Axon kann bis zu ca. 100 Meter pro Sekunde betragen.

Nervensignale werden von einem Neuron zu anderen Nervenzellen über spezifische Kontakt-stellen, die Synapsen, übertragen. Der einfachste Weg ist die elektrische Koppelung von Zellenmittels elektrischer Synapsen. Der gewöhnliche Übertragungsmechanismus ist aber indirekterNatur. Zum Einsatz kommen hier chemische Synapsen. Ein Endknöpfchen der Senderzellesteht in engem Kontakt zu einem Bereich der Zellmembran der Empfängerzelle. Die (prä-synaptische) Membran des Endknöpfchen und die (postsynaptische) Membran des Empfän-gers bleiben voneinander elektrisch isoliert; sie sind durch den synaptischen Spalt getrennt(siehe Abb. 2.3). Erreicht ein über das Axon des Senders wanderndes Aktionspotential dasEndknöpfchen, wird die präsynaptische Membran depolarisiert. Die Änderung des elektrischenPotentials löst die Freisetzung eines neuronspezifischen chemischen Überträgerstoffes (Neuro-transmitter) aus, der über den synaptischen Spalt diffundiert und eine Veränderung der Ionen-Durchlässigkeit der postsynaptischen Membran auslöst. Folge ist eine elektrische Spannungs-änderung an diesem Membranbereich. Da nur über die präsynaptische Membran Neurotrans-mitter freigesetzt werden können, ist die Richtung der Übertragung vorgegeben.

Synapsen sitzen in großer Zahl auf den Dendriten und dem Soma der Empfängerzelle. JedeSynapse erzeugt eine charakteristische Spannungsänderung oder postsynaptisches Potential(PSP), wenn die mit ihr verbundene präsynaptische Zelle feuert. Einige Synapsen erregen dieZelle, andere hemmen sie. Der Neurotransmitter einer erregenden (exzitatorischen) Synapseerhöht die Durchlässigkeit der postsynaptischen Membran für Na+-Ionen. Die ins Zellinnerediffundierenden Ionen bauen ein depolarisierendes PSP auf. Bei hemmenden (inhibitorischen)Synapsen bewirkt der Transmitter eine Erhöhung der Membrandurchlässigkeit für K+-Ionenund Cl−-Ionen. Die Diffusion von K+-Ionen nach außen und Cl−-Ionen nach innen verstärktdas Ruhepotential. Es wird ein hyperpolarisierendes PSP erzeugt. Ein weiteres Charakteristi-kum einer Synapse ist ihre Verbindungsstärke. Während Aktionspotentiale von Neuron zuNeuron recht einheitlich sind, unterscheiden sich die an verschiedenen Synapsen eines ein-zelnen Neurons ausgelösten PSP stark in Amplitude und Dauer. Sie weisen somit keinenAlles-oder-Nichts-Charakter auf.



. . . . .

Endknöpfchen von Neuron A

.... ........ . . . .. .. . . . .....

.... . .. ....... ..

...... :... . .

....

::

(präsynaptische Zelle)

präsynaptische Membransynaptischer Spaltpostsynaptische Membran

Dendrit von Neuron B(postsynaptische Zelle)

Neurotransmitter

Vesikel mit Neurotransmitter

freigesetzter

Abb. 2.3: Schematischer Aufbau einer typischen Synapse (verändert nach Alberts et al. [2002, S.645])

Einzelne PSP haben in der Regel einen geringen Einfluß auf den Erregungszustand einerZelle. Die Membran der Dendriten und des Zellkörpers ist in geringerem Ausmaß erregbar alsdie Axonmembran. Bedeutung erhält das einzelne PSP erst im Zusammenspiel mit anderenPotentialen. Treffen Signale zeitgleich in mehreren, räumlich nahegelegenen Synapsen ein,werden die entstehenden PSP miteinander verrechnet. In der Zellregion wird ein Potentialaufgebaut, das sich - vereinfacht gesprochen - als Summe der einzelnen erregenden und hem-menden PSP ergibt. So entstehen lokal Ströme, die sich über die Zellmembran ausbreiten. Ander Somamembran werden sie zu einem postsynaptischen Summationspotential verrechnet.Überwiegen die erregenden Potentiale, kommt es zur Depolarisation; überwiegen hemmende,zur Hyperpolarisation. Neben diesem als räumliche Summation der empfangenen Signale be-zeichneten Vorgang bildet die zeitliche Summation einen zweiten wichtigen Teilaspekt derInformationsverarbeitung durch Neurone. Kommen an einer Synapse in schneller Folge Akti-onspotentiale an, so überlagern sich die ausgelösten PSP zu einem ununterbrochenen Durch-schnitts-PSP, dessen Spannung die Feuerfrequenz des präsynaptischen Neurons kodiert.Räumliche und zeitliche Summation erfolgen im wesentlichen durch Amplitudenmodulation.Im Zeitablauf variierende Eingangssignale bewirken kontinuierliche Spannungsänderungen ander Somamembran.

Der letzte Schritt der neuronalen Informationsverarbeitung ist die Erzeugung einer Signalaus-gabe, die über das Axon der Zelle abgeleitet wird. In diesem Schritt wird das postsynaptischeSummationspotential der Somamembran am Axonhügel in einem komplexen Prozeß fre-



quenzmoduliert. Wirkt das Summationspotential depolarisierend, treibt der am Axonhügeleinfließende Strom die Membran bis zu ihrer Depolarisationsschwelle. Die Membran sendetein Aktionspotential über das Axon und kehrt zum Ruhepotential zurück. Danach kann derSchwellenwert erneut erreicht und überschritten werden, usw. Je stärker der Depolarisations-strom ist, desto höher ist die Frequenz mit der die Zelle am Axonhügel feuert. Die Reiz-schwelle des Axonhügels kann sich im Zeitablauf ändern. Der Mechanismus adaptiert oft, sodaß die Zelle schwach auf eine konstante Erregung, aber stark auf eine Veränderung reagiert.

Der Informationsgehalt von Nervensignalen hängt natürlich nicht ausschließlich von der Fre-quenz ab, mit der ein Neuron feuert. Entscheidend ist auch, welche Funktion die feuerndeNervenzelle im neuronalen Gesamtsystem ausübt. Man unterscheidet sensorische und motori-sche Funktionen sowie Verrechnungsfunktionen. Bei einem sensorischen Neuron sind die Si-gnale Reize spezifischer Rezeptoren, bei einem motorischen Neuron sind sie Kontraktions-oder Relaxationsbefehle für einen bestimmten Muskel. Bei einem Interneuron sind die SignaleTeile der Verrechnung, die sensorische Information aus verschiedenen Quellen verknüpft unddaraus eine geeignete motorische Reaktion ableitet. Für die Informationsverarbeitung beimKniesehnenreflex sind beispielsweise mehrere, parallel arbeitende Reflexbögen 'Rezeptor -sensorische Zelle - motorische Zelle - Effektor' verantwortlich. Da hier zwischen Sensor undmotorischem Neuron keine Interneurone synaptisch geschaltet sind, kann der Organismus sehrschnell auf den äußeren Reiz reagieren. Komplexe Informationsverarbeitungsaufgaben sindallerdings durch solch einfache Schaltungen nicht zu lösen. Hier bedarf es der Kommunikationeiner Vielzahl engmaschig vernetzter Nervenzellen.

2.3 Lernen und Gedächtnisbildung

Das Nervensystem als Ganzes präsentiert sich dem Forscher als ein neuronales Netz von her-ausfordernder Komplexität. Fortschritte wurden bei der Untersuchung einzelner Nervenzellenund der Mechanismen einfacher Reflexe erzielt. Auch gelang es, einige Organisationsstruktu-ren des Nervengeflechts zu erkennen. Von einem wirklichen Verständnis des Aufbaus und derArbeitsweise des menschlichen Gehirns ist man aber heute noch sehr weit entfernt. Dies giltim besonderen für die beeindruckendste Eigenschaft des Gehirns: die Lernfähigkeit.

Lernen setzt die Aufnahme, die Verarbeitung, die Speicherung und das Abrufen von Informa-tion voraus. Die Fähigkeit des Gehirns Information zu speichern, wird als Gedächtnis bezeich-net. Nach der Speicherdauer werden mindestens zwei Formen unterschieden: das Kurzzeit-gedächtnis und das Langzeitgedächtnis (vgl. z.B. Schuhr [1990, S.18ff]).



Die Speicherdauer des Kurzzeitgedächtnisses bewegt sich im Sekunden- bis Minutenbereich.Es wird vermutet, daß auf dieser Ebene Information durch Erregungsmuster von Neuronenkodiert und bewahrt wird. Diese Hypothese wird durch experimentelle Befunde gestützt. DasKurzzeitgedächtnis ist durch Elektroschocks, Unterkühlung, Narkosen oder CO2-Inhalationstörbar. Diese Eingriffe blockieren bioelektrische Prozesse im ZNS.

Das Langzeitgedächtnis erweist sich gegenüber solchen Störungen als resistent. Die Speicher-dauer kann mit der gesamten Lebensdauer eines Individuums übereinstimmen. Bezüglich derGedächtnisbildung geht man von der Modellvorstellung aus, daß Inhalte des Kurzzeitgedächt-nisses in das Langzeitgedächtnis übertragen werden und so eine bleibende Gedächtnisspuraufgebaut wird. Herrschende Meinung ist, daß diese Übertragung durch Änderung der Verbin-dungsstärken synaptischer Kontakte zwischen Neuronen realisiert wird. Die Inhalte des Lang-zeitgedächtnisses wären demnach im wesentlichen durch synaptische Verbindungsmuster imGehirn kodiert und gespeichert. Die vollständige Bildung oder Eliminierung einer Synapse istein Ereignis, dessen Folgen ein Leben lang andauern können. Eine Hypothese bezüglichneurophysiologischer Prozesse beim Lernen wurde erstmals von Donald O. Hebb formuliert.Er postulierte, daß sich der Wirkungsgrad einer Synapse erhöht, wenn die präsynaptische unddie postsynaptische Zelle gleichzeitig aktiv sind (Hebb [1949]). Die Erhöhung des Wirkungs-grades könnte z.B. durch eine verstärkte Neurotransmitterausschüttung der präsynaptischenMembran oder eine gesteigerte Permeabilität der postsynaptischen Membran erklärt werden.Für diese Plastizität von Synapsen und eine durch geeignete Reize auslösbare dauerhafte Än-derung ihrer Wirkungsgrade gibt es inzwischen eine Fülle experimenteller Belege. Die Ent-schlüsselung der molekularen Basis der Gedächtnisleistung des menschlichen Gehirns bleibtaber dennoch eine zentrale Herausforderung für zukünftige Forschungen (vgl. Alberts et al.[2002, S.1240f]).


17

3 Das klassische Perzeptron

Tragende Grundkonzepte der modernen Forschung auf dem Gebiet der Künstlichen Neuro-nalen Netze wurden bereits in den 1950ziger Jahren von einer Forschergruppe der CornellUniversität um den Psychologen Frank Rosenblatt entwickelt. Rosenblatts Ziele waren ambi-tioniert: Er versuchte mit Hilfe von Modellen, die Bedeutung von Organisationsstrukturen inbiologischen Gehirnen für wichtige Gehirnfunktionen, wie z.B. die Gedächtnisbildung, näherzu durchleuchten. Ferner strebte er den Entwurf von Lernmaschinen an, die Objekte oder Zu-stände ihres Umsystems wahrnehmen können, und die, stimuliert durch wiederholte Wahr-nehmungen, befähigt sind zu lernen, diese Objekte oder Zustände Kategorien zuzuordnen.Resultat der Bemühungen war die Entwicklung einer Klasse Künstlicher Neuronaler Netze,die als Perceptrons bezeichnet wurden. Die Perzeptrone sind die historisch ältesten lernfähi-gen Netzwerkmodelle, die in der Lage sind, nicht-triviale Informationsverarbeitungsaufgabenzu lösen. Mit dem Bau des Mark I Perceptron gelang auch die technische Realisation einesarbeitsfähigen - wenn auch sehr einfachen - Neurocomputers (siehe z.B. Rosenblatt [1958]sowie Rosenblatt [1962] für eine Zusammenfassung der Forschungsarbeiten).

In diesem Kapitel werden wichtige Basiskonzepte am Beispiel eines speziellen Netzwerktypsvorgestellt, den Rosenblatt [1958] als ein einfaches Photo-Perzeptron (simple perceptron) be-zeichnet. Das einfache Photo-Perzeptron weist alle charakteristischen Grundkomponenten desPerzeptron-Modellansatzes auf, besitzt aber eine vergleichsweise einfache Netzwerkarchitek-tur. Es ist primär zur Verarbeitung optischer Signale konzipiert. Da die optischen Eingabeein-heiten des Netzes jedoch durch unspezifische Eingabeeinheiten, die beliebige Signale desUmsystems aufnehmen, ersetzt werden können, bedeutet dies keine Einschränkung der Allge-meinheit des Modells.

3.1 McCulloch-Pitts-Neurone

Grundbaustein eines Perzeptrons ist eine Verarbeitungseinheit, die sehr stark vereinfacht dieSignalverarbeitungsmechanismen einer biologischen Nervenzelle nachahmt. Die Konzeptionder Einheit wurde durch ein abstraktes Modell einer Nervenzelle inspiriert, das bereits Anfangder vierziger Jahre von McCulloch & Pitts [1943] vorgestellt wurde. Das McCulloch-Pitts-


18 DAS KLASSISCHE PERZEPTRON

Neuron läßt sich als eine in diskreter Zeit arbeitende logische Schwellenwerteinheit charakte-risieren (vgl. Abb. 3.1). Die Einheit sei durch das Symbol u j gekennzeichnet. Sie empfängtüber m erregende und n hemmende Eingangsleitungen (Synapsen) binäre Signale zit andererEinheiten ui ( i m n= +1,..., ). Es gilt zit = 1, wenn zu einem Zeitpunkt t die mit der i-tenEingangsleitung verbundene präsynaptische Einheit feuert; ansonsten ist zit = 0 . Das Modell-neuron verrechnet die erregenden und hemmenden Eingangssignale und sendet über eine Aus-gangsleitung (Axon), die sich vielfach verzweigt, seinerseits ein binäres Signal z j t, +1 zu nach-geschalteten Einheiten. Die Signalverarbeitung kann formal durch eine binäre Stufenfunktionbeschrieben werden:

(3.1) ( )z z zj t t it j it

i

m

i m

m n

, + = = ≥ ∧ =

∑ ∑

= +

+

11 0

01 1

ϕ ζz , falls

, sonst ,

=

wobei zt t m n tz z= ( ,..., )1 + , der (m+n)-dimensionale Vektor der Eingangssignale ist. Es giltz j t, + =1 1 genau dann, wenn die Summe der erregenden Inputs zit ( )i m= 1,..., einen festen,reellen Schwellenwert (Reizschwelle) ζ j > 0 erreicht und gleichzeitig die Summe der hem-menden Inputs zit ( )i m m n= + +1,..., null ist. Das Neuron ist erregt und feuert einen Einheits-impuls. Ansonsten ist es nicht erregt, und das Ausgangssignal ist z j t, + =1 0 . Der Effekt hem-mender Eingaben ist in diesem Modell absolut. Bereits eine aktive hemmende Synapseverhindert die Erregung der Einheit. McCulloch & Pitts unterstellen ferner, daß für die Ver-rechnung der Inputs ein festes Zeitquantum (Refraktärzeit) erforderlich ist. Dieses Zeitquan-tum ist hier durch das Einheitszeitintervall der Länge 1 repräsentiert. Das Modellneuron ope-riert auf einer diskreten Zeitskala, deren Werte der Einfachheit halber t = 1,2,3,... seien. DieAnnahme ermöglicht es, die Aktivitäten mehrerer Einheiten zu synchronisieren.

z +

+

-

-

z

z

z

1t

mt

m+1,t

m+n,t

ϕ( )z z

...

..

.

Eingangsleitungen (Synapsen)

Ausgangsleitung (Axon)

Eingangssignale

Ausgangssignal

j,t+1t

Abb. 3.1: Diagramm eines McCulloch-Pitts-Neuron. Erregende Eingangsleitungen sind durch einPluszeichen, hemmende durch ein Minuszeichen gekennzeichnet.


DAS KLASSISCHE PERZEPTRON 19

Durch einzelne Schwellenwerteinheiten (3.1) lassen sich elementare Boole'sche Funktionenwie Konjunktion, Disjunktion oder Negation realisieren. Hierauf aufbauend haben McCulloch& Pitts [1943] bewiesen, daß Netzwerke aus synchron arbeitenden Einheiten theoretisch uni-verselle Berechnungen durchführen können. Eine Konsequenz hieraus ist, daß prinzipielljeder herkömmliche Digitalrechner durch ein in geeigneter Weise vorgegebenes Netzwerk aussynchron arbeitenden Einheiten simuliert werden kann (siehe auch Arbib [1987, S.17ff], Rojas[1993, S.31ff]). Obwohl sehr einfach konstruiert, sind McCulloch-Pitts-Neurone mächtigeVerarbeitungseinheiten. Die neurobiologische Plausibilität des Modells ist allerdings stark be-schränkt. Besonders signifikante Vereinfachungen des biologischen Vorbildes sind:

• Biologische Nervenzellen führen eine hochgradig nichtlineare (räumliche und zeitliche)Summation ihrer Eingangssignale durch und antworten auf diese mit kontinuierlich variie-renden Erregungszuständen (postsynaptische Summationspotentiale), die frequenzmoduliertals Impulssequenzen abgeleitet werden. Das Modellneuron kann hingegen nur zwei Erre-gungszustände annehmen: Es ist erregt, oder es ist nicht erregt. Ein erregtes Neuron feuerteinen Einheitsimpuls.

• Biologische Nervenzellen benötigen kein festes Zeitquantum für die Inputverrechnung. DieZellen eines Nervensystems operieren nicht wie die Modellneurone synchron auf einer dis-kreten Zeitskala t = 1,2,3,... . Sie arbeiten in kontinuierlicher Zeit und asynchron.

• Die synaptischen Verbindungen und die Reizschwellen der Nervenzellen sind adaptiv oderplastisch. Insbesondere der Plastizität synaptischer Verbindungsstärken wird eine entschei-dende Bedeutung für die Speicher- und Lernfähigkeit biologischer Nervensysteme beige-messen. Die Modellneurone besitzen keinerlei Plastizität.

Die genannten Aspekte waren im Jahr 1943 weitgehend unbekannt. Unabhängig von diesemTatbestand war die biologische Plausibilität des Modells für die Arbeit von McCulloch undPitts von eher untergeordneter Bedeutung. Ihr primäres Interesse galt den Berechnungsmög-lichkeiten, die Netzwerke aus logischen Schwellenwerteinheiten eröffnen. Perzeptrone sollenhingegen Lernprozesse in biologischen Nervensystemen modellieren. McCulloch-Pitts-Netzenfehlt die Plastizität, um dieses Ziel erreichen zu können. Hypothesen über die Bedeutung dersynaptischen Verbindungsstärken für Lernprozesse postulierte erstmals Hebb [1949]. DieHebb'schen Hypothesen waren zunächst weitgehend spekulativer Natur, sie flossen aber in dieEntwicklung der Perzeptrone in Form eines modifizierten Neuronenmodells ein. Eine 'moder-ne' Fassung des Modells zeigt schematisch die Abbildung 3.2 (vgl. Hertz et al. [1991, S.3]).

Die Verarbeitungseinheit - sie sei wieder symbolisch durch u j gekennzeichnet - empfängt zueinem Zeitpunkt t über k synaptische Eingänge gewichtete Signale w zij it⋅ ( )i k= 1,..., mitw IRij ∈ und zit ∈ 0 1, . Die Größe wij ist der i-ten Eingangsleitung von u j zugeordnet und



heißt ihr synaptisches Gewicht oder ihr Verbindungsgewicht. Sie dient der Modellierung vonWirkung und Verbindungsstärke einer biologischen Synapse. Falls wij > 0 ist, wirkt der i-teEingang erregend; falls wij < 0 ist, wirkt der i-te Eingang hemmend. Je größer der Absolut-betrag | |wij des Gewichtes ist, umso größer ist der Wirkungsgrad des Einganges. Die synapti-schen Gewichte müssen keine fest vorgegebenen Konstanten, sondern können veränderbareGrößen sein. Dadurch gewinnen die synaptischen Eingangsleitungen Plastizität, die zur Mo-dellierung von Lernprozessen genutzt werden kann.

Die Verarbeitung der Eingangssignale erfolgt in zwei Schritten. Die Verarbeitungseinheit ver-fügt über einen Addierer (in Abb. 3.2 durch das Summenzeichen Σ symbolisiert), der die ge-wichteten erregenden oder hemmenden Signale aufsummiert:

(3.2) v w zjt ij iti

k= ⋅

=∑

1 .

Dem Addierer nachgeschaltet ist eine Schwellenwertinstanz (in Abb. 3.2 durch ein Stufen-symbol dargestellt). Erreicht die Summe v jt einen reellen Schwellenwert ζ j , so wird dieEinheit erregt (aktiviert) und feuert den Einheitsimpuls z j t, + =1 1. Ansonsten ist das Aus-gangssignal z j t, + =1 0 . Hierbei sei wieder unterstellt, daß zur Signalverrechnung ein Ein-heitszeitintervall der Länge 1 benötigt wird. Formal gilt:

(3.3) ( )z H vj t jt j, + = −1 ζ ,

wobei H(x) die Heaviside-Funktion ist mit

(3.4) ( )H xxx

=≥<

1 00 0

für für .

Der Schwellenwert ist, ebenso wie ein synaptisches Gewicht, in einem Lernprozeß adjustierbar.

z

z

z

z

..

.

Ausgangssignal

...Σ

w

w

wkt kj

2t 2

1t 1

ζSchwellenwert

j

j

j

v j,t+1jt

Eingangssignale

synaptische GewichteSynapsen und

Axon

Abb. 3.2: Diagramm eines modifizierten McCulloch-Pitts-Neurons



In der neueren konnektionistischen Literatur wird die Summe v jt üblicherweise als Netto-input der Einheit u j bezeichnet und die Heaviside-Funktion H(x) durch Termini wie Aktivie-rungs- oder Transferfunktion der Einheit u j charakterisiert. Ferner wird, die Pionierleistungenvon McCulloch & Pitts [1943] würdigend, häufig auch das modifizierte Neuronenmodell alsein McCulloch-Pitts-Neuron bezeichnet (siehe z.B. Hertz et al. [1991]). Diese Konvention sollhier übernommen werden.

Das McCulloch-Pitts-Neuron in Abbildung 3.2 kann als das Basisparadigma einer künstlichenNervenzelle betrachtet werden. Die Verarbeitungseinheiten in einer Vielzahl neuerer Netz-werkmodelle sind einfache Verallgemeinerungen. Sie führen typischerweise Funktionsaus-wertungen der Form

(3.5) ( )z w z vj t ij iti

k

j jt j, +=

= ⋅ −

= −∑1

1φ ζ φ ζ

durch. Die Eingangssignale in (3.5) sind reelle, nicht notwendigerweise binäre Inputs. Die In-puts werden wie in (3.2) linear in die Menge IR der reellen Zahlen abgebildet. Zur Berechnungdes Erregungszustands oder der Aktivität z j t, +1 kann die Aktivierungsfunktion H(x) in (3.3)durch ein anderes Funktional φ: IR IR→ ersetzt werden. Typisch ist die Verwendung mono-ton wachsender und beschränkter Funktionale als Aktivierungsfunktionen für Verarbeitungs-einheiten.

3.2 Die Netzwerkarchitektur eines einfachen Photo-Perzeptrons

Photo-Perzeptrone sind konzipiert als lernfähige Künstliche Neuronale Netze zur Lösung spe-zifischer Musterwiedererkennungsaufgaben. Sie sollen optische Signale ihres Umsystemswahrnehmen und einer von mehreren Kategorien oder Klassen zuordnen. Aus statistischerSicht stellen sie spezifische diskriminanzanalytische Instrumente dar, die - im Gegensatz zuherkömmlichen statistischen Verfahren - nicht auf wahrscheinlichkeitstheoretischen Argu-menten basieren.

Die Abbildung 3.3 zeigt schematisch die Netzwerkarchitektur des einfachen Photo-Perzept-rons. Das Netz setzt sich aus Einheiten zusammen, die drei Klassen funktional verschiedenerEinheiten entstammen. Rosenblatt [1958, 1962] unterscheidet Sensor-Einheiten (S-Punkte),Assoziations-Einheiten (A-Einheiten) und Response-Einheiten (R-Einheiten). Zwischen Ein-heiten werden binäre Signale über gerichtete und gewichtete synaptische Verbindungen aus-getauscht.



Die S-Punkte bilden eine lichtempfindliche Schicht, die als Retina bezeichnet wird. Sie rea-gieren auf Stimuli nach dem Alles-oder-Nichts-Prinzip. S-Punkte in Regionen der Retina mitstarkem Lichteinfall werden aktiviert. Sie feuern jeweils einen Einheitsimpuls. Die S-Punktein Retinaregionen mit schwachem Lichteinfall bleibt inaktiv. Ihr Ausgangssignal ist die ZahlNull. Die Einheiten können technisch durch Photozellen realisiert werden.

Die binären Ausgangssignale der S-Punkte werden über gerichtete und gewichtete synaptischeVerbindungen an A-Einheiten gesendet, die die sogenannte assoziative Schicht des Netzesbilden. Die A-Einheiten besitzen den Aufbau eines McCulloch-Pitts-Neurons. Die Signalver-arbeitung erfolgt gemäß (3.2) - (3.4). Ihre Schwellenwerte sind beliebige, aber feste reelleZahlen. Die Gewichte der synaptischen Verbindungen werden in diesem Modell zufällig ausder Menge −1, 0, +1 gewählt. Die Impulse der S-Punkte können somit hemmend oder erre-gend auf eine A-Einheit wirken. Ist ein Gewicht gleich null gesetzt, dann besteht keine wirk-same synaptische Kopplung zwischen der präsynaptischen und der postsynaptischen Einheit.In der Regel ist eine A-Einheit nur mit einer echten Teilmenge aller S-Punkte wirksam ver-bunden, die als Quellmenge der A-Einheit bezeichnet wird. Einmal zufällig festgelegtesynaptische Gewichte sind fortan nicht mehr veränderbar.

Führen die Signale der Quellmenge einer A-Einheit zu deren Aktivierung, dann feuert die A-Einheit über gerichtete und gewichtete synaptische Verbindungen einen Einheitsimpuls an R-Einheiten. Die R-Einheiten bilden die Response- oder Ausgabeschicht des Perzeptrons. Siesind wie die A-Einheiten vom McCulloch-Pitts-Typ. Die wirksamen Verbindungen von den

.Stimulus .

.

Assoziative Schichtaus R-Einheiten

Retinaaus S-Punkten aus A-Einheiten

Response-Schicht

Response

Abb. 3.3: Ein einfaches Photo-Perzeptron mit zwei R-Einheiten. Die Einheiten des Netzes werdendurch Kreise und die synaptischen Verbindungen durch Linien symbolisieren. Die Pfeilegeben die Richtung des Signalfusses an.



A-Einheiten zu den R-Einheiten werden wieder zufällig festgelegt. Jede R-Einheit besitzt eineQuellmenge von A-Einheiten, die typischerweise eine echte Teilmenge aller A-Einheiten ist.Die Gewichte der synaptischen Verbindungen zwischen den Elementen einer Quellmenge undder zugehörigen R-Einheit sind hier keine fest vorgegebenen Größen, sondern sie sind ver-änderbar. Ebenso sind die reellen Schwellenwerte der R-Einheiten veränderbar. Führt der Si-gnaleingang zur Aktivierung einer R-Einheit, sendet sie einen Einheitsimpuls an das Um-system des Netzes.

Die Netzwerkarchitektur, soweit sie bis hierher beschrieben wurde, wird in der modernenTerminiologie als eine vorwärtsgerichtete Schichtenarchitektur (feedforward network) be-zeichnet. Funktional identische Einheiten des Netzes sind jeweils in einer Schicht angeordnet.Nur Einheiten aus zwei direkt aufeinanderfolgenden Schichten sind synaptisch miteinanderverbunden. Die Signale fließen über vorwärtsgerichtete Leitungen von der Retina zur Assozia-tionsschicht und von dort weiter zur Response-Schicht. Der Modellansatz läßt aber auchFeedback im Signalfluß zu. Das Perzeptron in Abbildung 3.3 weist Feedback-Kopplungen(hellgraue Pfeile) zwischen R-Einheiten und A-Einheiten auf. Jede R-Einheit besitzt hem-mend wirkende Verbindungen zu A-Einheiten, die nicht Element der eigenen Quellmengesind. Ferner bestehen hemmend wirkende Verbindungen zwischen den R-Einheiten. Überdiese synaptischen Verbindungen kann die R-Einheit mit dem größten Nettoinput (mit demhöchsten Erregungspotential) Signale senden, die eine mögliche Aktivierung anderer R-Ein-heiten verhindern. Das Netz antwortet auf einen über die Retina eingehenden Stimulus durchden Einheitsimpuls einer einzelnen aktiven R-Einheit.

Das Künstliche Neuronale Netz kann als ein dreischichtiges Stimulus-Response-Modell biolo-gischer Nervensysteme interpretiert werden. Die S-Punkte stellen die Rezeptoren und die R-Einheiten die Effektoren des Perzeptrons dar. Die A-Einheiten modellieren die Funktion vonInterneuronen. Die Verbindungsstruktur der Einheiten weist ausgeprägt stochastische Zügeauf. Dieser Aspekt der Netzwerkarchitektur leitet sich aus der Annahme Rosenblatts ab, daßbiologische Nervensysteme, soweit dies genetische Restriktionen zulassen, in starkem Maßestochastische Kopplungsstrukturen aufweisen. Ferner sind die Gewichte der synaptischenVerbindungen von den A-Einheiten zu den R-Einheiten variable Größen. Das Input-Output-Verhalten des Perzeptrons ist somit veränderbar. Diese Plastizität des Netzes kann zur Model-lierung von Lernprozessen genutzt werden. Als Lernziel steht bei Rosenblatt die Musterwie-dererkennung oder Musterklassifikation im Vordergrund. Das Perzeptron soll auf hinreichendähnliche Umweltstimuli durch den Impuls ein und derselben aktiven R-Einheit antworten.Verschiedene Stimuli sollen hingegen zur Aktivierung verschiedener R-Einheiten führen.Verfügt das Netz über q IN∈ R-Einheiten, dann kann es Eingaben q verschiedenen Klassenzuordnen. Die Klassenzugehörigkeit wird durch die jeweils aktive R-Einheit indiziert.



Ein Lernverfahren für Perzeptrone wird im folgenden Abschnitt vorgestellt. Zuvor wird ihrInput-Output-Verhalten formaler als bisher erfolgt beschrieben. Für die hier verfolgten Zieleist es ausreichend, sich auf Netze mit lediglich einer Response-Einheit zu beschränken. DieseBeschränkung ermöglicht deutliche Vereinfachungen des Ausgangsmodells. Es wird jetzt keinZufallsmechanismus mehr benötigt, der verschiedenen R-Einheiten jeweils eine Quellmengevon A-Einheiten zuordnet. Alle A-Einheiten der assoziativen Schicht werden über wirksamesynaptische Verbindungen mit der einzigen R-Einheit gekoppelt. Hemmend wirkende Feed-back-Verbindungen von der R-Einheit zu den A-Einheiten sind in diesem Perzeptron funk-tional überflüssig und werden daher ebenfalls nicht mehr benötigt. Zur weiteren Verein-fachung der Darstellung bleibt der zeitliche Aspekt der Signalverarbeitung unberücksichtigt.

Es sei p IN∈ die Anzahl der S-Punkte und k IN∈ die Anzahl der A-Einheiten des betrach-ten Netzwerkes. Die S-Punkte der Retina bilden optische Stimuli des Umsystems in eineMenge X p= 0 1 , ab. Die Menge X wird im folgenden als der Eingaberaum und ein p-di-mensionaler Vektor x = ′ ∈( )x x Xp1 , , als ein Eingabemuster bezeichnet. Ein Eingabemu-ster x wird über synaptische Verbindungen zur assoziativen Schicht gesendet. Die A-Einhei-ten der Schicht transformieren x in einen k-dimensionalen Vektor z = ′ ∈( )z z z Zj k1 , , , ,mit Z k= 0 1 , . Für die Komponenten zj von z gilt:

(3.6) z H w xj ij ii

p

j= ⋅ −

=∑

1ζ ( )j k= 1 2, ,..., ,

wobei H(x) die Heaviside-Aktivierungsfunktion (3.4), ζ j ein beliebiger, aber fester reellerSchwellenwert und wij das reelle synaptische Gewicht der i-ten Eingangsleitung der j-ten A-Einheit ist. Die Gewichte wij werden wieder zufällig aus der Menge −1, 0, +1 vorgegeben.Um die Mengen X und Z auch verbal differenzieren zu können, soll Z als der Assoziations-raum bezeichnet werden. Ein Vektor z ∈Z wird Assoziationsmuster genannt. Die Komponen-ten eines Assoziationsmusters z sind die Eingangssignale der R-Einheit. Die Einheit antwortetdurch binäres Ausgangssignal o ∈ 0 , 1 gemäß

(3.7a) o H w zj jj

k= ⋅ −

=∑

1ζ .

Hierbei sind jetzt w IRj ∈ ( )j k= 1,..., die Gewichte der Eingangsleitungen und ζ ∈ IR derSchwellenwert. Gewichte und Schwellenwert in (3.7a) sind variable Größen. Sie sollen zu ei-nem Gewichts- oder Parametervektor w = ′ ∈ ⊆ +( )w w W IRk

k1

1,..., ,ζ zusammengefaßt wer-den. Mit W ist der Parameterraum gekennzeichnet. Setzt man ~ ( , )z z= ′ − ′1 , dann läßt sich(3.7a) auch kompakter schreiben:

(3.7b) ( )o H= ′ ⋅w z~ .



Aus statistischer Sicht ist es naheliegend, (3.7) als eine lineare Diskriminanzfunktion und wals den Parametervektor der Diskriminanzfunktion zu interpretieren. Die Funktion ordnet eingegebenes Assoziationsmuster z einer von zwei Klassen zu. Die Klassen seien durch C0 undC1 symbolisiert. Der Funktionswert o = 0 oder o = 1 indiziert die Klassenzugehörigkeit.Stellt man sich Z temporär auf einen k-dimensionalen Hyperwürfel [ ]Z k= 0 , 1 erweitert vor,dann ergibt sich eine anschauliche geometrische Interpretation. Die R-Einheit definiert eine(k−1)-dimensionale Hyperebene

(3.8) ′ ⋅ =w z~ 0 , [ ]z ∈ 0 , 1 k ,

die den Assoziationsraum Z in zwei disjunkte Unterräume zerlegt. Jeder Unterraum ist mit ge-nau einer Klasse assoziiert. Das Input-Output-Verhalten des gesamten Perzeptrons kann formaldurch eine (Netzausgabe-) Funktion f X W: × → 0 1, - oder elementweise ( )o f= x w, -beschrieben werden. Die Netzausgabefunktion bildet den Eingaberaum X und den Raum W derfrei adjustierbaren Netzparameter in die Menge 0 1, ab. Sie ist als eine stückweise lineareDiskriminanzfunktion interpretierbar, die ein gegebenes Eingabemuster x einer der beidenKlassen C0 oder C1 zu ordnet. Der Eingaberaum X wird durch stückweise lineare Hyper-ebenen in zwei disjunkte (nicht notwendig zusammenhängende) Unterräume zerlegt.

Das Lernproblem für dieses Netzwerk besteht darin, den Parametervektor w auf der Basis vonLerndaten so zu adjustieren, daß die Netzausgabefunktion einen Eingaberaum X aufgaben-adäquat teilt. Zur Illustration sei beispielsweise angenommen, die Retina bildet (wie in derAbbildung 3.3 angedeutet) maschinen- oder handgeschriebene Zahlen 1, 2, 3, ..., 9 in dieMenge X ab. Die Lernaufgabe des Perzeptrons könnte dann in der Diskrimination gerader undungerader Zahlen bestehen. Man beachte, daß sich die Lernaufgabe als deutlich kompliziertererweisen kann, als sie auf dem ersten Blick erscheint. Die Signale des Umsystems sind opti-sche Stimuli. Eine maschinegeschriebene Zahl 'Drei' kann möglicherweise in verschiedenenSchrifttypen wie 3, 3, 3, 3,... auf die Retina projeziert werden. Bei handgeschriebenen Zahlenist die Variabilität der Schriften enorm. Eine Konsequenz hieraus ist, daß mit jeder Zahl ver-schiedene Eingabemuster verbunden sein können.

3.3 Der Perzeptron-Lernalgorithmus

Es stellt sich jetzt die Frage, wie die freien Parameter eines Perzeptrons so adjustiert werdenkönnen, daß das Künstliche Neuronale Netz eine vorgegebene Musterklassifikationsaufgabeerfüllt. Rosenblatt schlug verschiedene Varianten eines Lernverfahrens vor, das er Verstär-kungslernen (reinforcement rule) nannte. Hier wird eine Variante, die von Rosenblatt [1962]



und Block [1962] eingehender untersucht wurde, diskutiert. Sie wird in der neueren Literaturüblicherweise als der Perzeptron-Lernalgorithmus bezeichnet und als inkrementelles Fehler-korrekturlernen oder inkrementelles überwachtes Lernen mit Lehrer charakterisiert.

Die Grundidee des Lernalgorithmus ist denkbar einfach. Das Perzeptron wird mit einer Mengevon Klassifikationsbeispielen konfrontiert. Ist es in der Lage ein Beispiel nachzuvollziehen,d.h. klassifiziert es ein Eingabemuster richtig, dann bleiben seine freien Parameter unver-ändert. Anderenfalls erfolgt eine systematische Korrektur. Im günstigsten Fall ist das Künst-liche Neuronale Netz nach dem Abbruch der sogenannten Lern- oder Trainingsphase in derLage alle Beispiele nachzuvollziehen und kann darüber hinaus auch bisher unbekannte Musterkorrekt klassifizieren. Man sagt dann, das Netz generalisiert sein Wissen über das Umsystem.Das Verfahren heißt inkrementell, weil jede Konfrontation mit einem Beispiel zu einer Para-meteränderung führen kann. Das Künstliche Neuronale Netz vergrößert daher in der Lern-phase schrittweise seinen Wissensstand. Die neurophysiologischen Prozesse die Gehirne zueiner Gedächtnisbildung befähigen, sind - wie bereits in Kapitel 2.3 erwähnt - auch heutenoch weitgehend unerforscht. Die Bezeichnung 'überwachtes Lernen mit Lehrer' macht deut-lich, daß dem Verfahren ein weniger neurobiologisch denn pädagogisch motivierter Lernbe-griff zugrundeliegt. Es bedarf einer Instanz, dem Lehrer, der die Klassifizierungsergebnissedes Netzes als wahr oder falsch bewertet.

Die Diskussion des Perzeptron-Lernalgorithmus erfolgt hier am Beispiel des einfachen Photo-Perzeptrons mit einer Response-Einheit. Die Algorithmus kann direkt auf Netze mit mehrerenR-Einheiten verallgemeinert werden (siehe hierzu z.B. Ritter et al. [1992, S.27ff]). Die R-Ein-heit des Perzeptrons empfängt Assoziationsmuster z = ′ ∈( )z z Zk1 , , als Eingangssignaleund antwortet hierauf gemäß (3.7) mit binären Ausgangssignalen o ∈ 0 , 1 . Jedes Assozia-tionsmuster ist eine eindeutige Transformation eines Eingabemusters. Da die synaptische Ver-bindungsstruktur zwischen der Retina und der assoziativen Schicht des Perzeptrons fest vor-gegeben und daher nicht durch Lernen veränderbar ist, müssen die Eingabemuster an dieserStelle nicht weiter explizit berücksichtigt werden.

Es wird im folgenden angenommen, daß als Klassifikationsbeispiele N verschiedene Asso-ziationsmuster zν = ( )z z Zk1ν ν, , ′ ∈ ( )ν = 1,..., N zur Verfügung stehen. Jedes Muster zνgehört genau einer Klasse C0 oder C1 an. Die jeweilige Klassenzugehörigkeit ist bekannt. DieVektoren zν aus der Klasse C0 seien in einer Menge D0 und die Vektoren zν aus der KlasseC1 in einer Menge D1 zusammengefaßt. Die Vereinigungsmenge D D D Z= ∪ ⊆0 1 heißt inder konnektionistischen Terminiologie auch Trainingsmenge und ihre Elemente heißen Trai-ningsmuster. Die Trainingsmenge D ist in aller Regel eine echte Teilmenge des Assoziations-raumes Z und kann als eine Art Lernstichprobe aufgefaßt werden. Sie dient als Datenbasis zur



Adjustierung von Schwellenwert und synaptischen Gewichten der R-Einheit. Gesucht wird einParametervektor w, der eine fehlerfreie Klassifikation der Trainingsmuster durch die Ausgangs-signale der R-Einheit ermöglicht. Im folgenden soll vorausgesetzt werden, daß mindestens einParametervektor w existiert, der dieses Lernziel erfüllt; w genügt somit der Bedingung:

(3.9)~

~′ ⋅ < ∈

′ ⋅ ≥ ∈

z w z

z w zν ν

ν ν

0

00

1

für alle

für alle

D

D

mit ~ ( , )z zν ν= ′ − ′1 . Die Mengen D0 und D1 werden jetzt als linear trennbare Mengen be-zeichnet.

Gibt man einen beliebigen Vektor w* ∈ +IRk 1 als Parametervektor vor, z.B. w* ≡ 0 , dannwird die R-Einheit des Perzeptrons mit hoher Wahrscheinlichkeit mehrere Trainingsmusterzν ∈ D fehlklassifizieren. Der Perzeptron-Lernalgorithmus ist ein einfaches rekursives Ver-fahren, das schrittweise Korrekturen des Parametervektors vornimmt. Es sei zl l=1 2, ,... eineFolge von Trainingsmustern. Die Glieder dieser sogenannten Trainingssequenz werden durchwiederholtes zufälliges Ziehen mit Zurücklegen aus der Menge D bestimmt. Ferner sei wl l=1 2, ,... eine Folge von Parametervektoren mit w w1:= * als Anfangsglied. Die Glieder derTrainingssequenz werden schrittweise der R-Einheit als Eingaben präsentiert und von ihr klas-sifiziert. Nach jeder Fehlklassifikation wird eine Korrektur des Parametervektors vorgenom-men. Eine richtige Klassifikation löst keine Korrektur aus. Für alle Rekursions- oder Lern-schritte l = 1,2,3,... gilt:

(3.10) ww z z w zw z z w zw

l

l l l l l

l l l l l

l

DD+ =

− ′ ⋅ ≥ ∈+ ′ ⋅ < ∈

1

0

1

00

ηη

~ ~~ ~

falls und falls und sonst

mit η η∈ >IR, 0 . Die Gleichung (3.10) wird als die Lernregel und der Faktor η als die Lern-rate des Algorithmus bezeichnet. Die Lernrate wird in der Regel aus dem Intervall 0 1< ≤ηgewählt. Klassifiziert die R-Einheit nach erfolgten Korrekturen alle Elemente der Trainings-menge richtig, dann bewirkt die Lernregel keine weiteren Änderungen des Parametervektors.Der Lernalgorithmus kann abgebrochen werden.

Für spätere Ausführungen ist es sinnvoll, die Lernregel (3.10) in einer kompakteren Form zunotieren. Es bezeichne ol die Antwort der R-Einheit auf ein Trainingsmuster zl. Ferner sei yleine Indikatorvariable, die gemäß

yDDl

l

l=

∈∈

01

0

1

falls falls

zz

die Klassenzugehörigkeit von zl indiziert. Mit diesen Vereinbarungen läßt sich (3.10) nunschreiben:



(3.11) ( )w w z w zl l l l l l l ly o+ = + − = +1 η ηε~ ~ ( )l = 1 2 3, , ,... ,

wobei ε l l ly o= − der Ausgabefehler (das Fehlersignal) der R-Einheit ist. Die Variable ylwird auch als Zielausgabe oder Lehrersignal bezeichnet. Da yl und ol binäre Variablen sind,gilt stets ε l ∈ − +1 0 1, , .

Die Verwendung der Lernregel (3.10) bzw. (3.11) kann wie folgt motiviert werden (vgl. Arbib[1987, S.67]): Gilt ~ ′ ⋅ ≥z wl l 0 und zl D∈ 0 , dann ordnet die R-Einheit das Muster zl derKlasse C1 zu, obwohl es aus der Klasse C0 entstammt. Da stets ~ ~′ ⋅ >z zl l 0 ist, gilt auch

( )~ ~ ~ ~ ~ ~′ ⋅ − = ′ ⋅ − ′ < ′ ⋅z w z z w z z z wl l l l l l l l lη η .

D.h., wird wl durch den Vektor w w zl l l+ −1 ==== η~ ersetzt, dann wird die R-Einheit eine richtigeoder zumindest eine 'richtigere' Diskrimination von zl durchführen. Analoge Überlegungengelten für den zweiten Fehlklassifikationsfall ~ ′ ⋅ <z wl l 0 und zl D∈ 1 . Natürlich kann die nun'richtigere' Diskrimination eines Musters mit einer 'falscheren' Diskrimination eines anderenMusters verbunden sein. Die Lösbarkeit der Lernaufgabe durch den Algorithmus ist somit kei-neswegs offensichtlich. Unter Gültigkeit der eingangs formulierten Annahme, daß die Men-gen D0 und D1 linear trennbar sind, konnte Rosenblatt [1962] die Konvergenz des Algorith-mus nach einer endlichen Anzahl l0 von Lernschritten beweisen. D.h., es existiert einenatürliche Zahl l0 < ∞ so, daß

w w wl l l0 0 01 2= = =+ +

erfüllt ist. w w ::::= l0 genügt der Bedingung (3.9). Dieses zentrale Ergebnis ist in der Literatur

als Perzeptron-Konvergenz-Theorem bekannt. Ein Beweis findet sich z.B. auch bei Arbib[1987, S.67f] oder Hertz et al. [1991, S.100f].

Das Theorem sagt nichts über die Anzahl der erforderlichen Lernschritte aus. Diese kann mitder Dimension der Trainingsvektoren rasch ansteigen. Ist die Bedingung der linearen Trenn-barkeit nicht erfüllt, dann ist auch die Konvergenz des Algorithmus nicht sichergestellt. DieLernregel erzeugt jetzt i.d.R. eine nicht-konvergente, oszillierende Folge wl l=1 2, ,... von Para-metervektoren und führt zu keinem eindeutigen Lernergebnis.

3.4 Grenzen des Perzeptron-Ansatzes

Perzeptron-Lernen, soweit es bis hierher diskutiert wurde, ist ein lineares Verfahren zur Dis-krimination von Assoziationsmustern. In der Diskussion blieb die Funktion der A-Einheitendes Perzeptrons unbeachtet. Die A-Einheiten fungieren in dem Modell als Präprozessoren, diein einer Vorverarbeitungsstufe Eingabemuster x ∈ X in Assoziationsmuster z ∈Z transfor-



mieren. Verzichtet man auf diese Vorverarbeitung, dann sind Eingabe- und Assoziations-muster identisch, und das Perzeptron kann nur dann eine Klassifikationsaufgabe fehlerfreierfüllen, wenn die Eingabemuster x linear trennbar sind. Ein in der Literatur häufig zitiertesBeispiel für die hieraus resultierenden Grenzen des Einsatzbereichs der Perzeptrone ist dasAntivalenz-Problem (XOR-Problem) von Minsky & Papert [1969]. Der Eingaberaum (≡ Trai-ningsmenge) ist hier X = 0 1 2

, . Ferner gilt:

x1ν x2ν yν1100

1010

0110

Die Variable yν indiziert die Klassenzugehörigkeit der Muster xν ν ν= ′ ∈( )x x X1 2, . ObigeTabelle ist wie die Wahrheitstafel der Boole'schen Antivalenz-Funktion aufgebaut. Es kannleicht gezeigt werden, daß keine Funktion ( )o H w x w xν ν ν ζ= + −1 1 2 2 mit w w IR1 2, ,ζ ∈existiert, die X aufgabengerecht in die Teilmengen ( ) ( ) 1 1 0 0, , , und ( ) ( ) 1 0 0 1, , , trennt. EinPerzeptron-Ansatz ohne Präprozessoren scheitert an diesem vergleichsweise trivialen Klassi-fikationsproblem. Ebenso leicht läßt sich die Existenz eines Perzeptrons mit A-Einheiten nach-weisen, das das Antivalenz-Problem löst. Ein solches Netz mit zwei A-Einheiten zeigt dieAbbildung 3.4 (vgl. Nauck et al. [1996, S.41ff]).

Durch die Verwendung von A-Einheiten wird im Perzeptron-Modell versucht, die Beschrän-kungen eines linearen Ansatzes zu überwinden. Die Netzausgabefunktion ( )o f= x w, verhältsich jetzt nicht mehr wie eine lineare, sondern wie eine stückweise lineare Diskriminanzfunk-tion (vgl. S.24f). Theoretisch resultiert hieraus die Möglichkeit, daß das Künstliche NeuronaleNetz auch die fehlerfreie Klassifikation linear nicht-trennbarer Eingabemuster erlernen kann.Das ist genau dann erreichbar, wenn die A-Einheiten den Eingaberaum in einen linear trenn-baren Assoziationsraum abbilden. Problematisch an dem Modellansatz ist, daß die synapti-schen Gewichte und die Schwellenwerte der A-Einheiten nicht zielgerichtet adjustiert, sondernzufällig festgelegt werden. Ein gegebenes Perzeptron kann folglich an einer Musterklassifika-tionsaufgabe selbst dann scheitern, wenn im Rahmen des Ansatzes eine Lösung prinzipiellexistiert.

Diese generelle Problematik war der 'Perzeptron-Gruppe' um Rosenblatt bekannt. Der Perzep-tron-Lernalgorithmus schöpft das Potential der Netzwerkarchitektur nicht aus. Die Flexibilitätder Netzausgabefunktion ( )o f= x w, ist eingeschränkt, da der Algorithmus lediglich die Pa-rameter w der R-Einheit adjustiert. Wäre hingegen die Adjustierung aller Gewichte undSchwellenwerte im Netzwerk auf der Basis von Trainingsmustern möglich, so stünde ein weit



flexibleres Instrument zur Lösung von Musterklassifikationsaufgaben zur Verfügung. EinLernverfahren, das dies leisten kann, war Anfang der 1960ziger Jahren jedoch unbekannt.

Erst in den achtziger Jahren wurde unter der Bezeichnung Backpropagation-Algorithmus einVerfahren popularisiert, das geeignet ist, alle synaptische Gewichte und Schwellenwerte inNetzen mit mehreren hintereinandergeschalteten Neuronenschichten zu trainieren. Der Back-propagation-Algorithmus ist eine Verallgemeinerung des sogenannten Least-Mean-Square-Algorithmus. Beide Ansätze werden in den folgenden Kapiteln vorgestellt. Hier sei bereits an-gemerkt, daß mit ihnen ein deutlicher Paradigmenwechsel verbunden ist: Wie der NameLeast-Mean-Square-Algorithmus andeutet, fließen in die Lernalgorithmen statistische Argu-mente ein. Ihre biologische Plausibilität spielt eine eher untergeordnete Rolle.

x

x2

1 ζ=1.5

ζ=0.5

ζ=0.5

−1

+1

1

1

1

1

Sensoren A-Einheiten R-Einheit

1.5

1.0

0.5

0.5 1.0 1.5

(0,0) (1,0)

(0,1) (1,1)

=1o

o=0

o=0x1

x2

(a) (b)

o

Abb. 3.4: Perzeptron und Antivalenz-Problem. (a) Perzeptron. Die Zahlen geben die Gewichte dersynaptischen Eingangsleitungen bzw. die Schwellenwerte der Einheiten an. (b) Geometri-sche Interpretation. Die A-Einheiten definieren zwei Geraden, die die ( )x x1 2, -Ebene indrei Regionen zerlegt. Hierbei werden reelle Eingabevektoren ( )x x IR1 2

2, ′∈ unterstellt.Die zentrale Region ist mit der Netzausgabe o=1 assoziiert, die anderen Regionen mit derNetzausgabe o=0.


31

4 Least-Mean-Square-Algorithmus und lineareNetzwerke

Einen nachhaltigen Einfluß auf die heute verwendeten 'überwachten' Lernverfahren für Künst-liche Neuronale Netze übt der bereits im Jahr 1960 von Bernard Widrow zusammen mitMarcian E. Hoff vorgestellte Least-Mean-Square-(LMS)-Algorithmus aus (Widrow & Hoff[1960]). Er ist in der neueren konnektionistischen Literatur auch unter den BezeichnungenDelta-Lernregel oder Widrow-Hoff-Lernregel bekannt.

Die Autoren führten den LMS-Algorithmus zunächst als ein Adaptionsverfahren für eine ein-fach aufgebaute Lernmaschine, das ADALINE, ein. Der Name ADALINE ist ein Akronymfür adaptive linear element oder adaptive linear neuron. Das ADALINE ist ein einzelnes ad-aptives Neuron und somit kein neuronales Netzwerk im eigentlichen Wortsinne. Es kann je-doch als ein Baustein für komplexere Mehr-Neuronen-Systeme verwendet werden. DasADALINE ist, vergleichbar mit Rosenblatts Photo-Perzeptronen, als eine Maschine zur Bear-beitung optischer Musterwiedererkennungsprobleme konzipiert. Der LMS-Algorithmus solles ihr ermöglichen, anhand von Klassifikationsbeispielen die Diskrimination einfacher opti-scher Muster zu erlernen. Widrow und Hoff nehmen in ihrer Arbeit allerdings keinen direktenBezug auf die Forschungsarbeiten der 'Perzeptron-Gruppe'. Ihr Ansatz ist weniger durch bio-logische, denn durch ingenieurwissenschaftliche Überlegungen geprägt. Der LMS-Algorith-mus basiert auf statistischen Argumenten.

Die Einsatzmöglichkeiten des LMS-Algorithmus sind nicht auf das Training von Klassifika-tionsmaschinen beschränkt. Er kann nicht nur im Zusammenhang mit Diskriminationsproble-men, sondern auch als ein Verfahren zur Lösung allgemeinerer Regressionsprobleme einge-setzt werden. Der Algorithmus ist, wie es in der Namensgebung anklingt, eine rekursive Vari-ante der Kleinste-Quadrate-Methode. Ferner ist er eng mit der auf Robbins & Monro [1951]zurückgehenden stochastischen Approximationsmethode verwandt. In späteren Arbeiten vonWidrow und anderen Autoren wurden für den LMS-Algorithmus weitere Anwendungsgebieteerschlossen. Widrow etablierte ihn in dem primär ingenieurwissenschaftlich orientierten For-schungsbereich der adaptiven Signalverarbeitung als ein Adaptionsverfahren für lineare Sy-steme. Einsatzbeispiele solcher Systeme sind die adaptive Ausrichtung von Antennensyste-


32 LMS-ALGORITHMUS UND LINEARE NETZWERKE

men oder die adaptive Rauschunterdrückung in weitreichenden Telefonleitungen (sieheWidrow et al. [1967], Widrow et al. [1975]). In der konnektionistischen Praxis etablierte sichder Algorithmus als ein häufig eingesetztes Lernverfahren für sogenannte lineare assoziativeSpeicher (siehe z.B. Ritter et al. [1992, S.39ff]).

In den folgenden Ausführungen steht der Prototyp-Charakter des Ansatzes für den Backpro-pagation-Algorithmus im Vordergrund. Der LMS-Algorithmus wird zunächst als ein Lernver-fahren für eine primitive Lernmaschine eingeführt, die nur eine einzige lineare Signalverarbei-tungseinheit besitzt. Lernziel ist die Lösung linearer Regressionsprobleme. Die Betrachtungenwerden an späterer Stelle auf Netzwerke mit mehreren, parallel geschalteten linearen Einhei-ten und auf das historisch interessante ADALINE erweitert.

Der LMS-Algorithmus kann in zwei verschiedenen Lernsituationen eingesetzt werden, diehier durch die Termini Echtzeit-Lernen und zyklisches Lernen umschrieben werden. Widrow& Hoff entwickelten den Algorithmus ursprünglich als ein Lernverfahren für Netze, die ineinen 'Echtzeit-Signalstrom' eingebettet sind. Damit ist gemeint, daß ein Netz im ZeitablaufSignale seines Umsystems empfängt, die es ohne wesentliche Zeitverzögerung als Trainings-daten bzw. -muster zur Adjustierung seiner Gewichte nutzt. Die Signale sind nur transitorischverfügbar, eine Datenspeicherung erfolgt nicht. Der Signalstrom besitzt den Charakter einer(theoretisch infinit langen) Zeitreihe. Die Autoren setzten den LMS-Algorithmus aber auch ineiner zweiten Lernsituation ein. Beim zyklischen Lernen ist eine endliche Daten- oder Trai-ningsmenge fest vorgegeben und gespeichert. Die Daten werden dem Netz in einer Trainings-sequenz solange zyklisch präsentiert, wie eine Verbesserung der Lernergebnisse erzielt wer-den kann. Danach wird der Lernprozeß abgebrochen, und das Netz gilt als trainiert. Eine ver-gleichbare Lernsituation wurde bereits beim Perzeptron-Lernen vorgestellt. Die Trainings-daten können Zeitreihen- oder Querschnittsdatencharakter aufweisen. Die skizzierte Vor-gehensweise erlaubt es, den Algorithmus zur Lösung sehr vielfältiger Lernaufgaben einzu-setzen. Den beiden Lernszenarien liegen grundverschiedene Datensituationen zugrunde. Umdie statistischen Hintergründe transparent werden zu lassen, werden Echtzeit-Lernen und zy-klisches Lernen getrennt behandelt.

4.1 Eine einfache Lernmaschine und lineare Regressionsprobleme

Der LMS-Algorithmus soll zunächst als ein Lernverfahren für ein primitives Netz motiviertwerden, das sich aus mehreren Eingabeeinheiten oder Sensoren und einer adaptiven linearenVerarbeitungseinheit zusammensetzt (vgl. Abb. 4.1). In den Ingenieurwissenschaften ist dieVerarbeitungseinheit als ein Adaptiver Linearer Kombinierer (adaptive linear combiner, kurz


LMS-ALGORITHMUS UND LINEARE NETZWERKE 33

ALC) bekannt. Für die Diskussion ist es nützlich, das Netz als eine Lernmaschine aufzufas-sen, die aus einfachen physikalischen Komponenten aufgebaut ist. Um diese Sicht zu betonen,wird die technische Bezeichnung ALC übernommen.

Das Netz empfängt über p Sensoren reellwertige Signale xi ( i p=1,..., ) seines Umsystems. DieEingangssignale werden über gewichtete Leitungen mit den reellen Gewichten wi (i = 1,...,p)an einen in der ALC-Einheit integrierten Addierer weitergeleitet. Das Netz ist ferner mit einemScheinsensor ausgestattet, der über eine mit w0 gewichteten Leitung ein Einheitssignal x0 1≡an den Addierer sendet. Der Scheinsensor wird als Biaseinheit und das Gewicht w0 als Biasge-wicht oder kurz Bias bezeichnet. Der Addierer berechnet die Summe der gewichteten Signale

(4.1) o w x w w xi ii

p

i ii

p= = +

= =∑ ∑

00

1 ,

die als das Ausgangssignal des Netzes zurück an das Umsystem gesandt wird. Das Ausgangs-signal o wird im folgenden als eine Funktion der Umsystemsignale und der Netzgewichteaufgefaßt. Der Zusammenhang wird formal durch die Netzausgabefunktion f IR W IRp: × →mit ( )o f= x w, beschrieben. Hierbei ist x = ′ ∈( )x x IRp

p1 , , der Vektor der Eingangssigna-

le, w = ′ ∈( )w w w Wp0 1, , , der Vektor der Gewichte und W IR p⊆ +1 der Gewichts- oderParameterraum. Schließlich sei ~x x= ′ ′(1, ) ein erweiterter Signalvektor. Mit diesen Verein-barungen kann (4.1) auch gemäß

(4.2) ( )f x w w x, ~= ′

geschrieben werden.

x

.....

w

w

wp p

1

0

Σ

ΣAdaptions-algorithmus

-o

y - oy

o

ZielausgabeFehlersignal

signaleEingangs-

Adjustierbare Gewichte

Sensoren

Sensor

. ...

x1

Adaptiver Linearer Kombinierer

AusgangssignalAddierer

1

Biaseinheit

Abb. 4.1: Primitives lineares Netz und Adaptiver Linearer Kombinierer (ALC)



Die Signalverarbeitungsaufgabe der ALC-Einheit besteht darin, auf Eingangssignale x mit'geeigneten' oder 'erwünschten' Ausgangssignalen o f= ( )x w, zu antworten. Damit sie ihreAufgabe erfüllen kann, ist eine adäquate Adjustierung des Gewichtsvektors w erforderlich.Wie in Abbildung 4.1 schematisch dargestellt, sind ein Gewichtsadaptionsalgorithmus, hierder LMS-Algorithmus, und ein Korrekturmechanismus für die Gewichte in dem ALC inte-griert. Der ALC wird so zu einer adaptiven Verarbeitungseinheit. Der LMS-Algorithmus istein überwachtes Adaptionsverfahren. Er setzt die Verfügbarkeit einer Menge von Lerndatenoder Trainingsmustern voraus, die sich jeweils aus einem Vektor x, im folgenden Eingabe-vektor genannt, und einer zugehörigen Zielausgabe y IR∈ zusammensetzen. Diese Trai-ningsmuster werden sequentiell in das Netz eingespeist. Der LMS-Algorithmus löst immerdann eine Gewichtskorrektur aus, wenn die Differenz y o− einer Zielausgabe y und der tat-sächlichen Ausgabe o f= ( )x w, von null verschieden ist. Ziel ist es, den Gewichtsvektor wso zu adjustieren, daß die Ausgaben o die vorgegebenen Zielausgaben y möglichst gutapproximieren. In der konnektionistischen Sprechweise sagt man auch, 'die Einheit soll ler-nen, die Eingabevektoren x mit den Zielausgaben y zu assoziieren'.

4.1.1 Das Lernziel des LMS-Algorithmus

Bevor der LMS-Algorithmus vorgestellt werden kann, muß die Frage erörtert werden, was imRahmen des LMS-Ansatzes unter einer 'möglichst guten' Approximation einer Zielausgabe ydurch die tatsächliche Ausgabe o der Einheit verstanden wird. Einleitend ist es notwendig, ei-nige Vereinbarungen bezüglich der statistischen Eigenschaften der Lerndaten zu treffen.

Es wird angenommen, daß als Lerndatensatz eine (finite oder infinite) Sequenz zt t=1 2, ,... vonTrainingsmustern verfügbar ist. Jedes Trainingsmuster ist ein (1+p)-dimensionaler Vektorz xt t ty= ′ ′( ), , der sich aus einem Eingabevektor xt t ptx x= ′( )1 , , und einer zugehörigenZielausgabe yt zusammensetzt. Weiter wird unterstellt, daß der datenerzeugende Mechanismuszufälligen Einflüssen unterliegt. Jedes Trainingsmuster zt wird als eine beobachtete Realisie-rung eines (1+p)-dimensionalen Zufallsvektors Zt aufgefaßt. Zt ist gemäß Z Xt t tY= ′ ′( ), ineine skalare Zielvariable Yt und einen p-dimensionalen Vektor Xt t ptX X= ( , )1 , ′ von Ein-gabevariablen partitioniert. Der Wertebereich der Zufallsvariablen kann abzählbar oder über-abzählbar sein. Das Lernziel wird die lineare Approximation (Erklärung, Prognose) von Ytdurch Xt sein. Die Zielvariable kann daher auch als eine abhängige oder zu erklärende Varia-ble aufgefaßt werden. Die Eingabevariablen Xit ( i p=1,..., ) stellen in diesem Sinne unabhän-gige oder erklärende Variablen dar. Die Sequenz Zt t=1 2, ,... von Zufallsvektoren wird als derdatenerzeugende Prozeß bezeichnet.



Die probabilistische Eigenschaften, die der datenerzeugenden Prozeß sinnvollerweise besitzensollte, werden ausführlich in Abschnitt 4.1.2 festgelegt. An dieser Stelle ist es ausreichend, ei-nige wenige Vereinbarungen zu treffen. Es wird angenommen, daß die Zufallsvektoren Zt füralle t = 1,2,... identisch verteilt sind mit der Verteilungsfunktion ( ) ( )F P tZ z Z z= ≤ , z∈ +IR p 1 .Weiter wird angenommen, daß die Mittelwerte1)

[ ] ( )E Z z dFlt l lIR p

= =+∫ Z z µ

1

(l = 1,...,p+1)

und Kovarianzen

[ ] ( )E Z Z z z dFlt l kt k l l k kIR

lkp

( )( ) ( )( )− − = − − =+∫µ µ µ µ σZ z

1

(l,k = 1,...,p+1)

der Komponenten von Z Xt t t t p tY Z Z= ′ ′ ′+( ) = ( ), ,..., ,1 1 existieren. Zlt symbolisiert vorüber-gehend die l-te Komponente von Zt und zl einen Wert von Zlt (Zkt analog). Die Existenz derErwartungswerte ist sichergestellt, wenn alle Komponenten Zlt quadratisch integrierbar sind;d.h., ( )E Z z dFlt l[| | ] | | 2 2= < ∞∫ Z z ( l p= +1 1,..., ). Die Mittelwerte µl ( l p= +1 1,..., ) werden indem Mittelwertvektor E t[ ]Z ==== µµµµ Z und die Kovarianzen σlk ( l k p, ,...,= +1 1 ) in der Kovarianz-matrix Var t[ ]Z Z= ΣΣΣΣ zusammengefaßt. Der Vektor und die Matrix seien analog zuZ Xt t tY= ′ ′( ), in Teilkomponenten partitioniert:

(4.3) [ ]E EY

tt

t

YZX

====µµµµ

==== µµµµ

=

µ

XZ ,

(4.4) [ ] ( ) ( )Var E

EY Y

t t t

t

t

t

t

Y Y Y Y

Y

Z Z Z

X X

Z Z

X XZ

= − ⋅ − ′

=−−

⋅

−−

′

=

′

=

µµµµ µµµµ

µµµµ µµµµΣΣΣΣ

ΣΣΣΣ ΣΣΣΣΣΣΣΣ

µ µ σ2X

X X

mit [ ]σ µY YE Yt2 = −( )2 , [ ]ΣΣΣΣ µµµµY YE Yt tX = − −( )( )µ X X und [ ]ΣΣΣΣ µµµµ µµµµX = − − ′E t t( )( )X XX X .

Abschließend wird noch gefordert, daß die ( )p p, -Kovarianzmatrix ΣΣΣΣ X des Teilvektors Xt vonZt eine nichtsinguläre oder reguläre Matrix ist; d.h., ΣΣΣΣ X besitzt den vollen Rang ( )rg pΣΣΣΣ X =und ihre Inverse ΣΣΣΣ X

−1 existiert. Die Annahme impliziert die Abwesenheit exakter linearer Ab-

1) Es sei Z ein n-dimensionaler Zufallsvektor mit der Verteilungsfunktion F(z), g(Z) mit g: IRn→IR eine wohl

definierte skalare Zufallsvariable und z∈IRn. Zur Vereinfachung der Notation wird der Erwartungswert vong(Z) im folgenden ( )[ ] ( ) ( )E g g dFIRnZ z z= ∫ oder noch kürzer ( )[ ] ( ) ( )E g g dFZ z z= ∫ geschrieben. Die rech-ten Seiten der Gleichungen symbolisieren jeweils ein n-faches uneigentliches Stieltjes-Integral. Dabei wirdvorausgesetzt, daß g(Z) integrierbar ist; d.h. ( ) ( )g dFz z∫ < ∞ .



hängigkeitsbeziehungen zwischen den Komponenten des Zufallsvektors Xt. Existieren exaktelineare Beziehungen, kann das Problem durch Entfernen redundanter Zufallsvariablen aus Xtgelöst werden.

Die in (4.2) eingeführte Netzausgabefunktion soll jetzt gemäß

(4.5) ( )O ft t t= = ′X w w X, ~

notiert und als ein linearer Approximator oder linearer Prediktor der Zufallsvariablen Yt be-trachtet werden (t = 1,2,...). Es gilt ~ ,X Xt t= ′ ′( )1 . Als Maß für die Güte der Approximationdient der mittlere quadratische Fehler (mean square error, kurz MSE)

(4.6) ( ) ( ) ( ) ( )[ ] [ ]M y dF E Y EIR

t t tp

w w x z w XZ= − ′ = − ′ =+∫ ~ ~2 2 2

1

ε ,

wobei ε t t tY:= − ′w X~ den Approximationsfehler kennzeichnet. Der Gewichtsvektor w ist soeinzustellen, daß das Gütekriterium (4.6) minimal wird. Existiert eine eindeutig bestimmteLösung wo W∈ des Minimierungsproblems, dann ist ( )f t oX w, die beste lineare Approxi-mation der Zielvariablen Yt durch den Eingabevektor Xt im Sinne des MSE-Kriteriums.

Bei Kenntnis des Mittelwertvektors µµµµ Z und der Kovarianzmatrix ΣΣΣΣ Z kann das Minimierungs-problem unmittelbar gelöst werden. Aus (4.6) folgt:

( ) ( )[ ] [ ] [ ] [ ]M E Y E Y E Y Et t t t t t tw w X w X w X X w= − ′ = − ′ + ′ ′~ ~ ~ ~2 2 2 .

Notwendige Bedingung für die Existenz eines Minimums der Funktion M(w) ist, daß derVektor der partiellen Ableitungen 1. Ordnung von M(w) bezüglich w verschwindet:

( ) [ ] [ ]∂∂

ME Y Et t t t

ww X X X w= − + ′ =2 2~ ~ ~ 0 .

Aus der Bedingung folgt das sogenannte Normalgleichungssystem

(4.7) [ ] [ ]E E Yt t t t~ ~ ~X X w X′ = .

Mit

[ ] [ ]EEt t

t t

~ ~X XX XX

X

′ =′

′

1 µµµµ

µµµµ , [ ] [ ]E Y

E Yt tt t

Y~XX

=

µ und w w=

≡

ww

w

w

p

01 0

1

kann das Normalgleichungssystem auch äquivalent

[ ] [ ]w

w E E YY

t t t t

0 1

0 1

+ ′ =

+ ′ =

µµµµ

µµµµX

X

w

X X w X

µ



geschrieben werden. Aus der ersten Gleichung folgt sofort w Y0 1= − ′µ µµµµ Xw . Wegen µµµµ Xw0 =µµµµ µµµµ µµµµX X XwµY − ′ 1, [ ]ΣΣΣΣ µµµµ µµµµX X XX X= ′ − ′E t t , [ ]ΣΣΣΣ µµµµY YE Yt tX XX= −µ , gilt weiter ΣΣΣΣ ΣΣΣΣX Xw1 = Y .ΣΣΣΣ X ist die (p , p)-Kovarianzmatrix des Zufallsvektors Xt und ΣΣΣΣ YX ist die (p , 1)-Kreuzkovari-anzmatrix von Yt und Xt aus (4.4). Da ΣΣΣΣ X als eine reguläre Matrix vorausgesetzt wurde, istdie Gleichung ΣΣΣΣ ΣΣΣΣX Xw1 = Y eindeutig nach w1 lösbar: w X X1

1==== ΣΣΣΣ ΣΣΣΣ−Y . Das Normalgleichungs-

system besitzt somit die eindeutige Lösung:

(4.8) w X X X

X Xo

Y Y

Y

=− ′

−

−

µ µµµµ ΣΣΣΣ ΣΣΣΣ

ΣΣΣΣ ΣΣΣΣ

1

1 .

Die Lösung wo ist, wie sich leicht zeigen läßt, die globale Minimumstelle der quadratischenZielfunktion (4.6) (siehe z.B. Schlittgen & Streitberg [1994, S.519]).

Aus (4.8) ist ersichtlich, daß der Bias w0 verzichtbar wird, falls µµµµ Z ein Nullvektor ist. Eskann w0 ≡ 0 gesetzt werden. Die MSE-optimale lineare Approximation Ot

oo t:= ′w X~ der Ziel-

variablen Yt ist dadurch charakterisiert, daß Oto und der korrespondierende Approximations-

fehler ε to

t toY O:= − zueinander orthogonal sind. Man beachte, daß w X X Xo t t t tE E Y≡ ′ −[ ] [ ]~ ~ ~1

ist. Wegen

(4.9) [ ] ( )[ ] [ ] [ ][ ] [ ] [ ] [ ]

E E Y E Y E

E Y E E E Y

t to

t t t t t t t

t t t t t t t t

o o~ ~ ~ ~ ~ ~

~ ~ ~ ~ ~ ~

X X X w X X X w

X X X X X X

ε = − ′ = − ′

= − ′ ′ =−1 0 ,

sind die Komponenten von Xt und ε to unkorreliert. Da Ot

o eine Linearkombination von ~Xtist, sind auch Ot

o und ε to unkorreliert. Es gilt E O E Et

oto

o t to

o t to[ ] [ ] [ ]ε ε ε= ′ = ′ =w X w X~ ~ 0 . Die

erste Komponente des Vektors ~X t toε ist ε t

o , so daß aus (4.9) ferner E to[ ]ε = 0 folgt.

Die Netzausgabefunktion ( )f t oX w, ist der MSE-optimale lineare Approximator oder Pre-diktor der Zielvariablen Yt durch den Eingabevektor X t . Dies bedeutet nicht, daß dieNetzausgabefunktion auch der bestmögliche Prediktor im Sinne des MSE-Kriteriums seinmuß. Es ist wohl bekannt, daß der MSE-optimale Prediktor durch die bedingte Erwartungs-wertfunktion oder Regressionsfunktion µ( ) [ ]X Xt t tE Y= gegeben ist, wobei

(4.10) [ ] ( )µ( ) x X x xX= = = ∫E Y y dF yt t YIR

der bedingte Erwartungswert von Yt bei gegebenem Xt = x ist. F yY X x( ) = P Y yt t( ) ≤ =X xkennzeichnet die bedingte Verteilungsfunktion der Zielvariablen Yt für einen gegebenen Wertx der erklärenden Variablen Xt. Mit Hilfe von Standardargumenten kann leicht gezeigt wer-den, daß µ( )Xt die Minimumeigenschaft



(4.11) ( )[ ] ( )[ ]E Y g E Yt t t t− ≥ −( ) ( )X X2 2µ

besitzt, wobei g IR IRp: → eine beliebige Borel-meßbare Funktion2) ist. Es gilt:

( )[ ] ( )[ ]E Y g E Y gt t t t t t− = − + −( ) ( ) ( ) ( )X X X X2 2µ µ

( )[ ] ( )( )[ ]

( )[ ]( )[ ] ( )[ ]( )[ ]

= − + − −

+ −

= − + −

≥ −

E Y E Y g

E g

E Y E g

E Y

t t t t t t

t t

t t t t

t t

µ µ µ

µ

µ µ

µ

( ) ( ) ( ) ( )

( ) ( )

( ) ( ) ( )

( ) .

X X X X

X X

X X X

X

2

2

2 2

2

2

Die vorletzte Zeile ergibt sich durch Anwendung des Gesetzes für iterierte Erwartungswerte(Doob [1953, S.35]):

( )( )[ ] ( )( )[ ][ ]( )[ ]( )[ ]

E Y g E E Y g

E E Y g

t t t t t t t t t

t t t t t

− − = − −

= − − =

µ µ µ µ

µ µ

( ) ( ) ( ) ( ) ( ) ( )

( ) ( ) ( )

X X X X X X X

X X X X 0

mit ( )[ ] [ ]E Y E Yt t t t t t t t− = − = − =µ µ µ µ( ) ( ) ( ) ( )X X X X X X 0 .

Die Netzausgabefunktion f t o( , )X w besitzt die Minimumeigenschaft (4.11) nur bezüglichder Menge aller linearen Funktionen g IR IRp: → . f t o( , )X w und die Regressionsfunktionµ( )Xt für Yt sind nur dann identisch, wenn µ( )Xt eine Linearkombination der Komponen-ten von Xt ist. Ein solcher linearer Zusammenhang zwischen Yt und Xt wird hier aber nichtunterstellt. Im allgemeinen ist µ( )Xt eine nichtlineare Funktion. Wegen

(4.12) ( ) ( )[ ] ( )[ ]M E Y f E ft t t tw X w X X w= − = + −( , ) ( ) ( , )2 2 2σ µ

mit σ µ2 = −E Yt t[( ( )) ]2X , kann f t o( , )X w als die beste lineare Approximation der Regres-sionsfunktion µ( )Xt im Sinne des MSE-Kriteriums interpretiert werden. Man beachte, daßder Vektor wo genau dann die Minimumstelle von M(w) ist, wenn wo den mittleren quadrati-schen Approximationsfehler E ft t[( ( ) ( , )) ]2µ X X w− minimiert. µ( )Xt wird als die allge-

2) Es seien B und pB die σ-Algebren der Borelmengen des IR und IRp. Eine Funktion IRIRg p → : heißt

Borel-meßbar, wenn die Urbildmenge )(:)( 1 BgIRBg p ∈∈=− xx einer jeden Menge B∈B ein Elementvon pB ist; kurz: pBg B∈− )(1 für alle B∈B . Die Eigenschaft stellt sicher, daß die Funktion g(Xt) einesZufallsvektors Xt eine wohl definierte Zufallsvariable ist (vgl. auch Abschnitt 4.1.2). Speziell sind allestetigen Funktionen Borel-meßbar.



meine Regressionsfunktion und f t o( , )X w als die lineare Regressionsfunktion von Yt bezüg-lich Xt bezeichnet.

Die Berechnung des Vektors wo gemäß (4.8) setzt die Kenntnis des Mittelwertvektors µµµµ Zund der Kovarianzmatrix ΣΣΣΣ Z voraus. In der Praxis sind beide jedoch unbekannt. Das Lernzieldes LMS-Algorithmus besteht in der Schätzung des Vektors wo. Als Informationsbasis dienendie beobachteten Trainingsmuster zt t=1 2, ,... .

4.1.2 Der datenerzeugende Prozeß

Der LMS-Algorithmus kann als Echtzeit-Lernverfahren oder zyklisches Lernverfahren einge-setzt werden. In einer Echtzeit-Lernsituation repräsentieren die Komponenten eines Trai-ningsmusters zt t t pty x x= ′( ), , ,1 Messungen oder Beobachtungen spezifischer Merkmaledes Netzumsystems in einem Zeitpunkt t. Das Netz empfängt das Trainingsmuster von seinemUmsystem in Echtzeit und nutzt es zur Adjustierung seiner Gewichte. Im folgenden wird un-terstellt, daß der Beobachtungsvorgang beliebig oft wiederholbar ist und in äquidistantenZeitpunkten t = 1,2,3,... ausgeführt wird. Es entsteht eine zeitlich geordnete Vektorfolge odermultivariate Zeitreihe zt t=1 2, ,... . Die Komponenten xit (i = 1,...,p) des Eingabevektors xt re-präsentieren i.d.R. Beobachtungen verschiedener Merkmale. Es ist aber auch denkbar, daß derVektor gemäß xt t t px x= ( , ), − + ′1 aufgebaut ist und zeitverzögerte Beobachtungen einesempirischen Phänomens enthält. Es kann ferner ein Vektor xt t t py y= ( , )− − ′1 , zeitver-zögerter Zielausgaben vorliegen. In diesem Spezialfall geht die multivariate Zeitreihe in eineunivariate Reihe ( ) ( ),yt t p p= − −1 2, ... über.

Beim zyklischen Lernen ist eine Menge zt t N=1 2, ,... von N < ∞ Trainingsmustern vorgegeben.Der Lernprozeß beginnt hier stets nach Abschluß der Datenerfassung, so daß der Zeitbezugder Daten keine die Lernsituation prägende Bedeutung besitzt. Die Trainingsmuster könnenZeitreihendaten oder auch Querschnittsdaten sein. Im zweiten Fall repräsentieren die Trai-ningsmuster Ausprägungen spezifischer Merkmale, die in einem Zeitpunkt oder in einem be-grenzten Zeitraum an verschiedenen statistischen Einheiten beobachtet wurden. Eine Quer-schnittsdatenmenge wird im folgenden als eine beobachtete einfache Zufallsstichprobe vomUmfang N angenommen. Der Index t eines Trainingsmusters kennzeichnet die Nummer einesStichprobenzuges.

Unabhängig davon, ob Zeitreihen- oder Stichprobendaten vorliegen, soll ein Lerndatensatz alseine Realisation oder als Ausschnitt einer Realisation eines multivariaten stochastischen Pro-zesses mit den im Vorkapitel genannten Eigenschaften aufgefaßt werden. Im Falle von Stich-probendaten wird darüber hinaus angenommen, daß eine Familie stochastisch unabhängiger



und identisch verteilter (independent and identically distributed, kurz i.i.d.) Zufallsvektorenvorliegt. Zeitreihendaten sind in aller Regel Beobachtungen abhängiger Zufallsvektoren. Hierrichtet sich die Aufmerksamkeit auf stationäre ergodische oder stationäre mischende Prozesse.Einige Grundkonzepte sollen, soweit dies für das Verständnis späterer Ausführungen erforder-lich erscheint, kurz erläutert werden. Hinweise auf ausführliche Darstellungen in der Literaturfinden sich im Text.

Gegeben sei eine nicht-leere Indexmenge T und ein Wahrscheinlichkeitsraum ( )P,,FΩ . Hier-bei ist Ω (Grundraum) die Menge aller möglichen Ausgänge oder Ergebnisse eines Zufalls-vorganges. F (Ereignisfeld) ist eine Menge von Teilmengen von Ω, die alle Eigenschaften einerσ-Algebra besitzt: (i) F∈Ω , (ii) falls F∈A , dann F∈A und (iii) falls F∈ 21 ,...A,A , dann

F∈∞=1n nA . A bezeichnet das Komplement einer Menge A. Jede Menge F∈A heißt zufälli-

ges Ereignis. P (Wahrscheinlichkeitsmaß) ist eine auf F definierte Funktion IRP →F : mitden Eigenschaften: (i) P(A) ≥ 0 für alle F∈A , (ii) P(Ω) = 1 und (iii) ( )P Ann=

∞ =1 ( )P Ann=∞∑ 1

für jede Folge ,...A,A 21 paarweise disjunkter Mengen aus F. P ordnet jedem zufälligen Er-eignis F∈A die Wahrscheinlichkeit P(A) zu.

Ein multivariater stochastischer Prozeß sei jetzt definiert als eine Familie : Zt E t TΩ→ ∈,von Zufallsvektoren auf ( )P,,FΩ mit dem gemeinsamen Wertebereich E. Die Indexmenge Twird auch Parameterraum und der Wertebereich E Zustandsraum des Prozesses genannt. Fürjedes feste Ergebnis ω∈Ω des Zufallsvorganges heißt ( ) Zt t Tω , ∈ Realisation (synonym:Pfad, Trajektorie) des Prozesses (vgl. z.B. Fahrmeir et al. [1981, S.5f]). Ein Prozeß wird imfolgenden durch Zt t T∈ gekennzeichnet. Eine Realisiation wird zt t T∈ geschrieben.

Die geeignete Wahl der Mengen E und T hängt von der jeweiligen Anwendung eines stocha-stischen Prozesses ab. Als Zustandsraum E wird hier der IRr (oder eine Teilmenge hiervon)angenommen. In dem momentan interessierenden Kontext ist r = p+1. An späterer Stelle wer-den auch Dimensionen r > p+1 benötigt. Liegen einem Lernvorgang Stichprobendaten zu-grunde, dann wird der Parameter t des datenerzeugenden Prozesses als ein Zählindex und derProzeß selbst als eine Folge von Stichprobenvektoren interpretiert. Jeder Vektor Zt repräsen-tiert den potentiellen Ausgang eines Stichprobenzuges. Eine naheliegende Festlegung des Pa-rameterraums ist hier T IN= = 1,2,3,.... Im Zeitreihenfall ist t ein Zeitindex und der Prozeßeine zeitlich geordnete zufällige Folge. Da unterstellt wird, daß der Prozeß nur in Zeitpunktent = 1,2,... beobachtet wird, bietet sich wieder ein Parameterraum T IN= an. Aber auch dieWahl T IZ= = ...,−2,−1,0, +1,+2,... ist zweckmäßig. Der Prozeß besitzt jetzt in jedem Zeit-punkt t ≥1 bereits eine unendlich währende Geschichte. Diese Annahme vereinfacht häufigtheoretische Überlegungen. Je nach Zweckmäßigkeit wird im folgenden T IN= oder T IZ=unterstellt.



Der Grundraum Ω soll ohne Beschränkung der Allgemeinheit als Menge Ω = ET aller Prozeß-realisationen definiert werden. Im Fall T IN= ist Ω = = × =

∞E ETt 1 die Menge aller Punkt-

folgen ω= ( , , )z z z1 2 3 ,... im Zustandsraum E (für T IZ= analog). Diese (kanonische) Defini-tion ermöglicht es, von realen Zufallsvorgängen und deren Grundräumen zu abstrahieren. EinZufallsvektor Zt ist jetzt ein Projektionsoperator, der für ein gegebenes ω die t-te Koordinate ztvon ω selektiert: Z zt t( )ω = . Als Ereignisfeld F wird die kleinste σ-Algebra angenommen, diealle Zylindermengen der Form ( ) ( ) ω ω ω∈ ∈ ∈Ω Z Zt t nA A

n1 1 , , mit n IN∈ , t t Tn1 ,..., ∈und E

nA,,A B∈1 enthält. Dabei steht ( ) ( ) ω ω ω∈ ∈ ∈Ω Z Zt t nA An1 1 , , für die Menge

( ) | = ω ω∈ ∈Ω Zt iin

iA1 und BE kennzeichnet die σ-Algebra der Borel-Mengen des Zu-

standsraumes E (Borel σ-Algebra). BE enthält alle offenen Teilmengen von E sowie derenKomplemente und Vereinigungsmengen. Für jede Abbildung Zt E: Ω→ mit Z zt t( )ω = ( )t T∈gilt F∈−

1 )(AtZ für alle EA B∈ , wobei Zt A− =1 ( ) : ( ) ω ω∈ ∈Ω Zt A die Urbildmenge von

A unter Zt ist. Die Zufallsvektoren Zt heißen ] [ EBF , -meßbare Abbildungen (siehe z.B. Doob[1953, S.46ff], Hannan [1970, S.3f und S.200] oder Bauer [1974, S.344ff]).

Zentrale Bedeutung für das Studium der probabilistischen Eigenschaften eines stochastischenProzesses besitzen die gemeinsamen Wahrscheinlichkeitsverteilungen der Prozeßvektoren,die durch das Wahrscheinlichkeitsmaß P festgelegt sind. Für ein beliebiges n IN∈ , beliebige

Tt,...,t n ∈1 und EnA,,A B∈1 bezeichne

(4.13) ( ) ( )P A A P A At t n t t nn n1 11 1,..., , ,( ) ( ) × × = ∈ ∈ ∈ω ω ωΩ Z Z

die gemeinsame Wahrscheinlichkeitsverteilung (Verteilung n-ter Ordnung) der Zufallsvekto-ren Z Zt tn1

,..., . Die Verteilungen n-ter Ordnung besitzen die Eigenschaften:

(i) P A A E P A At t n t t nn n1 1 11 1 1 1,..., ,...,( ) ( )× × × = × ×− −−

(ii) P A A P A At t n t t i in i in n1 1 11,..., ,...,( ) ( )× × = × × ,

wobei ( )i in1,..., eine beliebige Permutation von ( )1,...,n ist. Die Wahrscheinlichkeitsver-teilung Pt tn1 1,..., −

heißt auch Randverteilung (n-1)-ter Ordnung der Verteilung Pt tn1 ,..., . In Ab-schnitt 4.1.1 wurden die Verteilungen erster Ordnung durch Verteilungsfunktionen beschrie-ben. Eine Funktion [ ]F IRt

rZ : → 0 1, heißt Verteilungsfunktion des Zufallsvektors Zt, wenn

( ) ( )F Pt tZ z Z z= ∈ ≤( | ) ω ωΩ für alle z ∈ IRr gilt. Hierfür wird kurz ( ) ( )F Pt tZ z Z z= ≤geschrieben. Aufschluß über die Bedeutung der Wahrscheinlichkeitsverteilungen gibt der Satzvon Kolmogorov. Es besagt, daß unter Gültigkeit allgemeiner Voraussetzungen ein Prozeß Zt t T∈ durch die Familie Pt t n IN t t Tn n1 1,..., ; ,...,∈ ∈ seiner Verteilungen endlicher Ordnung ein-deutig bestimmt ist (siehe z.B. Bauer [1974, S.347]).

Stichprobendaten werden hier unter der üblichen Annahme betrachtet, daß der datenerzeugen-de Prozeß Zt t T IN∈ = eine Familie stochastisch unabhängiger und identisch verteilter Zufalls-



vektoren (Stichprobenvektoren) ist. Die Zufallsvektoren heißen genau dann stochastischunabhängig, wenn für alle n IN∈ , Tt,...,t n ∈1 und E

nA,,A B∈1

(4.14) ( ) ( )P A A P At t n t ii

n

n i1 11

,..., × × ==∏

erfüllt ist. D.h., die gemeinsamen Wahrscheinlichkeitsverteilungen n-ter Ordnung der Zufalls-vektoren Z Zt tn1

,..., sind bereits vollständig durch die Randverteilungen erster OrdnungP At ii

( ) der einzelnen Vektoren Zti bestimmt. Eine identische Verteilung der Zufallsvektoren

ist gegeben, wenn P A P At t1 2( ) ( )= für beliebige t t T1 2, ∈ und EA B∈ gilt. Ein Ausschnitt

Zt t N=1,..., mit N < ∞ des Prozesses wird als eine einfache Zufallsstichprobe (mathematischeStichprobe) vom Umfang N bezeichnet. Die Bedingungen, unter denen eine Stichprobener-hebung zu einer einfachen Zufallsstichprobe führt, diskutiert z.B. Schlittgen [1996, S.135ff].

Im Zeitreihenkontext ist die Annahme stochastisch unabhängiger Prozeßvektoren nur in Aus-nahmefällen realistisch. In der Regel wird die Vergangenheit eines Prozesses Einfluß aufseine Gegenwart und Zukunft ausüben. Ein Prozeß Zt t T IN∈ = oder Zt t T IZ∈ = wird hierdeshalb als eine zeitlich geordnete Folge abhängiger Zufallsvektoren aufgefaßt.

Fordert man, daß die Wahrscheinlichkeitsverteilungen beliebiger Ordnung des Prozessesinvariant gegenüber Verschiebungen der Zeitkoordinaten auf der Zeitachse sein sollen, soführt dies zu einem streng stationären Prozeß. Konkret gilt: Ein stochastischer Prozeß heißtstreng stationär (oder stationär im engeren Sinne), wenn für alle n IN∈ , t t Tn1 ,..., ∈ und jedesganzzahlige τ die Wahrscheinlichkeitsverteilungen n-ter Ordnung der Zufallsvektorfolgen Z Zt tn1

,..., und Z Zt tn1 + +τ τ,..., identisch sind:

(4.15) ( ) ( )P A A P A At t n t t nn n1 11 1,..., ,...,× × = × ×+ +τ τ

für beliebige EnA,,A B∈1 . Bleibt die Invarianzforderung auf alle Wahrscheinlichkeitsver-

teilungen bis zu einer vorgegebenen Ordnung n = k beschränkt, so soll hier von einem statio-nären Prozeß k-ter Ordnung gesprochen werden. Im Spezialfall k = 1 wird nur die Zeitinvari-anz der Verteilungen erster Ordnung angenommen.

Ein stationärer Prozeß erster Ordnung genügt den Forderungen an einen datenerzeugendenProzeß aus Kapitel 4.1.1, wenn - wie hier durchgängig unterstellt - alle Komponenten derVektoren Zt quadratisch integrierbar sind. Die Mittelwertvektoren und Kovarianzmatrizen derZufallsvektoren existieren und sind aufgrund der geforderten Zeitinvarianz der Verteilungenerster Ordnung selbst zeitinvariant: E constt[ ]Z ==== µµµµ Z = . und Var constt[ ]Z Z= =ΣΣΣΣ . für allet T∈ . Damit ist sichergestellt, daß der lineare (korrelative) Zusammenhang zwischen Ziel- undEingabevariablen konstant ist. Im folgenden werden von der Stationarität erster Ordnung und



von der strengen Stationarität als Annahmen Gebrauch gemacht. Die Annahme der strengenStationarität ist stark restriktiv, sie besitzt aber theoretische Vorzüge. Darüber hinaus schafftsie größere Klarheit über die Zeitinvarianzeigenschaften eines Prozesses als die Stationaritäts-annahme erster Ordnung. Dies gilt speziell dann, wenn die Vektoren Zt zeitverzögerte Varia-blen enthalten3). Angemerkt sei, daß im Zusammenhang mit 'linearen Lernmaschinen' auchdas Konzept der sogenannten schwachen Stationarität von Interesse ist. Zur Straffung derDarstellung wird hierauf nicht eingegangen. Der interessierte Leser sei auf die Literatur ver-wiesen (siehe z.B. Hannan [1970, Kapitel 1]).

Eine sinnvolle Forderung an ein Lernverfahren ist, daß sich die Güte der Lernergebnisse fort-laufend verbessern sollte, wenn die Anzahl der verfügbaren Trainingsmuster wächst. Die hierinteressierenden Lernprobleme sind spezifische statistische Schätzprobleme. In die Spracheder Statistik übersetzt bedeutet obige Forderung, daß die verwendeten Schätzfunktionen ei-nem Gesetz der großen Zahl unterliegen und zu konsistenten Schätzungen führen sollten. ImFall eines datenerzeugenden i.i.d. Prozesses ist das Wirken eines Gesetzes der großen Zahl imallgemeinen gewährleistet. Im Fall stochastisch abhängiger Zufallsvektoren sind Stationaritäts-annahmen alleine nicht ausreichend. Zusätzlich muß sichergestellt sein, daß - vereinfacht ge-sprochen - die stochastischen Abhängigkeitsbeziehungen zwischen Prozeßvektoren nicht überinfinite Zeiträume hinweg wirksam sind, da sie ansonsten einen störenden Einfluß auf dieAsymptotik der Schätzfunktionen ausüben. Das 'Gedächtnis' des Prozesses sollte (in einemsehr weiten Sinne) beschränkt sein. Diese Beschränkung führt auf sogenannte ergodischeProzesse und mischende Prozesse. Die zugrundeliegenden theoretischen Konzepte besitzenprimär den Charakter von Beweishilfsmitteln und sind sehr technisch. Da hier die Beweis-führung nicht im Vordergrund steht, ist es ausreichend, die Konzepte in Grundzügen zu skiz-zieren. Bezüglich näherer Hintergründe sei auf Doob [1953], Hannan [1970] und Rosenblatt[1978] sowie auf die weiter unten angegebene Literatur verwiesen.

Das Ergodizitätskonzept soll vereinfachend für einen skalaren stochastischen Prozeß Zt t IN∈

auf ( )P,,FΩ mit dem Zustandsraum E IR= skizziert werden. Der Prozeß sei strengstationär. Zunächst ist es notwendig, den sogenannten Verschiebungsoperator einzuführen:

3) Es sei z.B. angenommen, daß Zt t T∈ eine Familie von Zufallsvektoren Zt t t t pY Y Y= ′− −( ), ,...,1 ist, die aus

zeitverzögerten Zielvariablen aufgebaut sind. Dem multivariaten Prozeß Zt t T∈ liegt ein univariater Prozeß Yt t T∈ zugrunde. Wird ein stationärer Prozeß erster Ordnung Zt t T∈ unterstellt, dann impliziert die An-nahme stärkere Zeitinvarianzeigenschaften des Prozesses Yt t T∈ . Wird Zt t T∈ als streng stationär ange-nommen, dann ist auch Yt t T∈ streng stationär.



S bezeichne eine auf ( )P,,FΩ definierte eineindeutige Transformation S: Ω Ω→ mit den Ei-genschaften (i) F∈− AS 1 für alle F∈A und (ii) ( ) ( )P S A P A− =1 für alle F∈A 4). Die Trans-formation heißt (i) meßbar und (ii) (wahrscheinlichkeits-) maßerhaltend. Da sie als umkehrbareindeutig angenommen wird, gilt auch ( ) ( )P SA P A= . Die Transformation S sei jetzt wie folgtfestgelegt: Für jedes ω = ∈( )z z z1 2 3, , , Ω ist ′ =ω ωS z z z= ( )2 3 4, , , , ′′ = ′ω ω ωS S= =2

( )z z z3 4 5, , , , usw. Die so definierte Transformation heißt Verschiebungstransformation oderVerschiebungsoperator. Der Verschiebungsoperator erfüllt obige Annahmen (Doob [1953,S.452ff]). Mit seiner Hilfe kann eine korrespondierende Transformation von Zufallsgrößendefiniert werden. Es sei ( )Z Z1 = ω gegeben, wobei Z IR: Ω→ eine meßbare Abbildung(Zufallsvariable) ist. Dann sind Z Z S2 = ( )ω , Z Z S3

2= ( )ω , Z Z S43= ( )ω ,... ebenfalls Zu-

fallsvariablen. Da S maßerhaltend ist, gilt offensichtlich ( ) ( )P Z a P Z a1 ≤ = ≤ = | ( ) ω ω( ) ( )P Z S a P Z a | ( ) ω ω ≤ = ≤2 für beliebige reelle a. D.h., Z1 und Z2 (und auch Z3, Z4,...)

besitzen identische Wahrscheinlichkeitsverteilungen. Die Zufallsvariablen weisen noch dar-über hinausgehende Invarianzeigenschaften auf. Es läßt sich zeigen, daß Zt t IN∈ eine strengstationäre Folge ist. Auch die Umkehrung der Behauptung ist zulässig. Für jeden streng sta-tionären Prozeß Zt t IN∈ existiert eine maßerhaltende Transformation S, so daß ( )Z Z1 1= ω ,Z Z S2 1= ( )ω , Z Z S3 1

2= ( )ω ,... gilt (siehe White [1984, S.39f] und Stout [1974, S.169f]).

Zt t IN∈ sei ein gegebener streng stationärer Prozeß und S ein zugehöriger maßerhaltenderVerschiebungsoperator. Zt t IN∈ heißt genau dann ergodisch, wenn für alle Ereignispaare

F∈B,A gilt:

(4.16) ( ) ( ) ( )limN

N P A S B P A P Bt

t

N

→∞

−

=∩ = ⋅∑ 1

1 .

Zwei Ereignisse A und B heißen voneinander unabhängig, wenn ( ) ( ) ( )P A B P A P B∩ = er-füllt ist. Die Transformation S Bt kann als eine Verschiebung des Ereignisses B auf der Zeit-achse aufgefaßt werden. Da S maßerhaltend ist, gilt ( ) ( )P S B P Bt = . Obige Definition sagtsomit aus, daß für alle Ereignisse A und B die Ereignisse A und S Bt im Mittel asymptotischunabhängig sind. Ergodizität ist als eine Form 'durchschnittlicher asymptotischer Unabhän-gigkeit' von Ereignissen interpretierbar (White [1984, S.41f]). Die Definition kann problemlosauf multivariate stochastische Prozesse erweitert werden (siehe z.B. Hannan [1970, S.200ff]).

Mit ZN N =1 2, ,... soll jetzt eine Folge arithmetischer Mittelwerte Z ZN tNN t= ∑−=

11 bezeichnet

werden. Ist der zugrundeliegende (univariate oder multivariate) Prozeß Zt t IN∈ streng statio-

4) Die Transformation S ordnet jedem Element ω∈Ω gemäß ′ =ω ωS genau ein Element ′ ∈ω Ω zu. Wird S

auf Mengen angewendet, dann wird die Transformation für jedes Element der Menge ausgeführt. S−1A stehtfür die Menge ω ω∈ ∈Ω | S A .



när und ergodisch mit dem Prozeßmittel µµµµ Z Z= E t[ ] , dann wirkt auf die Folge ZN N =1 2, ,...

ein starkes Gesetz der großen Zahl (White [1984, S.42], Hannan [1970, S.201]). Die arithme-tischen Mittel konvergieren für N →∞ mit Wahrscheinlichkeit 1 (fast sicher) gegen µµµµ Z :

(4.17) PN Nlim

→∞=

=Z Zµµµµ 1 oder symbolisch Z ZN

f s . . → µµµµ

(f.s.: konvergiert fast sicher). Dieses starke Gesetz der großen Zahl ist auch als Ergodizitäts-theorem bekannt.

Eng verwandt mit den ergodischen Prozessen sind die gleichförmig mischenden und starkmischenden stochastischen Prozesse. Ihre Definition erfordert zunächst die Einführung zweierMaße für die stochastische Abhängigkeit von Ereignissen. Es seien G und H zwei σ-Algebrenund [ ]10 : ,P →F ein Wahrscheinlichkeitsmaß auf dem Wahrscheinlichkeitsraum ( )P,,FΩmit HGF ,⊃ . Weiter sei

(4.18a) ( )( )

( ) ( )HPGHPsup,GPH,G

−=φ>∈∈

0HG

HG ,

(4.18b) ( )

( ) ( ) ( )HPGPHGPsup,H,G

−∩=α∈∈

HG

HG ,

wobei ( ) ( ) ( )P H G P H G P G= ∩ für ( )P G > 0 die bedingte Wahrscheinlichkeit von H gege-ben G ist. Die Abbildungen φ und α sind Maße der stochastischen Abhängigkeit zwischen denEreignissen aus G und den Ereignissen aus H. Sie geben an, inwieweit die Wahrscheinlichkeitdes gemeinsamen Eintretens von Ereignissen aus beiden σ-Algebren von dem Produkt derWahrscheinlichkeiten des Eintretens jedes Ereignisses abweicht. Sind die Ereignisse aus Gund H unabhängig, dann und nur dann nehmen φ und α den Wert null an. φ ist ein relativesund α ein absolutes Maß der Unabhängigkeit.

Gegeben sei jetzt ein über den Wahrscheinlichkeitsraum ( )P,,FΩ definierter (univariater odermultivariater) stochastischer Prozeß Zt t IZ∈ . Ferner sei b

aF die σ-Algebra der Ereignisse, diedurch die Prozeßvektoren Za, Za+1,... , Zb erzeugt ist, und

(4.18c) ( ) ( )+∞τ+∞−φ=τφ t

t

t,sup FF ,

(4.18d) ( ) ( )+∞τ+∞−α=τα t

t

t,sup FF .

Die Abbildungen φ und α messen nun die Abhängigkeit zwischen Ereignissen, die auf derZeitachse mindestens τ Zeitperioden voneinander entfernt sind. Es gilt ( ) ( )φ τ α τ= = 0 füralle τ >0 genau dann, wenn der Prozeß eine Familie unabhängiger Zufallsvektoren ist. Strebt( )φ τ → 0 für τ → ∞ , so heißt der Prozeß gleichförmig oder φ-mischend. Strebt ( )α τ → 0



für τ → ∞ , liegt ein stark oder α-mischender Prozeß vor. Die φ-Mischung eines Prozessesimpliziert eine α-Mischung (siehe Iosifescu & Theodorescu [1969], Rosenblatt [1956]; vgl.auch White & Domowitz [1984]).

Es kann gezeigt werden, daß jeder streng stationäre φ- oder α-mischende Prozeß auch ein er-godischer Prozeß ist (Rosenblatt [1978]). Umgekehrt ist allerdings nicht jeder ergodische Pro-zeß auch mischend. In diesem Sinne erweisen sich die Mischungsbedingungen im Vergleichzur Ergodizität als strengere Restriktionen des Prozeßgedächtnisses. Andererseits ist das Er-godizitätskonzept unmittelbar mit streng stationären Prozessen verknüpft. Für die vorgestelltenMischungskonzepte gilt dies nicht. Sie ermöglichen ein starkes Gesetz der großen Zahl in derForm (4.17) unter weit schwächeren Zeitinvarianzannahmen bezüglich der probabilistischenStruktur eines Prozesses, z.B. für stationäre Prozesse erster Ordnung (White [1984, S.46f]).

Im folgenden wird unterstellt, daß Zeitreihendaten entweder durch einen ergodischen strengstationären Prozeß oder einem mischenden stationären Prozeß erster Ordnung erzeugt werden.Ergodizitäts- und Mischungseigenschaften sind im allgemeinen nicht empirisch verifizierbarund müssen als gegeben unterstellt werden. Die Stationaritätsannahmen können hingegen auf-grund von Datenbefunden geprüft werden. Empirische Mittelwerte, Varianzen und Kovarian-zen der Daten, die sich im Zeitablauf ändern, zeigen Verletzungen der Annahmen auf. In prak-tischen Anwendungen erweisen sich die Stationaritätsvoraussetzungen als stark restriktiv. Siegrenzen beispielsweise trendbehaftete Lerndaten aus. Der restriktive Charakter kann jedochdurch eine geeignete Vorverarbeitung der Daten abgeschwächt werden. Es können Methodeneingesetzt werden, die nichtstationäre Reihen in stationäre transformieren (siehe hierzu z.B.Schlittgen und Streitberg [1994, S.289ff]).

4.2 LMS-Algorithmus und Echtzeit-Lernen

Das Lernziel des LMS-Ansatzes besteht in der Schätzung des MSE-optimalen Gewichts-vektors wo aus Gleichung (4.8). In jeder Echtzeit-Lernsituation steht hierfür als Datenbasiseine einzelne, in den Zeitpunkten t = 1,2,3... beobachtbare Realisation des datenerzeugendenProzesses Zt t T∈ zur Verfügung. Die Schätzung des Gewichtsvektors erfolgt in einer rekursi-ven Form:

w w wt t t+ = +1 ∆ (t = 1,2,3,...) .

Hierbei ist wt ein im Zeitpunkt t aktuell vorliegender Schätzer für wo und ( )∆ ∆ ,w Z wt t t :=eine durch den Zufallsvektor Zt im Zeitpunkt t angeregte Änderung von wt . Das Problem



besteht darin, eine Funktion ( )∆ Z wt t, so zu finden, daß die Schätzerfolge , ,...wt t=1 2

ineinem geeigneten Sinne gegen den optimalen Gewichtsvektor wo konvergiert.

Die Idee, die Widrow & Hoff dem LMS-Algorithmus zugrunde legen, läßt sich wie folgt skiz-zieren (vgl. auch Widrow & Stearns [1985, S.99ff] oder Haykin [1994, S.121ff]): Bei Kennt-nis des Mittelwertvektors µµµµ Z und der Kovarianzmatrix ΣΣΣΣ Z der Prozeßvektoren könnte dieoptimale Lösung wo des linearen Approximationsproblems mit Hilfe der Methode des steil-sten Abstiegs auf iterativem Wege ermittelt werden, ohne daß hierbei die Inversion der Sub-matrix ΣΣΣΣ X von ΣΣΣΣ Z erforderlich wird. Es sei jetzt w1 ein vorgegebener Anfangswert, wt eineNäherung von wo im t-ten Iterationsschritt und

( ) [ ] [ ]∂∂

∂∂

M ME Y Et

t t t t tt

( )ww

ww X X X w

w w= = − + ′

=2 2~ ~ ~

der Gradient des mittleren quadratischen Fehlers (4.6) an der Stelle w w= t . In jedem Iterati-onsschritt t wird eine Korrektur der Näherung wt mit einer reellen Schrittweite c>0 in Rich-tung des negativen Gradienten vorgenommen:

(4.19)

[ ] [ ]( )[ ] [ ]( )

w www

w X X X w

w X X X w

t tt

t t t t t t

t t t t t t

cM

c E Y E

c E Y E

+ = −

= − ′ + ′

= + ′ − ′

1

2

2

∂∂( )

−−−− ~ ~ ~

~ ~ ~ (t = 1,2,3,...) .

Bei geeigneter Wahl des Anfangswertes w1 und der Schrittweite c stellt wt+1 gegenüber wteine verbesserte Näherung der Minimumstelle von (4.6) dar, und die Näherungswerte strebenmit wachsender Iterationszahl gegen wo. Die Methode des steilsten Abstiegs wird ausführ-licher in einem erweiterten Zusammenhang in Kapitel 5.4.3 erläutert.

Im Rahmen des LMS-Ansatzes wird der Iterationsindex t als Zeitindex interpretiert. Die(unbekannten) Erwartungswerte E Yt t[ ]~X und E t t[ ]~ ~X X ′ werden in jedem aktuellen Zeitpunktt durch die beobachteten Werte von Yt t

~X bzw. ~ ~X Xt t′ geschätzt. Damit erhält man aus (4.19)die LMS-Schätz- oder Adaptionsgleichung (auch Delta- oder Widrow-Hoff-Lernregel):

(4.20a) ( )( )

~ ~ ~

~ ~w w X X X w

w w X X

w w

t t t t t t t

t t t t t

t t

Y

Y

+ = + − ′

= + − ′

= +

1 η

η

∆ (t = 1,2,3,...)

mit( )∆ ~ ~w w X Xt t t t tY= − ′η



und η = >2 0c . Zu einem identischen Ergebnis gelangt man, wenn in jedem aktuellen Zeit-punkt t die quadratische Funktion

( )~M Yt t t t t( ) : w w X= = − ′ε 2 2

als Schätzer des mittleren quadratischen Fehlers (4.6) genutzt wird, wobei ~ε t t t tY= − ′w X derFehler der Approximation der Zufallsvariablen Yt durch die aktuelle Ausgabe des Netzes ist(Fehlersignal oder Residuum). Ersetzt man ∂ ∂M t( )w w in (4.19) durch

( )∂∂

ε~ ~ ~MYt

t t t t t t( )ww

w X X X= − − ′ = −2 2 ,

folgt äquivalent zu (4.20a):

(4.20b) ( )~ ~

~w w w X X

w X

t t t t t t

t t t

Y+ = + − ′

= +

1 η

ηε

(t = 1,2,3,...) .

Die zweite Zeile in (4.20b) ist die in der konnektionistischen Literatur gebräuchlichereSchreibweise der Lernregel, wobei üblicherweise an Stelle von ε t das Symbol δ t verwendetwird. Wie Hertz et al. [1991, S.104] anmerken, rührt von der Verwendung des Delta-Symbolsdie Bezeichnung Delta-Regel her.

Zur Initialisierung des Algorithmus wird w1 üblicherweise gleich dem Nullvektor gesetzt.Die positive reelle Konstante η heißt Adaptions- oder Lernrate. Sie steuert die Stabilität unddie Geschwindigkeit des Adaptionsprozesses. Aus (4.20) ist ersichtlich, daß eine ungeeigneteFestlegung von η zu einer instabilen, explodierenden Sequenz von LMS-Schätzern , ,...wt t=1 2

führen kann oder zumindest eine irgendwie geartete Konvergenz der Folge gegen den optima-len Gewichtsvektor wo verhindert. Ein Kriterium für die Wahl von η liefern Widrow & Stearn[1985, S.101f]. Sie zeigen (für stationäre Prozesse Zt t T∈ mit stochastisch unabhängigenZufallsvektoren), daß die Beschränkung

(4.21) 0 2< <ηλmax

hinreichend für eine asymptotisch erwartungstreue Schätzung ist; d.h.

(4.22) [ ]limt t oE→∞

=w w .

Hierbei ist λmax der größte Eigenwert der Kovarianzmatrix ΣΣΣΣ X . Man beachte, eine reguläre(p,p)-Kovarianzmatrix ΣΣΣΣ X ist eine symmetrische, positiv definite Matrix und besitzt daher preelle, positive Eigenwerte. Die Summe der Eigenwerte ist gleich der Spur tr( ΣΣΣΣ X ) von ΣΣΣΣ X .Die Spur tr( ΣΣΣΣ X ) wiederum ist definiert als die Summe der Hauptdiagonaleinträge von ΣΣΣΣ X und



entspricht somit gerade die Summe der Varianzen Var X E X E Xit it it[ ] [( [ ]) ]= − 2 (i = 1,...,p)der Komponenten des Zufallsvektors Xt. Es gilt:

( ) [ ]01

< < = ∑=

λmax tr Var Xiti

pΣΣΣΣ X .

Je stärker die Zufallsvariablen streuen, umso stärker wird (4.21) die Lernrate η beschränken(siehe hierzu auch Haykin [1994, S.129ff]). In der Praxis sollte daher bei der Wahl von η dieVariabilität des datenerzeugenden Prozesses Berücksichtigung finden.

Asymptotische Erwartungstreue ist eine sehr schwache Konvergenzaussage, da sie die asym-ptotische Variabilität der Schätzungen nicht berücksichtigt. Die LMS-Schätzer sollten darüberhinaus auch konsistent sein. Ein problematischer Aspekt des Ansatzes ist, daß η als eine Kon-stante angenommen wird. Eine konstante Lernrate verhindert im allgemeinen eine konsistenteSchätzung von wo - auch unter restriktiven Annahmen bezüglich der statistischen Eigenschaf-ten des stochastischen Prozesses Z t t T∈ (siehe Kuan & Hornik [1991]). Die LMS-Schätzer , ,...wt t=1 2 für wo bilden einen stochastischen Prozeß. Mit η = const. werden sich die Trajek-torien des Prozesses in aller Regel nicht stabilisieren. Hierzu ist es offensichtlich notwendig,daß η für t → ∞ mit einer geeigneten Rate gegen null strebt. In der Tat kann durch eine ge-eignete Steuerung der Lernrate Konsistenz erreicht werden (siehe Kapitel 4.4).

Ungeachtet der Problematik hat sich der LMS-Algorithmus als Lernverfahren etabliert. Erbesitzt den Vorzug, daß die erforderlichen Rechenoperationen äußerst einfacher Natur und dieSpeicheranforderungen minimal sind: Es wird keine über die Speicherung der jeweils aktuel-len Gewichte hinausgehende Datenspeicherung notwendig. Die beiden Aspekte ermöglicheneine einfache technische Umsetzung der ALC-Einheit in Abbildung 4.1.

4.3 Rekursive Kleinste-Quadrate-Schätzung

Der LMS-Algorithmus war bereits im Jahre 1960 kein grundsätzlich neues Verfahren. Zumeinen kann der Ansatz als ein Spezialfall der stochastischen Approximations- oder stochasti-schen Gradientenmethode aufgefaßt werden, deren Grundlagen Anfang der fünfziger Jahrevon Robbins & Monro [1951] entwickelt wurden. Zum anderen kann der Algorithmus als einevereinfachte Variante der rekursiven Kleinste-Quadrate-Schätzung interpretiert werden, derenUrsprünge bis zu den Arbeiten von Carl Friedrich Gauß [1823] zurückverfolgt werden können(vgl. Young [1984]). Es ist lohnend, die Beziehungen des LMS-Algorithmus zu den genanntenMethoden, beginnend mit der rekursiven Kleinste-Quadrate-Schätzung, näher zu untersuchen.

Es sei angenommen, daß für die Schätzung des MSE-optimalen Gewichtsvektors wo in einemZeitpunkt t > 1 beobachtete Werte des Ausschnitts Z Xi i iY= ′ ′( ), (i = 1,...,t) eines datener-



zeugenden stochastischen Prozesses Z t t T∈ verfügbar sind. Aus statistischer Sicht bestehteine naheliegende Problemlösung darin, den Vektor wo durch die Minimumstelle desKleinste-Quadrate-Kriteriums

(4.23) ( ) ( )Q t Yt i ii

tw w X= − ′−

=∑1 2

1

~

zu schätzen. Mit

(4.24) Y =

YY

Yt

1

2 und X

XX

X

=

′′

′

=

~~

~

1

2

11 1

12 2

1

11

1t

p

p

t pt

X XX X

X X

kann die Zielfunktion (4.23) auch gemäß

( ) ( ) ( ) ( )

( )

Q t Y t

t

t i ii

tw w X Y Xw Y Xw

Y Y w X Y w X Xw

= − ′ = − ′ −

= ′ − ′ ′ + ′ ′

−

=

−

−

∑1 2

1

1

1 2

~

geschrieben werden. Differentiation bezüglich w und Nullsetzen des Vektors der 1. Ableitun-gen liefert ein Normalgleichungssystem

(4.25) t t− −′ = ′1 1X Xw X Y ,

dessen Lösung

(4.26) ( ) ( ) ( )w X X X Y X X X YtKQ t t= ′ ′ = ′ ′− − − −1 1 1 1

der Schätzer für wo nach der Kleinste-Quadrate-(KQ)-Methode ist. Um die Existenz einereindeutigen Lösung sicherstellen zu können, sei vorausgesetzt, daß die (p+1,p+1)-Matrix ′X Xmit Wahrscheinlichkeit 1 nichtsingulär ist, oder äquivalent, daß X mit Wahrscheinlichkeit 1den Rang ( )rg pX = +1 besitzt. Dies setzt notwendig t p> beobachtete Zufallsvektoren vor-aus. Die KQ-Schätzfunktion wt

KQ soll, wenn keine Gefahr der Verwechslung mit dem LMS-Schätzer besteht, einfach wt geschrieben werden.

Der KQ-Schätzer wt basiert auf den im Zeitpunkt t beobachtbaren Zufallsvektoren Zi (i = 1,....,t). Im weiteren Zeitablauf vergrößert sich fortlaufend die zur Schätzung verfügbare Infor-mationsbasis: Die Zufallsvektoren Zt+1, Zt+2,... werden ebenfalls beobachtbar. Natürlich kannin jedem Zeitpunkt t+1, t+2,... der Vektor Y und die Matrix X um zusätzliche Komponentenerweitert und eine Schätzung gemäß (4.26) durchgeführt werden. Diese Vorgehensweise istjedoch rechenintensiv, da bei jeder Schätzung die Matrix ′X X invertiert werden muß, und



speicheraufwendig, da alle Beobachtungen der Vergangenheit gespeichert werden müssen.Beides kann durch eine rekursive KQ-Schätzung von wo vermieden werden.

Es seien folgende Vereinbarungen getroffen:

(4.27) w M Vt t t= ,

( )M X X X Xt i ii

t= ′ = ′−

=

−∑1

1

1( )~ ~ , V X Y Xt i ii

tY= ′ =

=∑ ~

1

mit ′X X , ′X Y und wt aus (4.26). Ist jetzt auch eine Beobachtung des ZufallsvektorsZ Xt t tY+ + += ′ ′1 1 1( ), gegeben, dann können Mt+

−1

1 und Vt+1 berechnet werden gemäß

(4.28) M M X Xt t t t+− −

+ += + ′11 1

1 1~ ~ , V V Xt t t tY+ + + += +1 1 1 1

~ .

Prämultiplikation von Mt+−

11 mit Mt+1 und anschließende Postmultiplikation mit Mt liefert

(4.29)

M M M M M M M X X M

M M M X X M

t t t t t t t t t t

t t t t t t

+ +−

+−

+ + +

+ + + +

= + ′ ⇔

= + ′

1 11

11

1 1 1

1 1 1 1

~ ~

~ ~

.

Die Postmultiplikation von Mt mit ~X t+1 ergibt

( )M X M X M X X M X

M X X M X

t t t t t t t t t

t t t t t

~ ~ ~ ~ ~

~ ~ ~+ + + + + + +

+ + + +

= + ′

+ ′

1 1 1 1 1 1 1

1 1 1 11= ,

woraus nach Postmultiplikation mit ( )1 1 1 11+ ′ ′+ + +

−~ ~ ~X M X X Mt t t t t folgt

( )M X X M X X M M X X Mt t t t t t t t t t t~ ~ ~ ~ ~ ~

+ + +−

+ + + ++ ′ ′ = ′1 1 11

1 1 1 11 .

Einsetzen der linken Seite in (4.29) liefert schließlich die Gleichung

(4.30) ( )M M M X X M X X Mt t t t t t t t t+ + + +−

+= − ′ + ′ ′1 1 1 11

11~ ~ ~ ~ .

In (4.30) wird die Matrix Mt+1 rekursiv aus Mt ermittelt, ohne daß eine Matrizeninversion er-forderlich wird. Man beachte, daß ( )1 1 1

1+ ′+ +−~ ~X M Xt t t ein Skalar ist. Das Ergebnis (4.30) ist

als Matrix-Inversion-Lemma bekannt (vgl. z.B. Bodewig [1956], Young [1984]). Mit (4.27)und (4.30) erhält man nun den rekursiven KQ-Schätzer für wo im Zeitpunkt t+1:

(4.31a)

( )( )( )~ ~ ~ ~ ~

w M V

M M X X M X X M V X

t t t

t t t t t t t t t t tY

+ + +

+ + +−

+ + +

=

= − ′ + ′ ′ +

1 1 1

1 1 11

1 1 11 .

Hierfür kann nach einigen Umformungen auch äquivalent



(4.31b) ( ) ( )~ ~ ~ ~w w K w X X K X M X Mt t t t t t t t t t t tY+ + + + + + + +−= + − ′ = + ′1 1 1 1 1 1 1 1

11mit

oder

(4.31c) ( )~ ~w w M w X Xt t t t t t tY+ + + + += + − ′1 1 1 1 1

geschrieben werden (siehe Young [1984, S.26f]).

Speziell die Gleichung (4.31b) erlaubt einen Vergleich des rekursiven KQ-Schätzers mit demLMS-Schätzer in (4.20). Der KQ-Ansatz macht in jedem Update-Zeitpunkt t+1 Gebrauch vondem gegenwärtig verfügbaren Zufallsvektor, der LMS-Ansatz nutzt hingegen den Vektor derVorperiode. Abweichend von ε t in (4.20) ist die Zufallsvariable e Yt t t t+ + += − ′1 1 1: ~w X in(4.31b) nicht als ein Approximationsresiduum aufzufassen, sondern et+1 ist der Fehler einerlinearen Einschritt-Prognose von Yt+1 durch Xt+1 basierend auf dem KQ-Schätzer im Zeit-punkt t. Der zweite Unterschied ist, daß die skalare Konstante η in (4.20) in (4.31b) durcheinen Zufallsvektor Kt+1 ersetzt wird, der funktional von der Gegenwart und Vergangenheitdes datenerzeugenden Prozesses abhängt; d.h. Kt+ =1: ( )K tX X+1 1,..., .

Der rekursive KQ-Algorithmus erfordert offensichtlich mehr Rechenoperationen und einengrößeren Datenspeicher als der LMS-Algorithmus. Um den Einsatz des KQ-Ansatzes - voneinem praktischen Standpunkt aus betrachtet - rechtfertigen zu können, sollte der größere Auf-wand durch günstige statistische Eigenschaften der Schätzer belohnt werden. Die asymptoti-schen Eigenschaften der KQ-Schätzer untersuchen z.B. White [1984] oder Wooldridge [1994].

Der datenerzeugende Prozeß ( ) Z Xt t tY t T= ′ ′ ∈, sei ein ergodischer streng stationärer Prozeßoder ein gleichförmig bzw. stark mischender stationärer Prozeß erster Ordnung. Um die Exi-stenz des Vektors w X X Xo t t t tE E Y≡ ′ −[ ] [ ]~ ~ ~1 sicherzustellen, ist der Prozeß weiterhin mit denin Kapitel 4.1.1 genannten Eigenschaften ausgestattet; d.h. im besonderen: E Zlt[| | ]2 < ∞ fürjede Komponente Zlt der Zufallsvektoren Zt, E t t[ ]~ ~X X ′ ist eine nichtsinguläre Matrix. Schließ-lich seien die Schreibvereinbarungen A X X: [ ]= ′E t t

~ ~ und C X: [ ]= E t to~ ε mit ε t

ot o tY:= − ′w X~

getroffen. Aus (4.9) ist bekannt, daß C ein Nullvektor ist.

Betrachtet wird jetzt eine Folge , ,...wtKQ

t p p= + +1 2 von KQ-Schätzern (4.26) bzw. (4.31) für denVektor wo. Mit X, Y aus (4.24) und εεεε o o:= −Y Xw können die KQ-Schätzer auch

( ) ( ) ( ) [ ]( )( ) ( )

w X X X Y X X X Xw

w X X X

t o o

o o

KQ t t t t

t t

= ′ ′ = ′ ′ +

= + ′ ′

− − − − − −

− − −

1 1 1 1 1 1

1 1 1

εεεε

εεεε

geschrieben werden. Hierbei ist t t i iit− −=′ = ′∑1 1

1X X X X~ ~ und t o− ′ =1X εεεε t i i

oit−=∑1

1~X ε . Ist der

datenerzeugende Prozeß voraussetzungsgemäß streng stationär und ergodisch (bzw. stationärerster Ordnung und mischend), dann sind auch die Folgen ~ ~

, ,...X Xi i i′ =1 2 und ~, ,...Xi i

oiε =1 2



streng stationär und ergodisch (bzw. stationär erster Ordnung und mischend). Es gilt fernerE t t E i ii

t[ ] [ ]− −=′ = ′∑ =1 1

1X X X X A~ ~ und E t o[ ]− ′ =1X εεεε t E i i

oit−=∑ =1

1 [ ]~X Cε . Die arithmetischenMittelwerte der Folgen unterliegen jeweils einem starken Gesetz der großen Zahl

t f s− ′ →1X X A . . , t of s− ′ →1X Cεεεε . . ,

und es folgt

( ) ( )t t of s− − − − −′ ′ → = =1 1 1 1 1X X X A C Aεεεε . . 0 0

bzw.

(4.32) . .w wtf s

oKQ → .

Die KQ-Schätzerfolge konvergiert für t → ∞ fast sicher (mit Wahrscheinlichkeit 1) gegenden MSE-optimalen Gewichtsvektor wo. Man sagt, der KQ-Schätzer ist ein stark konsistenterSchätzer für wo. Einen formalen Beweis liefert White [1984, S.42, 47f].

Unter Gültigkeit milder Regularitätsbedingungen läßt sich ferner eine asymptotische Normal-verteilung der KQ-Schätzer beweisen (siehe White [1984, S.119,125], Wooldridge [1994,S.2655]). Die Verteilungsfunktionen der Zufallsvektoren ( )t t o

KQt p p, ,...w w− = + +1 2 konver-

gieren für t → ∞ gegen die Verteilungsfunktion der multivariaten Normalverteilung mit demMittelwertvektor 0 und der Kovarianzmatrix ΣΣΣΣ KQ ; symbolisch geschrieben:

(4.33) ( )t Nt oi VKQ KQ( ) ,. .w w− → 0 ΣΣΣΣ

(i.V.: konvergiert in Verteilung). Hierbei ist ΣΣΣΣ KQo= − −A B w A1 1( ) , A X X X X= ′ = ′−E t E i i[ ] [ ]1 ~ ~

( )i T∈ und B w X X( ) [ ]o t o oE t= ′ ′→∞−lim 1 εεεε εεεε . Die KQ-Schätzer wt

KQ sind somit asymptotischmultivariat normalverteilt mit dem Mittelwertvektor wo und der Kovarianzmatrix t KQ−1ΣΣΣΣ .

Diese Ergebnisse sind ausschließlich asymptotischer Natur. Es sei angemerkt, daß unter geeig-neten Annahmen schon bei Vorliegen einer Datenbasis von finitem Umfang Güteeigenschaftender KQ-Schätzer konstatiert werden können. Eine übliche Annahme ist beispielsweise, daßdie lineare Beziehung Y Xw= +o oεεεε mit (i) [ ]E oεεεε X = 0 und (ii) ( )( )P rg pX = + =1 1 ge-geben ist. Es kann nun leicht gezeigt werden, daß E t o

KQ[ ]w w= nicht nur asymptotisch,sondern bereits für jedes t > p erfüllt ist (siehe z.B. Frohn [1995, S.142f]). Die Annahme (i) istallerdings in dem hier betrachteten Kontext unrealistisch. Aus [ ]E oεεεε X = 0 folgt sofort

[ ] [ ] [ ] [ ]E E E Eo o o o oY X Xw X Xw X X Xw= + = + =εεεε εεεε .

D.h., der bedingte Erwartungswert von Y für gegebenes X ist eine lineare Funktion. Hier wirdjedoch kein linearer Zusammenhang zwischen den Zielvariablen Yt und den Eingabevariablen



Xt unterstellt, sondern lediglich eine lineare Approximation des tatsächlichen (im allgemeinennichtlinearen) Zusammenhangs durch eine einfache Lernmaschine angestrebt.

4.4 Stochastische Approximation

Die stochastische Approximation, auch stochastische Gradientenmethode genannt, ist ein viel-seitig einsetzbares Verfahren zur Lösung von Optimierungsproblemen, die durch 'verrauschteDaten' charakterisiert sind. In ihrer Pionierarbeit zu diesem Gebiet beschäftigten sich Robbins& Monro [1951] mit dem Problem der Bestimmung von Nullstellen verrauschter Funktioneneiner unabhängigen Variablen. In nachfolgenden Arbeiten anderer Autoren wurde der Einsatz-bereich sukzessiv erweitert. Beispielsweise setzten Kiefer & Wolfowitz [1952] die stochasti-sche Approximation als ein Verfahren zur Extremwertbestimmung von Funktionen ein. Blum[1954] erweiterte den Ansatz auf den mehrdimensionalen Fall. Die Ausführungen an dieserStelle folgen Tsypkin [1971].

Gegeben sei ein r-dimensionaler Zufallsvektor Z mit der Verteilungsfunktion ( ) ( )F PZ z Z z= ≤ ,z ∈ IRr , und ein Koeffizientenvektor w ∈ IRq . Ferner sei m IR IR IRr q

: × → eine Borel-meß-bare Funktion und

(4.35) ( ) ( )[ ] ( ) ( )J E m m dFIRrw Z w z w z= = ∫, ,

der Erwartungswert von ( )m Z w, bezüglich der Wahrscheinlichkeitsverteilung von Z. J wirdals eine Funktion von w aufgefaßt. Das Problem besteht in der Bestimmung einer Extremstelle(Minimum- oder Maximumstelle) der Funktion. Notwendige Bedingung für die Existenz einesExtremums ist, daß der Vektor der partiellen Ableitungen von J bezüglich w verschwindet:

(4.36)( ) ( )∂

∂∂

∂J

Emw

wZ ww=

=

,0 .

In (4.36) wird die Permutierbarkeit der Reihenfolge von Differentiation und Integration ange-nommen. Vereinfachend sei ferner eine eindeutige Lösung der Gleichung unterstellt. Die Lö-sung (stationärer Punkt) wird mit wo notiert.

Wäre die Verteilungsfunktion FZ bekannt, dann könnte das Extremierungsproblem analytischgelöst werden. Hier ist FZ jedoch unbekannt. Gegeben sind lediglich beobachtete Realisatio-nen von Z. Es sei Zt (t = 1,2,...) eine Folge von Zufallsvektoren, die stochastisch unabhängigund alle identisch wie Z verteilt sind. Zt repräsentiert die t-te potentielle Beobachtung von Z.Die Grundidee der stochastischen Approximation besteht jetzt darin, den stationären Punkt wovon (4.36) durch eine Rekursion der Form



(4.37)( ),

w wZ w

wt t tt tSA SA

SAm+ = + ⋅1 η

∂∂ (t = 1,2,3,...)

zu schätzen, wobei ηt t=1 2, ,... eine Folge von Lernraten ist. Der Anfangswert w1SA kann belie-

big vorgegeben werden. Ist der stationäre Punkt eine Extremstelle von (4.35), dann führt dasVorgehen auf eine Lösung des Extremierungsproblems.

Um eine konsistente Schätzung von wo gewährleisten zu können, ist es notwendig, die Lern-ratensequenz ηt t=1 2, ,... Restriktionen zu unterwerfen. Tsypkin [1971] zeigt, daß (in Verbundmit milden technischen Regularitätsbedingungen) die Restriktionen

(4.38) ηt > 0 , ηtt=

∞

∑ = ∞1

, ηtt

2

1=

∞

∑ < ∞

notwendig und hinreichend für die starke Konsistenz

(4.39) . .w wtf s

oSA →

der Schätzerfolge , ,...wtSA

t=1 2 sind. Die Bedingungen (4.38) sind für Lernraten η κt t∝ − mit

0 1< ≤κ erfüllt, wobei üblicherweise κ = 1 gewählt wird.

Der LMS-Algorithmus ist offensichtlich eng mit der stochastischen Approximationsmethodeverwandt. Setzt man

( ) ( )m Yt t t tZ w w X, ~ := = − ′ε2 2 mit Z Xt t tY= ′ ′( ), , ~ ,X Xt t= ′ ′( )1 ,

dann ist ( ) [ ] ( )J E m Mtw Z w w= =( ), die MSE-Funktion aus (4.6). Mit η ηt const= = . folgtals Spezialfall von (4.37) die Delta-Regel (4.20). In Kapitel 4.2 wurde erläutert, daß die Delta-Regel mit konstanter Lernrate eine konsistente Schätzung der Minimumstelle wo von M(w)verfehlt. Das Ergebnis von Tsypkin bietet eine Lösung der Problematik an. Die Verwendungeiner variablen Rate η κ

t t∝ − führt auf eine stark konsistente LMS-Schätzerfolge , ,...wt t=1 2

mit ~w w Xt t t t t+ = +1 η ε für wo.

Weitergehende Analysen liefert White [1989a]. Bei Verwendung variabler Lernraten weist erdie asymptotische Normalverteilung der LMS-Schätzer nach; d.h.

(4.40) ( ) ( )t Nt oi V LMS,. .w w− → 0 ΣΣΣΣ .

Ein zentrales Ergebnis von White ist, daß die LMS-Schätzer im Vergleich zu den KQ-Schät-zern wt

KQ in (4.26), (4.31) asymptotisch ineffizient sind. Die Differenzmatrix ΣΣΣΣ ΣΣΣΣLMS KQ− mitΣΣΣΣ KQ aus (4.33) ist eine positiv semidefinite Matrix. Daraus folgt, daß die asymptotischen Va-rianzen der LMS-Schätzer größer oder höchstens gleich den Varianzen der KQ-Schätzer sind.



Die Einfachheit des LMS-Algorithmus fordert den Preis einer größeren asymptotischenVariabilität der Schätzungen.

Diese Ergebnisse beziehen sich auf Folgen von stochastisch unabhängigen und identisch ver-teilten Zufallsvektoren Zt. Die zentralen Aussagen bleiben unter allgemeinen Voraussetzungenauch im allgemeinen Fall stochastisch abhängiger Zufallsvektoren gültig. Die Voraussetzun-gen für die Konsistenz und asymptotische Normalverteilung der LMS-Schätzer diskutierenKuan & White [1989, 1994]5).

4.5 LMS-Algorithmus und zyklisches Lernen

In den bisherigen Ausführungen zum LMS-Algorithmus vollzog sich der (theoretisch unbe-grenzt lange währende) Lernprozeß in einer Echtzeit-Umgebung: Sobald Signale des Um-systems in das einfache lineare Netz eingingen, wurden sie zur Schätzung des MSE-optimalenGewichtsvektors wo in (4.8) genutzt. Eine Speicherung der Daten wurde nicht vorgenommen.Dieses Szenarium unterscheidet sich von der Lernsituation, die üblicherweise in der konnek-tionistischen Literatur diskutiert wird. Zumeist wird eine endliche Daten- oder Trainings-menge als vorgegeben betrachtet. Die Trainingsmenge wird durch eine Instanz der Netzum-welt gespeichert, und ihre Elemente, die Trainingsmuster, werden von dieser Instanz demNetz in einer zyklischen Form immer wieder präsentiert. Mittels der Delta-Lernregel erfolgtdie Adjustierung der Netzgewichte. Aufgrund der vorstehenden Ausführungen ist es klar, daßdie zyklische Präsentation der Daten der Effizienzverbesserung der Schätzungen dienen soll.In der Tat führt die Vorgehensweise (zumindest approximativ) zu einer KQ-Schätzung desVektors wo. Der LMS-Algorithmus wird nicht mehr als ein rekursives Schätzverfahren imengeren Sinne verwendet, sondern ist lediglich eine rekursive Methode zur Ermittlung vonKQ-Schätzungen.

Um möglichen Mißverständnissen vorzubeugen, werden im folgenden Realisationen von Zu-fallsvektoren und nicht mehr die Zufallsvektoren selbst betrachtet. Zur Adjustierung der Netz-gewichte seien N p> beobachtete Werte z xt t ty= ′ ′( ), ( )t N=1,..., eines Ausschnitts desdatenerzeugenden Prozesses Zt t T∈ vorgegeben. Hierbei kann es sich um Zeitreihen- oderQuerschnittsdaten handeln. Gesucht ist ein Gewichtsvektor wN

KQ , der die Zielfunktion

5) White [1989a] und Kuan & White [1989, 1994] untersuchen nicht explizit LMS-Schätzer, sondern Back-

propagation-Schätzer. Die Backpropagation-Schätzer enthalten allerdings die LMS-Schätzers als Spezialfall(vgl. Kapitel 5).



(4.41) ( ) ( ) ( )Q y qN t tt

N

tt

Nw w x z w= − ′ =

= =∑ ∑1

22

1 1

~ , mit ( ) ( )q yt t tz w w x, ~= − ′12

2

minimiert. ( )QN w ist das übliche (realisierte) KQ-Kriterium (4.23), multipliziert mit demkonstanten Faktor N/2, und wN

KQ ist der auf den gegebenen Daten basierende KQ-Schätzwertfür wo. Ersetzt man zt durch Zt, dann kennzeichnet dasselbe Symbol wN

KQ den KQ-Schätzer.

Die Minimumstelle kann durch Lösen eines Normalgleichungssystems der Form (4.25) be-stimmt werden. Hier wird eine Bestimmung in einer rekursiven Art und Weise angestrebt.Durch wiederholtes Aneinanderketten der Daten wird eine Trainingssequenz zl l=1 2, ,... ge-bildet; d.h., es gilt z zl t= für l t i N= + ⋅ mit t = 1,...,N und i = 1,2,... . Eine Wiederholungder N Daten innerhalb der Sequenz bezeichnet man als eine Trainingsepoche. Die Adjustie-rung der Gewichte erfolgt durch den Einsatz der Delta-Lernregel gemäß

(4.42) ( )w w w x x w xl l l l l l l l ly+ = + − ′ = +1 η ηε~ ~ ~ (l = 1,2,3,...) .

Es kann leicht gezeigt werden, daß bei einer geeigneten Steuerung der Lernrate η die Ge-wichtsvektorenfolge wl l=1 2, ,... gegen die Minimumstelle der KQ-Zielfunktion (4.41) strebt.

Die Minimumstelle wNKQ läßt sich mit Hilfe der Methode des steilsten Abstiegs auf iterativem

Wege ermitteln:

(4.43)

( )

w ww

ww

z ww

w w x x

k kk

kt k

N

k t k t tt

N

Q q

t

y

N+

=

= − ⋅ = − ⋅=

= + ⋅ − ′

∑

∑

1

1

1η

∂∂

η∂

∂

η

( ) ( ),

~ ~ (k = 1,2,3,...) ,

wobei k ein Iterationsindex ist. Bei einer geeigneten Wahl des Anfangswertes w1 und derSchrittweite η > 0 konvergiert die Folge wk k=1 2, ,... nach endlichen vielen Iterationsschrittengegen die KQ-Schätzwert wN

KQ . Wesentlicher Unterschied zwischen (4.43) und (4.42) ist, daßin (4.43) schrittweise Gewichtsänderungen ∆w w wk kQN∝−∂ ∂( ) vorgenommen werden, dieauf einer Trainingsepoche basieren, während in (4.42) jedes Glied zl der Trainingssequenzunmittelbar eine Gewichtskorrektur ∆w z w w w x xl l l l l l lq y∝ − = − ′∂ ∂( ) ( ), ~ ~ auslöst. DieVektoren ∂ ∂q l l( )z w w, seien über eine Epoche gemäß

∂∂

q

lM l M l

N ( )z ww

+ +

=∑ ,

1

aufsummiert, wobei M ein beliebiges ganzzahliges Vielfaches von N ist. Die Summe ist keinGradient der KQ-Funktion ( )QN w , da die Vektoren wl ( )l M M N= + +1,..., nicht fest sind.Wird ein sehr keines η vorgegeben, sind die Vektoren jedoch approximativ identisch und



obige Summe weicht nur geringfügig von einem 'echten' Gradienten ab. D.h. auch, daß dieGesamtgewichtskorrektur, die sich nach einer Epoche ergibt, näherungsweise proportional zueinem Gradienten ist. Wird eine hinreichend kleine Lernrate gewählt, führt somit die Delta-Regel zu einem approximativen Gradientenabstieg in ( )QN w .

In der konnektionistischen Literatur wird üblicherweise die Wahl einer Lernrate 0 1< <<ηempfohlen (siehe z.B. Nauck et al. [1996, S.64f]).). Angemerkt sei, daß die Nutzung einerkonstanten Rate auch beim zyklischen Lernen ein Problem darstellt. Eine geeignete Konstanteermöglicht zwar zunächst einen approximativen Gradientenabstieg, sie kann aber i.d.R. nichtverhindern, daß die Glieder der Folge wl l=1 2, ,... in der Umgebung der Minimumstelle wN

KQ

oszillieren. Um eine Konvergenz gegen den KQ-Schätzwert für wo gewährleisten zu können,ist es erforderlich, die Lernrate η nach Erreichen einer Umgebung von wN

KQ geeignet gegennull abzusenken. Weitere pragmatische Problemlösungsansätze sind die Verwendung einesMomentum-Terms und das Batching. Beide Ansätze werden in einem erweiterten Zusammen-hang in Kapitel 5.4 vorgestellt.

Konvergenz bedeutet hier natürlich nicht Konsistenz der Gewichtsschätzung, da der Datenum-fang N fest vorgegeben ist. Läßt man aber einen wachsenden Datenumfang N zu, dann besitzendie KQ-Schätzer wN

KQ unter geeigneten Voraussetzungen die asymptotischen Güteeigenschaf-ten (4.32) und (4.33). Die 'zyklischen LMS-Schätzer' teilen mit den KQ-Schätzern dieseGüteeigenschaften - zumindest approximativ. Im Fall von Zeitreihendaten schlossen die Vor-aussetzungen einen ergodischen oder mischenden stationären datenerzeugenden Prozeß ein.Im Fall von Querschnittsdaten soll ein i.i.d. Prozeß unterstellt werden. Es ist leicht verifizier-bar, daß ein i.i.d. Prozeß streng stationär und ergodisch ist. Somit muß diese Datensituationnicht gesondert untersucht werden.

Verglichen mit Lösungsalgorithmen für KQ-Minimierungsprobleme, die sich in der statisti-schen Praxis etabliert haben (z.B. die Lösung von KQ-Problemen via orthogonale Transfor-mationen, siehe Thisted [1988, S.68ff]), erscheint der zyklische LMS-Algorithmus als ein imSinne der erforderlichen Rechenzeit ineffizientes Verfahren. Da die Lernrate im Bereich0 1< <<η gewählt werden sollte, wird in aller Regel die Abarbeitung einer sehr großen An-zahl von Trainingsepochen notwendig. Diese Kritik ist immer dann schwerwiegend, wennALC-Einheiten auf herkömmlichen Rechnern simuliert werden. Der LMS-Algorithmus solltehier durch elaboriertere Verfahren ersetzt werden. Der LMS-Algorithmus ist jedoch nichtkonzipiert, um auf herkömmlichen Computern implementiert zu werden, sondern um denAdaptionsprozeß von technisch realisierten ALC-Einheiten zu steuern, die aus einfachen phy-sikalischen Komponenten aufgebaut sind. In diesem Sinne leistet der Ansatz brauchbareDienste.



4.6 Lineare Multi-Output-Netzwerke

Der LMS-Algorithmus gestattet es einer ALC-Einheit, multiple lineare Regressionsproblemeauf adaptive Art und Weise zu lösen. Koppelt man mehrere parallel arbeitende Einheiten zueiner komplexeren Lernmaschine, dann erhält man ein Multi-Output-Netzwerk, das auch ge-eignet ist, multivariate lineare Regressionsprobleme zu bearbeiten.

Eine solche Lernmaschine zeigt schematisch die Abbildung 4.2. Das Künstliche NeuronaleNetz ist mit p Eingabeeinheiten (Sensoren), einer Biaseinheit und q ALC-Einheiten ausge-stattet. Die Eingabeeinheiten sind in einer Eingabeschicht und die ALC in einer Ausgabe-schicht parallel angeordnet. Die Sensoren empfangen von dem Netzumsystem wieder reell-wertige Signale xi (i = 1,...,p), die zusammen mit dem Bias-Einheitssignal x0 1≡ über (p+1)⋅q gewichtete Verbindungen an alle q ALC-Einheiten weitergeleitet werden. Jeder ALC be-rechnet eine gewogene Summe oj der Eingangssignale. Die Summen oj (j = 1,...,q) werden alsAusgangssignale des Netzes zurück an das Umsystem gesandt. Ferner empfängt jeder ALCeine für ihn spezifische Zielausgabe yj (j = 1,...,q). Vereinfachend sind diese Signaleingängein Abbildung 4.2 nicht dargestellt. Die Eingangs- und Zielsignale können vom Netz in Echt-zeit empfangen oder dem Netz zyklisch in einer Trainingssequenz präsentiert werden.

Die Ausgabefunktion (4.5) einer einzelnen ALC-Einheit wurde als ein linearer Approximatoroder Prediktor einer zufälligen skalaren Zielvariablen Yt durch einen zufälligen EingabevektorXt motiviert. In dem hier interessierenden Kontext ist der datenerzeugende stochastische

x

x

gerichtete, gewichtete

Ausgabeschicht mit

o

o

1

= 4 = 3 ALC-Einheitenp q

x2

3

2

1

Verbindungen

o

Sensoren

x

3

4

1

Eingabeschicht mit

Biaseinheit

Abb. 4.2: Lineares neuronales Netz mit mehreren (drei) parallel geschalteten ALC-Einheiten



Prozeß Zt t T∈ eine Familie von (q+p)-dimensionalen Zufallsvektoren Z Y Xt t t= ′ ′ ′( ), mitYt t qtY Y= ( , )1 , ′ und Xt t ptX X= ( , )1 , ′ , wobei Yt ein Vektor von Zielvariablen ist. DieAusgabefunktion eines Multi-Output-Netzwerkes wird jetzt als ein linearer Approximator desZufallsvektors Yt aufgefaßt. Die Netzausgaben lassen sich wie folgt schreiben:

(4.44a) ( )O fjt j t j t j= = ′X w X w, ~ (j = 1,...,q)

oder kompakt

(4.44b) ( ) ( )O X w X wt t q tf I= = ⊗ ′, ~ ,

wobei ( )f j ⋅ ⋅, die Ausgabefunktion der j-ten ALC-Einheit und ( )f ⋅ ⋅, die vektorwertige Aus-gabefunktion des gesamten Netzes ist. Ferner gilt ~ ,X Xt t= ′ ′(1 ) , w j j j pjw w w= ′( )0 1, ,..., ,w w w= ′ ′ ′( )1 ,..., q und Ot t qtO O= ′( )1 ,..., . Iq kennzeichnet die (q,q)-Einheitsmatrix und ⊗das Kronecker-Produkt. Alternativ kann die Netzausgabefunktion (4.44b) auch gemäß

(4.44c) ( )O X W WXt t tf= =, ~

notiert werden, wobei W eine (q , p+1)-Gewichtsmatrix ist mit

W

ww

w

=

′′

′

1

2

q

.

Die Betrachtungen aus den Vorkapiteln können problemlos auf Multi-Output-Netze über-tragen werden. Das Lernziel besteht in der Schätzung eines (p+1)⋅q-dimensionalen Gewichts-vektors wo, der den mittleren quadratischen Fehler

(4.45) ( ) ( )[ ] ( )( )M E f E Y ft t jt j t jj

qw Y X w X w= − = −

=

∑, ,2 2

1

der Approximation des Zielvektors Yt durch die Netzausgabefunktion ( )f tX w, minimiert.Das Symbol kennzeichnet die euklidische Vektornorm. Existiert eine eindeutig bestimmteMinimumstelle wo von M(w), dann ist ( )f t oX w, die beste lineare Approximation von Ytdurch Xt im Sinne des MSE-Kriteriums oder die multivariate lineare Regressionsfunktion vonYt bezüglich Xt. Es sei w w wo o qo≡ ′ ′ ′( )1 ,..., . Aus (4.45) und (4.7) folgt sofort w jo =E E Yt t t tj[ ] [ ]~ ~ ~X X X′ −1 (j = 1,...,q) unter der Bedingung einer nichtsingulären Matrix E t t[ ]~ ~X X ′ .

Da jede ALC-Einheit über ihren eigenen, durch die Delta-Lernregel gesteuerten Adap-tionsmechanismus verfügt, ist auch jede Einheit in der Lage, die Gewichte wj ihrer Eingangs-leitungen selbsttätig zu adjustieren. Man spricht in diesem Zusammenhang auch von einem



lokalen Lernprozeß und einer lokalen Lernregel. Liegt beispielsweise ein zyklisches Lern-problem vor, erhält man aus (4.42) die Delta-Lernregel für die j-te Einheit

(4.46) ( )w w w x xj l jl jl jl l ly,~ ~

+ = + − ′1 η (j = 1,...,q ; l = 1,2,3,...) ,

wobei z y xl l l l ql l ply y x x= ′ ′ ′ = ′( ) ( ), ,..., , ,....,1 1 wieder das l-te Glied einer aus N beobachte-ten Trainingsmustern z y xt t t= ′ ′ ′( ), ( )t N=1,..., gebildeten Trainingssequenz zl l=1 2, ,... ist.Der Lernprozeß führt bei eine geeigneten Wahl der Lernrate η zur Minimierung der Fehler-quadratsumme

(4.47) ( ) ( ) ( )( )Q f y fN t tt

N

jt j t jj

q

t

Nw y x w x w= − = −

= ==∑ ∑∑1

22

1

12

2

11, , .

Die für den multiplen Regressionsfall diskutierten asymptotischen Eigenschaften der rekursi-ven und zyklischen LMS-Schätzer können unter den genannten Voraussetzungen direkt aufden multivariaten Fall übertragen werden.

4.7 Das ADALINE

In der konnektionistischen Literatur ist es unüblich, von Regressionsproblemen zu sprechen.Man spricht stattdessen von heteroassoziativen Lernproblemen: Das Künstliche NeuronaleNetz soll anhand von Trainingsbeispielen lernen, Eingabevektoren Xt mit Zielvektoren Yt zuassoziieren, wobei Xt und Yt jeweils verschiedene Objekte oder Zustände der Netzumgebungrepräsentieren. Ein Spezialfall der Heteroassoziation ist die Musterklassifikation oder -diskri-mination. In diesem Fall ist Yt ein Indikatorvektor mit dichotomen Komponenten, der dieKlassenzugehörigkeit eines Eingabevektors Xt indiziert.

Im ursprünglichen Ansatz von Widrow & Hoff [1960] stand die Diskrimination optischerMuster im Vordergrund. Ihre Lernmaschine, das Adaptive Lineare Neuron (ADALINE), istals eine adaptive binäre (bipolare) Schwellenwerteinheit konzipiert, die eine Eingabe durch ihrAusgangssignal einer von zwei möglichen Klassen zuordnet. Das ADALINE (vgl. Abb. 4.3)besteht aus mehreren Sensoren, einem Adaptiven Linearen Kombinierer und einem Quantifi-zierer, der entsprechend einer Signumfunktion

(4.48) ( )sgn uu

u=

+ ≥

− <

1 0

1 0

, falls

, falls

die Ausgaben des Kombinierers in die Menge −1 , +1 abbildet. D.h., das Neuron antwortetauf Eingabemuster mit bipolaren Ausgaben. Die Eingaben und Zielausgaben sind ebenfalls



bipolar. Erstere werden über optische Sensoren (Photozellen), die zu einem lichtempfind-lichen Gitter (Retina) angeordnet sind, eingespeist. Letztere indizieren die Klassenzugehörig-keit eines optischen Eingabemusters. Hinsichtlich des Input-Output-Verhaltens entspricht dieEinheit weitgehend einem McCulloch-Pitts-Neuron. Es gilt:

(4.49) ( )f w w xi ii

px w, sgn= +

=∑0

1 .

Die Signumfunktion (4.48) ist die Aktivierungsfunktion des Neurons. Sie ersetzt die Heavi-side-Aktivierungsfunktion im McCulloch-Pitts-Neuron. Das Biasgewicht w0 übernimmt dieFunktion eines Schwellenwertes.

Musterklassifikationsprobleme sind typischerweise mit zyklischem Lernen verbunden. DerLernmaschine werden N Trainingsmuster solange zyklisch präsentiert, bis keine Verbesserungder Lernergebnisse mehr erreicht werden kann. Für die Adjustierung der Gewichte einesADALINE-Neurons ist seine ALC-Komponente verantwortlich. Durch den Einsatz der Delta-Regel wird die Minimierung der Fehlerquadratsumme (4.41) angestrebt. Der Lernerfolg (bzw.Mißerfolg) wird somit durch die quadratischen Abweichungen zwischen den Zielausgabenund den Ausgaben des Kombinierers - und nicht durch die quadratischen Abweichungen zwi-schen den Zielausgaben und den tatsächlichen Ausgaben des Neurons - gemessen. JedeNichtübereinstimmung einer Zielausgabe und der korrespondierenden ALC-Ausgabe führt zueiner Korrektur der Gewichte. Diese Vorgehensweise ermöglicht es dem ADALINE, auchdann zu lernen, wenn seine tatsächliche Ausgabe richtig ist. Widrow & Hoff [1960] rechtferti-gen die Vorgehensweise durch das Argument, die Minimierung der Quadratsumme der ALC-

x

.....

w

w

wp p

1

0

Σ

ΣAdaptions-algorithmus

-o

y - oy

o

Ausgangssignal

Zielausgabe

signaleEingangs-

x1

Quantifizierer

sgn (o ). ...

Adaptiver Linearer Kombinierer

1

Abb. 4.3: Adaptives Lineares Neuron (ADALINE)



Fehler führe auch zur Minimierung der Quadratsumme der ADALINE-Fehler. Letzteres istäquivalent mit der Minimierung der durchschnittlichen Anzahl von ADALINE-Fehlern, da dieDifferenzen von (bipolaren) Zielausgaben und (bipolaren) Ausgaben des Neurons stets -2, 0oder +2 betragen.

Zwischen dem ADALINE-Ansatz und dem Perzeptron-Modell von Rosenblatt [1958, 1960]existieren offensichtliche Berührungspunkte. Sowohl ADALINE-Neurone als auch die Re-sponse-Einheiten in Perzeptronen wirken wie lineare Diskriminanzfunktionen. Beide Ansätzesind ihrem Wesen nach lineare Diskriminationsverfahren. Auch die Lernverfahren weisenÜbereinstimmungen auf: Die Delta-Regel und die Perzeptron-Regel (3.11) sind beide inkre-mentelle fehlerkorrigierende Lernregeln mit vergleichbarem Aufbau. Da die Perzeptron-Regeleine Gewichtskorrektur nur dann bewirkt, wenn eine falsche Ausgabe erfolgt, die Delta-Regelein Lernen jedoch auch ermöglicht, wenn die Ausgabe des Neurons richtig ist, führt die Delta-Regel im allgemeinen zu einer deutlich Beschleunigung des Lernprozesses. Ferner konver-giert der Perzeptron-Lernalgorithmus dann und nur dann, wenn eine linear trennbare Trai-ningsmenge vorliegt. Ansonsten liefert Perzeptron-Lernen kein eindeutiges Ergebnis. Ein ver-gleichbares Konvergenzproblem entsteht bei Anwendung des LMS-Algorithmus nicht. In derLiteratur wird der LMS-Algorithmus deshalb des öfteren als eine Weiterentwicklung des Per-zeptron-Lernalgorithmus bezeichnet (siehe z.B. Lippmann [1987] oder Nauck et al. [1996,S.15]). Diese Sichtweise vernachlässigt allerdings die völlig unterschiedlichen Grundlagenbeider Verfahren.

Aufgrund der Linearität des Diskriminationsansatzes kann das ADALINE Lernprobleme na-türlich nur dann fehlerfrei lösen, wenn die zu diskriminierenden Muster linear trennbar sind.So ist es beispielsweise nicht in der Lage, das Antivalenz-Problem aus Kapitel 3.4 zu bear-beiten. Historisch interessant ist, daß Widrow auch ein mehrschichtiges Netzwerk, das soge-nannte MADALINE (many adalines), zur Überwindung der Problematik vorschlug (sieheWidrow & Winter [1988], Winter & Widrow [1988]). Das MADALINE verfügt jedoch nurüber eine trainierbare Neuronenschicht, die verbleibenden synaptischen Verbindungen imNetz sind fest. Es weist somit im wesentlichen die gleichen Limitationen auf wie das klassi-sche Perzeptron.


65

5 BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE

In diesem Abschnitt wird das in den vorangehenden Kapiteln noch offen gebliebene Problem

der Gewichtsadjustierung in Mehrschicht-Netzen weiter verfolgt. Eine Lösung dieses Problems

popularisierten im Jahr 1986 D.E. Rumelhart, G.E. Hinton und R.J. Williams (Rumelhart et

al. [1986a,b]). Sie ersetzten die binären Schwellenwerteinheiten des klassischen Perzeptron-

Modells durch Neurone mit glatter (differenzierbarer) Input-Output-Charakteristik und ent-

wickelten eine verallgemeinerte Version des LMS-Algorithmus, die geeignet ist, alle Verbin-

dungsgewichte in Netzen mit mehreren Neuronenschichten zu trainieren. Den Lernalgorith-

mus bezeichneten sie als Error-Backpropagation oder kurz Backpropagation. Es entstand

eine 'moderne' und sehr flexibel einsetzbare Version des klassischen Perzeptrons, die in der

Literatur zumeist einfach Mehrschicht-Perzeptron (multilayer perceptron, MLP) genannt

wird. Rasch nachfolgende erfolgreiche Anwendungen, wie das in Kapitel 1 erwähnte NETtalk-

Projekt, führten zu einem erheblichen Aufschwung der konnektionistischen Forschung. Back-

propagation ist heute das mit Abstand am häufigsten eingesetzte Lernverfahren für Künstliche

Neuronale Netze. Varianten des Algorithmus erlauben auch das Training anderer Netzwerk-

typen als die hier im Vordergrund stehenden Mehrschicht-Perzeptrone (siehe z.B. Hertz et al.

[1991, S.172ff]). Angemerkt sei, daß die Ideen von Rumelhart et al. nicht neu waren. Das

Lernverfahren wurde zuvor mehrmals unabhängig voneinander von Bryson & Ho [1969],

Werbos [1974] und Parker [1982] entwickelt. Ein eng verwandtes Lernverfahren schlug Le

Cun [1985] vor (vgl. Hertz et al. [1991, S.115]).

Interessant ist, daß Rumelhart et al. Backpropagation zwar explizit als eine Generalisierung

des LMS-Algorithmus entwickelten, der statistische Bezug in ihren Arbeiten aber zugunsten

biologischer und psychologischer Schwerpunkte verloren geht. Die statistischen Zusammen-

hänge wurden erst in nachfolgenden Arbeiten anderer Autoren 'wiederentdeckt'. Einen

wesentlichen Beitrag hierzu lieferte in einer ganzen Reihe von Arbeiten H. White. Dieses

Kapitel beinhaltet auch eine selektive Zusammenfassung dieser Ergebnisse.

In den folgenden Ausführungen stehen statistische Aspekte im Vordergrund. Mehrschicht-

Perzeptrone werden als flexible, nichtlineare Regressionsmodelle motiviert. Zunächst werden



die Netzwerkcharakteristika moderner Perzeptrone diskutiert. Anschließend werden Backpro-

pagation sowie einige in der Literatur vorgeschlagene Modifikationen des Algorithmus als

rekursive Verfahren zur Lösung nichtlinearer Kleinste-Quadrate-Probleme vorgestellt. Die

Ausführungen sind in (mindestens) zweierlei Hinsicht selektiv: Backpropagation kann als ein

zyklisches Lernverfahren oder als ein Echtzeit-Lernverfahren genutzt werden. Hier gilt das

Interesse primär dem für datenanalytische Anwendungen bedeutsameren zyklischen Lernen.

Ferner richtet sich das Augenmerk auf die Beziehungen zwischen Backpropagation und der

nichtlinearen Kleinste-Quadrate-Schätzung. Backpropagation-Lernen kann jedoch auch in den

Kontext der allgemeineren Quasi-Maximum-Likelihood-Schätzung gestellt werden. Da die

hieraus resultierenden Erweiterungen eher für diskriminanzanalytische Anwendungen von

Mehrschicht-Perzeptronen denn für die hier im Vordergrund stehenden Regressions- und Pro-

gnoseprobleme bedeutsam sind, soll bezüglich dieses Aspektes auf die Literatur verwiesen

werden (siehe z.B. White [1989b, 1992a]).

5.1 Neurone mit sigmoiden Aktivierungsfunktionen

Ein Charakteristikum moderner Perzeptrone sind Neurone, die mit 'glatten' sigmoiden Akti-

vierungsfunktionen ausgestattet sind. Um dieses Charakteristikum zu motivieren, soll die in

Kapitel 4.7 beschriebene Lernproblematik erneut aufgegriffen werden. Betrachtet wird wieder

eine einfache bipolare Schwellenwerteinheit, das ADALINE, mit der Ausgabefunktion

( ) ( )f w w xi i

i

p

x w w x, sgn ~ sgn= ′ = +

=∑0

1

,

wobei w = ′ ∈ ⊆ +( )w w w W IRo pp, , . . . ,1

1 , x = ′ ∈( )x x IRpp

1 , . . . , , ~ ,x x= ′ ′(1 ) und

sgn ,: IR → − +1 1 mit

( )sgn uu

u=

+ ≥− <

1 0

1 0

, falls

, falls

gilt. Als Lerndaten sind Beobachtungen z xt t ty= ′ ′( ), der (p+1)-dimensionalen Zufallsvek-

toren Z Xt t tY= ′ ′( ), ( )t N= 1,..., mit N p> vorgegeben. Die Zielvariable Yt sei eine bipolare

Indikatorvariable. Gesucht ist die Lösung des Minimierungsproblems

(5.1) ( )( )min ,w

x w∈ =

−∑W

t tt

N

Ny f

1 2

1

.


BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE 67

Wie in Kapitel 4.7 ausgeführt, setzen Widrow & Hoff [1960] den LMS-Algorithmus oder die

Delta-Lernregel zur Lösung des Ersatzproblems

( )min ~w

w x∈ =

− ′∑W

t tt

N

Ny

1 2

1

ein. Der Grund, warum die Autoren eine Ersatzstrategie wählen, ist offensichtlich: Eine gra-

dientenbasierte Minimierungsmethode kann nicht direkt auf das Ausgangsproblem (5.1) ange-

setzt werden, da die partiellen Ableitungen

( )( ) ( )( ) ( )∂∂

∂∂w

x w w xw

w xy f y− = − − ′ ′, sgn ~ sgn ~22 , y IR∈ ,

entweder verschwinden oder nicht definiert sind.

Es ist eine zweite, sehr naheliegende Ersatzstrategie denkbar. Sie besteht darin, die Signum-

Aktivierungsfunktion des künstlichen Neurons durch eine überall differenzierbare, streng mo-

noton wachsende und beschränkte (sigmoide) Funktion φ zu approximieren, z.B. durch die

hyperbolische Tangensfunktion

(5.2) φ( ) ( )( )

( + )u u

e e

e e

u u

u u= = − −

−tanh ,

deren Wertebereich das offene Intervall ( )− +1 1, ist. Die Ausgabefunktion besitzt jetzt die Form

( ) ( )f x w w x, tanh ~= ′

und das Minimierungsproblem (5.1) kann direkt durch Einsatz einer modifizierten Delta-Lern-

regel über einen approximativen Gradientenabstieg

( )

( )( )

w ww

w x

w w x w x x

l l l l l

l l l l l l l

c y

y

+ = − − ′

= + − ′ − ′

1

2

21

∂∂

η

tanh ~

tanh ~ tanh ~ ~

( )

( ) ( ) (l = 1,2,3,...)

mit η = 2c, c > 0 gelöst werden. Die Trainingsdaten werden dem Neuron wieder zyklisch in

einer Trainingssequenz zl l =1 2, ,... bis zur Konvergenz präsentiert. Das Erreichen einer Kon-

vergenz setzt voraus, daß die Lernrate η nicht konstant gehalten, sondern in der Umgebung

der Minimumstelle geeignet gegen null abgesenkt wird (vgl. Kapitel 4.5, S.58).

Diese einfache Idee bildet die Grundlage für die Entwicklung der modernen Mehrschicht-Per-

zeptrone und des Backpropagation-Algorithmus. Basisbausteine dieser Künstlichen Neurona-

len Netze sind Neurone mit überall differenzierbaren sigmoiden Aktivierungsfunktionen φ,

auch squashing functions genannt. Aus diesen Bausteinen können komplexe mehrschichtige

Netzwerke so aufgebaut werden, daß auch die Ausgabefunktion des gesamten Netzes ein be-



züglich der synaptischen Gewichte überall differenzierbares Funktional ist. Das Netzwerk-

lernen kann jetzt durch gradientenbasierte Optimierungsverfahren gesteuert werden.

In der Literatur wird die Verwendung einer Anzahl verschiedener Squashing-Funktionen φ als

Aktivierungsfunktion vorgeschlagen. Typische Beispiele sind die hyperbolische Tangens-

funktion (5.2) und die logistische Funktion ( )Λ: IR → 0 1, mit

(5.3) φ( ) ( )u ue u

= =+ −Λ 1

1 .

Die logistische Funktion stellt eine glatte Approximation der Heaviside-Aktivierungsfunktion

(3.4) des McCulloch-Pitts-Neurons aus Abschnitt 3.1 dar. Die beiden Funktionen zeichnen

sich dadurch aus, daß ihre ersten Ableitungen

∂∂u

u utanh tanh( ) ( )= −1 2 ,∂∂u

u u uΛ Λ Λ( ) ( )( ( ))= −1

sehr einfach evaluierbare Funktionale sind. Dies erleichtert die Differentiation der Netzaus-

gabefunktion.

Die Neurone weisen jetzt nicht mehr wie binäre Schwellenwerteinheiten ein Ausgabeverhalten

mit Alles-oder-Nichts-Charakter auf, sondern reagieren auf sich ändernde Signaleingänge mit

kontinuierlich variierenden Aktivitätszuständen, deren Amplitude beschränkt bleibt. Dieses

stetige Verhalten mag aus biologischer Sicht als eine stark idealisierte Modellierung des Auf-

baus stetiger postsynaptischer Summationspotentiale durch biologische Nervenzellen interpre-

tiert werden (vgl. Kapitel 2.2, S.14f). Verantwortlich für die Verwendung von Squashing-

Funktionen sind jedoch maßgeblich mathematische Aspekte.

5.2 Netzwerkarchitekturen von Mehrschicht-Perzeptronen

Neben der Verwendung von Neuronen mit differenzierbaren sigmoiden Aktivierungsfunktio-

nen zeichnen sich Mehrschicht-Perzeptrone durch eine vorwärtsgerichtete Schichtenarchitek-

tur (multilayer feedforward networks) aus. Ein Perzeptron ist aus mehreren hintereinander

geschalteten Schichten von Einheiten aufgebaut. Die erste wird als die Eingabeschicht (input

layer) und die letzte als die Ausgabeschicht (output layer) bezeichnet. Zwischen ihnen ist

mindestens eine verborgene Schicht (hidden layer) angeordnet. Die Eingabeschicht setzt sich

aus mehreren Eingabeeinheiten zusammen, die anderen Schichten beinhalten Verarbeitungs-

einheiten oder Neurone. Die Einheiten zweier aufeinanderfolgender Schichten sind über vor-

wärtsgerichtete und gewichtete Verbindungen miteinander gekoppelt. Es existieren keine

Feedback-Verbindungen oder Verbindungen zwischen Einheiten innerhalb einer Schicht. Si-



gnale fließen ausschließlich von der Eingabeschicht über die verborgenen Schichten zur Aus-

gabeschicht. Die von Rosenblatt im klassischen Perzeptron-Modell genutzten Bezeichnungen

Retina, Assoziationsschicht oder Responseschicht werden heute nicht mehr verwendet. Die

Informationsverarbeitungsaufgaben des modernen Perzeptrons beziehen sich nicht notwendig

auf Wahrnehmungsprozesse, sondern sie sind völlig unspezifisch angelegt.

In Abbildung 5.1 ist exemplarisch ein Netz mit einer verborgenen Schicht dargestellt. Es setzt

sich aus p Eingabeeinheiten, r verborgenen Einheiten, q Ausgabeeinheiten und deren gerichte-

te, gewichtete Verbindungen zusammen. Ferner ist jede Verarbeitungseinheit mit einer Bias-

einheit gekoppelt. Ein synaptisches Gewicht wird mit γ i j gekennzeichnet, wenn die ihr zuge-

ordnete Leitung die i-te Eingabeeinheit mit der j-ten verborgenen Einheit verbindet, und mit

β j k , wenn eine Koppelung der j-ten verborgenen Einheit mit der k-ten Ausgabeeinheit vor-

liegt. Die Biasgewichte werden durch γ 0 j bzw. β0 k symbolisiert. Das Netz empfängt über

seine Eingabeschicht Signale x = ′ ∈( )x x IRp

p

1, ,L des Umsystems, die von den Verarbei-

tungseinheiten der verborgenen Schicht und der Ausgabeschicht in die Netzausgaben

o = ′ ∈( )o o IRqq

1 , ,L transformiert werden. Formal gilt:

v xj j i j i

i

p

= + ⋅

=∑φ γ γ

1 01

( )j r= 1, . .. , ,

x

x

x

Eingabeschicht mit Verborgene Schicht mit Ausgabeschicht mit

o

o

o

1

2

= 4 Eingabeeinheiten = 5 Verarbeitungseinheiten = 3 Verarbeitungseinheitenp qr

x3

4 3

2

1

gerichtete, gewichtete gerichtete, gewichteteVerbindungen Verbindungen

1 1Biaseinheiten

Abb. 5.1: Mehrschicht-Perzeptron mit einer verborgenen Schicht



o vk k j k jj

r

= + ⋅

=∑φ β β2 0

1

( )k q= 1, . . .,

oder kompakt

(5.4) o xk k j k j i j ii

p

j

r

= + ⋅ + ⋅

==∑∑φ β β φ γ γ2 0 1 0

11

( )k q= 1, . . ., .

Die Einheiten einer Schicht arbeiten parallel. Ihre Aktivierungsfunktionen sind in der Regel

identisch, die Funktionen können jedoch von Schicht zu Schicht verschieden sein. Mit φ1 ist

die Aktivierungsfunktion der verborgenen Einheiten und mit φ 2 die Aktivierungsfunktion der

Ausgabeeinheiten gekennzeichnet. Für (5.4) soll abkürzend ( )o x w= f , mit f IR W Op: × → ,

W IR m⊆ , O IR q⊂ geschrieben werden, wobei w = ( )0 1γ γ β β,..., , ,...,p r rq W0 1 ′ ∈ der m-dimen-

sionale Vektor der adjustierbaren Gewichte und W der Gewichts- oder Parameterraum ist mit

( )m p r= + +1 ( )r q+1 . Die vektorwertige Netzausgabefunktion f ist ein nichtlineares, differen-

zierbares und beschränktes Funktional. Ihr Wertebereich O wird durch die in der Ausgabe-

schicht verwendete Squashing-Funktion festgelegt. Im Falle der logistischen Funktion ist bei-

spielsweise der Wertebereich ein offener q-dimensionaler Hyperwürfel ( )O q= 0 1 , .

Die vorgestellte Netzwerkarchitektur kann in mancherlei Hinsicht modifiziert werden. Neben

der Erweiterung des Netzes um zusätzliche verborgene Schichten sollen hier nur zwei Modifi-

kationen genannt werden, die primär pragmatischer Natur sind. Die erste Modifikation besteht

in dem Hinzufügen sogenannter Shortcut-Verbindungen, die direkte Verbindungsleitungen

von den Eingabe- zu den Ausgabeeinheiten darstellen. Aus (5.4) wird jetzt

(5.5) o x xk k i k ii

p

j k j i j ii

p

j

r

= + ⋅ + ⋅ + ⋅

= ==∑ ∑∑φ β α β φ γ γ2 0

11 0

11

( )k q= 1, . . ., ,

wobei mit α ik die Gewichte der direkten Eingabe-Ausgabe-Verbindungen bezeichnet sind.

Durch die direkten Verbindungen wird die Anzahl der adjustierbaren synaptischen Gewichte

im Netzwerk erhöht. Das Netz gewinnt hierdurch an Flexibilität. Die zweite Modifikation be-

steht in der Verwendung der Identitätsfunktion ( )φ 2 u u= als 'Aktivierungsfunktion' der Aus-

gabeeinheiten. Das Netz antwortet jetzt auf ein Eingangssignal x gemäß:

(5.6) o x xk k i k ii

p

j k j i j ii

p

j

r

= + ⋅ + ⋅ + ⋅

= ==∑ ∑∑β α β φ γ γ0

11 0

11

( )k q= 1, . . ., .

Die Netzausgabefunktion sei wieder symbolisch ( )o x w= f , geschrieben, wobei w nun ein

( ) ( )( )p r r q pq+ + + +1 1 -dimensionaler Vektor ist. Sie bleibt weiterhin ein nichtlineares und

differenzierbares Funktional, ist aber nicht mehr beschränkt. Dies kann in praktischen An-

wendungen vorteilhaft sein, speziell dann, wenn das Perzeptron zur Lösung von Regressions-



problemen eingesetzt werden soll. Im Falle einer beschränkten Ausgabefunktion wird hier

i.d.R. eine Skalierung der Daten notwendig.

Perzeptrone mit einer verbogenen Schicht werden verwirrenderweise in der Literatur sowohl

als dreischichtig (es werden alle Schichten gezählt), zweischichtig (es werden nur die Neuro-

nenschichten gezählt) oder auch einschichtig (es wird nur die verborgene Schicht gezählt) be-

zeichnet. Hier wird im folgenden einfach von MLP(p,r,q)-Netzen gesprochen, wobei p, r und

q die Anzahl der Einheiten in den betreffenden Schichten angeben.

Die Netzausgabefunktion eines MLP(p,r,q)-Netzes mit einer großen Anzahl r verborgener

Verarbeitungseinheiten ist ein flexibles Funktional. In einer ganzen Reihe von Arbeiten wurde

nachgewiesen, daß Funktionen der Form (5.4) - (5.6) als universelle Approximatoren ange-

sehen werden können (siehe neben anderen Cybenko [1989], Funahashi [1989], Hecht-Nielsen

[1989], Hornik et al. [1989] und Stinchcombe & White [1989]). Die Bezeichnung 'universeller

Approximator' meint, daß eine Netzausgabefunktion jede Funktion aus einer großen Funk-

tionsklasse beliebig genau approximieren kann, unter der Voraussetzung, daß die Anzahl r

verborgener Einheit hinreichend groß und der Gewichtsvektor w geeignet adjustiert ist.

Ein typisches Ergebnis für Netze mit einer unbeschränkten (linearen) Ausgabeeinheit geben

Hornik et al. [1989] an: Es sei C eine kompakte Teilmenge des IRp und g C IR: → eine belie-

bige stetige - oder allgemeiner Borel-meßbare - Funktion. Ferner sei φ eine überall differen-

zierbare, streng monoton wachsende und beschränkte Squashing-Funktion. Dann existiert eine

Netzausgabefunktion f C IR: → mit

f xj j i j ii

p

j

r

( ) : x = + ⋅ + ⋅

==∑∑β β φ γ γ0 1 1 0

11

,

r IN∈ und γ γ β β0 1 1,..., ,...,p r r IR, 0 1 ∈ , so daß sup x x x∈ − <C g f ( ) ( ) ε für jedes reelle ε >0

gilt. Die Gewichte werden hier als fest vorgegeben betrachtet. Besitzt die Ausgabeeinheit eine

Squashing-Funktion als Aktivierungsfunktion, dann kann eine vergleichbare Aussage für ge-

eignet beschränkte Borel-meßbare Funktionen g bewiesen werden.

Bei den Ergebnissen von Hornik et al. und anderen Autoren handelt es sich natürlich um reine

Existenzaussagen. Sie liefern jedoch eine theoretische Rechtfertigung für den praktischen

Einsatz von Mehrschicht-Perzeptronen als Funktionsapproximatoren. Eine weitgehend offen

Frage ist, wie viele verborgene Schichten ein Netz zur Lösung einer vorgegebenen Aufgabe

besitzen sollte. Wie angegeben, besitzen bereits Netze mit einer verborgenen Schicht 'univer-

selle Approximator-Eigenschaften'. Ein Perzeptron mit mehreren verborgenen Schichten kann

aber gegebenenfalls die gleiche Approximationsgüte mit einer geringeren Anzahl von Ge-

wichten (freien Parametern) erreichen. Beispiele hierfür sind bekannt (Blum & Li [1991],



Kuan & White [1994]). Generelle Ergebnisse stehen nach dem Kenntnisstand des Autors je-

doch noch aus.

5.3 Der Backpropagation-Algorithmus

Der LMS-Algorithmus wurde in Kapitel 4 als ein rekursiver Ansatz zur Lösung linearer Re-

gressionsprobleme vorgestellt. Analog soll der Backpropagation-Algorithmus als ein rekursi-

ves Verfahren zur Lösung nichtlinearer Regressionsprobleme motiviert werden. Um unnötig

komplizierte Darstellungen zu vermeiden, werden hierbei einige Vereinfachungen vorge-

nommen. Betrachtet werden MLP(p,r,q)-Netze mit einer Ausgabeeinheit (q=1). Eine Verall-

gemeinerung der Ergebnisse auf Netze mit q > 1 Ausgabeeinheiten und/oder mehreren ver-

borgenen Schichten ist ohne Probleme möglich. Der Backpropagation-Algorithmus kann als

ein Echtzeit-Lernverfahren oder als ein zyklisches Lernverfahren genutzt werden. Hier wird

zunächst die für praktische Anwendungen bedeutsamere zyklische Lernsituation behandelt.

Echtzeit-Lernen wird an einer späteren Stelle kurz diskutiert.

5.3.1 Mehrschicht-Perzeptrone und nichtlineare Regressionsprobleme

Als Lerndaten seien wieder beobachtete Werte z xt t ty= ′ ′( ), des Ausschnitts Z Xt t tY= ′ ′( ),

(t = 1,...,N) eines datenerzeugenden Prozesses Zt t T∈ gegeben. Der stochastische Prozeß ist

eine Familie : Zt E t TΩ → ∈, von (1+p)-dimensionalen Zufallsvektoren über einem gege-

benen Wahrscheinlichkeitsraum ( )Ω, ,F P mit dem Parameterraum T IN= oder T IZ= . Ver-

einfachend wird unterstellt, daß der Zustandsraum E des Prozesses eine beschränkte Teil-

menge des IRp+1 ist. Konkret wird E I p⊆ +1 gesetzt, wobei ( )I = 0 1, oder ( )I = − +1 1, ist. Die

Annahme stellt sicher, daß der Variationsbereich der Zielvariablen Yt immer in den Werte-

bereich der Ausgabefunktion eines MLP(p,r,1)-Netzes fällt, auch dann, wenn die Ausgabeein-

heit des Netzes eine Squashing-Funktion als Aktivierungsfunktion besitzt. Liegt ein stochasti-

scher Prozeß mit einem umfassenderen, aber beschränkten Zustandsraum vor, dann kann die

Annahme durch eine geeignete Skalierung der Zufallsvektoren erfüllt werden. Be i den Lern-

daten kann es sich um Querschnitts- oder Zeitreihendaten handeln. Im ersten Fall wird wieder

ein datenerzeugender i.i.d. Prozeß unterstellt. Im zweiten Fall wird ein ergodischer streng sta-

tionärer Prozeß oder ein mischender stationärer Prozeß erster Ordnung angenommen.

Das Lernproblem kann jetzt wie folgt beschrieben werden: Die skalaren Zielvariablen Yt sol-

len durch die Eingabevektoren Xt t p t

X X= ( , )1

L, ′ approximiert oder prognostiziert werden.

Als Maß für die Prognosegüte wird das Mean-Square-Error-Kriterium genutzt. Wie bereits in



Kapitel 4.1 gezeigt, ist der MSE-optimale Prediktor von Yt durch Xt durch die allgemeine Re-

gressionsfunktion µ( ) [ ]X Xt t tE Y= gegeben. Die Funktion µ : IR IRp → ist unbekannt und

soll ihrerseits durch die Netzausgabefunktion f IR W Op : × → eines MLP(p,r,1)-Netzes ap-

proximiert werden. Gesucht ist ein Gewichtsvektor wo, der das Minimierungsproblem

(5.8) ( ) ( )minw

w X w∈

= −

W

t tM E Y f ( , )2

löst. Der mittlere quadratische Fehler kann analog zu (4.12) in zwei additive Komponenten

zerlegt werden:

(5.9) ( ) ( )E Y f E ft t t t

−

= −

+( , ) ( ) ( , )X w X X w2 2 2µ σ .

Die zweite Komponente σ µ2 2= −E Yt t[( ( )) ]X hängt nicht von w ab. Sie ist der mittlere

quadratische Prognosefehler des MSE-optimale Prediktors und kann als ein Maß für die Pro-

gnostizierbarkeit der Zufallsvariablen Yt durch die Zufallsvektoren Xt aufgefaßt werden. Das

Minimierungsproblem (5.8) ist äquivalent mit der Minimierung der ersten Komponente, dem

mittleren quadratischen Fehler der Approximation von µ( )Xt durch f t( , )X w . Eine exakte

Lösung der Minimierungsaufgabe setzt die Kenntnis der Wahrscheinlichkeitsverteilungen

erster Ordnung der Prozeßvektoren voraus. Sind diese unbekannt, dann muß eine statistische

Lösung gesucht werden. Eine Minimumstelle wo von (5.8) soll hier durch die nichtlineare

Kleinste-Quadrate-(NKQ)-Schätzfunktion

(5.10) ( )$ arg minw ww

N N

NKQ

W

Q=∈

mit ( ) ( )QN

Y fN t t

t

N

w X w= −=∑1 2

1

( , )

geschätzt werden. Man beachte, daß M(w) in aller Regel multiple Minimumstellen besitzt, und

wo somit nicht eindeutig bestimmt ist. Man sagt auch, wo ist nicht global identifiziert. Dies ist

leicht einzusehen, da beispielsweise die Anordnung der verborgenen Einheiten im Netz beliebig

permutierbar ist. Folglich ist auch die Anordnung ihrer Gewichte im Vektor w permutierbar.

In dem vorgestellten Kontext ist ein Mehrschicht-Perzeptron ein spezifischer nichtlinearer Re-

gressionsansatz. Die Lernproblematik ist verwandt mit dem in Kapitel 4.1 betrachteten linea-

ren Regressionsproblem. Es existiert jedoch ein wesentlicher Unterschied. Die Architektur der

primitiven Lernmaschine aus 4.1 war per se vorgegeben. Die Architektur eines MLP(p,r,1)-

Netzes - und damit die Flexibilität ihrer nichtlinearen Netzausgabefunktion - kann hingegen

durch Variation der Anzahl r der verborgenen Einheiten verändert werden. Das vollständige

Regressionsproblem beschränkt sich hier somit nicht auf die Schätzung eines Gewichtsvek-

tors; es gilt auch, eine problemadäquate Netzwerkarchitektur zu spezifizieren, um eine mög-

lichste gute Approximation der unbekannten Regressionsfunktion µ( ) ⋅ erreichen zu können.



Es können zwei verschiedene gedankliche Rahmen gezogen werden, um ein MLP-Netzwerk

sinnvoll in die statistische Theorie einzubeziehen. Das Netz kann als ein modellfreier Regres-

sionsansatz aufgefaßt werden, denn bei der Festlegung einer Netzwerkarchitektur fließen in

aller Regel keine expliziten Annahmen über die Form des statistischen Zusammenhangs der

Zufallsgrößen Yt und Xt ein. Eine problemadäquate Netzwerkspezifikation stellt eine Kom-

promißlösung dar: Einerseits sollte die Anzahl der verborgenen Einheiten hinreichend groß

sein, um eine gute Approximation der Funktion µ( ) ⋅ ermöglichen zu können; andererseits

darf - relativ zum Umfang N des Lerndatensatzes - der Gewichtsvektors w nicht zu hoch di-

mensioniert sein, da ansonsten mit 'unzuverlässigen' Gewichtsschätzungen gerechnet werden

muß. Läßt man die Netzwerkkomplexität geeignet mit dem Datenumfang N anwachsen, kann

die Approximationsgüte mit größer werdendem Datenumfang verbessert werden. Ein solcher

Regressionsansatz kann sinnvoll in den Bereich der nichtparametrischen Regression einge-

ordnet werden. Die Betrachtungen hierzu werden in Abschnitt 5.6 vertieft.

In den folgenden Ausführungen wird zunächst das Problem der Netzwerkspezifikation ausge-

klammert und ein MLP(p,r,1)-Netz mit einer moderaten Anzahl r verborgener Einheiten als a

priori vorgegeben angenommen. White [1989a] folgend, soll das Netzwerk als ein parametri-

sches Regressionsmodell und seine Netzgewichte als Regressionsparameter, die es auf der

Basis von Lerndaten zu schätzen gilt, interpretiert werden. Da das Netz jedoch nur als ein Ap-

proximator intendiert ist, wird es als ein fehlspezifiziertes Regressionsmodell behandelt. Fehl-

spezifikation meint hier, daß die Ungleichung ( )P ft tµ( ) ( , )X X w= < 1 für alle w ∈W er-

füllt ist. Dieser Interpretationsansatz ist fruchtbar, da er erlaubt, die Theorie der Kleinste-Qua-

drate-Schätzung bei Vorliegen fehlspezifizierter Modelle zur Beurteilung der Schätz- oder

Lernergebnisse heranzuziehen (siehe Abschnitt 5.5).

5.3.2 Backpropagation und zyklisches Lernen

Der Backpropagation-Algorithmus, in der von Rumelhart et al. [1986a,b] vorgestellten Versi-

on, ist eine rekursive Methode zur Berechnung von NKQ-Schätzwerten. Ziel ist es, auf der

Basis beobachteter Trainingsdaten zt ( )t N=1,..., den Gewichtsvektor w in einer endlichen Se-

quenz von Lernschritten so zu adjustieren, daß die realisierte NKQ-Zielfunktion

(5.11a) ( ) ( )Q y fN N t t

t

N

w x w= −=∑1 2

1

( ),

oder äquivalent



(5.11b) ( ) ( ) ( )N

t tt

N

tt

N

Q y f qN2

1

2

2

1 1

w x w z w= − == =∑ ∑( ), , mit ( ) ( )q y ft t tz w x w, = −1

2

2( , )

minimiert wird. Die Daten werden wiederholt aneinandergekettet. Es entsteht eine Trainings-

sequenz z l l =1 2, ,... mit dem l-ten Glied z x

l l l l l p ly y x x= ′ ′ = ′( ) ( , . . . , ), ,

1. Beginnend mit

einem Startvektor w1 werden jetzt schrittweise Gewichtskorrekturen

(5.12)

( )

( )

w wz w

w

w x wx w

w

wx w

w

l ll l

l l l ll l

l l ll l

q

y ff

y of

+ = −

= + −

= + −

1η

∂∂

η∂

∂

η∂

∂

( )

( )( )

( )

,

,,

,(l = 1,2,3,...)

mit o fl l l= ( )x w, und η > 0 vorgenommen. Rumelhart et al. bezeichnen die Gleichung

(5.12) als die generalisierte Delta-Lernregel. Wird eine hinreichend kleine Lernrate η vorge-

geben, d.h. in der Regel 0 1< <<η , dann führt das Vorgehen zu einem approximativen Gra-

dientenabstieg, und die Fehlerquadratsumme (5.11) wird im Laufe des Trainingsprozesses

sinken. Die Wahl der Lernrate ist stark kontextabhängig. Aufgrund früherer Erörterungen ist

klar, daß ein Festhalten an einer konstanten Lernrate eine Konvergenz des Trainingsprozesses

behindert. Für große Lernschritte n sollte η geeignet gegen null abgesenkt werden.

Neben der Wahl und Steuerung der Lernrate ist die Festlegung des Startvektors w1 ein sensi-

bler Punkt des Lernverfahrens. Rumelhart et al. [1986b] schlagen vor, Zufallszahlen aus

einem keinen Intervall [ ]− +ε ε, um null als Komponenten des Startvektors vorzugeben.

Würden alle Gewichte mit einem identischen Anfangswert belegt, dann könnte nicht ver-

hindert werden, daß sich die (Teil-)Gewichtsvektoren der verborgenen Einheiten im Laufe des

Trainings gleichförmig entwickeln und auch die Gewichte zwischen den verborgenen Einhei-

ten und der Ausgabeeinheit identisch bleiben. Durch die Vorgabe kleiner Anfangswerte soll

verhindert werden, daß bei Trainingsbeginn die Neurone Ausgangssignale an den Grenzen des

Wertebereichs ihrer sigmoiden Aktivierungsfunktion produzieren. An den Saturationsgrenzen

ist die Ableitung einer sigmoiden Funktion näherungsweise null. Folge wäre, daß die Lern-

regel (5.12) nur verschwindend kleine Gewichtskorrekturen liefert. Die genannten Aspekte

werden bei Betrachtung der folgenden Herleitungen unmittelbar deutlich.

Die in jedem Lernschritt erforderlichen Berechnungen sollen am Beispiel eines MLP(p,r,1)-

Netzes mit direkten Verbindungen zwischen den Eingabeeinheiten und der Ausgabeeinheit

demonstriert werden. Die Netzausgabefunktion von Netzen mit Shortcuts wurde bereits in

(5.5) bzw. (5.6) angegeben. Sie wird hier vereinfachend



o f x xi ii

p

j i j ii

p

j

r

= = ⋅ + ⋅ ⋅

= ==∑ ∑∑( )x w, φ α β φ γ2 1

01 1

01

geschrieben, wobei x 0 1≡ das Biassignal ist und α β0 1 0 1: = gesetzt wird. φ1 ist eine vorge-

gebene Squashing-Funktion, und φ2 ist eine Squashing-Funktion oder die Identitätsfunktion.

Ferner bezeichne

e xj i j i

i

p

: = ⋅=∑γ

0

(j = 1,...,r)

die Summe der gewichteten Eingangssignale und

( )v ej j: = φ

1(j = 1,...,r)

die Ausgangssignale der verborgene Einheiten. Der Signaleingang der Ausgabeeinheit sei mit

e x vi ii

p

j jj

r

: = ⋅ + ⋅= =∑ ∑α β1

01

1

abgekürzt. Mit Hilfe der Kettenregel erhält man jetzt die partielle Ableitungen

( )( )

∂∂

∂φ∂

∂∂

φ∂

∂f

w

e

e

e

we

e

wh h h

( )x w,= ⋅ = ′ ⋅2

2 (h = 1,...,m) ,

wobei wh die h-te Komponente des m-dimensionalen Vektors w symbolisiert. Obige Gleichun-

gen gelten unter der Voraussetzung, daß φ2 eine Squashing-Funktion ist. Ist φ2 die Identitäts-

funktion, dann gilt f e( )x w, = und die Ableitungen reduzieren sich auf ∂ ∂f w h( )x w, =∂ ∂e w h . Weiter ist

∂∂α

ex

ii

1

= , ∂

∂βe

vj

j1

= , ∂

∂γβ

∂φ

∂

∂

∂γβ φ

e e

e

ee x

i jj

j

j

j

i jj j i= ⋅ ⋅ = ⋅ ′ ⋅1

1

1 1

( )( ) .

Verwendet man beispielsweise die logistische Funktion Λ( )u mit ′ = −Λ Λ Λ( ) ( )( ( ))u u u1 als

Aktivierungsfunktion der verborgenen Einheiten und der Ausgabeeinheit, dann erhält man für

jede einzelne Komponente von w die generalisierte Delta-Regel:

w wq

wh l h ll l

h, ,

,+ = −1 η

∂∂( )z w

(h = 1,...,m)

mit

( ) ( )∂∂α

qy o o o xl l

il l l l i l

( )z w,,

1

1= − − − ,

( ) ( )∂

∂βq

y o o o vl l

jl l l l j l

( )z w,,

1

1= − − − ,



( ) ( ) ( )∂∂γ

βq

y o o o v v xl l

i jl l l l j l j l j l i l

( )z w,, , , ,

= − − − −1 11

und

xl0 ,

: 1= , v xj l i j l i l

i

p

, , , : = ⋅

=∑φ γ

10

.

Man beachte, daß das Produkt ( ) ( )P y o o ol l l l l:= − −1 in allen partiellen Ableitungen als

Faktor enthalten ist. Es muß nur einmal berechnet werden. Setzt man alternativ φ 2 ( )u u= ,

dann reduziert sich der Faktor auf ( )P y ol l l: = − . Die Ableitungen bleiben ansonsten unver-

ändert.

Wie die ursprüngliche Delta-Regel ist die generalisierte Delta-Regel ein sehr einfach imple-

mentierbares inkrementelles fehlerkorrigierendes Lernverfahren. Die erforderlichen arithmeti-

schen Operationen sind elementarer Natur, die Berechnungen weitgehend parallel durchführ-

bar. Jede Verarbeitungseinheit kann mit einem Mechanismus ausgestattet werden, der es ihr

erlaubt, die Gewichte ihrer Eingangsleitungen selbständig zu korrigieren. Die verborgenen

Neurone benötigen hierfür allerdings 'postsynaptische' Information. Die Berechnung der Kor-

rekturen erfolgt in zwei Phasen. In einer Feedforward-Phase empfängt das Netz einen Ein-

gabevektor und berechnet die Netzausgabe. Die Ausgangssignale der verborgenen Einheiten

und die Netzausgabe werden in den jeweiligen Neuronen gespeichert. Die Ausgabeeinheit

empfängt eine Zielausgabe und berechnet den Approximationsfehler. In einer Feedback-Phase

wird ein Fehlersignal über die gewichteten Verbindungsleitungen an die verborgenen Einhei-

ten 'zurückpropagiert'. Im vorliegenden Fall besitzen die gewichteten Fehlersignale die Form

Pl j l⋅β 1, (j = 1,...,r). Es folgt die Berechnung der partiellen Ableitungen und die Gewichts-

korrektur. Von dieser Vorgehensweise rührt die Bezeichnung Error-Backpropagation oder

kurz Backpropagation her (siehe ausführlich Rojas [1993, S.154ff]).

Der Ansatz läßt sich leicht so verallgemeinern, daß ein Training von Netzen mit mehreren

Ausgabeeinheiten und mehreren verborgenen Schichten möglich ist. Aufgrund der Einfach-

heit und Parallelisierbarkeit der Berechnungen ist Backpropagation auch dann einsetzbar,

wenn ein Netz eine enorm große Anzahl von gewichteten Verbindungen besitzt. Diesem

Vorteil stehen offensichtliche Schwachstellen gegenüber. Es gibt keinerlei Gewähr, daß der

Algorithmus die NKQ-Lösung des Minimierungsproblems tatsächlich findet. In Abhängigkeit

von den Lerndaten und der vorgegebenen Netzwerkarchitektur kann die realisierte NKQ-

Funktion QN in (5.11) neben einem globalen Minimum (mit multiplen Minimumstellen) eine

Vielzahl lokaler Minima besitzen. Der Backpropagation-Algorithmus ist in seinem Wesen ein

approximatives, eng mit der Methode des steilsten Abstiegs verwandtes Gradientenabstiegs-

verfahren. Unter geeigneten Voraussetzungen führen Gradientenabstiegsverfahren auf eine



lokale Lösung eines Minimierungsproblems; eine globale Lösung können sie nicht garantieren

(vgl. Kapitel 5.4.3). Es besteht somit die Gefahr, daß der Lernprozeß mit einem suboptimalen

Gewichtsvektor endet. Eine zweite Schwachstelle von Backpropagation ist das Konvergenz-

verhalten. In vielen Anwendungen ist die Konvergenzgeschwindigkeit des Algorithmus extrem

langsam (vgl. Kapitel 5.4.1 sowie Rojas [1993, S.168]).

5.4 Backpropagation-Varianten und alternative Algorithmen

In der Literatur findet sich zum Thema Backpropagation-Lernen eine kaum überschaubare

Anzahl von Modifikations- und Alternativvorschlägen, die auf eine Lösung der dem Backpro-

pagation-Algorithmus immanenten Probleme abzielen. Ohne jeden Anspruch auf Vollstän-

digkeit sollen hier einige Vorschläge, zumeist rein pragmatischer Natur, skizziert werden.

5.4.1 Beschleunigung von Backpropagation

Ein praktisches Problem im Zusammenhang mit dem Backpropagation-Algorithmus ist die

Wahl und Steuerung der Lernrate η. Wird die Rate hinreichend klein gewählt, dann führt der

Algorithmus zu einem approximativen Gradientenabstieg. Die resultierenden Gewichtsände-

rungen werden jedoch ebenfalls klein sein. Konsequenz ist, daß die Gewichtsvektorenfolge

wl l =1 2, ,...

nur sehr langsam gegen eine (globale oder lokale) Minimumstelle der Zielfunktion

(5.11) strebt. Durch Vorgabe einer großen Lernrate kann der Lernprozeß i.d.R. nicht be-

schleunigt werden. Die Vorgabe führt häufig zu einer oszillierenden Folge wl l =1 2, ,.... Eine

Konvergenz wird dann ganz verhindert.

Rumelhart et al. [1986b] schlagen zur Beschleunigung des Lernprozesses die Erweiterung der

generalisierten Delta-Regel (5.12) um einen sogenannten Momentum-Term vor. Es bezeichne

∆wl den Vektor der Gewichtskorrekturen in Lernschritt l. Der Vektor ∆wl wird jetzt propor-

tional zum Vektor der partiellen Ableitungen ∂ ∂q l l( )z w w, und dem Korrekturvektor

∆wl −1 des vorangegangenen Lernschritts gewählt. Die Lernregel mit Momentum kann wie

folgt geschrieben werden:

(5.13a) w w wl l l+ = +1 ∆ (l = 1,2,3,...)

mit

(5.13b) ( ) ( )∆w wz w

w

z w

wl ll l l l

lq q= − − = − −

−

− −

=

−

∑α∆ α η∂

∂η α α

∂∂

τ τ τ

τ1

0

1

1 1~ , ~ ,( ) ( )



und ∆w0

: = 0 . Hierbei sei ( )η α η:= −1 ~ die Lernrate. Der Effekt vergangener Gewichtskorrek-

turen wird durch einen Momentumparameter α mit 0 1< <α gesteuert. Rumelhart et al. ver-

wenden für α Werte nahe Eins, z.B. α = 0.9. Der jeweils aktuelle Korrekturvektor ∆wl basiert

auf einem gewogenen Durchschnitt der partiellen Ableitungen ∂ ∂τ τq l l( )z w w− −, (τ = 0,1,..

..,l-1). Die Gewichte klingen mit wachsendem τ exponentiell ab. Weisen die partiellen Ablei-

tungen ∂ ∂τ τq l l( )z w w− −, aus vorangegangenen Lernschritten hochfrequente Vorzeichen-

wechsel auf, werden durch die exponentielle Glättung der Korrekturvektoren diese Fluktuatio-

nen gedämpft, und ein Oszillieren der Gewichtsvektorenfolge wl l =1 2, ,...

kann gegebenenfalls

verhindert werden. Sind die Vorzeichen der partiellen Ableitungen über mehrere Lernschritte

konstant, führt das Verfahren temporär zu anwachsenden Gewichtskorrekturen.

Ein zweiter pragmatischer Ansatz ist das Stapel-Lernen (batch learning oder kurz batching).

Beim Batching wird in jedem Lernschritt ein Korrekturvektor ∆wl berechnet, die fällige Ge-

wichtskorrektur erfolgt aber nicht unmittelbar. Die Vektoren ∆wl werden über eine Anzahl

von b Schritten mit 1 < ≤b N aggregiert

∆ ∆ ∆ ∆w w w w : = + + +− − +l l l b1 1. . . ,

erst dann wird ein Update

w w wl l+ = +1 ∆

des Gewichtsvektors durchgeführt. D.h. auch, es gilt w w wl l l b= = =− − +1 1. . . . Wird b gleich

der Anzahl N der Trainingsmuster gesetzt, erfolgt die Korrektur erst nach Abarbeitung einer

vollständigen Trainingsepoche. Der Backpropagation-Algorithmus geht jetzt in ein reines

Gradientenabstiegsverfahren über. Aus (5.12) erhält man die Iterationsgleichungen

(5.14) w wz w

wk kt k

t

N q+

== − ∑1

1

η∂

∂( ),

(k = 1,2,3,...)

mit k als Iterationsindex. Die Gleichungen (5.14) werden auch als die Batch-Version der gene-

ralisierten Delta-Regel bezeichnet.

Ebenso wie das Momentum kann Batching natürlich eine Beschleunigung des Lernprozesses

nicht garantieren. Anwendungsbeobachtungen lassen vermuten, daß die 'On-Line-Variante'

(5.12) zu Beginn der Trainingsphase i.d.R. eine schnellere Reduktion der Zielfunktionswerte

bewirkt (vgl. Smith [1993, S.84]). Batching mildert jedoch die Konvergenzprobleme in der

Umgebung einer (globalen oder lokalen) Minimumstelle der Zielfunktion. Smith [1993]

schlägt daher vor, mit einem kleinen Batch-Umfang b zu beginnen und b im Laufe des Trai-

nings gegen N anwachsen zu lassen. Ferner kann die Batch-Lernregel durch einen Momen-

tum-Term ergänzt werden.



Die Wahl einer geeigneten Lernrate η ist - auch bei Verwendung eines Momentum-Terms

oder beim Batch-Lernen - stark von der jeweiligen Lernaufgabe abhängig. Zahlreiche Autoren

haben daher vorgeschlagen, im Laufe des Lernprozesses eine automatische Adjustierung der

Lernrate vorzunehmen (siehe z.B. Cater [1987], Jacobs [1988], Tollenaere [1990] oder

Riedmiller & Braun [1993]). Die Grundidee der meisten Verfahren ist denkbar einfach.

Konnte nach einem Korrekturschritt eine Reduktion des Zielfunktionswertes erreicht werden,

bleibt die Rate η konstant oder wird gegebenenfalls erhöht. Stieg der Zielfunktionswert, dann

war die Schrittweite des letzten Korrekturschrittes zu groß, und η wird folglich reduziert. Um

eine Konvergenz des Lernprozesses erreichen zu können, scheint es ratsam, die Lernrate - falls

möglich - um eine kleine Konstante zu erhöhen, oder die Rate - falls notwendig - geometrisch

abzusenken. Dies führt auf ein Adaptionsschema der Form η ηneu alt= + ∆η mit

(5.15) ∆η∆∆=

+ <− ⋅ >

κρ η

falls

falls

sonst

Q

Qalt

0

0

0

,

wobei ∆Q die Änderung des Zielfunktionswertes symbolisiert und κ ρ, geeignete reelle

Konstanten sind (vgl. Hertz et al. [1991, S. 124]). Dieses Grundschema kann in vielerlei Hin-

sicht modifiziert und ausgebaut werden. Beispielsweise empfiehlt es sich, die Entscheidungs-

regel in (5.15) nicht nur von der letzten Zielfunktionswertänderung ∆Q , sondern von einem

exponentiell abklingend gewichteten Durchschnitt vergangener Änderungen abhängig zu

machen. Hierdurch wird ein eratisches Änderungsverhalten der Lernrate vermieden. Dies ist

insbesondere dann sinnvoll, wenn kein Batching vorgenommen wird. Weiter kann für jede

Komponente wh des Gewichtsvektors w eine individuelle Lernrate ηh eingeführt und automa-

tisch adaptiert werden. Ein hierfür typisches Verfahren ist die sogenannte Delta-Bar-Delta-

Regel von Jacobs [1988].

5.4.2 Lokale Minima

Bei einer geeigneten Vorgabe der jeweiligen Lernparameter liefern der Backpropagation-Al-

gorithmus und seine Varianten eine Minimumstelle der NKQ-Zielfunktion in (5.11). Die Stelle

muß jedoch nicht notwendig das globale Minimum lokalisieren.

Um die Gefahr zu begrenzen, daß On-Line-Backpropagation eine suboptimale Lösung des

Minimierungsproblems liefert, wird in der Literatur häufig die Bildung einer zufälligen Trai-

ningssequenz angeraten. Damit ist gemeint, die Lerndaten sollen in zufällig permutierter Rei-

henfolge zu einer Trainingssequenz aneinandergekettet werden, sich mithin nicht streng zy-

klisch wiederholen. Bildlich gesprochen 'durchwandert' die Gewichtsvektorenfolge wl l =1 2, ,...



jetzt den Gewichtsraum W auf einem stochastischen Pfad. Hiervon verspricht man sich, daß

die Wahrscheinlichkeit einer suboptimalen Lösung gesenkt wird.

Der stochastische Charakter des Wanderpfades kann durch zusätzliche Rauschterme oder Zu-

fallsschocks verstärkt werden. Ein Vorschlag von Kushner [1987] und White [1989a] führt

auf die Lernregel

(5.16) w wz w

wl ll l

l

q+ = − +

1

η∂

∂ζ

( ),(l = 1,2,3,...) ,

wobei ζ l l =1 2, , . . . eine Folge unabhängiger, identisch normalverteilter Zufallsvektoren ist. Die

Vorgehensweise ist eine Variante der auf Kirkpatrick et al. [1983] zurückgehenden Simulated

Annealing-Methode. Der Effekt von Zufallsschocks ist durch die Wahl der Lernrate η und der

Streuung der Zufallsvektoren beeinflußbar. Hinreichend starke Effekte erlauben es dem Ver-

fahren, den 'Anziehungsbereichen' lokaler Minima zu entkommen. Natürlich besteht auch die

Gefahr eines 'Überspringens' globaler Minimumstellen. Die Vermutung scheint gerechtfertigt,

daß durch geeignete Vorgaben eine globale Minimierung der Zielfunktion erreicht werden

kann. Die notwendigen und hinreichenden Bedingungen sind in dem hier diskutierten Kontext

jedoch unklar. Im Zusammenhang mit Echtzeit-Lernen gibt Kushner [1987] Konvergenzvor-

aussetzungen an. Simulated Annealing und der Momentum-Ansatz verhalten sich offensicht-

lich antagonistisch. Simulated Annealing kann jedoch sinnvoll mit Batch-Lernen kombiniert

werden.

Wird auf Simulated Annealing verzichtet, dann übt die Wahl des Anfangsvektors w1 einen

sehr starken Einfluß auf das Ergebnis von Backpropagation-Lernen aus. Im allgemeinen kann

keine globale Lösung des Minimierungsproblems erreicht werden, wenn der Algorithmus im

Anziehungsbereich einer lokalen Minimumstelle startet. Ein zweiter Ansatz zur Überwindung

des Problems lokaler Minima ist die Multistart-Technik. Hier werden die Gewichte eines

Netzes mehrfach, beginnend mit jeweils verschiedenen, zufällig vorgegebenen Startvektoren,

bis zur Konvergenz adjustiert. Der mit dem kleinsten Zielfunktionswert korrespondierende

Gewichtsvektor wird verwendet. Die Multistart-Technik kann so ausgebaut werden, daß sie

(mit Wahrscheinlichkeit 1) zu einer globalen Minimierung der Zielfunktion führt (siehe

Rinnooy Kan et al. [1985]). Eine solche Vorgehensweise ist jedoch extrem rechenintensiv und

in der Praxis kaum realisierbar. Hier gibt man zumeist eine überschaubare Anzahl von Start-

wiederholungen vor und bricht das Verfahren dann ab. Die Multistart-Technik bietet jetzt

zwar keine Gewähr für die Lösung des Minimierungsproblems, liefert aber i.d.R. zumindest

eine 'gute' suboptimale Lösung.



5.4.3 Alternative Optimierungsverfahren

Der Backpropagation-Algorithmus wurde als ein Verfahren konzipiert, das eine effiziente

Optimierung des Input-Output-Verhaltens von technisch realisierten Netzwerken ermöglichen

soll. Mit 'Effizienz' ist hier die Fähigkeit gemeint, die spezielle Architektur von Neurocom-

putern, also ihren Aufbau aus einer großen Anzahl einfacher, meist parallel arbeitender Re-

cheneinheiten, zur Beschleunigung von Rechenvorgängen auszunutzen. Die Entwicklung von

Neurocomputern konnte in der Vergangenheit allerdings nicht mit der Entwicklung von

Netzwerkmodellen und Lernalgorithmen Schritt halten. In den meisten heutigen Anwendun-

gen werden Künstliche Neuronale Netze deshalb auf herkömmlichen Computern simuliert. In

Netzwerksimulationen erweist sich der auf der Methode des steilsten Abstiegs basierende

Backpropagation-Algorithmus als ein ineffizientes Optimierungsverfahren. Es ist wohl be-

kannt, daß die Methode des steilsten Abstiegs im allgemeinen wenig überzeugende Konver-

genzeigenschaften besitzt. Da in Simulationen auf herkömmlichen Rechnern keine Notwen-

digkeit besteht, sich spezifisch konnektionistischer Algorithmen zu bedienen, bietet sich hier

der Einsatz elaborierterer Optimierungsverfahren an, die sich in der statistischen Praxis als

Lösungsmethoden für nichtlineare Kleinste-Quadrate-Probleme bewährt haben. Mögliche

Alternativen sind Gradientenabstiegsverfahren vom Newton-Raphson-, Gauß-Newton- oder

Quasi-Newton-Typ. Die genannten Verfahrensklassen sind sehr umfangreich. An dieser Stelle

können nur einige Basisvarianten in ihren Grundzügen vorgestellt werden. Ausführlichere

Darstellungen finden sich beispielsweise in Kennedy & Gentle [1980] oder Fletcher [1987].

Einleitend seien einige Vereinbarungen getroffen. Das Problem besteht weiterhin in der Mini-

mierung der realisierten NKQ-Funktion Q W IRN : → mit

( ) ( )QN

y fN t t

t

N

w x w= −=∑1 2

1

( , )

und w ∈ ⊆W IR m . Die Zielfunktion wird als zweifach stetig differenzierbar vorausgesetzt. Ihre

lokalen und globalen Minimumstellen, sie seien mit w+ gekennzeichnet, werden vereinfachend

als isolierte innere Punkte des Definitionsbereichs W angenommen. Für einen lokalen Mini-

mumpunkt heißt dies, es existiert eine ε-Umgebung U IR Wmε ε( ) < w x x w+ += ∈ − ⊂ mit

ε > 0 , so daß ( )Q QN Nw w> +( ) für alle w w≠ + mit w w∈ +U ε ( ) gilt. Ein globaler Minimum-

punkt w+ erfüllt zusätzlich die Bedingung ( )Q QN Nw w≥ +( ) für alle w ∈W . Jede globale Mi-

nimumstelle ist auch eine lokale Minimumstelle. Die Umkehrung gilt nicht allgemein. Die

Annahme isolierter Minimumstellen setzt eine nicht-redundante Netzwerkarchitektur voraus

(vgl. Kapitel 5.5, S.94). Mit

( )g w

w

w( ): =

∂∂

Q N



soll der Spaltenvektor der m partiellen Ableitungen erster Ordnung (Gradient) und mit

( )H w

w

w w( ): =

′∂∂ ∂

2 Q N

soll die symmetrische (m,m)-Matrix der partiellen Ableitungen zweiter Ordnung (Hesse-

Matrix) von QN an einer festen Stelle w ∈W gekennzeichnet werden. Jeder Vektor w+, der

das nichtlineare Gleichungssystem

(5.17) g(w+) = 0

löst, heißt stationärer Punkt von QN. Ein stationärer Punkt kann eine lokale Minimumstelle,

eine lokale Maximumstelle oder ein Sattelpunkt sein. Die Gleichung (5.17) ist eine notwendi-

ge Bedingung für die Existenz einer lokalen Lösung des Minimierungsproblems. Hinreichend

für die Existenz eines lokalen Minimums an der Stelle w+ ist eine positiv definite Hesse-

Matrix H(w+). H(w+) heißt genau dann positiv definit, wenn die Ungleichung ′ >+a H w a( ) 0

für jeden reellen Vektor a = ′( , )a a am1 2 ,..., mit 0≠a erfüllt ist.

Die eingangs genannten Gradientenabstiegsverfahren sind geeignet, eine lokale Minimum-

stelle der Zielfunktion auf iterativem Wege zu ermitteln. Sie besitzen einen gemeinsamen

Grundaufbau (vgl. Kennedy & Gentle [1980, S.426ff]). Beginnend mit einem vorzugebenden

Anfangsvektor w1 erzeugen sie eine Punktfolge wk k =1 2, ,... nach der Iterationsvorschrift

(5.18) w w M g wk k k k k+ = −1 η ( ) (k = 1,2,3,...) .

Hierbei ist ηk ein positiver reeller Skalar, Mk eine (m,m)-Matrix und g(wk) der Gradient der

Zielfunktion an der Stelle wk . Die Zahl ηk heißt Schrittweite und der Vektor d M g wk k k≡ ( )

Suchrichtung des k-ten Iterationsschrittes. Die Wahl der Schrittweite ηk und der Matrix Mk ist

verfahrensspezifisch. Sie erfolgt bei allen Verfahren so, daß unter geeigneten Voraussetzungen

die mit der Punktfolge wk k =1 2, ,... korrespondierende Funktionswertefolge ( )QN kkw =1 2, ,...

streng monoton fällt:

(5.19) Q QN Nk k( ) ( )w w> +1 (k = 1,2,3,...) .

Die Iterationen werden nach dem k-ten Schritt abgebrochen, wenn die aktuelle Lösung wk+1

des Minimierungsproblems und/oder der zugehörige Funktionswert QN(wk+1) ein Konver-

genzkriterium erfüllt. Anderenfalls wird mit dem nächsten Iterationsschritt fortgefahren. Ge-

bräuchliche Konvergenzkriterien sind

(5.20a) w wk k+ − <1 1ε ,

(5.20b) ′ <+d dk k1 2ε und

(5.20c) ( ) ( )Q QN Nk kw w+ − <1 3ε ,

wobei ε1, ε2 und ε3 vorzugebene positive reelle Konstanten symbolisieren.



Die Schrittweite der Iterationsverfahren ist entweder a priori vorgegeben (d.h. ohne Beschrän-

kung der Allgemeinheit ηk ≡ 1) oder wird in jedem Iterationsschritt durch Lösen eines Mini-

mumunterproblems

(5.21) ( )minη

ηk

NQ k k k w d+

bestimmt. Die Minimumsuche erfolgt auf der durch den Vektor dk festgelegten Richtungs-

achse und wird als lineare Suche (line search) bezeichnet. In praktischen Anwendungen ist oft

eine grobe Näherungslösung des Unterproblems ausreichend. Lösungsmethoden diskutiert

z.B. Fletcher [1987, S.33ff]. Damit ein Funktionswerteabstieg (5.19) erreicht werden kann, ist

- neben einer geeigneten Schrittweitenwahl - eine symmetrische, positiv definite Matrix Mk

erforderlich. Die Funktion QN sei in einer Umgebung von wk gemäß

( )Q QN N k k kw w w w g w≈ + − ′( ) ( ) ( )

durch eine Taylor-Reihenentwicklung bis zum linearen Glied angenähert. Einsetzen von

(5.18) in obige Näherung liefert die für kleines ηk brauchbare Approximation

(5.22) Q QN Nk k k k k k( ) ( ) ( ) ( )w w g w M g w+ ≈ − ′1 η .

Gilt ′ >g w M g w( ) ( )k k k 0 , dann wird Q QN Nk k( ) ( )w w> +1 für hinreichend kleines ηk

erfüllt sein.

Die nachfolgend dargestellten Iterationsverfahren sind so konstruiert, daß sie unter geeigneten

Voraussetzungen eine streng monoton fallende Funktionswertefolge (5.19) gewährleisten und

daß die Punktfolge wk k =1 2, ,... gegen eine Lösung w+ des Gleichungssystems (5.17) konver-

giert. Der Grenzwert wird wegen (5.19) mit hoher Wahrscheinlichkeit eine lokale Minimum-

stelle sein. Die meisten Verfahren können allerdings eine Minimumstelle als Grenzwert nicht

garantieren. In Einzelfällen kann auch ein Sattelpunkt vorliegen. Nach Abbruch der Iteratio-

nen sollte daher die gefundene Näherungslösung des Gleichungssystems (5.17) auf Minimum-

eigenschaften geprüft werden. Unter den erwähnten 'geeigneten Voraussetzungen' ist im

wesentlichen die Vorgabe eines 'hinreichend guten' Startvektors w1 zu verstehen. Die Vorgabe

eines ungünstigen Startvektors verhindert bei vielen Verfahren eine konvergente Folge

wk k =1 2, ,... . Wird eine konvergente Folge verfehlt oder konvergiert die Folge gegen einen

Sattelpunkt, dann müssen die Iterationen mit einem anderen Startvektor wiederholt werden.

Die denkbar einfachste Wahl der Matrix Mk ist Mk = Im, wobei Im die (m,m)-Einheitsmatrix

kennzeichnet. Aus dem allgemeinen Iterationsschema (5.18) erhält man jetzt die Iterations-

gleichungen der bereits mehrfach angesprochenen Methode des steilsten Abstiegs:

(5.23) w w g wk k k k+ = −1 η ( ) (k = 1,2,3,...) .



Für hinreichend kleines ηk folgt aus (5.22) eine monoton fallende Funktionswertefolge (5.19).

In früheren Ausführungen zur Methode des steilsten Abstiegs wurde vereinfachend eine kon-

stante Schrittweite ηk c= > 0 angenommen. Diese Annahme ist jedoch nicht unproblema-

tisch. Gibt man eine Konstante c nahe null vor, dann wird die Folge wk k=1 2, ,... in aller Regel

extrem langsam konvergieren. Eine Wahl c >>0 kann eine Konvergenz ganz verhindern. Die

Schrittweite ηk sollte deshalb in jedem Iterationsschritt gemäß (5.21) durch lineare Suche be-

stimmt werden.

Löst die Schrittweite ηk das Minimumunterproblem (5.21), dann verschwindet die Ableitung

∂ η ∂ηQ N k k k k( ( ))w g w+ . Wegen

∂ η∂η

∂ η∂

Q QN Nk k k

k

k k kk k k

( ( )) ( ( ))( ) ( ) ( )

w g w w g w

wg w g w g w

+=

+

′= ′ =+1 0

sind die aktuelle Suchrichtung g(wk) und die Suchrichtung g(wk+1) des nachfolgenden Itera-

tionsschrittes zueinander orthogonal. Bildlich gesprochen steigt die Methode des steilsten Ab-

stiegs jetzt in 'Zickzack-Schritten' ein Funktionsgebirge hinab. Es läßt sich zeigen, daß die

Gradientenfolge ( ) = , , ...g wk k 1 2 unter recht allgemeinen Regularitätsbedingungen gegen einen

Nullvektor strebt (siehe z.B. Dennis & More [1977]). Die Folge wk k =1 2, ,... konvergiert dann

gegen eine Lösung w+ des Gleichungssystems (5.17). Die Wahl des Anfangsvektors w1 er-

weist sich hierbei als relativ unkritisch. Problematisch ist die im allgemeinen geringe Konver-

genzgeschwindigkeit. Die Methode ist höchstens linear konvergent; d.h., für eine Folge hk

mit h w wk k= − + und hk → 0 gilt:

h hk k a+ ≤ <1 1 oder ( )h hk kO+ =1 .

Lineare Konvergenz ist in der Praxis zumeist unbefriedigend, es sei denn, die Rate a ist nahe

null. Die Methode des steilsten Abstiegs zeigt die Tendenz, daß ihre Konvergenzgeschwindig-

keit, nach anfänglich größeren Fortschritten, in der Umgebung eines stationären Punktes deut-

lich sinkt (vgl. Kennedy & Gentle [1980, S.440]).

Die Methode des steilsten Abstiegs berücksichtigt bei der iterativen Bestimmung eines statio-

nären Punktes ausschließlich lokale Steigungscharakteristika der Zielfunktion QN. Die

Newton-Methode, auch Newton-Raphson-Methode genannt, nutzt zusätzlich die lokalen

Krümmungseigenschaften der Funktion, gemessen durch die partiellen Ableitungen zweiter

Ordnung, aus. Die Basisversion der Newton-Raphson-Iterationsgleichungen erhält man aus

dem allgemeinen Iterationsschema (5.18) durch die Wahl ηk = 1 und M H wk k= −1( ) . Die

Hesse-Matrix H(wk) (und damit auch Mk) muß positiv definit sein.



Die Grundidee der Methode läßt sich wie folgt skizzieren: Im k-ten Iterationsschritt wird QN

in einer Umgebung des Punktes wk durch eine Taylor-Reihenentwicklung bis zum quadrati-

schen Glied angenähert:

( )Q QN N k k k k k kw w w w g w w w H w w w≈ + − ′ + − ′ −( ) ( ) ( ) ( ) ( )( )12

.

Die quadratische Funktion auf der rechten Seite der Näherungsgleichung soll mit ~Q N gekenn-

zeichnet werden. Ist die Matrix ∂ ∂ ∂2 ~Q N k( ) ( )w w w H w′ ≡ positiv definit, dann besitzt

~Q N

an der Stelle wk+1 mit

( )∂∂

~QN kk k k k

ww

g w H w w w++= + − =1

1( ) ( )( ) 0

ein lokales und gleichzeitig globales Minimum. Die Minimumstelle wird jetzt als aktueller

Näherungswert für eine lokale Minimumstelle von QN genutzt. Die Vorgehensweise führt auf

die Iterationsgleichungen

(5.24) w w H w g wk k k k+−= −1

1( ) ( ) (k = 1,2,3,...) .

Die Zielfunktion QN ist in einer hinreichend kleinen Umgebung U ε ( )w+ einer (isolierten) lo-

kalen Minimumstelle w+ streng konvex; d.h., H(w) ist positiv definit für alle w w∈ +U ε ( ) . Ist

wk ein Punkt aus U ε ( )w+ , dann ermöglicht die oben angegebene quadratische Approximation

in aller Regel eine brauchbare lokale Näherung der Zielfunktion, und das Verfahren konver-

giert sehr schnell. Unter allgemeinen Voraussetzungen läßt sich zeigen, daß die Newton-

Raphson-Methode für Startwerte w1 aus einer hinreichend kleinen Umgebung U ε ( )w+ qua-

dratisch konvergent ist; d.h.

h hk k a+ ≤1

2 oder ( )h hk kO+ =1

2 ,

wobei wieder h w wk k= − + ist (siehe Fletcher [1987, S.47]). Die Methode konvergiert nahe

einer lokalen Minimumstelle weit schneller als die Methode des steilsten Abstiegs - allerdings

auf Kosten eines deutlichen Rechenmehraufwands je Iterationsschritt. In jedem Schritt muß

die Matrix H(wk ) evaluiert und das lineare Gleichungssystem H w w w g w( )( ) ( )k k k k+ − = −1

gelöst werden.

Den Vorzügen des Newton-Raphson-Verfahrens stehen gravierende Schwachstellen gegen-

über. Starten die Iterationen mit einem Anfangsvektor w1, der nicht in einer Umgebung eines

lokalen Minimumpunktes lokalisiert ist, dann gibt es keine Gewähr, daß die Hesse-Matrizen

H(wk) in jedem Iterationsschritt positiv definit sind. Liegt keine positiv definite Matrix vor,

dann weist der Vektor d H w g wk k k= −1( ) ( ) in eine falsche Suchrichtung und wk+1 wird sich

von einer Lösung des Minimierungsproblems entfernen. Eine streng monoton fallende Funk-

tionswertefolge (5.19) wird somit verfehlt. Darüber hinaus kann eine streng monoton fallende



Funktionswertefolge selbst dann verfehlt werden, wenn eine positiv definite Hesse-Matrix

gegeben ist. Aufgrund der festen Schrittweite ηk ≡ 1 ist es möglich, daß ein Iterationsschritt

'über das Ziel hinausschießt'.

Die letztgenannte Schwachstelle legt die Verwendung eines modifizierten Iterationsschemas

mit variabler Schrittweite ηk nahe:

(5.25a) w w H w g wk k k k k+−= −1

1η ( ) ( ) (k = 1,2,3,...) .

Die Schrittweite ηk ist gemäß (5.21) durch lineare Suche zu bestimmen. Ein Lösungsvor-

schlag für das erste Problem führt auf die Iterationsgleichungen

(5.25b) [ ]w w H w I g wk k k k k m k+−= − +1

1η λ( ) ( ) (k = 1,2,3,...) .

Hierbei ist λk eine nicht-negative reelle Zahl, die es so zu wählen gilt, daß die Matrix

H w I( )k k m+ λ positiv definit wird. Diese Modifikation des Newton-Raphson-Basisverfahrens

wurde von Goldfeld et al. [1966] vorgeschlagen und heißt quadratic hill climbing method.

Die Grundidee geht auf Levenberg [1944] und Marquardt [1963] zurück. Wird λk = 0 gesetzt,

dann liegt ein reines Newton-Raphson-Verfahren vor. Für wachsendes λk gehen die Iteratio-

nen zunehmend in einen einfachen Gradientenabstieg über. Die Vorgehensweise stellt somit

ein Kompromiß zwischen der Newton-Raphson-Methode und der Methode des steilsten Ab-

stiegs dar. Sie erweist sich als vergleichsweise ebenso robust gegenüber ungünstigen Start-

werten wie die Methode des steilsten Abstiegs. Strebt λk in der Umgebung einer lokalen Lö-

sung des Minimierungsproblems gegen null, dann kann quadratische Konvergenz erreicht

werden. Die Wahl von λk und die Konvergenzeigenschaften des Verfahrens diskutieren z.B.

Goldfeld & Quandt [1976, S.5ff]. Da λk üblicherweise in jeden Schritt adjustiert wird, kann

ηk ≡ 1 gesetzt werden.

Die Newton-Raphson-Methode und ihre Varianten sind allgemeine Optimierungsverfahren. Sie

können zur Bestimmung von lokalen Extremstellen auf beliebige Funktionen F IR IRm: →mit geeigneten Differenzierbarkeitseigenschaften angewendet werden. Die eng verwandte

Gauß-Newton-Methode ist speziell zur Lösung von NKQ-Problemen konzipiert. Sie nutzt aus,

daß die Gradienten und Hesse-Matrizen von NKQ-Funktionen eine spezifische Form besitzen.

Es sei J(w) eine (N,m)-Jacobi-Matrix mit den Vektoren ( ( , ) )∂ ∂f tx w w ′ (t = 1,...,N) als Zei-

len und ( )εε w ein N-dimensionaler Spaltenvektor mit den Approximationsresiduen ( )ε t w =y ft t− ( )x w, (t = 1,...,N) als Komponenten. Mit diesen Vereinbarungen lassen sich der Gra-

dient und die Hesse-Matrix der NKQ-Funktion QN an einer Stelle wk schreiben:

(5.26a) g w J w w( ) ( ) ( )k k kN

= − ′2εε ,



(5.26b)( ) ( )H w J w J wx w

w ww A w B w( ) ( ) ( ) ( ) ( ) ( )

k k kt k

t kt

N

k kN

f

N= ′

′

≡ −

=∑2 22

1

−−∂

∂ ∂ε

, .

Der Gauß-Newton-Ansatz vernachlässigt die Matrix B(wk) in (5.26b). Die Hesse-Matrix

H(wk) wird gemäß

(5.27) H w A w J w J w( ) ( ) ( ) ( )k k k kN N

≈ = ′2 2

angenähert. Setzt man die Näherung (5.27) in die Newton-Raphson-Gleichungen (5.24) ein,

dann erhält man das Gauß-Newton-Iterationsschema

(5.28) [ ]w w J w J w J w wk k k k k k+−= + ′ ′

11

( ) ( ) ( ) ( )εε (k = 1,2,3,...) .

Die Approximation (5.27) ist äquivalent mit einer lokalen linearen Approximation der Funk-

tion f ( )x w, um den Punkt wk:

f ff

ff

k kk

k kk( ) ( ) ( )

( )( )

( )x w x w w w

x w

wx w d

x w

w, ,

,,

,≈ + − ′ ≡ + ′

∂∂

∂∂

.

In jedem Iterationsschritt wird das nichtlineare Kleinste-Quadrate-Problem durch ein lineares

Kleinste-Quadrate-Problem

min ,,

dx w d

x w

wk Ny f

ft t k k

t k

t

N

( )( )1 2

1

− − ′

=

∑∂

∂

ersetzt. Die Lösung des Ersatzproblems erhält man analog zu (4.23) - (4.26):

[ ]d J w J w J w wk k k k k= ′ ′−( ) ( ) ( ) ( )

1 εε .

Sie ist gerade die Suchrichtung (und wegen ηk ≡ 1 gleichzeitig der Aktualisierungsvektor

ηkdk) des k-ten Gauß-Newton-Schrittes.

Die Güte der Approximation in (5.27) übt einen starken Einfuß aus das Konvergenzverhalten

des Verfahrens aus. Sind die Approximationsfehler vernachlässigbar klein, dann konvergiert

das Verfahren für Startwerte w1 aus einer hinreichend kleinen Umgebung U ε ( )w+ einer lo-

kalen Minimumstelle w+ mindestens linear. Ist B(wk) für alle k eine Nullmatrix, dann sind die

Gauß-Newton-Iterationen mit Newton-Raphson-Iterationen identisch und konvergieren qua-

dratisch. In vielen Anwendungen ist die Approximation (5.27) jedoch nur sehr grob. Ein Indi-

kator für eine geringe Approximationsgüte sind absolut große Residuen ε t k( )w >> 0 (t = 1,..

..,N). Die Matrix B(wk) liefert dann i.d.R. einen substanziellen Beitrag zur Hesse-Matrix

H(wk) (vgl. Gleichung (5.26b)). Die Gauß-Newton-Iterationen werden jetzt nicht schneller als

linear konvergieren oder gar nicht konvergieren. Letzteres kann selbst dann eintreten, wenn



ein Anfangsvektor w w1 ≠ + aus einer beliebig kleinen Umgebung einer Minimumstelle w+

vorgegeben wird (siehe Fletcher [1987, S.113]).

Die Konvergenzprobleme können durch die lineare Suche einer variablen Schrittweite ηk ge-

mäß (5.21) gemildert werden. Eine robuste Problemlösung ermöglicht das auf Levenberg

[1944] und Marquardt [1963] zurückgehenden modifizierten Iterationsschema

(5.29) [ ]w w J w J w I J w wk k k k k m k k+−= + ′ ′

11

( ) ( ) + ( ) ( )λ εε (k = 1,2,3,...)

mit λ k ≥ 0 . Durch die Steuerung des Faktors λk ist es möglich, von Gauß-Newton-Iterationen

fließend zu einem einfachen Gradientenabstieg überzugehen und umgekehrt. Das sogenannte

Levenberg-Marquardt-Verfahren löst außerdem Probleme, die aus schlecht konditionierten

Jacobi-Matrizen entstehen. Die Kreuzproduktmatrizen ′J w J w( ) ( )k k sind stets positiv semi-

definit; d.h., für beliebige reelle Vektoren a = ′ ≠( , )a am1 ... , 0 ist ′ ′ ≥a J w J w a( ) ( )k k 0 er-

füllt mit ′ ′ =a J w J w a( ) ( )k k 0 genau dann, wenn ′J w J w( ) ( )k k singulär ist. Die Nicht-

Singularität oder Regularität der Kreuzproduktmatrizen ist nicht a priori sichergestellt. Liegt

eine singuläre oder fast singuläre Matrix vor, dann ist der Gauß-Newton-Schritt (5.28) nicht

eindeutig bzw. es muß mit numerisch unzuverlässigen Berechnungsergebnisse gerechnet

werden. Durch eine geeignete Wahl von λk kann stets eine 'ausreichend' reguläre Matrix

′J w J w I( ) ( ) +k k k mλ erzwungen werden.

Das Levenberg-Marquardt-Verfahren ist ein populäres Iterationsverfahren zur Lösung von

NKQ-Problemen. Da es auf die exakte Berechnung von partiellen Ableitungen zweiter Ord-

nung verzichtet, erfordert ein Iterationsschritt weniger Rechenoperationen als beispielsweise

ein Quadratic-Hill-Climbing-Schritt (5.25b). Bei hochdimensionalen Problemen ist die Re-

duktion des Rechenaufwands beträchtlich. Der zur Evaluierung einer (m,m)-Hesse-Matrix

H(wk) erforderliche Aufwand steigt mit der Dimension m überproportional an. Konkret

müssen [unter Ausnutzung der Symmetrie von H(wk)] m(m+1)/2 partielle Ableitungen zweiter

Ordnung ermittelt werden. Die Einsparungen je Iterationsschritt haben allerdings einen Preis.

Sie werden häufig mit einer größeren Anzahl von Schritten bezahlt. Der Einsatz der

Levenberg-Marquardt-Methode als ein 'Lernverfahren' für Mehrschicht-Perzeptrone erscheint

dennoch attraktiv. Da die Gewichtsvektoren von Künstlichen Neuronalen Netzen typischer-

weise hochdimensional sind, ist die Berechnung von Hesse-Matrizen extrem aufwendig.

Aspekte der Implementierung der Levenberg-Marquardt-Methode als ein Lernverfahren und

Ergebnisse praktischer Anwendungen diskutieren z.B. Hagan & Manhaj [1994].

Eine weitere Klasse von Iterationsverfahren bilden die sogenannten Quasi-Newton-Verfahren.

Ihre Iterationsschemata besitzen einen vergleichbaren Aufbau wie das Iterationsschema

(5.25a) der Newton-Raphson-Methode mit linearer Suche. Der Unterschied besteht darin, daß



die inverse Hesse-Matrix H w−1 ( )k in (5.25a) durch eine symmetrische, positiv definite Ma-

trix Mk approximiert wird. Die Approximation erfolgt schrittweise. Die Matrix Mk wird von

Iterationsschritt zu Iterationsschritt durch eine Update-Gleichung korrigiert. Die Berechnung

von partiellen Ableitungen zweiter Ordnung ist hierbei nicht notwendig. Die Quasi-Newton-

Verfahren sind daher auch in Situationen einsetzbar, in denen nur die partiellen Ableitungen

erster Ordnung mit vertretbarem Aufwand ermittelbar sind.

Das Basis-Iterationsschema besitzt die Form

(5.30) w w M g w

M M Ck k k k k

k k k

+

+

= −

= +1

1

η ( ) ,

(k = 1,2,3,...) .

Die Schrittweite ηk ist gemäß (5.21) durch lineare Suche zu bestimmen. Ck ist eine Korrek-

turmatrix für die im k-ten Schritt vorliegende Approximation Mk der inversen Hesse-Matrix.

Als Anfangsmatrix M1 kann theoretisch jede symmetrische, positiv definite (m,m)-Matrix ver-

wendet werden. In Situationen, in denen keine brauchbare Anfangsapproximation für H(w1)

verfügbar ist, wird häufig M1 = Im gesetzt.

Wünschenswert ist es, daß wiederholte Korrekturen eine beliebige Startmatrix M1 in eine

brauchbare Approximation von H w−1 ( )k überführen. Es stellt sich die Frage, welche Eigen-

schaften die Korrekturmatrizen Ck besitzen müssen, damit dieses Ziel erreicht werden kann.

Da Newton-Verfahren auf quadratischen Approximationen basieren, ist es natürlich, die Frage

für quadratische Funktionen zu beantworten. Es sei daher vorübergehend eine quadratische

Zielfunktion QN mit einer (konstanten) positiv definiten Hesse-Matrix H angenommen:

( )Q aN

w w b w Hw= + ′ + ′1

2 .

Für die Funktion gilt

g w b Hw( )k k= + und ( )g w g w H w w( ) ( )k k k k+ +− = −1 1 .

Mit ∆g w g w g w( ): ( ) ( )k k k= −+1 und ∆w w wk k k:= −+1 kann die zweite Gleichung auch

∆ ∆g w H w( )k k= oder H g w w− =1 ∆ ∆( )k k

geschrieben werden. Es gelte nun M Hk ≈ −1 bzw. M g w wk k k∆ ∆( ) ≈ . Die Korrekturmatrix

Ck sollte jetzt so gewählt werden, daß M M Ck k k+ = +1 die sogenannte Quasi-Newton-Bedin-

gung

M g w wk k k+ =1∆ ∆( )

erfüllt. Ferner muß Mk+1, wenn Mk symmetrisch und positiv definit ist, ebenfalls symmetrisch

und positiv definit sein (vgl. Fletcher [1987, S.49ff]).



Es gibt viele Ansätze, die diesen Bedingungen genügen. Einer der leistungsfähigsten ist das

Broyden-Fletcher-Goldfarb-Shanno-(BFGS)-Verfahren mit der Korrekturmatrix

(5.31) Cg w M g w

w g w

w w

w g w

w g w M M g w w

w g wkk k k

k k

k k

k k

k k k k k k

k k

= +′

′

′′

−′ + ′

′1

∆ ∆∆ ∆

∆ ∆∆ ∆

∆ ∆ ∆ ∆∆ ∆

( ) ( )

( ) ( )

( ) ( )

( ).

Das BFGS-Verfahren wurde parallel von Broyden [1970], Fletcher [1970], Goldfarb [1970]

und Shanno [1970] entwickelt. Es besitzt eine Reihe günstiger Konvergenzeigenschaften

(Fletcher [1987, S.56]). Ist die Zielfunktion quadratisch, dann führen die Matrixkorrekturen

nach spätestens m Iterationen auf M Hm +−=1

1 . Ist sie nicht quadratisch, dann erhält (5.31)

wenigstens die Symmetrie und positive Definitheit einer Startmatrix M1. In einer hinreichend

kleinen Umgebung U ε ( )w+ einer lokalen Minimumstelle w+ konvergiert das Verfahren unter

recht allgemeinen Bedingungen superlinear gegen w+; d.h.

limk

k

k→∞+ =

h

h1 0 oder ( )h hk ko+ =1

mit h w wk k= − + . Das BFGS-Verfahren erreicht somit keine quadratische Konvergenz. Die

Konvergenzgeschwindigkeit ist in der Nähe einer lokalen Lösung eines Minimierungs-

problems aber deutlich höher als die der Methode des steilsten Abstiegs und in aller Regel

auch höher als die der Gauß-Newton-Verfahren.

In dem hier interessierenden NKQ-Kontext ist es naheliegend, als Startmatrix M1 die Inverse

der Gauß-Newton-Matrix in (5.27) zu wählen; d.h. M J w J w1 [ ( ) ( )]= ′− −2 1 1

1 1N . Fletcher

[1987, S.117] schlägt darüber hinausgehend vor, das Gauß-Newton- und BFGS-Verfahren zu

einer hybriden Methode zu verschmelzen. Ausgehend vom Iterationsschema (5.30) wird in je-

dem Iterationsschritt mit Hilfe eines Entscheidungskriteriums geprüft, ob Mk entweder gemäß

M J w J wk k kN= ′− −[ ( ) ( )]2 1 1 oder gemäß M M Ck k k= +− −1 1 mit Ck aus (5.31) berechnet

werden soll. Die hybride Methode kombiniert die Stärken beider Verfahren.

Für Newton-Raphson-, Gauß-Newton- und Quasi-Newton-Verfahren sind ausgereifte Imple-

mentierungsstrategien verfügbar, die eine effiziente Ausnutzung von Speicherkapazitäten und

numerisch stabile Berechnungen ermöglichen (siehe Kennedy & Gentle [1980]). In Netzwerk-

simulationen führt der Einsatz der Verfahren in aller Regel deutlich schneller zum Lernerfolg

als der Einsatz von Backpropagation-Algorithmen. Performancevergleiche finden sich z.B. in

Hagan & Menhaj [1994] oder Kasparian et al. [1994]. Die Einsatzmöglichkeiten stoßen aller-

dings auf Grenzen, wenn die Dimension des Minimierungsproblems, sprich die Dimension m

des Gewichtsvektors w, sehr groß wird. Grenzen der Newton-Raphson-Varianten wurden be-

reits genannt. Grenzen werden in abgeschwächter Form auch für Gauß-Newton- und Quasi-

Newton-Verfahren wirksam. Beispielsweise erfordert jeder Levenberg-Marquardt-Schritt die



Lösung des linearen Gleichungssystems ( )( )′ − = ′+J w J w I w w J w w( ) ( ) + ( ) ( )k k k m k k k kλ 1 εεmit m Gleichungen und m Unbekannten. Für m > 1000 - eine Größenordnung, die in Anwen-

dungen von Mehrschicht-Perzeptronen nicht ungewöhnlich ist, - können die Speicheranforde-

rungen die verfügbare Speicherkapazität überschreiten. Einen Ausweg eröffnen hier die soge-

nannten Konjugierte-Gradienten-Verfahren (siehe Kennedy & Gentle [1980, S460ff]).

Alle genannten Verfahren sind konstruktionsbedingt lokale Optimierungsverfahren. Bei einer

geeigneten Wahl des Startvektors liefern sie eine Näherung an eine lokale Minimumstelle der

Zielfunktion als Ergebnis. Eine globale Lösung des Minimierungsproblems können sie nicht

garantieren. Das Problem kann durch Multistarts abgeschwächt werden.

5.5 Asymptotische Eigenschaften der Backpropagation-Schätzer

Der Backpropagation-Algorithmus wurde in Abschnitt 5.3 als eine rekursive Methode zur

Berechnung von NKQ-Schätzwerten eingeführt. Jetzt sollen die asymptotischen Eigenschaften

der resultierenden Backpropagation-(BP)-Schätzer angegeben werden. Hierbei wird auf Er-

gebnisse aus dem Bereich der NKQ-Schätzung bei Vorliegen fehlspezifizierter Regressions-

modelle zurückgegriffen (siehe z.B. White [1981], Domowitz & White [1982], Gallant &

White [1988] oder auch Wooldridge [1994]) und die Identität von NKQ- und BP-Schätzern

unterstellt. Dies setzt voraus, daß der Backpropagation-Algorithmus (fast sicher) konvergiert

und keine suboptimalen Schätzergebnisse liefert. In der Praxis erweist sich diese Voraus-

setzung natürlich als weniger realistisch. Dieses Problem teilt Backpropagation jedoch mit

allen gängigen gradientenbasierten NKQ-Schätzalgorithmen. Überdies kann das Problem

durch den Einsatz von Simulated Annealing- oder Multistart-Techniken gemildert werden.

Der datenerzeugende Prozeß ( ) Z Xt t tY t T= ′ ′ ∈, sei mit den in Abschnitt 5.3.1 genannten Ei-

genschaften ausgestattet: Sein Zustandsraum ist geeignet beschränkt; der Prozeß ist entweder

(i) i.i.d. oder (ii) streng stationär und ergodisch oder (iii) stationär erster Ordnung und gleich-

förmig bzw. stark mischend. Der Raum W der Gewichte eines MLP-Netzes sei eine kompakte

Teilmenge des IRm und ein Vektor wo, der das Minimierungsproblem (5.8) löst, ein innerer

Punkt von W. Die Menge aller Lösungsvektoren von (5.8) soll mit Wo bezeichnet werden:

W W M M Wo o o

= ∈ ≤ ∈w w w w ( ) ( ) für alle .

Vereinfachend wird zunächst die Mächtigkeit Wo = 1 der Lösungsmenge angenommen; d.h.,

es existiert ein global identifizierter Vektor wo. Schließlich bezeichne $, , . . .wN N

NKQ

=1 2 eine Folge

von NKQ-Schätzern für wo. Das N-te Glied $wNNKQ der Folge erfüllt das Minimumkriterium



(5.32) ( ) ( )minw

w X w Z w∈ = =

= − =

∑ ∑W

t tt

N

tt

N

QN

Y fN

qN

( , ) ( , )1 22

1 1

mit q Y ft t t( ) ( ( ))Z w X w, ,= −1

2

2 .

Ist Zt t T∈ i.i.d., dann ist für jedes feste w ∈W die Folge ( )2 1 2q t tZ w, , , . . .= ebenfalls i.i.d..

Analog führt ein streng stationärer ergodischer Prozeß oder ein stationärer mischender Prozeß

(Stationarität erster Ordnung) für jedes feste w ∈W auf eine streng stationäre ergodische oder

stationäre mischende Sequenz ( )2 1 2q t tZ w, , , . . .= . Auf die jeweils zugehörige Folge arithmeti-

scher Mittelwerte ( )Q N Nw =1 2, , . . . wirkt unter allgemeinen Regularitätsbedingungen gleich-

mäßig über W ein starkes Gesetz der großen Zahl:

(5.33) ( ) ( )sup. .

ww w

∈− →

W

f sQ MN 0 ,

und es gilt auch

(5.34) $ . .w wNNKQ f s

o → .

Der NKQ-Schätzer ist ein stark konsistenter Schätzer für wo. Die Regularitätsbedingungen

und die Beweisführung geben White [1981] und Domowitz & White [1982] an. Die Autoren

weisen ferner die asymptotische Normalverteilung der NKQ-Schätzer nach. Unter allgemeinen

Voraussetzungen strebt die Folge ( )N N NNKQ

o$

, , ...w w− =1 2 für N → ∞ in Verteilung gegen

eine multivariate Normalverteilung:

(5.35) ( ) ( )N NNNKQ

NKQo

i V$ ,. .

$w w

w− → 0 ΣΣ ,

ΣΣ$w NKQ = A w B w A w( ) ( ) ( )o o o

− −1 1

mit den (m,m)-Matrizen

A w A w( ) ( )oN

oN=→∞lim und B w B w( ) ( )o

NoN=

→∞lim ,

wobei

A wZ w

w w

X ,w

w

X ,w

w

X w

w wZ w

N ot o

t

N

t o t o t ot o

t

N

N Eq

N Ef f f

( )( )

( ) ( ) ( )( )

=′

=

⋅

−

′⋅

−

−

=

=

∑

∑′

1

1

2

1

2

1

∂∂ ∂

∂∂

∂∂

∂∂ ∂

ε

,

,,

sowie



B wZ w

w

Z w

w

Z w

wN ot o

t

Nt o t o

t

N

Var Nq

N Eq q

( )( ) ( ) ( )

=

=

− −

= =∑ ∑

′1 2 1

1 1

/, , ,∂

∂∂

∂∂

∂

=

⋅

⋅

−

=

′∑N E

f ft o t ot o

t

N1 2

1

∂∂

∂∂

ε( ) ( )

( )X ,w

w

X ,w

wZ w, .

mit ε( ) ( )Z w X wt t tY f, ,= − ist. Die Darstellung der Matrix A w( )o läßt sich vereinfachen. Da

die Prozeßvektoren durchgängig als identisch verteilt angenommen werden, ist offensichtlich

A wZ w

w w

Z w

w w

Z w

w wN ot o

t

Nt o t oN E

qN NE

qE

q( )

( ) ( ) ( )=

′

=

′

=

′

− −

=∑1 1

2

1

2 2∂∂ ∂

∂∂ ∂

∂∂ ∂

, , ,

für ein beliebiges t T∈ , und es gilt A w A w( ) ( )o oN≡ . Liegt ein i.i.d. Prozeß Zt t T∈ vor, dann

läßt sich auch B w( )o vereinfachen. Die zufälligen Gradienten ∂ ∂q t o( )Z w w, (t = 1,...,N)

sind jetzt i.i.d. und für die Matrix B wN o( ) gilt

B wZ w

w

Z w

w

Z w

w

Z w

w

N ot o

t

Nt o

t

N

t o t o

N Varq

N Varq

N N Varq

Varq

( )( ) ( )

( ) ( )

=

=

=

=

− −

−

= =∑ ∑1 1

1

1 1

∂∂

∂∂

∂∂

∂∂

, ,

, ,

mit beliebigem t T∈ . In diesem Spezialfall ist B w B w( ) ( )o oN≡ (siehe White [1981]).

Man beachte, daß das Ergebnis (5.35) die asymptotische Verteilungsaussage für den linearen

KQ-Schätzer aus Kapitel 4.3 als Spezialfall einschließt. Setzt man f w Xt i i tip( ) : X w, = ∑ =0 mit

X t01≡ , dann geht ΣΣ

$w NKQ in die asymptotische Kovarianzmatrix des linearen KQ-Schätzers

ΣΣ$w KQ aus (4.33) über. Man beachte ferner, daß das Ergebnis (5.35) nicht die ansonsten in der

Regressionsrechnung üblichen Annahmen einer korrekten Modellspezifikation (d.h. hier

[ ]( )P E Y ft t t oX X w= =( , ) 1 ) und unabhängiger, homoskedastischer Fehler- oder Störterme

ε( ) ( )Z w X wt o t t oY f, ,= − voraussetzt. Im Spezialfall, daß jedoch (i) [ ]E Y ft t t oX X w= ( , )

fast sicher erfüllt ist, daß (ii) die Fehler i.i.d. sind mit dem Mittel [ ]E t oε( )Z w, = 0 und der

Varianz [ ]Var t oε σ( )Z w, = < ∞2 und daß (iii) die Fehler von X t stochastisch unabhängig

sind, gilt B w A wN No o( ) ( )= σ2 und die asymptotische Kovarianzmatrix ΣΣ$w NKQ des NKQ-

Schätzers nimmt die im Fall korrekt spezifizierter Regressionsmodelle übliche Form ΣΣ$w NKQ =

σ2 1A w( )o− an (siehe Domowitz & White [1982]).

Für einen festen, hinreichend großen Umfang N eines Lerndatensatzes kann die tatsächliche

Verteilung des NKQ-Schätzers $wNNKQ brauchbar durch eine ( )N No NKQw

w ,

$−1 ΣΣ -Verteilung

angenähert werden. Speziell die Kenntnis der Kovarianzmatrix ist hilfreich zur Beurteilung



der Schätzgenauigkeit. Im Falle eines i.i.d. Prozesses Zt t T∈ ist die Matrix ΣΣ$w NKQ unter all-

gemeinen Voraussetzungen konsistent schätzbar durch

(5.36) $$

ΣΣw NKQ = $ $ $A B AN N N

− −1 1

mit den (m,m)-Matrizen

$$ $ , $

, $AX ,w

w

X ,w

w

X w

w wZ w

N

N N N

NN

f f ft t tt

t

N NKQ NKQ NKQ

NKQ=

⋅

−

′⋅−

=

′∑1

2

1

∂∂

∂∂

∂∂ ∂

ε( ) ( ) ( )

( ) ,

$ , $$ $

B Z wX ,w

w

X ,w

wN N

N NNf f

tt t

t

NNKQ

NKQ NKQ

= ⋅

⋅

−

=

′∑1 2

1

ε∂

∂∂

∂( )

( ) ( ) .

Gilt im Spezialfall ΣΣ$w NKQ = σ2 1A w( )o

− , dann ist ein konsistenter Schätzer durch $$

ΣΣw NKQ =

$ $σ2 1AN−

mit $σ2 = N t NNKQ

tN−=∑1

1ε( ) 2Z w, $ gegeben (White [1981]). Einen konsistenten

Schätzer bei Vorliegen von Zeitreihendaten geben Domowitz & White [1982] an.

Bisher wurde die globale Identifizierbarkeit von wo unterstellt. Die MSE-Funktion M(w) in

(5.8) weist jedoch i.d.R. multiple Minimumstellen auf; d.h. Wo > 1 . Die Bedingung der glo-

balen Identifizierbarkeit läßt sich auf multiple, lokal identifizierbare Minimumstellen ab-

schwächen, ohne daß hierdurch die asymptotischen Eigenschaften (5.34) und (5.35) zerstört

werden (siehe White [1989b]). Man spricht von lokal identifizierbaren Minimumstellen, wenn

die Vektoren wo oW∈ isolierte Punkte im Gewichtsraum W sind. Jedes wo besitzt eine offene

ε-Umgebung U IR Wo om

ε ε( ) < w x x w= ∈ − ⊂ mit ε > 0 , über die wo eine eindeutige

Minimumstelle der Funktion M(w) ist. Ist eine lokale Identifizierbarkeit nicht gegeben, dann

bricht die Konvergenz in Verteilung (5.35) zusammen, und die Schätzer besitzen asympto-

tisch keine multivariate Normalverteilung. Dieser Fall tritt ein, wenn die Eingabevektoren Xt

redundante Variablen enthalten und/oder das Netzwerk redundante verborgene Einheiten be-

sitzt. Redundanz meint hier, daß die Inputs und/oder Einheiten keinen (zusätzlichen) Beitrag

zur Prognose der Zielvariablen Yt liefern und daher ohne Performanceverlust entfernt werden

können. Das Problem kann (zumindest theoretisch) von einem Anwender bereinigt werden,

wenn es ihm gelingt, die Redundanzen zu entfernen.

Es sei angemerkt, daß Konsistenz und asymptotische Normalverteilung von NKQ-Schätzern

$wNNKQ auch dann bewiesen werden kann, wenn die hier im Zeitreihenkontext durchgängig

postulierten Stationaritätsannahmen relaxiert werden. Es liegt dann ein instationärer datener-

zeugender Prozeß Zt t T∈ vor. Die Abhängigkeitsbeziehungen zwischen Yt und Xt sind nicht

mehr notwendig zeitkonstant. Domowitz & White [1982] zeigen, daß unter geeigneten

Mischungs- und Regularitätsbedingungen $wNNKQ jetzt eine konsistente Schätzung des Vektors



(5.37) ( )w ww

oW

M N=∈

arg min mit ( ) ( ) ( )MN

Y f dFN tI R t t

t

N

pw X w zZ= −+∫∑

=

1 2

1

1( , ) ,

möglich ist, wobei ( )M N w ein durchschnittlicher mittlerer quadratischer Approximations-

fehler ist. FtZ ist die Verteilungsfunktion des Zufallsvektors Zt zum Zeitpunkt t.

Die genannten statistischen Eigenschaften von NKQ-Schätzern sind lediglich asymptotischer

Natur. Die Bestimmung von Eigenschaften bei Vorliegen endlicher Datenumfänge N erweist

sich als ein analytisch nicht handhabbares Problem. Es stellt sich mithin die Frage, wann N

hinreichend groß genug ist, um eine brauchbare Annäherung eines Vektors wo durch eine

NKQ-Schätzung oder auch eine brauchbare Annäherung der tatsächlichen Verteilung von

$wNNKQ durch die asymptotische Normalverteilung erwarten zu dürfen. Eindeutige Antworten

auf diese Fragen gibt es nicht. Das jeweilige Konvergenzverhalten ist stark kontextabhängig.

Es wird von der zeitlichen Abhängigkeitsstruktur des datenerzeugenden Prozesses ebenso

beeinflußt wie von der Dimension p der Eingabevektoren und der Dimension m des Ge-

wichtsvektors. Je stärker die Abhängigkeitsbeziehungen und je größer die Dimensionen sind,

um so größer sollte N sein. Da in vielen Anwendungen die Eingabe- und Gewichtsvektoren

hochdimensional sind, erweisen sich MLP-Netze in diesem Sinne als 'datenhungrig'.

Der Zusammenhang von NKQ- und BP-Schätzung ist ausschließlich in zyklischen Lernsitua-

tionen gegeben. Ein MLP(p,r,1)-Netz kann aber auch in einen Echtzeit-Datenstrom eingebettet

und der Backpropagation-Algorithmus als ein rekursives Schätzverfahren eingesetzt werden.

In der Echtzeit-Lernsituation ist es möglich, die BP-Schätzer in geschlossener Form zu notie-

ren:

(5.38) ( )$ $ , $, $

w w X wX w

wt t t t tt tY f

f+ = + −

1η

∂∂

( )( )

(t = 1,2,3,...) .

Es wird unterstellt, daß zu jedem Schätzzeitpunkt t eine Beobachtung des Zufallsvektors Zt

verfügbar ist. Die Rekursion wird durch Vorgabe eines Startvektors $w1 mit zufällig gewählten

Komponenten initialisiert. Wie im Fall der rekursiven LMS-Schätzung kann eine konsistente

Schätzerfolge = 1 ,2 ,. ..

$wt t nur dann nachgewiesen werden, wenn die konstante Lernrate η

durch ein variables ηt ersetzt wird, das für t→∞ mit einer geeigneten Rate gegen null strebt.

Die erforderlichen Untersuchungen liefert für stochastisch unabhängige und identisch verteilte

Zufallsvektoren Zt wiederum White [1989a]. Er nutzt hierbei den Zusammenhang zwischen

der rekursiven Schätzgleichung (5.38) und dem stochastischen Approximationsverfahren von

Robbins & Monro [1951] (vgl. die Ausführungen in Kapitel 4.4).

Es bezeichne W+ die Menge aller Lösungen w+ ∈W der Gleichung

( ) ( )∂∂

∂∂

ME Y ft t

w

w wX w+

+= −

=( , ) 2 0 .



Hierbei wird die Austauschbarkeit von Differentiation und Erwartungswertbildung vorausge-

setzt. Die stationären Punkte w+ können globale oder lokale Extremstellen oder Wendepunkte

der Funktion M(w) aus (5.8) sein. Wird eine Lernratenfolge = 1 ,2 ,.. .

ηt t

mit η κt t∝ −

( )0 1< ≤κ gewählt, zeigt White [1989a], daß die BP-Schätzer = 1 ,2 ,. ..

$wt t entweder divergieren

oder gegen einen stationären Punkt w+ +∈W konvergieren (jeweils mit Wahrscheinlichkeit

1). Sind die stationären Punkte lokal identifizierbar, dann divergieren die Schätzer oder kon-

vergieren gegen eine lokale, aber nicht notwendig auch globale Minimumstelle (jeweils mit

Wahrscheinlichkeit 1). Darüber hinaus weist White auch die asymptotische Normalverteilung

von t t( )$w w− + nach. Vorausgesetzt werden muß hierbei die fast sichere Konvergenz der

Schätzer gegen eine lokale Minimumstelle und Lernraten ηt t∝ −1 . Die Echtzeit-BP-Schätzer

machen im Vergleich zu NKQ-Schätzern bzw. zyklischen BP-Schätzern offensichtlich keinen

effizienten Gebrauch von den Lerndaten. Ein weiteres Ergebnis von White ist, daß die Echt-

zeit-BP-Schätzer $wt asymptotisch ineffizient sind. Ihre asymptotischen Varianzen sind größer

oder höchstens gleich den asymptotischen Varianzen von NKQ-Schätzern.

White [1989a] setzte bei den Untersuchungen stochastisch unabhängige und identisch verteilte

Zufallsvektoren Zt voraus. Eine Verallgemeinerung der Ergebnisse auf den Fall abhängiger

Vektoren liefern Kuan & White [1989,1994]. Ein weiteres interessantes Ergebnis geht auf

Kushner [1987] zurück. Zur Vermeidung suboptimaler, lokaler Lösungen des Lernproblems,

kann die bereits in Abschnitt 5.4.2 vorgestellte Simulated-Annealing-Methode verwendet wer-

den. Beim Echtzeit-Lernen führt dies auf die Rekursion:

(5.39) ( )$ $ , $, $

w w X wX w

wt t t t t tt t

tY f

f+ = + − +

1

η∂

∂ζ( )

( )(t = 1,2,3,...) ,

wobei ζ t t =1 2, ,... wieder eine Folge unabhängiger, identisch verteilter Zufallsvektoren ist.

Kushner [1987] beweist die fast sichere Konvergenz der Schätzer gegen eine globale Mini-

mumstelle für normalverteilte Zufallsvektoren ζt und Lernraten ( )ηt t∝ −ln 1 .

5.6 Mehrschicht-Perzeptrone und nichtparametrische Regression

5.6.1 Das Bias/Varianz-Dilemma

In der bisherigen Diskussion galt das Augenmerk Verfahren der Gewichtsschätzung und den

asymptotischen Eigenschaften von Schätzfunktionen. Hierbei wurde durchgängig eine fest

vorgegebene Netzwerkarchitektur unterstellt. Der Blickwinkel soll jetzt erweitert werden.

Natürlich ist das Hauptziel von Netzwerklernen nicht in einer konsistenten Schätzung von



Netzgewichten zu sehen. Hauptziel ist es, auf der Basis von Lerndaten eine Funktion

f t( )X w, zu bestimmen, die eine (im Sinne des MSE-Kriteriums) möglichst gute Prognose

der Zielvariablen Yt durch zukünftige Beobachtungen des Eingabevektors Xt erlaubt. Die Pro-

gnose- oder 'Generalisierungseigenschaften' eines MLP-Netzes hängen offensichtlich von den

geschätzten Gewichten und der Flexibilität der Netzausgabefunktion - sprich der Anzahl ver-

borgener Einheiten - ab. Die Zielerreichung setzt eine problemadäquate Spezifikation der

Netzwerkarchitektur voraus.

Mehrschicht-Perzeptrone sind universelle Approximatoren. Sofern die Anzahl der verborgenen

Einheiten genügend groß ist, sind sie geeignet, jede Borel-meßbare Funktion mit einem kom-

pakten Definitionsbereich beliebig genau zu approximieren. Die bereits in Abschnitt 5.2 vor-

gestellte Existenzaussage berücksichtigt allerdings nicht, daß die Netzgewichte a priori unbe-

kannt sind und geschätzt werden müssen. Wie Geman et al. [1992] herausarbeiten, müssen die

Approximationseigenschaften von Künstlichen Neuronalen Netzen limitiert sein, wenn als

Datenbasis eine Trainingsmenge mit finitem Umfang N zur Verfügung steht. Die Autoren be-

zeichnen die Limitation als ein Bias/Varianz-Dilemma.

Geman et al. betonen, daß die Netzausgabefunktionen Künstlicher Neuronaler Netze nur

nominell parametrische Funktionen darstellen. Aufgrund ihrer potentiellen Flexibilität sollten

sie den Bereich der nichtparametrischen Regression (quasi-parametrischer Ansatz) zugeordnet

werden. Um diese Sicht zu bekräftigen, wird die bisher verwendete Notation an dieser Stelle

geringfügig modifiziert. Das Lernziel bestehe in der Schätzung einer unbekannten 'wahren'

Regressionsfunktion µ o t t tE Y( ): [ | ]X X= auf der Basis einer Trainingsmenge von finitem

Umfang N. f ( )x w, ist wieder die Netzausgabefunktion eines gegebenen MLP(p,r,1)-Netzes

mit dem m-dimensionalen Gewichtsvektor w ∈W , D N= ,..., Z Z1 ist die (zufällige) Trai-

ningsmenge und $ ,...,w Z ZN N: ( )= ψ 1 kennzeichnet eine auf der Trainingsmenge D basierende

Schätzfunktion (z.B. die NKQ-Schätzfunktion). Die Zufallsgröße f N( )x w, $ wird jetzt

$ , $µ N Nf( ): ( )x x w= geschrieben und als ein Schätzer für den bedingten Erwartungswert

µ o t tE Y( ) [ | ]x X x= = mit x ∈IR p betrachtet. Der Schätzer $µ N ( )x ist als eine Funktion von

x und der Elemente von D aufzufassen.

Zur Beurteilung der Schätzgüte im Punkt x bietet sich der mittlere quadratische Schätzfehler

(5.40) ( ) ( )( )[ ] ( )[ ] ( )( ) ( ) ( )[ ]( )[ ]( ) ( )[ ] ( )[ ]

E E E E

B Var

D N D N D N D N

D N D N

o o

o

$ $ $ $

$ , $

µ µ µ µ µ µ

µ µ µ

x x x x x x

x x x

− = − + −

= +

2 2 2

2

an. Hierbei kennzeichnet ED symbolisch die Erwartung über die Trainingsmenge D; d.h., die

Erwartungswertbildung erfolgt bezüglich der gemeinsamen Wahrscheinlichkeitsverteilung der

Trainingsvektoren Z Z1 ,..., N . Der mittlere quadratische Fehler kann mit Hilfe von Standardar-



gumenten wieder in zwei additive Komponenten zerlegt werden. Die erste Komponente ist der

quadrierte Bias B D N o[ ( ) ( )]$ ,µ µx x und die zweite Komponente ist die Varianz VarD N[ ( )]$µ x

des Schätzers. Der Begriff 'Bias' meint hier natürlich nicht ein synaptisches Gewicht, sondern

den systematischen Schätzfehler. Die Varianz ist auf die Variabilität des Gewichtsschätzers

zurückzuführen.

Obige Zerlegung ist rein symbolisch. Der Bias und die Varianz des Schätzers sind unbekannt.

Es darf dennoch vermutet werden, daß i.d.R. ein Tradeoff zwischen dem Bias- und Varianzbei-

trag zum mittleren quadratischen Schätzfehler existiert. Ist die Anzahl r der verborgenen Ein-

heiten im Netzwerk niedrig, muß aufgrund der geringen Flexibilität der Netzausgabefunktion

mit einer verzerrten Schätzung gerechnet werden. Es besteht die Gefahr einer Unteranpassung

des Netzwerkes an die Trainingsmenge D. Wird r sukzessive erhöht, dann kann der Biasbei-

trag B D N o[ ( ) ( )]$ ,µ µx x gegebenenfalls vernachlässigbar klein werden. Der Preis für die

wachsende Flexibilität der Netzausgabefunktion ist eine schwindende Präzision der Gewichts-

schätzung. Nähert sich die Anzahl m der adjustierbaren Gewichte dem Trainingsmengenum-

fang N, oder übersteigt m sogar N, dann werden die Varianzen der Gewichtsschätzer und da-

mit auch der Varianzbeitrag VarD N[ ( )]$µ x zum mittleren quadratischen Schätzfehler (5.40)

inflatorisch ansteigen. Man spricht jetzt von einer Überanpassung. Bias und Varianz können

im allgemeinen nicht simultan durch Manipulation der Netzwerkarchitektur abgesenkt wer-

den. Geman et al. [1992] liefern für dieses Bias/Varianz-Dilemma instruktive Beispiele.

In der Praxis dürfen zufriedenstellende Prognoseergebnisse folglich nur dann erwartet werden,

wenn es durch Manipulation der Netzwerkflexibilität gelingt, die Bias- und Varianzkompo-

nente so auszubalancieren, daß der mittlere quadratische Fehler (5.40) möglichst klein wird.

In der Literatur finden sich zahlreiche Vorschläge, wie der Gefahr der Über- oder Unteranpas-

sung eines Netzes an eine Trainingsmenge begegnet werden kann. Einige Vorschläge werden

an späterer Stelle vorgestellt. Es sei hier bereits angemerkt, daß nicht alle Ansätze auf eine ge-

eignete Bestimmung der Anzahl verborgener Einheiten abzielen. Die Flexibilität einer Netz-

ausgabefunktion wurde nur vereinfachend mit der Anzahl von Verarbeitungseinheiten gleich-

gesetzt. Eine geeignete Steuerung der Flexibilität kann beispielsweise auch durch Beschrän-

kungen des Gewichtsraumes W erreicht werden. Diese Strategie wird - zumindest partiell -

bereits in dem folgenden Abschnitt genutzt.

5.6.2 Nichtparametrische Raster-Schätzer

Es stellt sich die interessante Frage, ob das Bias/Varianz-Dilemma überwunden werden kann,

wenn der Trainingsdatenumfang N über alle Grenzen wächst; präziser formuliert: Ist eine kon-



sistente Schätzung der Regressionsfunktion µ o t( )X möglich? Dieser Frage geht White

[1990] nach. Er zeigt, daß eine konsistente Schätzung erreichbar ist, wenn die Netzwerkflexi-

bilität für N → ∞ mit einer spezifischen Rate anwächst. White verknüpft zu diesem Zweck

Künstliche Neuronale Netze mit dem auf Grenander [1981] zurückgehenden nichtparametri-

schen Ansatz method of sieves, was hier frei als Raster-Methode übersetzt werden soll. Die

grundlegende Idee läßt sich wie folgt skizzieren:

Gegeben sei wieder der datenerzeugende Prozeß Zt t T∈ aus Kapitel 5.3.1. Der Zustandsraum

E des Prozesses wird weiterhin als beschränkt vorausgesetzt. Zur näheren Charakterisierung

sei er als ein offener (p+1)-dimensionale Einheitswürfel E I p= +1 mit ( )I = 0 , 1 angenom-

men. Ferner sei der Prozeß entweder i.i.d. oder streng stationär. Die zu schätzende Funktion

µ o t( )X soll als Element eines Funktionenraumes M aufgefaßt werden. M kennzeichnet den

Raum aller bezüglich der Verteilung von Xt quadratisch integrierbaren Funktionen; d.h. M :=

[ ] µ µ µ: ( ) = ( ) I IR E dFpIt p→ ∫ < ∞X x X

2 2 .

Zur Schätzung der Regressionsfunktion verwendet White MLP(p,rN,1)-Netze mit den Aus-

gabefunktionen

µ β β φ γ γNN N

N

f xr r

j j i j ii

p

j

r

( ): ( )x x w= = + ⋅ + ⋅

==∑∑, 0 1 1 0

11

und x∈IR p , wr

p r r NN

N NW= ( , )0 1 0 1γ γ β β,..., ,...,, ,1

′ ∈ . Die Anzahl rN der verborgenen Ver-

arbeitungseinheiten ist nicht fest vorgegeben, sondern sie wird vom Umfang N der verfügbaren

Trainingsdaten abhängig gemacht. Ebenfalls abhängig von N ist der jeweilige Gewichtsraum

W IR rN

NN

N

N N

Nr m

jj

r

i ji

p

j

r

= w ∈ ≤ ≤

= ==∑ ∑∑β γ1

0 01

∆ ∆,

mit ( )m r pN= + +2 1 und ∆ ∆N NIR,∈ > 0 . Ferner bezeichne ),( NNr ∆M die Menge aller

Ausgabefunktionen M∈⋅=⋅µ )()( NNN

rr ,f w von Netzen mit rN verborgenen Einheiten und

Gewichtsvektoren w rNNW∈ . Jedes Element von ),( NNr ∆M kann als ein Approximator der

unbekannten Funktion µo aufgefaßt werden. Die Menge selbst ist als ein 'Approximatoren-

raster' interpretierbar, das über den Funktionenraum M gelegt wird. Durch die Spezifikation

von Folgen rN N =1 2, , ... , ∆ N N =1 2, ,... kann jetzt eine Sequenz ,...,NNNr 21),( =∆M solcher

Raster konstruiert werden. Streben rN → ∞ und ∆ N → ∞ für N → ∞ , dann werden die

Raster immer feiner. Für gegebene Folgen rN und ∆ N definiert White die neuronalen

Raster-Schätzer $µ N für µo als die Lösungen der Minimierungsprobleme

(5.41) ( )∑ µ−=∆∈µ

N

ttt

rN

NN

YN

min1

2

),()(

1

N

XM

(N = 1,2,3,...) .



Mit jedem Raster-Schätzer $ , $µ NN Nf

r r( ) ( ) ⋅ = ⋅ w ist ein Gewichtsschätzer $w rN assoziiert.

Der Schätzer ist definiert als die Lösung des (restringierten) NKQ-Problems

(5.42) ( ) ( , )minw

X wr

N

N N

N Wt

rt

r

t

N

NY f

∈ =−∑1 2

1

(N = 1,2,3,...) .

Erfolgt eine geeignete Steuerung der Folgen rN

und ∆N

, dann kann unter allgemeinen

Regularitätsbedingungen eine (schwach) konsistente Raster-Schätzung von µo erreicht

werden; d.h. hier

(5.43) ( )lim $N

oP N→∞− =µ µ

20 oder symbolisch $µ µ

N o

P− →2

0

mit [ ] ( )µ µ2

2 1 2= E tX/

. White untersucht i.i.d. sowie gleichförmig bzw. stark mischende

streng stationäre Prozesse Zt t T∈ . Im Falle unabhängiger Prozeßvektoren ist Konsistenz ge-

währleistet, falls rN und ∆N für N → ∞ über alle Grenzen wachsen mit ∆ N o N= ( )1 4/ und

r r o NN N N N∆ ∆4 log ( ) = ( ) . Für mischende, abhängige Prozesse erlaubt ∆ N o N= ( )1 4/ und

r r o NN N N N∆ ∆2 1 2log /( ) = ( ) eine konsistente Schätzung. Wählt man beispielsweise ∆ N N∝log ,

folgt aus den Bedingungen r NN ∝ −1 δ bei Unabhängigkeit und ( )r NN ∝ −1 2δ (0 < δ < 1) bei

Abhängigkeit.

Das Ergebnis ist primär von theoretischem Interesse. Es zeigt, daß unter geeigneten Bedin-

gungen asymptotisch eine beliebig genaue Approximation einer unbekannten Regressions-

funktion durch Netzwerklernen möglich ist. Der praktische Wert des Ergebnisses ist aller-

dings limitiert. Obige Wachstumsraten sagen nichts darüber aus, wie die Netzflexibilität in

einer spezifischen Anwendung mit einer vorgegebenen Trainingsmenge vom festen Umfang

N festgelegt werden sollte.


103

6 MODELLIERUNG UND PROGNOSE NICHTLINEARER

ZEITREIHEN

Im Vorkapitel wurden Mehrschicht-Perzeptrone als 'Lernmaschinen' zur Lösung allgemein

formulierter Regressionsprobleme eingeführt. In den folgenden Ausführungen steht eine spezi-

fische Anwendung Künstlicher Neuronaler Netze im Vordergrund: Die Prognose nichtlinearer

univariater Zeitreihen. Der Abschnitt 6.1 führt zunächst in die Prognoseproblematik ein und

motiviert Mehrschicht-Perzeptrone als eine spezifische Klasse nichtlinearer autoregressiver

Modelle. Liegen Zeitreihen mit dominanten linearen Abhängigkeitsstrukturen vor, dann ist der

oft mit erheblichem Aufwand verbundene Prognoseeinsatz der Netzwerke verzichtbar. Dieser

Aspekt wird in Abschnitt 6.2 erörtert, und es werden Testverfahren zur Diskrimination linea-

rer und nichtlinearer Zeitreihen vorgestellt. Das Problem der Spezifikation eines prognose-

tauglichen Netzwerkes wird in Abschnitt 6.3 diskutiert. Weitere Aspekte des Prognoseein-

satzes Künstlicher Neuronaler Netze werden in den nachfolgenden Kapiteln untersucht. Das

Problem der Ermittlung von Mehrschritt-Punktprognosen wird in Kapitel 7 diskutiert. Die

Punktprognose zukünftiger Zeitreihenwerte kann in Abhängigkeit von den probabilistischen

Eigenschaften des datenerzeugenden Prozesses mit einer geringen oder einer hohen Prognose-

unsicherheit verbunden sein. Zur Einschätzung der Prognoseunsicherheit ist es sinnvoll, Inter-

vall- bzw. Regionprognosen zu ermitteln. Vorschläge hierzu werden in Kapitel 8 gegeben.

6.1 Prognose und nichtlineare Autoregression

Zur Einführung in die Prognoseproblematik wird angenommen, daß als interessierende Zeit-

reihe ein in den Zeitpunkten t n= 1,..., beobachteter Pfad yt t IZ∈ des univariaten, reellwer-

tigen stochastischen Prozesses Yt t IZ∈ vorliegt. Hierbei symbolisiert t n= den Gegenwarts-

zeitpunkt. Ohne Beschränkung der Allgemeinheit wird ferner unterstellt, daß der Prozeß eine

Familie stetiger Zufallsvariablen ist. Unter einer Prognose (genauer: einer univariaten Punkt-

prognose) wird im folgenden eine auf den Beobachtungen basierende Punktschätzung $ ,hyn

eines zukünftigen Wertes yn h+ des Pfades yt t IZ∈ verstanden (h = 1,2,3,...). Der Schätzwert

$ ,yn h := ( )$ ,...,,Y y yn h n 1 heißt h-Schritt-Prognose von yn h+ im Prognoseursprung t n= . Die


104 MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN

zugehörige Schätzfunktion ( )$ ,...,,Y Y Yn h n 1 wird als h-Schritt-Prognosefunktion oder h-Schritt-

Prediktor von Yn h+ bezeichnet.

Unter diesen Annahmen besteht das Prognoseproblem in einer geeigneten Wahl der h-Schritt-

Prognosefunktion $,hYn . Die Wahl sollte so erfolgen, daß - über alle Pfade des Prozesses be-

trachtet - die h-Schritt-Prognosen die Werte der Prozeßvariablen Yn h+ 'möglichst gut' annä-

hern. Die Lösung des Problems setzt die Verwendung eines Abstandsmaßes voraus. Im Rah-

men der statistischen Prediktionstheorie wird dem Kleinste-Quadrate-Ansatz eine zentrale Be-

deutung beigemessen. Er nutzt als Abstandsmaß den mittleren quadratischen Fehler (MSE)

(6.1) [ ] ( )[ ] [ ]MSE Y E Y Y E en n h n n$ $

,h ,h ,h= − =+2 2 .

Die Differenz e Y Yn h n h n h, ,$

:= −+ heißt h-Schritt-Prognosefehler. Die Kleinste-Quadrate-(KQ)-

Prognosefunktion $,Yn h

KQ ist so zu bestimmen, daß der mittlere quadratische h-Schritt-Prognose-

fehler (6.1) minimiert wird. Unter der Bedingung E Yt[| | ]2 < ∞ , für alle t IZ∈ , besitzt das

Minimumproblem die Lösung:

(6.2) ( ) [ ]$ ,..., ,...,,hY Y Y E Y Y Yn n n h nKQ

1 1= + .

Die im Sinne des MSE-Kriteriums optimale Prognosefunktion $,Yn h

KQ für Yn h+ ist der bedingte

Erwartungswert von Yn h+ gegeben Y Yn ,... , 1 (vgl. Kapitel 4.1.1, S.37f). Die Bedingung qua-

dratisch integrierbarer Prozeßvariablen sichert die Existenz des Erwartungswertes. Für die

konkrete h-Schritt-KQ-Prognose

( ) [ ]$ $ ,... , ,...,,h ,hy Y y y E Y Y y Y yn n n n h n nKQ KQ= = = =+1 1 1

gilt

(6.3) [ ] ( )E Y Y y Y y y f y y y dyn h n n n h Y Y Y n h n n hn h n+ + + +−∞

∞

= = = ⋅+∫ ,..., ,...,,...,1 1 11

mit

( )( )( )f y y y

f y y y

f y yY Y Y n h nY Y Y n h n

Y Y nn h n

n h n

n+

++

+=,...,

, ,...,

,...,,...,

, ,...,

,...,1

1

1

11

1

,

wobei ( )fY Y Yn h n+⋅, ,..., 1

die gemeinsame Dichte der Prozeßvariablen Y Y Yn h n+ , ,... , 1 und

( )fY Yn ,..., 1⋅ die n-variate Randdichte von Y Yn ,..., 1 ist. Es wird ( )fY Yn ,..., 1

0⋅ > unterstellt. Mit

f y yY Y Y nn h n+⋅,..., ,...,

1 1( ) ist die bedingte Dichtefunktion der Zufallsvariablen Yn h+ gege-

ben Y y Y yn n= =,..., 1 1 gekennzeichnet. Die bedingte Dichte wird im folgenden auch als h-

Schritt-Prognosedichte bezeichnet.

Der KQ-Prognoseansatz läßt sich intuitiv eingängig interpretieren (vgl. Priestley [1981,

S.728]). Zwei verschiedene Pfade oder Realisationen des Prozesses Yt t IZ∈ werden i.d.R. nur


MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN 105

in wenigen Zeitpunkten identische Werte aufweisen. Betrachtet man das gesamte Ensemble

aller möglichen Realisationen des Prozesses, dann existiert jedoch eine Teilmenge von Reali-

sationen, die in den Beobachtungszeitpunkten t n= 1,..., identisch sind und auch mit der be-

obachteten Zeitreihe übereinstimmen. Außerhalb des Beobachtungszeitraumes werden sie

wieder verschiedene Werte aufweisen (vgl. Abb. 6.1). Zwei verschiedene Realisationen aus

der Teilmenge können somit zu verschiedenen Werten der zukünftigen Prozeßvariable Yn h+führen. Da unbekannt ist, auf welchem Pfad sich der Prozeß entwickeln wird, ist es nahelie-

gend, den Mittelwert aller Realisationen dieser Teilmenge im Zeitpunkt t n h= + als Progno-

se für Yn h+ zu verwenden. Dies ist gerade der bedingte Erwartungswert (6.3).

Es kann leicht gezeigt werden, daß KQ-Prediktoren unverzerrte Prognosefunktionen sind. Bil-

det man bezüglich der Randverteilung von Y Yn ,..., 1 den Erwartungswert des KQ-Prediktors$

,Yn hKQ , erhält man

(6.4) ( )[ ] [ ][ ]E Y Y Y E E Y Y Yn n n h nKQ$ ,..., ,... ,,h 1 1= +

( ) ( )= ⋅ ⋅−∞

∞

+ + +−∞

∞

∫ ∫ +L y f y y y f y y dy dy dyn h Y Y Y n h n Y Y n n h nn h n n,..., ,...,,..., ,..., ...

1 11 1 1

( )= ⋅−∞

∞

+ + +−∞

∞

∫ ∫ +L y f y y y dy dy dyn h Y Y Y n h n n h nn h n, ,..., , ,... , ...

1 1 1 [ ]= +E Yn h ,

und hieraus folgt weiter

(6.5) [ ] [ ]E e E Y Yn n h nKQ

,h ,h$= − =+ 0 .

Zeit

Yt

t=1 t=n t=n+h

Abb. 6.1: Realisationen des Prozesses Yt t IZ∈



Der (unbedingte) Erwartungswert des h-Schritt Prognosefehlers ist null. Ferner ist der mittlere

quadratische h-Schritt-Prognosefehler E en[ ],h2 in (6.1) gleich der Varianz Var en[ ],h des h-

Schritt-Prognosefehlers. Der KQ-Ansatz führt somit zu unverzerrten Prediktoren mit minima-

ler Fehlervarianz. Diese Eigenschaft ist i.d.R. wünschenswert. Der KQ-Ansatz kann jedoch

auch zu unbrauchbaren Prognosen führen, und zwar dann, wenn die Prognosedichte von Yn h+multimodal ist. Dieser Aspekt wird in Kapitel 7.3.1.1 (S. 142ff) näher erörtert.

Die exakte Berechnung eines bedingten Erwartungswertes der Form (6.3) setzt die Kenntnis

der gemeinsamen Wahrscheinlichkeitsverteilung der Prozeßvariablen Y Y Yn h n+ , ,..., 1 voraus.

In der Praxis sind die Wahrscheinlichkeitsverteilungen allerdings a priori unbekannt. Die be-

dingten Erwartungswerte müssen auf der Basis beobachteter Zeitreihenwerte geschätzt wer-

den. Im Vorkapitel wurden Mehrschicht-Perzeptrone als flexible nichtlineare Schätzer für be-

dingte Erwartungswerte motiviert. Es ist naheliegend, sie auch in dem hier skizzierten Zusam-

menhang einzusetzen. Unglücklicherweise erweist sich die Schätzung einer unbekannten

Funktion von n Variablen auf der Informationsbasis von n Zeitreihenwerten als äußerst

schwierig. Zufriedenstellende Schätzergebnisse dürfen nur dann erwartet werden, wenn die

probabilistischen Eigenschaften des datenerzeugenden stochastischen Prozesses restriktiven

Bedingungen genügen.

Das Prognoseproblem erfährt eine substanzielle Vereinfachung, wenn als datenerzeugender

Prozeß Yt t IZ∈ ein streng stationärer Prozeß vom Markov-Typ vorliegt. Ein streng stationärer

Prozeß besitzt vollständig zeitinvariante probabilistische Eigenschaften (vgl. Kapitel 4.1.2).

Die KQ-Prognosefunktion ( )$ ,...,,Y Y Yn h nKQ

1 in (6.2) ist jetzt eine gegenüber Verschiebungen der

Zeitkoordinaten t n=1,..., auf der Zeitachse invariante Funktion. Ein stochastischer Prozeß

Yt t IZ∈ besitzt die sogenannte Markov-Eigenschaft p-ter Ordnung ( p IN p∈ < ∞, ), wenn für

alle ganzzahligen t die bedingten Wahrscheinlichkeitsverteilungen der Variablen Yt+h für ge-

gebene Werte der finiten oder infiniten Prozeßvergangenheit Y Yt t, ,−1 Yt−2 ,... nur von den

jeweiligen Werten der Prozeßvariablen Y Yt t p,... , − +1 abhängen. Zu einem beliebigen Zeit-

punkt t ist bei bekannten Werten von Y Yt t p,... , − +1 die zukünftige Entwicklung des Prozesses

nach t von der Entwicklung des Prozesses vor t p− +1 unabhängig. Für Familien stetiger Zu-

fallsvariablen läßt sich die Eigenschaft mit Hilfe der bedingten Dichtefunktionen darstellen:

(6.7) ( ) ( )f y y y y f y y yY Y Y Y t h t t t Y Y Y t h t t pt h t t t t h t t p+ − − + − ++ − − + − +=, , ,... ,...,

, , ,.. ,...,1 2 1

1 2 1

für alle t und alle reellen y y y yt h t t t+ − −, , , ,...1 2 (siehe z.B. Papoulis [1965, S.528ff]). Für den

bedingten Erwartungswert von Yt+h folgt:

(6.8) [ ] [ ]E Y Y Y Y E Y Y Yt h t t t t h t t p+ − − + − += , , ,... ,... ,1 2 1 .

Ist p n< erfüllt, dann kann die KQ-Prognosefunktion ( )$ ,...,,Y Y Yn h nKQ

1 in (6.2) durch eine



Funktion niedrigerer Dimensionalität $ ,...,,Y Y Yn h n n pKQ ( )− +1 ersetzt werden. Im Spezialfall p = 1

liegt eine Funktion einer skalaren Variablen Yn vor. Im folgenden wird 1 ≤ <<p n unterstellt.

Die zu Prognosezwecken relevanten probabilistischen Eigenschaften des datenerzeugenden

Prozesses Yt t IZ∈ lassen sich jetzt wie folgt modellieren:

(6.9) ( )Yt t t= +−µ εX 1 , ε σεt iid~ ,( )0 2 .

Hierbei ist µ: IR IRp → eine reelle Funktion, X t t t pY Y− − −= ′1 1( ),..., ein p-dimensionaler

Vektor zeitverzögerter Prozeßvariablen und ε t t IZ∈ eine Sequenz stochastisch unabhängiger

und identisch verteilter (i.i.d.) Zufallsvariablen - sogenanntes striktes White Noise - mit dem

Mittelwert E t[ ]ε = 0 und der Varianz Var t[ ]ε σε= < ∞2 . Die Zufallsgrößen εt werden als

unabhängig von vergangenen Prozeßvariablen Ys, s < t, angenommen. Es folgt dann unmittel-

bar [ ] ( )E Yt t X x x− = =1 µ für beliebige t IZ∈ und x ∈IR p . Die Funktion µ modelliert so-

mit die Einschritt-KQ-Prognosefunktionen $,Yt

KQ−11 und die 'Störungen' oder 'Innovationen' εt

entsprechen den korrespondierenden Einschritt-Prognosefehlern et-1,1. Die Funktion µ ist im

allgemeinen ein nichtlineares Funktional. Der Prozeß Yt t IZ∈ heißt dann nichtlinear im be-

dingten Mittel, das Modell (6.9) wird in der Literatur üblicherweise als allgemeiner nicht-

linearer autoregressiver Prozeß der Ordnung p, kurz NLAR(p)-Prozeß, bezeichnet. Liegt im

Spezialfall eine lineare Funktion 11)( −− ′=µ tt~XX αα mit αα ∈ +IR p 1 und )1( ′′= tt ,

~XX vor,

so spricht man von einem im bedingten Mittel linearen Prozeß Yt t IZ∈ und (6.9) heißt

(linearer) autoregressiver Prozeß der Ordnung p, kurz AR(p)-Prozeß.

Obige Modellannahmen bilden den theoretischen Rahmen, der es gestattet, Mehrschicht-Per-

zeptrone sinnvoll als Prognosewerkzeuge einzusetzen. Das Prognoseproblem kann jetzt als

Spezialfall der in Kapitel 5 diskutierten Regressionsproblematik betrachtet werden. Auch die

dort eingeführte bivalente Interpretation von Netzwerken als nichtparametrische Approxima-

toren bedingter Erwartungswerte oder als parametrische Regressionsmodelle ist in dem jetzt

interessierenden Kontext fruchtbar; beide Sichtweisen werden – je nach Zweckmäßigkeit –

weiter genutzt. An dieser Stelle soll die parametrische Sicht vertieft werden. Im Mittelpunkt

des Interesses stehen hierbei Ausgabefunktionen von MLP(p,r,1)-Netzen mit Shortcut-Ver-

bindungen und einer unbeschränkten Ausgabeeinheit der Form (5.6), die hier kompakter

=)( wx,f ( )∑=

′φβ+′r

uuu

~~

1

xx γγαα

geschrieben werden. Es gilt ( )'',~ xx 1= mit dem Eingabevektor pIR∈x . Der Vektor der Netz-

gewichte w = ′ ′ ′ ′ ′( )αα ββ γγ γγ, , ,...,1 r setzt sich aus den Teilvektoren αα= ′∈ +( )α α α0 11, ,..., p IR p ,

rIR,..., r ∈′ββ= )( 1ββ und 1)( 10+∈′γγγ= pIR,...,, puuuuγγ (u = 1,...,r) zusammen. Die Akti-

vierungsfunktion φ ist wieder eine überall differenzierbare, streng monoton wachsende und



beschränkte Squashing-Funktion, z.B. die logistische Funktion oder die hyperbolische

Tangensfunktion. Existiert für einen NLAR(p)-Prozeß Yt t IZ∈ eine Netzausgabefunktion

IRWIRf p →× : , so daß )()( 11 wXX ,f tt −− =µ für alle t IZ∈ mit Wahrscheinlichkeit 1 er-

füllt ist, dann läßt sich die stochastische Differenzengleichung (6.9) gemäß

(6.10) ttt å,fY += − )( 1 wX

( ) t

r

utuut

~~ ε+′φβ+′= ∑=

−−1

11 XX γγαα , ε σεt iid~ ,( )0 2 ,

darstellen. Das allgemeine NLAR(p)-Modell geht in ein spezifisches parametrisches nicht-

lineares autoregressives Modell über, das hier als Multilayer-Perceptron-Autoregressiver-

Prozeß der Ordnung p, kurz MLPAR(p)-Prozeß, bezeichnet wird. Das Modell (6.10) setzt sich

aus einem linearen AR-Teil und einem nichtlinearen Teil zusammen. Der durch die Shortcut-

Verbindungen gebildete lineare AR-Term modelliert serielle korrelative (lineare) Abhängig-

keitsbeziehungen der Prozeßvariablen. Er verhindert, daß lineare Prozeßstrukturen durch nicht-

lineare verborgene Einheiten erfaßt werden müssen, was i.d.R. zu Modellen mit einer (vermeid-

bar) hohen Gewichts- bzw. Parameteranzahl führen würde. Bei Abwesenheit serieller korre-

lativer Abhängigkeitsbeziehungen sind Shortcut-Verbindungen verzichtbar und vereinfachte

MLPAR(p)-Prozesse mit )00( 0 ′α≡ ,...,,αα , also

( ) t

r

utuut

~Y ε+′φβ+α= ∑=

−1

10 Xγγ , ε σεt iid~ ,( )0 2 ,

adäquate Modellformulierungen.

Obige Interpretation der MLP(p,r,1)-Netze als spezifische nichtlineare autoregressive Zeit-

reihenmodelle erlaubt eine tiefere Analyse ihrer probablistischen Eigenschaften als Prognose-

instrumente. Die folgenden Ergebnisse geben Trapletti et al. [1998] sowie Leisch et al. [1999]

an.

Yt t IZ∈ sei ein MLPAR(p)-Prozeß der Form (6.10), dessen Störungen εt stetige Zufallsvaria-

blen mit einer auf IR überall positiven Dichtefunktion sind, und es gelte ∞<ε |)(| tE . Liegen

die Nullstellen der mit den Shortcut-Verbindungen assoziierten charakteristischen Gleichung

(6.11) 01 221 =α−−α−α− p

p z...zz , ICz ∈ ,

alle außerhalb des Einheitskreises 0=z , dann ist Yt t IZ∈ ein ergodischer und streng statio-

närer stochastischer Prozeß. Unter der zusätzlichen Regularitätsvoraussetzung quadratisch

integrierbarer Störungen, also ∞<ε )|(| 2tE , ist die Existenz des zeitinvarianten Mittelwerts

)( tYE sowie der zeitinvarianten (Auto-)Kovarianzen )( τ+tt Y,YCov mit ,...,, 210 ±±=τ der

Prozeßvariablen garantiert, und Yt t IZ∈ ist ebenfalls ein schwach stationärer Prozeß.



Die Bedingung (6.11) bezieht sich ausschließlich auf die Gewichte p,...,αα1 der Shortcut-

Verbindungen eines Netzes und damit auf den linearen AR-Term eines MLPAR(p)-Prozesses.

Sie ist identisch mit der Stationaritätbedingung für AR(p)-Prozesse (vgl. Kapitel 7.1.1,

S.xxx). Liegen Nullstellen der charakteristischen Gleichung innerhalb des Einheitskreises, so

generiert die Modellgleichung (6.10) einen „explodierenden“ Prozeß mit inflationierenden

Varianzen der Prozeßvariablen. Da lediglich die Shortcut-Verbindungen die Stationaritäts-

eigenschaften von MLPAR(p)-Prozessen kontrollieren, sind folglich Prozesse ohne Shortcuts

unter milden Regularitätsbedingungen stets stationär. Diese bemerkenswerte Eigenschaft läßt

sich auf die Beschränktheit der Squashing-Funktionen verborgener Einheiten zurückführen.

Des weiteren zeigen Trapletti et al. [1998], daß ein ergodischer, streng stationärer MLPAR(p)-

Prozeß auch stark mischend ist. Die Mischkoeffizienten (4.18d) seien hier durch ( )τa gekenn-

zeichnet. Unter den genannten Voraussetzungen gilt ( ) τκρ≤τa für ein ∞<κ und ( )1 , 0∈ρ ;

die Koeffizienten ( )τa streben für ∞→τ exponentiell gegen Null. Der Prozeß besitzt somit

ein kurzes Gedächtnis, das mit wachsendem zeitlichen Abstand τ exponentiell erlischt.

Betrachtungen zu MLPAR-Prozessen sind aus mehreren Gründen hilfreich. Zum einen kon-

kretisieren obige Ergebnisse die in Kapitel 5.5 zur Begründung der asymptotischen Eigen-

schaften von Backpropagation-Gewichtsschätzern unterstellten Voraussetzungen bezüglich

des jetzt interessierenden Zeitreihenkontext. Ferner sind stationäre MLPAR(p)-Prozesse nütz-

liche Instrumente zur Herleitung von Testverfahren auf Nichtlinearität stochastischer Prozesse

sowie von Spezifikationstests, die die Auswahl prognosetauglicher Netzwerkarchitekturen

unterstützen. Dieser Aspekt wird in den nachfolgenden Abschnitten diskutiert. Schließlich

wird deutlich, daß die zunächst lediglich zur Vereinfachung des Prognoseproblems geforderte

Stationaritätsvoraussetzung aufgrund der Eigenschaften Künstlicher Neuronaler Netze zwin-

gend geboten ist. Mehrschicht-Perzeptrone sind aufgrund der beschränkten Ausgangssignale

ihrer verborgenen Einheiten nur bei Vorliegen stationärer datenerzeugender Prozesse mit kur-

zem Gedächtnis geeignete Prognosewerkzeuge.

Stationarität ist natürlich eine mathematische Idealisierung, die in vielen realen Prognosesitua-

tionen nicht erfüllt ist. Beispielsweise sind trendbehaftete Zeitreihen oder Reihen mit starrer,

nicht-stochastischer periodischer Variation (z.B. einer konstanten Saisonfigur) mit der Statio-

naritätsvoraussetzung inkompatibel. Beide Instationaritätsphänomene können häufig bei nie-

derfrequenten Zeitreihen ökonomischer Variablen (z.B. Monats- oder Quartalsreihen) beob-

achtet werden. Durch geeignete Datentransformationen ist es jedoch möglich, zumindest eine

Annäherung an die Stationaritätsvoraussetzung zu erreichen. So können Trendeffekte durch

den Übergang zu den d-fachen Differenzen ( INd ∈ ) der Zeitreihenwerte bzw. der Prozeß-

variablen reduziert werden:



td

t YY ∆=(

mit

11 : −−=∆=∆ tttt YYYY

und

111: −

−− ∆−∆=∆ td

td

td YYY für d > 1.

Häufig erreicht man bereits mit 1=d eine hinreichende Trendbereinigung. Ist der transfor-

mierte Prozeß IZttY ∈(

ein streng stationärer MLPAR(p)-Prozeß, so kann Yt t IZ∈ , der übli-

chen Terminologie in der parametrischen Zeitreihenanalyse folgend, als integrieter Multilayer-

Perceptron-Autoregressiver-Prozeß der Ordnung p und d oder kurz als MLPARI(p,d)-Prozeß

bezeichnet werden.

In manchen Anwendungen besteht die Gefahr, daß obige Form der Differenzenbildung we-

sentliche Information bezüglich der Langfristverhaltens eines Prozesses zerstört. Eine mög-

liche Lösung des Problems ist der Übergang zu einem fraktionell differenzierten Prozeß

td

t YY ∆=(

mit nicht-ganzzahliger Ordnung 150 << d. an. Ist IZttY ∈(

ein streng stationärer

MLPAR(p)-Prozeß, dann ist Yt t IZ∈ ein fraktionell integrieter Multilayer-Perceptron-Auto-

regressiver-Prozeß der Ordnung p und d oder MLPARFI(p,d)-Prozeß mit langem Gedächtnis.

Der fraktionelle Differenzenoperator ist für alle ( )11+−∈ ,d durch die Reihenentwicklung

( )( ) ( )∑

∞

=ττ−⋅

−Γ+τΓ−τΓ=∆

0 1: tt

d Yd

dY

mit

( ) ∫∞

−−=Γ0

1 dvevx vx für 0>x sowie ( ) ( ) xxx 1+Γ=Γ für 01 <<− x

definiert. Bei der praktischen Differenzenbildung wird obige Reihenentwicklung nach

nm <<=τ Gliedern abgeschnitten.

Eine geeignete Transformation zur Elimination konstanter Saisonfiguren ist die Bildung sai-

sonaler Differenzen

( ) tt YY s∆=(

mit ( ) sttt YYYs −−=∆ : ,

wobei s die Periode der Saisonfigur symbolisiert (z.B. s = 12 im Falle von Monatsdaten).

Liegen hochfrequente Zeitreihen vor, beispielsweise Reihen täglich erfaßter Wertpapierpreise,

dann ist i.d.R. durch den Übergang zu den täglichen relativen Preisänderungen (Renditen)

eine hinreichende Ausschaltung der Instationaritäten erreichbar. Eine ausführliche Diskussion

der Problematik findet sich z.B. in Schlittgen & Streitberg [1994].



6.2 Neuronale-Netzwerk-Tests auf Nichtlinearität des datenerzeugendenProzesses

Der Einsatz von Mehrschicht-Perzeptronen zu Prognosezwecken ist mit einem erheblichen

Rechenaufwand verbunden. Aus forschungsökonomischen Gründen ist es ratsam, vor dem

Einsatz zu prüfen, ob ein derartiger Aufwand durch den potentiellen Nutzen gerechtfertigt

erscheint. Aufgrund ihrer Flexibilität und Nichtlinearität sind die Netzwerke offensichtlich

dann potentiell nützliche Prognosewerkzeuge, wenn eine Zeitreihe durch einen ausgeprägt

nichtlinearen stochastischen Prozeß (nichtlinear im bedingten Mittel) erzeugt wurde. Liegt

den Daten hingegen ein linearer Prozeß zugrunde, dann ist der Einsatz Künstlicher Neuronaler

Netze nicht nur verzichtbar, sondern auch geboten: Es besteht die Gefahr einer Überanpassung

der flexiblen Netze an die Trainingsdaten, was im allgemeinen ungünstige Prognoseergeb-

nisse zur Folge hat. In einem ersten Analyseschritt sollte deshalb geprüft werden, ob die inter-

essierende Zeitreihe durch einen stochastischen Prozeß ohne oder mit ausgeprägten Nicht-

linearitäten im bedingten Mittel generiert wurde. Im ersten Fall kann auf etablierte lineare

Prognosemethoden – basierend auf AR-Modellen oder Autoregressiven-Moving-Average-

(ARMA)-Modellen – zurückgegriffen werden, die befriedigende Lösungen des Prognose-

problems mit vergleichsweise geringem Aufwand ermöglichen.

Die Nichtlinearität stochastischer Prozesse kann mit Hilfe einer Vielzahl verschiedener Test-

verfahren geprüft werden. Einen Überblick geben z.B. Schuhr [1991] oder Granger & Teräs-

virta [1993]. An dieser Stelle werden zwei spezifische Tests diskutiert, die explizit konnektio-

nistische Konzepte nutzen. Der erste Test wurde von Lee, White & Granger [1993], basierend

auf einem Ansatz von White [1989c], vorgeschlagen, der zweite Test ist von Teräsvirta, Lin &

Granger [1993]. Beide Testverfahren sollen den Anwender vor dem Training eines Mehr-

schicht-Perzeptrons darüber informieren, ob mit Hilfe eines Perzeptrons eine gegenüber linea-

ren Zeitreihenmodellen signifikant verbesserte Approximation bedingter Erwartungswerte er-

reicht werden kann oder nicht.

Es sei angenommen, daß einer interessierenden Zeitreihe ein streng stationärer stochastischer

Prozeß Yt t IZ∈ mit der Markov-Eigenschaft p-ter Ordnung zugrunde liegt. Die Hypothesen

eines Tests auf Nichtlinearität im bedingten Mittel des datenerzeugenden Prozesses lassen

sich dann in allgemeiner Form schreiben:

(6.12a) [ ]( )P E Yt t tX X− −= ′ =1 1 1αα ~für ein αα ∈ +IR p 1

versus

(6.12b) [ ]( )P E Yt t tX X− −= ′ <1 1 1αα ~für alle αα ∈ +IR p 1



mit X t t t pY Y− − −= ′1 1( ),..., und ~ ,X Xt t− −= ′ ′1 11( ) . Unter Gültigkeit der Nullhypothese (6.12a)

ist die bedingte Erwartungswertfunktion [ ]E Yt t X −1 eine Linearkombination der Komponen-

ten von X t−1, und die für das Testproblem relevanten statistischen Eigenschaften des daten-

erzeugenden Prozesses können durch ein lineares AR(p)-Modell

(6.13) Yt t t= ′ +−αα ~X 1 ε , ε σεt iid~ ,( )0 2 ,

geeignet modelliert werden. Ist die Alternative (6.12b) wahr, dann ist der Prozeß nichtlinear.

Das AR(p)-Modell 'vernachlässigt' jetzt diese Nichtlinearität und ist inadäquat.

Die Alternativhypothese (6.12b) beinhaltet keine Aussage zur Form der Nichtlinearität von

Yt t IZ∈ und ist für die hier verfolgten Ziele noch zu unscharf formuliert. Da im Vordergrund

die Frage steht, ob ein MLP-Netz die bedingte Erwartungswertfunktion [ ]E Yt t X −1 besser zu

approximieren vermag als eine lineare Funktion, sollte die Alternative in diesem Sinne präzi-

siert werden. Lee, White & Granger [1993] schlagen einen speziellen Nichtlinearitätstest vom

Lagrange-Multiplier-(LM)-Typ vor, den sie als Neuronalen-Netzwerk-Test auf vernachlässigte

Nichtlinearität bezeichnen. Die Anwendung des LM-Testprinzips (Silvey [1959]) auf obiges

Testproblem erfordert die explizite Formulierung einer Alternativhypothese in Form eines

nichtlinearen parametrischen Modells, welches das lineare Nullmodell (6.13) als Spezialfall

einschließt. Naheliegenderweise unterstellen Lee et al. als Alternative den MLPAR(p)-Prozeß

(6.14) ( ) t

r

utuutt

~~Y ε+′φβ+′= ∑=

−−1

11 XX γγαα , ε σεt iid~ ,( )0 2 ,

mit den Netzgewichten w = ′ ′ ′ ′ ′( )αα ββ γγ γγ, , ,...,1 r , αα= ′∈ +( )α α α0 11, ,..., p IR p , ββ= ′∈( )β β1 ,..., r IR r

und γγ u u u pu IR p= ′∈ +( )γ γ γ0 11, ,..., (u = 1,...,r) sowie einer Squashing-Funktion φ als Aktivie-

rungsfunktion.

Ist der Teilgewichtsvektor ββ des MLPAR(p)-Prozesses ein Nullvektor, dann geht der nicht-

lineare Prozeß in den linearen AR(p)-Prozeß (6.13) über. Die Hypothesen

(6.15) H0: ββ = 0 versus H1: ββ ≠ 0

stellen einen geeigneten Ausgangspunkt zur Konstruktion eines LM-Tests auf Nichtlinearität

des datenerzeugenden Prozesses dar. Hierbei tritt allerdings ein Problem auf, das zuvor einer

Lösung bedarf: Die Gewichtsvektoren uγγ (u = 1,...,r) der verborgenen Verarbeitungseinheiten

sind unter Gültigkeit der Nullhypothese nicht identifiziert; sie können beliebige Werte anneh-

men. Ihre Komponenten erweisen sich als 'störende' Parameter und verhindern die Anwen-

dung des LM-Testprinzips in der Standardform. Lee et al. schlagen ein pragmatisches Vorge-

hen zur Überwindung der Identifikationsproblematik vor. Sie behandeln die γγ u nicht als freie

Parametervektoren, sondern die Vektoren werden a priori, also unabhängig von dem stocha-



stischen Prozeß Yt t IZ∈ , vorgegeben. Die Vorgabe der Vektorwerte erfolgt durch zufälliges

Ziehen aus einer geeigneten Verteilung. Die Autoren nutzen eine stetige Gleichverteilung.

Aus den verborgenen Verarbeitungseinheiten des Netzes werden - in der Terminiologie von

Lee et al. - verborgene 'Phantomeinheiten'. Ihre Aktivierungszustände ( )φ ′ −γγ u t~X 1 sind unab-

hängig davon, ob H0 oder H1 wahr ist, eindeutig berechenbar.

Der resultierende LM-Test der Hypothesen (6.15) kann mit Hilfe herkömmlicher Kleinste-

Quadrate-Techniken implementiert werden. Als Datenbasis seien beobachtete Werte der Pro-

zeßvariablen Yt (t = 1,...,n) angenommen. Die Testprozedur beinhaltet die folgenden Schritte:

(i) Schätze mit Hilfe der KQ-Methode den Koeffizientenvektor αα des linearen AR(p)-Null-

modells (6.13). Berechne die Residuen $ $ ~εt t tY= − ′ −αα X 1 ( t p n= +1,..., ) und die Residual-

quadratsumme RSS tnt p0

21= ∑ = + $ε der geschätzten linearen Autoregression.

(ii) Schätze mit Hilfe der KQ-Methode den Koeffizientenvektor ϑϑ ∈ + +IR p r 1 der linearen

Hilfsregression

$ε νt t t= ′ +−ϑϑ Z 1 ( )t p n= + 1,... , ,

wobei Z Xt t t− − −= ′ ′ ′1 1 1( , )~ φφ mit φφ γγ γγt t r t− − −= ′ ′ ′1 1 1( ( ) ( ))1φ φ~ ,..., ~X X ein ( )p r+ +1 -dimensiona-

ler Vektor von Regressorvariablen und νt eine Störvariable ist. Der Vektor φφt−1 enthält

die Aktivierungen der verborgenen Phantomeinheiten. Berechne die Residuen

$ $ $ν εt t t= − ′ −ϑϑ Z 1 ( )t p n= +1,..., und die Residualquadratsumme RSS tnt p1

21=∑ = + $ν der ge-

schätzten Regression.

(iii) Berechne den Wert der Testfunktion

( )LM n p R12= − ⋅ mit ( )R RSS RSS RSS2

0 1 0= − .

R2 ist das unzentrierte Bestimmtheitsmaß der linearen Hilfsregression aus Schritt (ii).

Unter Gültigkeit der Nullhypothese H0 ist die Statistik LM1 asymptotisch χ 2 -verteilt mit r

Freiheitsgraden. Übersteigt der realisierte Testfunktionswert den ( )100 1 − α -Prozentpunkt der

Grenzverteilung, dann wird H0 zum (nominalen) Testniveau α verworfen (0 1< <α ).

Die statistischen Hintergründe von LM-Testverfahren diskutieren z.B. Harvey [1990, S.169ff]

oder Schuhr [1991, S.79ff]. Heuristisch läßt sich obige Testprozedur wie folgt motivieren:

Das in Schritt (i) geschätzte AR(p)-Modell ist als ein linearer Filter interpretierbar, der den

datenerzeugenden Prozeß in eine unkorrelierte, also um lineare Abhängigkeitsstrukturen be-

reinigte Sequenz $εt transformiert. Mögliche Einflüsse der Parameterschätzung auf die sta-

tistischen Eigenschaften der Residuen seien hierbei vereinfachend vernachlässigt. Unter Gül-

tigkeit der Nullhypothese weist die linear gefilterte Sequenz keine nichtlinearen seriellen Ab-

hängigkeitsbeziehungen auf. Unter der Alternative vernachlässigt die lineare Autoregression



den nichtlinearen Term β φu u tur ( )′∑ −= γγ ~X 11 in (6.14). Die nichtlinearen seriellen Abhängig-

keitsbeziehungen der Prozeßvariablen werden in die Residuensequenz $εt transformiert. Bei

einer günstigen Zufallsvorgabe der Vektoren γγ u (u = 1,...,r) sind die verborgenen Phantom-

einheiten in der Lage, Struktur aus den Residuen zu extrahieren. Bestehen signifikante korre-

lative Beziehungen zwischen den Residuen und den Aktivierungen der Phantomeinheiten,

dann nimmt die Testfunktion LM1 einen kritisch großen Wert an, und H0 wird verworfen.

In praktischen Anwendungen des Tests ist die Ordnung p des AR(p)-Nullmodells zumeist

a priori unbekannt und muß auf Basis der beobachteten Zeitreihendaten identifiziert werden.

Die Identifikation der Modellordnung kann durch den Einsatz von Modellselektionskriterien

automatisiert werden (vgl. Kapitel 6.3.2). Lee et al. verwenden das SIC-Kriterium von

Schwarz [1978]. Es gewährleistet unter Regularitätsbedingungen eine stark konsistente

Schätzung der Ordnung linearer autoregressiver Modelle (siehe Hannan [1980]).

Lee et al. weisen auf ein weiteres praktisches Problem hin. Die Komponenten des Vektors

φφt−1 können (a) untereinander und (b) mit den Komponenten von X t−1 hoch korreliert sein.

Ausgeprägte korrelative Beziehungen zwischen den Variablen führen in Schritt (ii) der Test-

prozedur zu unzuverlässigen Ergebnissen bei der KQ-Schätzung der Hilfsregression oder ver-

hindern im Grenzfall perfekter linearer Abhängigkeit sogar die Schätzung gänzlich (Multi-

kollinearitätsproblem). Die Autoren schlagen deshalb vor, bei der Testdurchführung den r-

Vektor φφt−1 durch r r* < Hauptkomponenten von φφt−1 , die nicht kollinear mit X t−1 sind, zu

ersetzen. Die Statistik LM1 ist dann asymptotisch χ 2 -verteilt mit r* Freiheitsgraden. Die

Anzahl r verborgener Phantomeinheiten und die Anzahl r* der Hauptkomponenten ist je-

weils vom Anwender festzulegen. Den in Lee et al. [1993] ausgewiesen Ergebnissen von Si-

mulationsexperimenten ist zu entnehmen, daß die Wahl r =10 und r* =2 in sehr unterschied-

lichen Anwendungssituationen zu brauchbaren Testergebnissen führt. Nähere Implementie-

rungshinweise finden sich in der genannten Literaturquelle.

Lee et al. vergleichen in einer Simulationsstudie den Neuronalen-Netzwerk-Test mit anderen

Testverfahren auf Nichtlinearität stochastischer Prozesse und können experimentell durchaus

überzeugende Machteigenschaften des Tests demonstrieren. Die pragmatische Lösung des

Identifikationsproblems mittels Zufallsvorgabe der Vektoren γγ u (u = 1,...,r) führt jedoch un-

zweifelhaft zu Machteinbußen des Tests, die durch Einsatz verfeinerter Lösungstechniken ver-

meidbar erscheinen. Ferner ist der Test nicht konsistent (siehe White [1989c]). Diese Schwach-

stelle motivierte Teräsvirta, Lin & Granger [1993] zur Entwicklung eines alternativen Neurona-

len-Netzwerk-Tests. Der Test ist ebenfalls vom LM-Typ. Die Identifikationsproblematik wird

im Rahmen dieses Ansatzes durch eine duale Vo lterra-Reihen-Approximation des datenerzeu-

genden Prozesses gelöst.



Teräsvirta et al. [1993] betrachten das Testproblem aus einem anderen Blickwinkel als Lee et

al. [1993]. Ausgangspunkt ihrer Überlegungen ist wieder der MLPAR(p)-Prozeß (6.14). Als

Aktivierungsfunktion φ der verborgenen Verarbeitungseinheiten unterstellen sie die auf das

Intervall ( )− +1 2 1 2, beschränkte logistische Funktion

(6.16) ( ) ( ) φ x x= + − −−1 1 21exp .

Die Subtraktion der Konstanten 1 2 erfolgt aus technischen Gründen. Sie stellt unter anderem

sicher, daß ( )φ 0 0= ist. Gilt γγ γγ1 = =... r = 0 , dann empfangen die verborgenen Verarbei-

tungseinheiten des Netzes keinen Input und sind inaktiv. Der MLPAR(p)-Prozeß geht jetzt in

den linearen AR(p)-Prozeß (6.13) über. Die Nichtlinearität des datenerzeugenden Prozesses

kann somit auch durch einen Test der Hypothesen

(6.17) ′ ∀ =Hu

u0 : γγ 0 versus ′ ∃ ≠Hu

u1 : γγ 0 ( )u r= 1, .. . ,

geeignet geprüft werden. Bei diesem alternativen Testproblem tritt natürlich wiederum ein

Identifikationsproblem auf. Unter Gültigkeit der Nullhypothese ′H0 ist der Vektor ββ nicht

identifizierbar und seine Komponenten sind störende Parameter.

Teräsvirta et al. greifen einen Vorschlag von Luukkonen et al. [1988] zur Lösung der Iden-

tifikationsprobleme in LM-Tests auf und versuchen, die Problematik durch eine geeignete

Approximationen der Funktionen φ( )′ −γγ u t~X 1 (u = 1,...,r) in (6.14) zu überwinden. Die Funk-

tionen werden in der Umgebung des Punktes γγ u = 0 durch eine Taylor-Reihenentwicklung

bis zur 3. Ordnung angenähert:

(6.18) ( ) ( ) ( ) ( )

( )

φ φ ∂φ∂γ

γ ∂ φ∂γ ∂γ

γ γ

∂ φ∂γ ∂γ ∂γ

γ γ γ

′ ≈ + +

+

−= ==

===

∑ ∑∑

∑∑∑

γγ u tiu

iui

p

iu juj

p

i

p

iu ju

iu ju kuk

p

j

p

i

p

iu ju ku

~X 10

2

00

3

000

00 1

20

16

0

(u = 1,...,r) .

Zur Vereinfachung der Darstellung sei ~ , ,..., ~ ,~ ,..., ~

, , ,X t t t p t t p tY Y X X X− − − − − −= ′ ≡ ′1 1 0 1 1 1 11( ) ( ) ge-

setzt. Mit φ gemäß (6.16) gilt

( )( )

∂φ∂γ

( )′=

− ′

+ − ′− − −

−

γγ γγ

γγu t

iu

u t i t

u t

X~ exp ~ ~

exp ~,X X

X1 1 1

12

1 ,

∂ φ∂γ ∂γ

21( )′

=−γγ u t

iu ju

~X ( ) ( ) ( )

−− ′ − − ′

+ − ′− − − −

−

exp ~ exp ~ ~ ~

exp ~, ,γγ γγ

γγu t u t i t j t

u t

X XX X

X

1 1 1 1

13

2

1

und



∂ φ∂γ ∂γ ∂γ

31( )′

=−γγ u t

iu ju ku

~X ( ) ( ) ( ) ( )

exp ~ exp ~ exp ~ ~ ~ ~

exp ~, , ,− ′ − − ′ − − ′

+ − ′− − − − − −

−

γγ γγ γγ

γγu t u t u t i t j t k t

u t

X X XX X X

X

1 1 1 1 1 1

14

2 1 2

1

für alle u r= 1, . .. , und i j k p, , , , .. . ,= 0 1 . Hieraus folgt an der Stelle γγ u = 0 :

( )∂φ∂γ

0 14 1

iui tX= −

~, ,

( )∂ φ∂γ ∂γ

2 00

iu ju

= , ( )∂ φ

∂γ ∂γ ∂γ

3

1 1 10 1

16iu ju kui t j t k tX X X= − − −

~ ~ ~, , , .

Eine Taylor-Reihen-Approximation niedrigerer Ordnung erweist sich als nicht zweckmäßig.

Eine Approximation 1. Ordnung ist linear in ~X t−1. Jegliche Information über Nichtlinearitä-

ten geht verloren. Eine Approximation 2. Ordnung ist nicht sinnvoll, da ( )′′ =φ 0 0 gilt.

Ersetzt man nun die Funktionen φ( )′ −γγ u t~X 1 (u r= 1,... , ) in der Definitionsgleichung (6.14)

des MLPAR(p)-Modells durch ihre jeweiligen Näherungen aus (6.18), dann erhält man nach

einigen Umformungen

(6.19) Y Y Y Y Y Yt t ij t i t jj i

p

i

p

ijk t i t j t kk j

p

j i

p

i

p

t= ′ + + +− − −==

− − −===

∑∑ ∑∑∑ππ ~X 11 1

δ δ η

mit

δ β γ γ γij ij u iu ju uu

r

d==∑ 0

1

und δ β γ γ γijk ijk u iu ju kuu

r

d==∑

1

,

wobei dij = 1 36 für i j= und dij = 1 18 sonst sowie dijk = 1 36 für i j k= = , dijk = 1 18

für i j= , i k= oder j k= und dijk = 1 6 sonst gilt. Die Koeffizienten δ ij und δ ijk ( i p=1,..., ;

;j i p k j p= =,..., ,..., ) seien in dem Vektor δδ = ′( )δ δ δ δ11 111,..., , ,...,pp ppp zusammengefaßt. Der

lineare Term ′ −ππ ~X t 1 mit ππ ∈ +IR p 1 erfaßt neben der linearen Komponente ′ −αα ~X t 1 des Aus-

gangsmodells (6.14) auch die linearen Anteile der Taylor-Reihen-Approximationen (6.18).

Die Störungen ηt setzen sich aus den Störungen εt des Ausgangsmodells und den Approxima-

tionsfehlern zusammen. Die Gleichung (6.19) kann als eine 'duale' Volterra-Reihenentwick-

lung dritter Ordnung des nichtlinearen Modells im Sinne von Priestley [1980] aufgefaßt wer-

den. Sie liefert 'in der Umgebung' der Linearitätshypothese ′H 0 eine brauchbare Approxima-

tion von (6.14). Unter Gültigkeit von ′H 0 verschwinden die Koeffizienten der quadratischen

und kubischen Terme der Reihenentwicklung. Es gilt δδ ≡ 0 , ππ αα≡ , η εt t≡ und die Glei-

chung (6.19) geht in das lineare AR(p)-Nullmodell (6.13) über.

Die Hypothesen (6.17) des Ausgangsproblems korrespondieren mit dem Hypothesenpaar

(6.20) ′′ =H0 : δδ 0 versus ′′ ≠H1: δδ 0 .

Das Problem störender Parameter tritt bei diesem Ersatztestproblem nicht auf. Das LM-Prinzip

kann in Standardform auf (6.20) angewendet werden. Als Datenbasis seien wieder beobachte-



te Werte der Prozeßvariablen Yt (t = 1,...,n) gegeben. Die LM-Testprozedur beinhaltet die fol-

genden Schritte:

(i) Schätze mit Hilfe der KQ-Methode den Koeffizientenvektor αα des linearen AR(p)-Null-

modells (6.13). Berechne die Residuen $ $ ~εt t tY= − ′ −αα X 1 ( t p n= +1,..., ) und die Residual-

quadratsumme RSS tnt p0

21= ∑ = + $ε der geschätzten linearen Autoregression.

(ii) Schätze mit Hilfe der KQ-Methode den Koeffizientenvektor ϑϑ der linearen Hilfsregres-

sion

$ε νt t t= ′ +−ϑϑ Z 1 ( )t p n= + 1,... , ,

wobei νt eine Fehlervariable und Z t −1 ein Vektor der Regressorvariablen mit den Kom-

ponenten

1 , , ,Y Y Y Y Y Yt i t i t j t i t j t k− − − − − − ( i p=1,..., ; ;j i p k j p= =,..., ,..., )

ist. Berechne die Residuen $ $ $ν εt t t= − ′ −ϑϑ Z 1 ( )t p n= +1,..., und die Residualquadratsumme

RSS tnt p1

21=∑ = + $ν der geschätzten Regression.



0 1 0= − .


Besitzt der datenerzeugende Prozeß Yt t IZ∈ eine duale Volterra-Reihen-Darstellung der Form

(6.19) mit Koeffizienten δ ij ≠ 0 und δ ijk ≠ 0 , dann werden die Residuen $εt des in Schritt (i)

geschätzten AR(p)-Nullmodells mit den quadratischen Termen Y Yt i t j− − bzw. den kubischen

Termen Y Y Yt i t j t k− − − der Prozeßvariablen korreliert sein. Die Hilfsregression in Schritt (ii)

dient der Analyse der korrelativen Beziehungen. Ein großer Wert des Bestimmtheitsmaßes

R2 verweist auf starke Korrelationen und damit auf die Nichtlinearität des datenerzeugenden

Prozesses. Die Statistik ( )LM n p R22= − ⋅ ist unter Gültigkeit von ′′H0 asymptotisch χ 2 -ver-

teilt mit ( )p p p3 26 5 6+ + Freiheitsgraden. Die Anzahl der Freiheitsgrade entspricht der Di-

mension des Vektors δδ . Übersteigt der realisierte Testfunktionswert den ( )100 1 − α -Prozent-

punkt der asymptotischen Verteilung ( 0 1< <α ), dann wird ′′H0 zum (nominalen) Testniveau

α verworfen.

Bemerkenswert ist, daß die Testprozedur keine explizite Festlegung der Anzahl r verborgener

Einheiten in der MLPAR(p)-Alternative (6.14) erfordert. Die oben beschriebene approxima-

tive Vorgehensweise führt für jedes MLPAR(p)-Modell mit r ≥ 1 zu einer dualen Volterra-

Reihenentwicklung der Form (6.19). Die Testprozedur bleibt folglich unverändert, wenn die

Anzahl verborgener Einheiten variiert. Teräsvirta et al. merken ferner an, daß der Test nicht



entscheidend von der Annahme einer logistischen Aktivierungsfunktion φ der Form (6.16)

abhängt. Derselbe Test läßt sich auch unter den folgenden abgeschwächten Annahmen bezüg-

lich φ herleiten:

• φ ist eine ungerade, beschränkte und streng monoton wachsende Funktion mit finiten Ab-

leitungen 3. Ordnung in der Umgebung des Ursprungs; und

• ( )φ 0 0= , ( )′ ≠φ 0 0 sowie ( )′′′ ≠φ 0 0 .

Der Test wird somit nicht nur gegen eine spezifische MLPAR(p)-Alternative mit logistischer

Aktivierungsfunktion trennscharf sein, sondern Macht gegenüber einer ganzen Familie

MLPAR(p)-Alternativen mit unterschiedlichen Aktivierungsfunktionen besitzen.

Eine komplizierte Rolle spielen bei diesem Test die Biasgewichte (Absolutglieder) γ 0 u der

verborgenen Verarbeitungseinheiten des Mehrschicht-Perzeptrons. Besitzt das 'wahre'

MLPAR(p)-Modell (6.14) Biasgewichte γ 0 0u = ( u r= 1, . .. , ), dann sind, wie aus (6.19) er-

sichtlich wird, die Koeffizienten δ i j der quadratischen Terme in der dualen Volterra-Rei-

henentwicklung gleich null - unabhängig davon, ob die Linearitätshypothese wahr ist oder

nicht. Die Hypothesen (6.20) beschreiben in dieser Situation das Testproblem nicht adäquat,

und es muß mit Machteinbußen des Tests gerechnet werden. Teräsvirta et al. schlagen deshalb

auch eine modifizierte Testprozedur vor, die auf einer dualen kubischen Volterra-Reihenent-

wicklung ohne quadratische Terme basiert. Die Produkte Y Yt i t j− − ( i p=1,..., ; j i p= ,..., ) sind

hier in Testschritt (ii) aus der Hilfsregression zu entfernen. Die Anzahl der Freiheitsgrade der

asymptotischen χ2 -Verteilung von LM2 verringert sich entsprechend um ( )p p + 1 2 . In der

Praxis dürfte jedoch nur in Ausnahmefällen a priori bekannt sein, ob Biasgewichte im

MLPAR(p)-Modell benötigt werden oder verzichtbar sind. Es ist somit schwer zu entscheiden,

welche der beiden Testvarianten eingesetzt werden sollte. Die Autoren verglichen die Macht-

eigenschaften beider Varianten in einer Simulationsstudie. Die Ergebnisse weisen im Fall

γ 0 0u = den modifizierten Test als geringfügig machtvoller aus. Er ist jedoch im Fall

γ 0 0u ≠ dem Test mit quadratischen Termen deutlich unterlegen. Die Ergebnisse legen nahe,

bei Unkenntnis der Bedeutung der Biasgewichte den Test mit quadratischen Termen zu ver-

wenden.

In derselben Simulationstudie verglichen Teräsvirta et al. ihren Testansatz auch mit dem Neu-

ronalen-Netzwerk-Test von Lee et al. Wie vermutet, führte die Zufallsvorgabe der Vektoren

γγ u (u = 1,...,r) beim Test von Lee et al. zu Machtverlusten. Die auf dualen Volterra-Reihen-

Approximationen basierenden Tests (mit und ohne quadratischen Komponenten) erwiesen

sich in den Experimenten als trennschärfer. Die Performanceunterschiede waren z.T. be-

trächtlich. Im Lichte dieser Ergebnisse scheint der Testansatz von Teräsvirta et al. überlegene

Eigenschaften zu besitzen.



6.3 Netzwerkspezifikation

Wurde aufgrund erster Analysen der Zeitreihendaten eine Entscheidung zugunsten des Pro-

gnoseeinsatzes von Mehrschicht-Perzeptronen getroffen, dann gilt es anschließend ein pro-

gnosetaugliches Netzwerk zu spezifizieren. Konkret ist auf Basis der verfügbaren Daten eine

Netzausgabefunktion ( )f x w, auszuwählen, die die unbekannte bedingte Erwartungswert-

funktion ( ) [ ]µ x X x= =−E Yt t 1 des datenerzeugenden NLAR(p)-Prozesses (6.9) möglichst

gut im Sinne des MSE-Kriteriums approximiert. Wie in Kapitel 5.6.1 ausgeführt, erfordert die

Lösung dieser Aufgabe neben der Schätzung der Netzgewichte auch die Steuerung der Netz-

werkflexibilität- oder komplexität, um die Bias- und die Varianzkomponente des mittleren

quadratischen Approximationsfehlers (5.39) geeignet auszubalancieren (Bias/Varianz-Dilem-

ma). Als eine weitere Teilaufgabe kommt die Spezifikation der a priori unbekannten Ordnung

p des NLAR(p)-Prozesses hinzu.

In der Literatur finden sich zahlreiche Vorschläge zur Lösung der Spezifikationsaufgabe, die

z.T. auf statistischen und z.T. auf ad hoc Argumenten basieren. Es können zwei Grundansätze

unterschieden werden: Regularisierung und Modellselektion (vgl. Sarle [1995]). Regularisie-

rungsverfahren liegt die Vorstellung zugrunde, daß ein hoch flexibles Mehrschicht-Perzep-

tron mit einer Vielzahl Eingabeeinheiten und verborgenen Verarbeitungseinheiten als eine

problemunabhängige 'Lernmaschine' vorgegeben ist. Die Auswahl eines prognosetauglichen

Netzes bedeutet hier die Vermeidung einer Überanpassung an die Lerndaten. Durch eine

Steuerung des Lernprozesses oder eine Beschränkung des Gewichts- bzw. Parameterraums

soll die Anpassung einer hinreichend 'glatten' Ausgabefunktion erzwungen werden. Populäre

Regularisierungstechniken für KNN sind das Stopp-Training und die Weight-Decay-Techni-

ken. Alternativ können Mehrschicht-Perzeptrone als spezifische NLAR-Modelle aufgefaßt

und die Selektion eines möglichst einfachen oder 'sparsam' parametrisierten (parsimonious)

Modells mit adäquaten Prognoseeigenschaften angestrebt werden. Das Modellselektionspro-

blem besteht darin, die Ordnung p der Eingabeschicht, die Anzahl r der verborgenen

Einheiten und gegebenenfalls die Anzahl der von null verschiedenen Parameter im Netz

geeignet zu spezifizieren. Zur Modellselektion können statistische Ansätze wie die

Kreuzvalidierung, Informationskriterien oder Spezifikationstests eingesetzt werden.

Obwohl Spezifikationswerkzeuge gegeben sind, ist die Festlegung einer problemadäquaten

Netzausgabefunktion eher eine Kunst denn eine Routineaufgabe. Das heute verfügbare Instru-

mentarium erlaubt aus den unterschiedlichsten Gründen (noch ?) keine weitgehende Automa-

tisierung des Spezifikationsprozesses. In der Regel wird die subjektive Urteilsfähigkeit eines

erfahrenen Anwenders benötigt. Die Anforderungen an den Anwender erhöhen sich dabei

regelmäßig, wenn nur kurze Zeitreihen (relativ zur Komplexität des datenerzeugenden Prozes-



ses) als Datenbasis gegeben sind. Im folgenden werden einige Spezifikationsinstrumente de-

taillierter diskutiert. Um hierbei die Ordnung der Eingabeschicht eines Netzwerkes von der

'wahren' Ordnung des datenerzeugenden NLAR-Prozesses symbolisch unterscheiden zu kön-

nen, wird erstere weiterhin durch p und letztere durch po gekennzeichnet.

6.3.1 Regularisierung

Stopp-Training oder Stopp-Lernen ist in der konnektionistischen Praxis wohl das gebräuch-

lichste Regularisierungsverfahren für KNN. Der pragmatisch geprägte Ansatz is t eher zur

Modellierung von Querschnittsdaten geeignet. Da Stopp-Training jedoch auch häufig als eine

Prozedur zur Zeitreihenmodellierung empfohlen wird (siehe z.B. Miller [1994] oder

Zimmermann [1994, S.60ff]), soll es hier ebenfalls angesprochen werden.

Als Prognoseinstrument sei ein MLP( p r, ,1)-Netz mit einer großen Anzahl r verborgener Ein-

heiten und einer hinreichend hohen Ordnung p der Eingabeschicht vorgegeben. Ferner seien

als Lerndaten beobachtete Werte des Ausschnitts Yt ( )t n=1,..., mit n p>> eines datener-

zeugenden Prozesses Yt t IZ∈ verfügbar. Aus der Sequenz können N n p= − Lernmuster

Z t = ( )Yt t, ′ ′−X 1 ( t p n= +1,..., ) mit X t t t pY Y− − −= ′1 1( ),..., gebildet und zum Netzwerktrai-

ning, z.B. mittels zyklischem Backpropagation-Lernen, genutzt werden. Aufgrund der hohen

Flexibilität der Lernmaschine wird der Lernprozeß in aller Regel zu einer Überanpassung an

die Daten und damit zu einer geschätzten Netzausgabefunktion ( )f ⋅ , $w mit ungünstigen

Prognoseeigenschaften führen. Ein natürliches Maß für die Prognoseperformance ist - Akaike

[1969, 1970] folgend - der erwartete quadratische Prognosefehler

(6.20) ( ) ( )[ ]PE E Y ft t$ , $w X w= − −( (

( )12

mit ( ( (X t t t pY Y− − −= ′1 1( ),..., . Hierbei ist

(Yt t IZ∈ ein zweiter stochastischer Prozeß mit identi-

schen probabilistischen Eigenschaften wie Yt t IZ∈ , die Prozeßvariablen (Yt und Yt sind je-

doch stochastisch unabhängig voneinander. Folge einer Überanpassung des Netzes wird ein

großer Wert des Fehlermaßes sein.

Eine mögliche Strategie zur Vermeidung einer schlechten Prognoseperformance besteht darin,

den Lernprozeß nicht bis zur Konvergenz des Lernalgorithmus auszuführen, sondern ihn vor-

zeitig in dem Zeitpunkt abzubrechen, in dem die Funktion ( )PE $w ein Minimum annimmt.

Der erwartete quadratische Prognosefehler ist in praktischen Anwendungen natürlich unbe-

kannt und muß geschätzt werden. Zu diesem Zweck wird beim Stopp-Training, in Analogie

zur Kreuzvalidierung (siehe Abschnitt 6.3.2), die Menge D p n= + Z Z1 ,..., der N verfügbaren

Lernmuster zufällig in zwei disjunkte Teilmengen D1 und D2 vom Umfang N1 bzw. N2 zer-



legt ( N N N1 2+ = ). Das i-te Element der Menge Dj sei vereinfachend mit Z Xij ij ijY= ′ ′( , )

bezeichnet (i N jj= =1 1 2,..., , ; ). Nur die Elemente Z i1 der Menge D1 (= Trainingsmenge

i.e.S.) werden weiterhin zur Adjustierung der Netzgewichte genutzt. Die Elemente Z i2 der

Menge D2 (= Validierungsmenge) dienen jetzt der Prüfung der Prognoseeigenschaften des

Netzes. Während des Lernprozesses wird ( )PE $w wiederholt (z.B. nach jeder abgeschlossenen

Trainingsepoche) durch den mittleren quadratischen Prognosefehler in der Validierungsmenge

(6.21) ( ) ( )STN

Y fi ii

N

$ $w X w= −=∑1

22 2

1

22

( , )

geschätzt. Der Lernprozeß wird abgebrochen, wenn die Fehlerfunktion ( )ST $w nach anfäng-

lichem Sinken zu wachsen beginnt.

Vorteilhaft an der Stopp-Training-Prozedur erscheint ihre Einfachheit und der geringe Re-

chenaufwand. Wird ein hinreichend großes Netzwerk vorgegeben, dann führt der Trainings-

prozeß i.d.R. sehr schnell zu einer Minimumstelle der Fehlerfunktion (6.21). Vom Anwender

wird lediglich die Festlegung der Umfänge N N1 2, der Trainings- und Validierungsmenge

verlangt. Ein praktisches Problem ist, daß der Trainingsprozeß eine globale Minimumstelle

der Fehlerfunktion ( )ST $w verfehlen und in einer lokalen Minimumstelle enden kann. Diese

Gefahr kann durch den Einsatz der Multistart-Technik gemildert werden.

Neben dem genannten praktischen Problem weist die Prozedur aus statistischer Sicht weitere,

zum Teil gravierende Schwachstellen auf:

(i) Die stochastischen Eigenschaften der Gewichtsschätzer sind unbekannt und können auch

nicht mit dem üblichen statistischen Instrumentarium analysiert werden.

(ii) Die Zerlegung der Datenmenge in eine Trainings- und eine Validierungsmenge ist ineffi-

zient, da sowohl dem Gewichtstraining als auch der Prognosevalidierung Daten 'vorent-

halten' werden. Notwendige Voraussetzung für das Erreichen guter Prognoseergebnisse

dürfte i.d.R. das Vorliegen einer sehr umfangreichen Datenmenge sein, so daß für das

Training und die Validierung jeweils eine hinreichende Anzahl Muster verfügbar ist.

(iii) Die größte Schwäche des Verfahrens resultiert aus der seriellen Abhängigkeitsstruktur

des datenerzeugenden Prozesses. Um eine realistische Schätzung des Fehlermaßes (6.20)

erwarten zu dürfen, sollten die Trainingsmuster und die Validierungsmuster Beobachtun-

gen stochastisch unabhängiger Zufallsgrößen sein. In Zeitreihenanwendungen bestehen

jedoch ausgeprägte Abhängigkeitsbeziehungen. Konsequenz ist, daß mit hoher Wahr-

scheinlichkeit ( )ST $w den erwarteten quadratischen Prognosefehler ( )PE $w unterschätzt

und der Lernprozeß erst dann gestoppt wird, wenn eine Überanpassung an die Trainings-

daten bereits erfolgt ist.



Überraschenderweise wird dem letztgenannten Kritikpunkt in vielen konnektionistischen Ver-

öffentlichungen keine oder nur geringe Aufmerksamkeit geschenkt (siehe z.B. Miller [1994]).

Pragmatische Lösungen des Problems sind denkbar. Beispielsweise könnten die Elemente der

Trainings- und der Validierungsmenge wie folgt bestimmt werden: Der Menge D werden

mehrere Blöcke, jeweils bestehend aus 2k+1 zeitlich geordneten Mustervektoren Z Zt k t− ,..., ,

...,Zt k+ , entnommen, wobei die Zahl k so zu wählen ist, daß die Muster Z t k− −1, Z t und

Z t k+ +1 approximativ unabhängig voneinander sind. Die 'mittleren' Muster Z t der Blöcke

bilden die Validierungsmenge D2, während die 'Randmuster' Z Z Z Zt k t t t k− − + +,..., , ,...,1 1 weder

zur Gewichtsschätzung noch zur Validierung genutzt werden. Die in D verbliebenen Ele-

mente bilden die Trainingsmenge D1. Natürlich gilt der Kritikpunkt (ii) für diese modifizierte

Vorgehensweise im verstärktem Maße.

Ein weiterer populärer Regularisierungsansatz für KNN ist der sogenannte Weight-Decay

(Gewichtszerfall, siehe Hinton [1986]). Charakteristikum der Weight-Decay-Technik ist, daß

die Schätzung einer hinreichend glatten Netzausgabefunktion durch 'Bestrafung' absolut

großer Netzgewichte erzwungen werden soll. Es seien wieder ein groß dimensioniertes

MLP( p r, ,1)-Netz und N n p= − Lernmuster Z t = ( )Yt t, ′ ′−X 1 ( t p n= +1,..., ) gegeben. Ziel

des Netzwerktrainings ist jetzt die Minimierung einer erweiterten NKQ-Zielfunktion

(6.22) ( ) ( ) ( )WDN

Y f Ct tt p

n

w X w w= − +

−

= +∑1

11

2( , ) λ ,

wobei λ ein frei wählbarer, nicht-negativer Regularisierungsparameter und ( )C w w w= ′ eine

quadratische Straf- oder Komplexitätsfunktion ist. Die quadratische Funktion erzwingt

tendenziell kleine Absolutbeträge aller Netzgewichte. Der Ansatz ist eng mit der Ridge-

Schätzung von Parametern in linearen Regressionsmodellen verwandt (siehe Hoerl &

Kennrad [1970a,b]). Im (trivialen) Spezialfall einer linearen Netzausgabefunktion sind

Weight-Decay und Ridge-Regression äquivalent.

Weigend [1991] schlägt als Alternative zur unbeschränkten quadratischen Straffunktion

( )C w w w= ′ das beschränkte Funktional

(6.23) ( )( )

( )C

w

wi

ii

m

w =+=

∑τ

τ

2

211

vor, wobei wi die i-te Komponente des m-dimensionalen Vektors w kennzeichnet und τ ein

positiver Skalierungsparameter ist. Die Funktion (6.23) nimmt Werte im Intervall [ )0 ,m an.

Gewichte mit wi >> τ liefern einen 'Strafbeitrag' nahe Eins und Gewichte mit wi << τ einen

Beitrag nahe null. Weigend wählt den Skalierungsparameter τ in Abhängigkeit vom Wertebe-



reich der Aktivierungsfunktionen φ im Netzwerk. Variieren die Aktivierungen im Intervall

( )0 1 , , dann empfiehlt er den Parameterwert τ=1 . Bei geeigneter Vorgabe des Regularisie-

rungsparameters erzwingt die Straffunktion Gewichtsvektoren mit einigen Gewichten mode-

rater Größenordnung und vielen Gewichten nahe null. Weigend bezeichnet diese Variante des

Weight-Decay deshalb auch als Weight-Elimination. Man beachte, daß beide genannten Straf-

funktionen so gewählt sind, daß nur geringfügige Modifikationen des Standard-Backpropaga-

tion-Algorithmus notwendig sind, um Backpropagation auch zur Minimierung der erweiterten

Zielfunktion (6.22) einsetzen zu können.

Ob mit Hilfe von Weight-Decay eine geeignete Regularisierung des Netzwerkes gelingt, hängt

entscheidend von der Wahl des Parameters λ ab. Im Idealfall sollte λ so festgelegt werden,

daß der erwartete quadratische Prognosefehler (6.20) minimal ist. In der konnektionistischen

Literatur finden sich zahlreiche Vorschläge zur 'On-Line-Optimierung' von λ, womit eine

simultane Optimierung des Regularisierungsparameters und der Netzgewichte im Laufe des

Lernprozesses gemeint ist. So greift beispielsweise Zimmermann [1994, S.63] die Grundidee

des Stopp-Trainings auf: Die Datenmenge D wird wieder in eine Trainingsmenge D1 und eine

Validierungsmenge D2 zerlegt; während des Lernprozesses ist λ so einzustellen, daß die

mittleren quadratischen Fehler in beiden Mengen möglichst gleichförmig sinken. Ebenso wie

Stopp-Training ist diese Prozedur jedoch eher für Querschnittsdaten denn für Zeitreihendaten

geeignet. Desweiteren macht sie keinen Gebrauch von einem potentiellen Vorteil des Weight-

Decay, nämlich der Nutzung der kompletten Datenmenge D zur Parameteradjustierung. Eine

simultane Optimierung des Regularisierungsparameters und der Netzgewichte auf Basis aller

verfügbaren Lerndaten streben die On-Line-Ansätze von MacKay [1995] und Weigend

[1991] an. Der erste Ansatz ist ein Bayes'sches Verfahren, der zweite Ansatz ein einfaches

heuristisches Verfahren zur Kontrolle von λ. Der Vorschlag von Weigend wird im Rahmen

eines empirischen Anwendungsbeispiels in Kapitel 9.2 detailliert diskutiert.

Problematisch an den vorgestellten Vorgehensweisen ist die a priori Vorgabe einer Ordnung p

der Netzeingabeschicht. Um sicherzustellen, daß p die wahre Ordnung po des datenerzeugen-

den NLAR-Prozesses nicht unterschreitet und damit möglicherweise der Netzeingabevektor

X t t t pY Y− − −= ′1 1( ),..., für die Prognose bedeutsame zeitverzögerte Variablen Yt l− ( )1< ≤l ponicht enthält, erscheint zunächst die Vorgabe einer hohen Ordnung p ratsam. Diese Strategie

ist natürlich unbefriedigend: Gilt p po>> , dann ist die Netzwerkkomplexität unnötig hoch

und die Anzahl N der verfügbaren Lernmuster wird unnötig reduziert.

Im Rahmen der schnellen Stopp-Training-Prozedur, bietet sich an, mit verschiedenen Ordnun-

gen p p1 2, ,... zu experimentieren, ehe eine endgültige Wahl getroffen wird. Selektiert wird

die Ordnung, die einen minimalen Wert der Fehlerfunktion (6.21) ermöglicht. Die prinzipiel-



len Bedenken bezüglich der Validität von Stopp-Trainingsergebnissen bleiben allerdings be-

stehen. Weight-Decay bietet keine verfahrensimmanente Problemlösung an. Hier ist der Ein-

satz ergänzender Analyseverfahren notwendig. In der konnektionistischen Praxis wird daher

Weight-Decay auch mit Modellselektionstechniken kombiniert. Das Modellspezifikationspro-

blem besteht nun darin, simultan eine Netzwerkarchitektur und einen Regularisierungspara-

meterwert adäquat zu bestimmen.

6.3.2 Modellselektion mittels Kreuzvalidierung und Informationskriterien

Modellselektionsverfahren verfolgen die Strategie, aus einer präspezifizierten Menge M an

Modellen das im Sinne der Aufgabenstellung 'beste' Modell auszuwählen. Zur Konkretisie-

rung sei zunächst angenommen, die Modellmenge enthalte NM MLP-Netze mit den Ausgabe-

funktionen

(6.24) ( ) ( ) ( ) ( ) ( )( )

( ) ( ) ( )( )( )

f x xu u u u u

u

u u u

uu

i i

i

p

j j ij i

i

p

j

r

( )x w, = + ⋅ + ⋅ + ⋅

= ==

∑ ∑∑α α β φ γ γ0

1

0

11

( )u N M= 1,..., .

Die Netze unterscheiden sich hinsichtlich der Ordnung ( )p u der Eingabeschicht und/oder der

Anzahl ( )r u der verborgenen Verarbeitungseinheiten. So können beispie lsweise Höchstwerte

p max , r max für ( )p u , ( )r u aufgrund heuristischer Überlegungen festgelegt und alle

MLP( ( ) ( )p ru u, ,1 )-Netze der Ordnung ( )p pu = 1,..., max , ( )r ru = 1,..., max in die Menge M auf-

genommen werden. Um eine Entscheidung für ein Element von M herbeiführen zu können,

bedarf es eines geeigneten Entscheidungskriteriums. Es bietet sich an, die erwarteten quadrati-

schen Prognosefehler der konkurrierenden Netze zu schätzen und das Netz mit dem kleinsten

Schätzwert auszuwählen. Die Schätzung kann hierbei direkt mit Hilfe der Kreuzvalidierungs-

methode oder indirekt durch Adjustierung der Residualvarianz angepaßter Netze erfolgen.

Der Basisansatz der Kreuzvalidierung (Stone [1974], Geisser [1975]) wurde bereits im Rah-

men der Stopp-Training-Prozedur vorgestellt: Die Schätzung der Netzgewichte und die Vali-

dierung der Prognoseeigenschaften eines Netzes erfolgen getrennt auf Basis zweier disjunkter

Teilmengen des verfügbaren Datensatzes. Im hier interessierenden Kontext ist der Einsatz

verfeinerter Techniken möglich, die einen effizienteren Gebrauch von den verfügbaren Daten

machen. Mit diesen Techniken ist allerdings ein deutlich erhöhter Rechenaufwand verbunden.

Eine effiziente Datennutzung ermöglicht die sogenannte 'leave-one-out cross-validation'.

Mit ( )( )

( ) ( )D uu

u u

p n= + Z Z1,..., sei die für das Training und die Validierung des Approximators

( )f u ( )⋅ ⋅, verfügbare Mustermenge gekennzeichnet. Die Menge enthält die Werte der( ) ( )N n pu u= − Vektoren ( ) ( )Z Xt

u uYt t= ′−( ), '1 mit ( )

( )X t t t pu

uY Y− − −= ′1 1( ),..., als Elemente. Ferner



sei ( )$w u eine auf ( )D u basierende NKQ-Schätzung für ( )w u . Leave-one-out Kreuzvalidierung

schätzt jetzt den erwarteten quadratischen Prognosefehler des angepaßten Netzes( ) ( )f u u( ) ⋅ , $w durch den kreuzvalidierten mittleren Prognosefehler

(6.25) ( )( )

( ) ( ) ( )( )( )

CV fN

Y fuu

u u u

ut t t

t p

n

0 1 0

2

1

1( ) ( )= − −

= +∑ X w, $ , ( )u N M= 1,..., ,

wobei ( )$ ,w0 tu eine auf der Teilmenge ( ) ( )D u u

t\ z von ( )D u basierende NKQ-Schätzung für( )w u ist:

(6.26) ( ) ( ) ( ) ( )( )( )

$ arg min ,, ,w X w0 1

2

1t j j t j

j p

nu u u u

u

Y f= −

−

= +∑ ( ) ω ( )( )t p nu= +1,..., .

In (6.26) ist ( ) ωt j p t j nu, ,+ ≤ ≤1 eine Menge reeller Gewichte mit

( )( )ωt j

j t

N u, ==

−

0

1 1 sonst.

Die leave-one-out Kreuzvalidierung ist für Anwendungen konzipiert, in denen Realisationen

stochastisch unabhängiger Zufallsvektoren als Lernmuster gegeben sind. In Zeitreihenanwen-

dungen ist dies nicht erfüllt, und (6.25) wird mit hoher Wahrscheinlichkeit zu einer ungerecht-

fertigt optimistischen Schätzung der Prognoseperformance des Netzes führen. Die verzerren-

den Effekte seriell abhängiger Daten können durch die im Vorkapitel skizzierte Block-

Technik abgeschwächt werden. Im Rahmen der k-Block-Kreuzvalidierung (siehe z.B. Burman

et al. [1994]) wird bei der Ermittlung des t-ten NKQ-Schätzung anstelle eines einzelnen

Musters ( )Z tu ein Block von (höchstens) 2k+1 Muster ( ) ( ) ( )Z Z Zt k t t k

u u u− +,..., ,..., aus der Menge

( )D u entfernt. Am historischen und aktuellen Rand der Zeitreihe können asymmetrische

Blöcke gebildet und entfernt werden. Der k-Block-NKQ-Schätzer für ( )w u sei mit bezeichnet( )$ ,wk tu . Es gilt:

(6.27) ( ) ( ) ( ) ( )( )( )

$ arg min ,, ,w X wk t j j t jj p

nu u u u

u

Y f= −

−

= +∑ ( )1

2

1

ω ( )( )t p nu= +1,...,

mit den Gewichten

( )

( ) ( )( )ωt j

p j t k

N k t p

u

u u, =< ≤ +

− − +

0

1 sonst

für ( ) ( )p t p ku u+ ≤ ≤ +1 ,



( )( )ωt j

t k j t k

N ku, =− ≤ ≤ +

− −

0

1 2 1 sonst

für ( )p k t n ku + < ≤ − und

( )( )ωt j

t k j n

t k p u, =− ≤ ≤

− − −

0

1 1 sonst

für n k t n− < ≤ . Der kreuzvalidierte mittlere Prognosefehler des u-ten Netzes ist analog zu

(6.25) durch

(6.28) ( )( )

( ) ( ) ( )( )( )

CV fN

Y fk t t k tt p

nu

uu u u

u

( ) ( )= − −= +

∑11

2

1

X w, $ , ( )u N M= 1,..., ,

gegeben. Für k = 0 geht (6.28) in (6.25) über. Aus der Menge M der konkurrierenden Netze

wird jetzt dasjenige selektiert, für das ( )CV fku( ) den kleinsten Wert annimmt.

Es bleibt die Frage zu diskutieren, wie der Blockparameter k festzulegen ist. Durch die Block-

bildung sollen näherungsweise unabhängige Trainings- und Validierungsmengen erzeugt

werden. Mit welchem Blockparameterwert dies zu erreichen ist, hängt von der 'Gedächtnis-

länge' des datenerzeugenden Prozesses ab. Erkenntnisse über den Zeitraum, in dem die seri-

ellen Abhängigkeitsbeziehungen zwischen den Prozeßvariablen wirksam sind, können durch

Analyse empirischer zentraler Momentfunktionen zweiter Ordnung (Autokovarianzfunktion)

und höherer Ordnung der beobachteten Zeitreihe gewonnen werden. Die Wahl von k ist un-

problematisch, wenn eine relativ zum Prozeßgedächtnis lange Zeitreihe als Datenbasis ver-

fügbar ist. Hier kann einerseits ein hinreichend großes k gesetzt werden, um näherungsweise

Unabhängigkeit zwischen Trainings- und Validierungsmengen zu erreichen. Andererseits ver-

bleiben in den Trainingsmengen hinreichend viele Daten, um zuverlässige Schätzungen der

Netzgewichte zu gewährleisten. Ist die Zeitreihe jedoch relativ zum Prozeßgedächtnis kurz,

dann besteht die Gefahr, daß k-Block-Kreuzvalidierung zu unrealistischen Schätzungen der

erwarteten quadratischen Prognosefehler führt. Ein kleines k (relativ zu ( )N u ) führt tenden-

ziell zur Unterschätzung der Prognosefehler. Ein großes k (relativ zu ( )N u ) führt zu ineffizi-

enten Gewichtsschätzungen und - als Folge - tendenziell zur Überschätzung der Prognose-

fehler.

Um das geschilderte Problem zu mildern, schlagen Burman et al. [1994] einen heuristisch

motivierten Korrekturterm für die k-Block-Kreuzvalidierungsschätzung ( )CV fku( ) des

Prognosefehlers vor. Die Autoren zeigen im Rahmen einer Simulationsstudie, daß für lineare

AR(p)-Modelle und kurze Zeitreihen die korrigierte k-Block-Kreuzvalidierung gegenüber der

unkorrigierten Technik zu deutlich zuverlässigeren Schätzergebnissen führt. Insbesondere



reagiert das Verfahren weniger sensibel auf die Wahl des Blockparameters. In dem hier

diskutierten Kontext besitzt die korrigierte Schätzung die Form:

(6.29) ( )

( )( ) ( ) ( )( ) ( )

( ) ( ) ( )( )

( )( ) ( ) ( )( ) ( )

CCV fN

Y fN

Y f

NY f u N

k t t k tt

t t k jtj

t tt

uu

u u u

u

u u u

uu u u

M

( ) ( ) ( )

( )

= − − −

+ − =

− −

−

∑ ∑∑

∑

1 1

1 1

12

1

2

12

2X w X w

X w

, $ , $

, $ ,..., .

, ,

Die experimentellen Ergebnisse von Burman et al. basieren allerdings ausschließlich auf Simu-

lationen von Prozessen mit vergleichsweise kurzem Gedächtnis. Liegt ein datenerzeugender

Prozeß mit langem Gedächtnis vor, dann ist auch beim Einsatz der korrigierten Technik Vor-

sicht geboten.

Ein weiterer Schwachpunkt der k-Block-Kreuzvalidierung ist der mit ihr verbundene enorme

Rechenaufwand. Die Ermittlung von ( )CV fku( ) bzw. ( )CCV fk

u( ) erfordert für jedes u die( )N u -fache NKQ-Schätzung des Gewichtsvektors

( )w u . Ein pragmatischer Weg, den Auf-

wand zu reduzieren, wäre eine Kombination der k-Block-Technik mit der 'K-fold cross-vali-

dation' (siehe z.B. Geisser [1975]). Eine weitergehende Reduktion ermöglicht der Einsatz von

Informationskriterien.

Mit ( )$w u sei wieder eine auf der Datenmenge ( )D u basierende NKQ-Schätzung des Ge-

wichtsvektors eines MLP( ( ) ( )p ru u, ,1 )-Netzes ( ) ( )f u u( ) ⋅ ,w gegeben. Ein übliches Maß für

die Güte der Anpassung des Netzwerkes an die Daten ( )D u ist die mittlere Residual-

quadratsumme

(6.30) ( )( )

( )

( )

$ $σ εuu

u

uN tt p

n2 2

1

1== +

∑

mit ( ) ( ) ( ) ( )$ , $ε t t tu u u uY f= − −( )X w1 , ( ) ( ) ( )Z Xt t t

u u uY D= ′ ∈−( ), '1 . Unter den Annahmen, daß ein da-

tenerzeugender NLAR( ( )p u )-Prozeß der Form (6.9) vorliegt und ( ) ( ) ( )f u u u( )x w, $ die beding-

te Erwartungswertfunktion ( ) ( ) ( )µ( ) [ ] x X xu u uE Yt t= =−1 des Prozesses für alle ( ) ( )x u u

IR p∈hinreichend gut approximiert, ist ( )$σ u 2

auch ein geeignetes Maß für die Prognoseperformance

des Netzes. ( )$σ u 2 ermöglicht jetzt eine adäquate Schätzung der Varianz Var t[ ]ε = σε

2 der

Störungen ε µt t tY= − −( )X 1 des Prozesses, die mit den Prognosefehlern des MSE-optimalen

Einschritt-Prediktors für Yt im Prognoseursprung t−1 identisch sind. Liegt hingegen ein

NLAR( po )-Prozeß mit ( )p pou< vor, und/oder wurde ein MLP( ( ) ( )p ru u, ,1 )-Netz mit einer

unnötig großen Anzahl ( )r u verborgener Einheiten gewählt, dann wird ( )$σ u 2 die Prognose-

fehlervarianz σε2 systematisch unterschätzen und ist als Prognoseperformance-Maß ungeeig-



net. In der Tat wird für einen Datensatz finiten Umfanges ( )$σ u 2 für wachsendes ( )p u und ( )r u

monoton gegen null streben.

Eine realistischere Einschätzung der 'out-of-sample' Prognoseeigenschaften von Modellen er-

möglichen Kriterien, die die Anpassungsgüte komplexer Modelle durch einen Komplexitäts-

term adäquat 'bestrafen'. In der statistischen Literatur finden sich zahlreiche Vorschläge für

Modellselektionskriterien, die diese Strategie verfolgen. Die populärsten Ansätze sind das

Akaike Information Criterion (AIC) (Akaike [1974]), das Schwarz Information Criterion

(SIC) (Schwarz [1978]) und das Hannan-Quinn Information Criterion (HQIC) (Hannan &

Quinn [1979]). Die auf der Maximum-Likelihood-Methode basierenden Informationskriterien

finden in den unterschiedlichsten Bereichen statistischer Modellierung Anwendung. Im hier

interessierenden Kontext können sie wie folgt notiert werden:

(6.31) ( ) ( )( )

( )AIC f mN

u uu

u( ) = + ⋅ln $σ 2 2

,

(6.32) ( ) ( )( ) ( )

( )SIC f m NN

u uu u

u( ) = + ⋅ln $ lnσ 2

,

(6.33) ( ) ( )( ) ( )

( )HQIC fm c N

Nu u

u u

u( )

( )= + ⋅ ⋅ln $ ln lnσ

2 ,c ≥ 2 ,

wobei ( )m u die Anzahl der geschätzten Netzgewichte ist. Der erste Term ( )ln $σ u 2 auf den

rechten Seiten in (6.31) - (6.33) mißt jeweils die Anpassungsgüte, die zweiten Terme

bestrafen die durch die Parameteranzahl indizierte Komplexität eines Modells. Ein Modell ist

im Sinne des jeweiligen Kriteriums optimal, wenn die Summe der beiden Terme minimal ist.

Beim Einsatz von Informationskriterien entfällt gegenüber der k-Block-Kreuzvalidierung das

kritische Problem der Wahl eines adäquaten Blockparameters. Andererseits erfordert ihre

theoretische Rechtfertigung im Gegensatz zur datengetriebenen Kreuzvalidierung restriktive

Annahmen. Eine Basisannahme ist, daß das wahre datenerzeugende Modell Element der

vorgegebenen Modellmenge M ist. D.h. hier, es existiert eine Funktion ( )f Mu ∈ so, daß( ) ( ) ( ) ( )P ft t ou u u( )( ) ( )uµ X X w− −= =1 1 1, für ein ( ) ( )w IRo

mu u∈ gilt. Eine weitere Annahme ist, daß

die Prozeßstörungen εt unabhängig und identisch N ( )0 2,σε -verteilt sind. Unter diesen Vor-

aussetzungen ist ( )ln $σ u 2 proportional zum Maximum der Loglikelihoodfunktion des Modells

( ) ( )f uo( )

u⋅ ,w (siehe z.B. Tong [1990, S.281ff] für eine ausführliche Diskussion). Diese Vor-

aussetzungen werden in vielen Anwendungen nicht oder nur näherungsweise erfüllt sein. Den-

noch können die Kriterien als sinnvolle heuristische Selektionskriterien angesehen werden,

die eine Ausbalancierung von Anpassungsgüte und Modellkomplexität anstreben.



Das SIC und das HQIC bestrafen die Parameteranzahl stärker als das AIC und führen daher

i.d.R. zur Auswahl konservativerer (weniger komplexer) Modelle. Es ist bekannt, daß das SIC

und das HQIC, eingesetzt als Selektionskriterien für lineare AR(p)- und ARMA(p,q)-Modelle,

unter Regularitätsbedingungen eine konsistente Schätzung der 'wahren' Modellkomplexität

ermöglichen, während das AIC (auch) bei Vorliegen infinit langer Zeitreihen zur Auswahl

überparametrisierter Modelle tendiert (siehe Hannan [1980]). Aus diesem Grund werden das

SIC und das HQIC in der linearen Zeitreihenanalyse bevorzugt eingesetzt. Ob SIC und HQIC

dem AIC auch als Selektionskriterien für MLP-Netze vorzuziehen sind, kann an dieser Stelle

nicht beantwortet werden. Nach eigenen Erfahrungen tendiert das SIC bei Vorliegen von Zeit-

reihen moderater Länge zur Auswahl übermäßig konservativer Netzwerke. Ein Beispiel wird

in Kapitel 9.2 diskutiert.

Bei praktischen Anwendungen der k-Block-Kreuzvalidierung und der Informationskriterien

treten, neben den bereits genannten Problemen, weitere Schwierigkeiten auf. Zum einen hängt

die Validität der Selektionsergebnisse entscheidend davon ab, daß die Gewichtsschätzungen

tatsächlich mit globalen Minimumstellen der jeweiligen NKQ-Zielfunktionen identisch sind.

Da die Zielfunktionen eine Vielzahl suboptimaler, lokaler Minima besitzen können, ist eine

sorgfältige Kontrolle der Schätzergebnisse (gegebenenfalls durch Multistart-Technik) not-

wendig. Zum anderen dürften beide Verfahren unter den bisher getroffenen Vereinbarungen

i.d.R. nur bei Verfügbarkeit sehr langer Zeitreihen zu befriedigenden Selektionsergebnissen

führen. Im Falle kurzer Reihen mit n < 100 Beobachtungen können bereits Netzwerke mit

mehr als einer verborgenen Verarbeitungseinheit zu einer Überanpassung führen. Dies gilt

selbst für längere Reihen ( n > 100 ), wenn eine hohe Ordnung der Eingabeschicht erforderlich

ist. Folge ist, daß das Potential der Mehrschicht-Perzeptrone mit mehreren verborgenen Ein-

heiten nicht genutzt werden kann (siehe hierzu auch Kapitel 9).

Eine denkbare Lösung des letztgenannten Problems besteht in einer Erweiterung der Modell-

selektionsaufgabe. Bisher wurden als konkurrierende Modelle ausschließlich 'volle'

MLP( ( ) ( )p ru u, ,1)-Netze unterschiedlicher Ordnung ( )p u und/oder ( )r u betrachtet. Es können

jedoch auch 'Subset-Netze', die sich dadurch auszeichnen, daß einige Netzgewichte ( )αiu und/

oder ( )γ iju a priori gleich null gesetzt sind, in den Selektionsprozeß mit einbezogen werden.

Das Vorgehen erlaubt es, Netzwerke hoher Ordnung ( )p u , ( )r u zu konstruieren, die dennoch

nur eine moderate Anzahl frei adjustierbarer Parameter enthalten. Diese in der Zeitreihenana-

lyse übliche Praxis ist speziell dann sinnvoll, wenn eine Zeitreihe zyklische Schwankungen

aufweist. Hier wird häufig nur eine Teilmenge der Komponenten des Eingabevektors ( )X tu−1

zur adäquaten Modellierung benötigt (siehe z.B. Birkenfeld & Schuhr [1985]). Der Umsetz-



barkeit dieser Strategie sind in der Praxis jedoch enge Grenzen gesetzt, da aus der kombinato-

rischen Vielfalt von Subset-Netzen ein kaum handhabbar hoher Rechenaufwand resultiert.

Eine häufig praktikablere Problemlösungsstrategie ist die Kombination eines Modellselekti-

onsverfahrens mit der Standard-Weight-Decay-Technik. Vorgegeben wird eine Menge von

MLP(p,r,1)-Netzwerkarchitekturen mit einer festen, hinreichend groß gewählten Anzahl r

verborgener Einheiten und variabler Ordnung p der Eingabeschicht. Das Netzwerktraining

erfolgt durch Minimierung einer erweiterten NKQ-Zielfunktion der Form (6.22) mit quadrati-

scher Straffunktion und verschiedenen, vorgegebenen Werten des Regularisierungsparameters

λ. Jedes verschiedene Wertepaar von p und λ definiert ein anderes Modell ( )f u ( )⋅ ⋅, . Gesucht

wird jetzt das optimale Wertepaar.

Eine Kombination von k-Block-Kreuzvalidierung und Weight-Decay ist einfach implemen-

tierbar. Die Gleichung (6.27) ist durch

(6.34) ( ) ( ) ( ) ( ) ( ) ( )( )( )

$ argmin ,, ,w X w wk t j j t j

j p

nu u u u u u

u

Y f C= − +

−

= +

∑ ( ) ( )1

2

1

λ ω ( )( )t p nu= +1,...,

zu ersetzen, wobei ( )p u für die Ordnung der Eingabeschicht und ( )λ u für den Regularisie-

rungsparameter des u-ten Netzes steht. Ein praktisches Problem kann daraus resultieren, daß

für festes t gegebenenfalls multiple Minimumstellen ( )$ ,wk tu mit unterschiedlicher Vektornorm

existieren. Zur Vermeidung nicht-valider Ergebnisse sollten deshalb normierte Gewichte in

die Straffunktion eingesetzt werden; z.B. ( ) ( )C u u( )w w , wobei L die euklidische Norm

kennzeichnet. Durch geeignete heuristische Strategien der Regularisierungsparametervorgabe

kann der erforderliche Rechenaufwand in Grenzen gehalten werden. So bietet es sich bei-

spielsweise an, Regularisierungsparameterwerte, die bei einfachen Netzen keine hinreichende

Glättung der Ausgabefunktion ermöglichten, bei komplexeren Netzwerken nicht mehr ins

Kalkül zu ziehen.

Eine Kombination von Weight-Decay und Modellselektion mittels AIC, SIC und HQIC ist

nicht möglich, da im Falle künstlich 'gedämpfter' Netzparameter ihre Anzahl kein tauglicher

Indikator für die Netzwerkkomplexität ist. Murata et al. [1991] schlagen ein generalisiertes

AIC, das Network Information Criterion (NIC), vor, das auch die Diskrimination regularisier-

ter Netze erlaubt. Ein eng verwandter Ansatz ist der Generalized Prediction Error (GPE) von

Moody [1992]. Bezüglich der näheren Hintergründe sei auf die angegebene Literatur verwie-

sen.



6.3.3 Diagnose der Anzahl verborgener Verarbeitungseinheiten

Unabhängig davon, welche Spezifikationswerkzeuge eingesetzt werden, sollte ein spezifi-

ziertes Netzwerk vor dem Prognoseeinsatz einer kritischen Diagnose unterworfen werden. Es

ist zu prüfen, ob das Mehrschicht-Perzeptron die prognoserelevanten Eigenschaften des da-

tenerzeugenden Prozesses adäquat erfaßt oder nicht. Hält es der Prüfung nicht stand, dann ist

das Netz als inadäquat zu verwerfen, und es gilt, ein modifiziertes Netz zu spezifizieren.

Eine mögliche Diagnosestrategie ist die Residuenanalyse. Mit $ , $ε t t tY f= − −( )X w1 seien

wieder die Residuen eines angepaßten Netzes bezeichnet. Ermöglicht die Netzausgabefunktion

eine adäquate Approximation der bedingten Erwartungswertfunktion des datenerzeugenden

NLAR-Prozesses, dann entsprechen die statistischen Eigenschaften der Residuen $εt denen

der Prozeßstörungen εt näherungsweise; speziell sind die Residuen approximativ unabhängig

voneinander. Umgekehrt verweisen ausgeprägte serielle Abhängigkeitsbeziehungen in der

Residualreihe auf eine Misspezifikation des Netzes. Zur Analyse serieller Abhängigkeits-

beziehungen in Residualreihen steht ein umfangreiches statistisches Instrumentarium zur Ver-

fügung. Eine detaillierte Darstellung der Verfahren geben z.B. Schuhr [1991] oder Granger &

Teräsvirta [1993].

Eine andere Diagnosestrategie verfolgt der sogenannte Overfitting-Ansatz (vgl. Box & Jenkins

[1970, S.286]). Hier wird geprüft, ob durch den Übergang von einem gegebenen Modell zu

einem erweiterten Modell eine verbesserte Erfassung der Strukturen des datenerzeugenden

Prozesses erreicht werden kann. Diese Strategie ist natürlich nur dann sinnvoll, wenn zuvor

die Spezifikation eines möglichst einfachen Modells angestrebt wurde, so daß eine Über-

anpassung des spezifizierten Modells auszuschließen ist. Geeignete Instrumente zur prakti-

schen Umsetzung des Overfitting-Ansatzes sind Lagrange-Multiplier-Testverfahren.

Teräsvirta & Lin [1993] schlagen eine erweiterte Version des in Abschnitt 6.2 vorgestellten

Lagrange-Multiplier-Tests auf Nichtlinearität stochastischer Prozesse von Teräsvirta, Lin &

Granger [1993] vor, der in dem genannten Sinne als ein diagnostischer Spezifikationstest für

Mehrschicht-Perzeptrone einsetzbar ist. Der LM-Test ermöglicht die Diagnose der Anzahl

verborgener Verarbeitungseinheiten eines Netzes.

Als datenerzeugender Prozeß sei ein streng stationärer NLAR(p)-Prozeß unterstellt, dessen

bedingte Erwartungswertfunktion fast sicher durch ein MLP(p,r+1,1)-Netz mit Shortcut-Ver-

bindungen und einer logistischen Aktivierungsfunktion ( ) ( )φ x x= + − −− 1 1 12

exp der verbor-

genen Einheiten fehlerfrei approximiert werden kann. Der datenerzeugende Prozeß ist also ein

streng stationärer MLPAR(p)-Prozeß der Form



(6.35) ( )Yt t u u tu

r

t= ′ + ′ +− −=

+

∑αα γγ~ ~X X1 11

1

β φ ε , ε σεt iid~ ,( )0 2 ,

mit αα = ′ ∈ +( )α α α0 11, ,..., p IR p , ββ = ′ ∈+

+( )β β1 11,..., r IR r und γγ u u u pu IR p= ′ ∈ +( )γ γ γ0 1

1, ,...,

(u = 1,...,r+1). Ferner sei das zu prüfende Mehrschicht-Perzeptron ein MLP(p,r,1)-Netz mit

analogem Aufbau. Unter diesen Vereinbarungen erlaubt ein MLP(p,r,1)-Netzwerk nur dann

eine adäquate Approximation des datenerzeugenden Prozesses, wenn genau eine der verbor-

genen Verarbeitungseinheiten in (6.35) inaktiv ist; anderenfalls besteht Raum zur Verbesse-

rung. Durch einen Test der Hypothesen

(6.36) H r0 1: γγ + = 0 versus H r1 1: γγ + ≠ 0

kann jetzt geprüft werden, ob die Anzahl r verborgener Einheiten hinreichend groß ist.

Auch bei diesem Test entsteht ein Identifikationsproblem: Unter Gültigkeit der Nullhypothese

H0 ist das Gewicht βr++1 in (6.35) nicht identifiziert und erweist sich als ein störender Para-

meter. Teräsvirta & Lin [1993] lösen das Identifikationsproblem durch eine Taylor-Reihen-

Approximation dritter Ordnung der Funktion ( )φ ′ + −γγ r t1 1~X in der Umgebung des Punktes

γγ r+ =1 0 [vgl. die Gleichungen (6.18) und (6.19)]. Das Ausgangsmodell (6.35) wird durch die

Approximation

(6.37) ( )Y

Y Y Y Y Y

t t u u tu

r

ij t i t jj i

p

i

p

ij t i t j t kk j

p

j i

p

i

p

t

= ′ + ′

+ + +

− −=

− −==

− − −===

∑

∑∑ ∑∑∑

ππ γγ~ ~X X1 11

1 1

β φ

δ δ η

mit ππ ∈ +IR p 1 ersetzt, und an die Stelle des Ausgangstestproblems (6.36) tritt das Ersatzpro-

blem

(6.38) ′ =H0 : δδ 0 versus ′ ≠H1: δδ 0

mit dem ( )p p p3 26 5 6+ + -dimensionalen Parametervektor δδ = ′( )δ δ δ δ11 111,..., , ,...,pp ppp .

Die resultierende LM-Testprozedur besteht wieder aus drei Schritten. Als Datenbasis seien

die Lernmuster Z t = ( )Yt t, ′ ′−X 1 ( t p n= +1,..., ) mit X t t t pY Y− − −= ′1 1( ),..., gegeben:

(i) Schätze den Parametervektor w = ′ ′ ′ ′( )αα γγ γγ, ,..., , ,...,β β1 1r r des MLP(p,r,1)-Netzwerks

mit Hilfe der NKQ-Methode (oder einer asymptotisch äquivalenten Methode). Berechne

die Residuen $ , $εt t tY f= − −( )X w1 ( t p n= +1,... , ) und die Residualquadratsumme

RSS tnt p0

21= ∑ = + $ε des geschätzten Netzwerk-Modells.

(ii) Schätze mit Hilfe der KQ-Methode die Koeffizienten der linearen Hilfsregression



( )

( ) ( )

$ $ ~

$ ~ $ ~

ε κ κ λ φ

θ φ θ φ

t i t ii

p

i i ti

r

i i ti

r

ij i t t jj

p

i

r

Y

Y

= + + ′

+ ′ ′ + ′ ′

−=

−=

−=

− −==

∑ ∑

∑ ∑∑

01

11

0 11

111

γγ

γγ γγ

X

X X

+ + +− −==

− − −===

∑∑ ∑∑∑ϑ ϑ νij t i t jj i

p

i

p

ijk t i t j t kk j

p

j i

p

i

p

tY Y Y Y Y1 1

( )t p n= +1,...,

wobei ( )′ ⋅φ die erste Ableitung der Aktivierungsfunktion und νt eine Fehlervariable ist.

Berechne die Residuen $νt ( )t p n= +1,..., und die Residualquadratsumme RSS tnt p1

21=∑ = + $ν

der geschätzten Regression.



0 1 0= − .


Die Statistik LM3 ist unter Gültigkeit von ′H0 asymptotisch χ 2 -verteilt mit ( )p p p3 26 5 6+ +Freiheitsgraden. Übersteigt der realisierte Testfunktionswert den ( )100 1 − α -Prozentpunkt der

asymptotischen Verteilung ( 0 1< <α ), dann wird ′H0 zum (nominalen) Testniveau α verwor-

fen und das MLP(p,r,1)-Netz ist als inadäquat zurückzuweisen.

Wie der Nichtlinearitätstest aus Abschnitt 6.2 erzwingt auch dieser Test nicht notwendig eine

logistische Aktivierungsfunktion. Sie kann durch jede Funktion ersetzt werden, welche die

auf Seite 118 angegebenen Bedingungen erfüllt. Ferner führt die Lösung des Identifikations-

problems mittels Taylor-Reihen-Approximation auch bei dem Vergleich eines MLP(p,r,1)-

Netzes mit einer MLP(p,r+q,1)-Alternative für q > 1 wieder auf obige Testprozedur. Der Test

kann somit trennscharf gegen eine ganze Familie MLP(p,r+q,1)-Alternativen sein.

Problematisch ist die i.d.R. große Regressorvariablenanzahl der Hilfsregression in Schritt (ii).

Ist die Anzahl relativ zum gegebenen Datenumfang groß, dann sind unzuverlässige Ergeb-

nisse der KQ-Schätzung der Regressionsparameter zu befürchten, oder das KQ-Problem be-

sitzt sogar keine eindeutige Lösung. In einem solchen kritischen Fall schlagen Teräsvirta &

Lin vor, die quadratischen und kubischen Terme Y Yt i t j− − bzw. Y Y Yt i t j t k− − − mit Ausnahme

der dritten Potenzen Yt i−3 (i = 1,...,p) aus der Hilfsregression zu entfernen. Die Nullhypothese

des Ersatztestproblems lautet dann:

(6.39) ′′ =H iii0 0: δ (i = 1,...,p) .



Die Freiheitsgrade der asymptotischen Verteilung der Teststatistik LM3 reduzieren sich auf

p. Verbunden ist diese Vorgehensweise mit einem moderaten Machtverlust des Tests.

Enthält das zu prüfende MLP(p,r,1)-Netz keine Shortcut-Verbindungen, d.h. 01 =α==α p... ,

dann ist eine stärker vereinfachte Vorgehensweise möglich. In diesem Fall ist bereits eine

Taylor-Reihen-Approximationen erster Ordnung der Funktion ( )φ ′ + −γγ r t1 1~X um den Punkt

γγ r+ =1 0 zielführend:

( ) ( ) ( ) ( ) ( )( )φ φ φ φ γ φ′ ≈ + ′ ′ ≡ ′ + ′ ′+ − + − + + −γγ γγ γγr t r t r r t1 1 1 1 0 1 1 10 0 0 0~ ~

,X X X

mit ( )φ 0 0= und γγ r r p r+ + += ′1 1 1 1( )γ γ, ,,..., . Das Ausgangsmodell (6.35) wird jetzt durch die

Approximation

(6.40) ( )Yt u u tu

r

t t= + ′ + ′ +−=

−∑π β φ η0 11

1γγ ϕϕ~X X

mit ( )π α β φ γ0 0 1 0 10= + ′+ +r r, und dem p-dimensionalen Vektor ( )ϕϕ γγ= ′+ +β φr r1 10 ersetzt,

und an die Stelle des Testproblems (6.36) tritt das neue Ersatzproblem

(6.41) ′′′ =H0 : ϕϕ 0 versus ′′′ ≠H1 : ϕϕ 0 .

Die resultierende Hilfsregression in Testschritt (ii) besitzt die Form

( ) ( )

( )

$ $ ~ $ ~

$ ~

ε λ λ φ θ φ

θ φ ϑ ν

t i i ti

r

i i ti

r

ij i t t jj

p

i

r

i t ii

p

tY Y

= + ′ + ′ ′

+ ′ ′ + +

−=

−=

− −==

−=

∑ ∑

∑∑ ∑

0 11

0 11

111 1

γγ γγ

γγ

X X

X ( )t p n= +1,..., .

Die Statistik LM3 dieses LM-Tests 'erster Ordnung' ist unter Gültigkeit von ′′′H0 asympto-

tisch χ 2 -verteilt mit p Freiheitsgraden.

Leider ist der Testansatz nicht derartig erweiterbar, daß auch eine Überprüfung der Ordnung p

der Netzeingabeschicht möglich wäre. Der mit Hilfe von Standardsoftware für lineare Regres-

sionsprobleme einfach implementierbare Test ist dennoch ein nützliches Instrument der Mo-

delldiagnose. Der in Abschnitt 6.2 vorgestellte Neuronale-Netzwerk-Test auf vernachlässigte

Nichtlinearität von Lee et al. [1993] kann auf analoge Weise zu einem Diagnoseinstrument

ausgebaut werden (siehe hierzu White [1989c]). Da aufgrund der Verwendung verborgener

'Phantomeinheiten' auch bei diagnostischen Testproblemen mit Machteinbußen des Tests ge-

rechnet werden muß, wird hier auf eine Darstellung verzichtet.


135

7 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN

NEURONALEN NETZEN

Nachdem Mehrschicht-Perzeptrone als nichtlineare autoregressive Zeitreihenmodelle eingeführt und

Aspekte der Modellkonstruktion diskutiert wurden, stellt sich jetzt die Frage, wie Netzwerke zu

Prognosezwecken genutzt werden können. In diesem Kapitel wird das Problem der nichtlinearen

Mehrschritt-Punktprognose erörtert. Dieser Problematik wurde in der Literatur bisher eine

vergleichsweise geringe Aufmerksamkeit geschenkt. Die in veröffentlichten Fallstudien übliche Praxis

besteht darin, durch Iteration der Netzausgabefunktion deterministische Mehrschritt-Prognosen zu

ermitteln. Die Vorgehensweise erscheint attraktiv, da sie einfach implementierbar und wenig

rechenintensiv ist. Sie hat aber den Nachteil, daß sie im allgemeinen zu suboptimalen Prognosen im

Sinne des MSE-Kriteriums führt. Im folgenden werden verschiedene, typischerweise rechenintensive

Techniken zur Schätzung MSE-optimaler Prognosen diskutiert. Da aus der Literatur nur wenige

Erkenntnisse darüber vorliegen, inwieweit mit ihrer Hilfe ein Gewinn an Prognosegenauigkeit

realisiert werden kann, wird auf diese Frage näher eingegangen. Die Eigenschaften der

Prognosetechniken werden im Rahmen einer Simulationsstudie untersucht und verglichen.

7.1 Rekursive Kleinste-Quadrate-Prognose autoregressiver Prozesse

Es sei wieder angenommen, daß der datenerzeugende Prozesses Yt t IZ∈ streng stationär und mit

der Markov-Eigenschaft p-ter Ordnung ausgestattet ist. Der Prozeß ist entsprechend (6.9) in der

autoregressiven Form

(7.1) ( )Yt t t= +−µ εX 1

darstellbar, wobei X t t t pY Y− − −= ′1 1( ),..., , ( ) [ ]µ x X x= =−E Yt t 1 für beliebige x ∈IR p und

ε σεt iid~ ,( )0 2 gilt. In Abschnitt 6.1 wurden Mehrschicht-Perzeptrone als Approximatoren einer

unbekannten, im allgemeinen nichtlinearen bedingten Erwartungswertfunktion µ( )x des

autoregressiven Prozesses motiviert. Um in das Mehrschritt-Prognoseproblem einzuführen, wird an

dieser Stelle die Funktion zunächst als bekannt vorausgesetzt.


136 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN

Unter obiger Annahme ist die MSE-optimale (Kleinste-Quadrate-) Einschritt-Prognosefunktion $,Yn

KQ

1

für die Prozeßvariable Yn+1 im Prognoseursprung t n= sofort gefunden. Es gilt:

(7.2) [ ]$,

Y E Yn n n nKQ

1 1= =+ X Xµ ( ) .

Der Einschritt-Prognosefehler e Y Yn n n nKQ

, ,$

1 1 1 1= − ≡+ +ε ist striktes White Noise. Die Mehrschritt-

KQ-Prognosefunktionen $,Yn h

KQ für Yn h+ (h = 2,3,4,...) ergeben sich wieder als bedingte

Erwartungswerte der Form

(7.3) [ ]$,

Y E Yn h n h nKQ = + X .

Die Ermittlung der Prognosefunktionen (7.3) erweist sich allerdings in der Regel auch bei Kenntnis

von µ( )x als ein nicht-triviales Problem.

Eine Ausnahme liegt vor, wenn der datenerzeugende Prozeß linear ist. Die bedingten Erwar-

tungswerte können hier ohne nähere Kenntnis der bedingten Wahrscheinlichkeitsverteilungen auf eine

einfache rekursive Weise berechnet werden. Der lineare Spezialfall soll zunächst kurz durchleuchtet

werden.

7.1.1 Lineare Autoregression

Gilt ( )µ α α αx = + + +0 1 1x xp p... mit x = ′( )x x p1 ,. .., und den reellen Konstanten αi( )i p= 01, ,.. ., , dann entsteht aus dem allgemeinen Modell (7.1) der lineare AR(p)-Prozeß

(7.4) Y Yt i t ii

p

t= + +−=∑α α ε0

1

, ε σεt iid~ ,( )0 2 .

Aufgrund der Linearität des Erwartungswertoperators folgt aus (7.3) und (7.4) sofort:

(7.5) [ ] [ ] [ ]$,hY E Y E Y En n h n i n h i n

i

p

n h nKQ = = + ++ + −

=+∑X X Xα α ε0

1

.

Da stochastisch unabhängige Störungen εt mit dem Mittelwert Null vorausgesetzt wurden, ist

[ ] [ ]E En h n n hε ε+ += =X 0 . Ferner ist [ ]E Y Yn h i n n h i+ − + −=X für h i− ≤ 0 . Die h-Schritt-KQ-

Prediktoren können somit für h = 1,2,3,... nach dem einfachen rekursiven Schema

(7.6)

$ ...

$ $ ...

$ $ $ ...

,

, ,

, , ,

Y Y Y Y

Y Y Y Y

Y Y Y Y

n n n p n p

n n n p n p

n n n p n p

KQ

KQ KQ

KQ KQ KQ

1 0 1 2 1 1

2 0 1 1 2 2

3 0 1 2 2 1 3

= + + + +

= + + + +

= + + + +

− − +

− +

− +

α α α α

α α α α

α α α α

M

ermittelt werden.


MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 137

Die Eigenschaften von KQ-Prognosefunktionen für stationäre AR(p)-Prozesse sind wohl erforscht

(siehe z.B. Box & Jenkins [1970, S.126ff]). Es sei vorausgesetzt, daß alle Nullstellen des

charakteristischen Polynoms

1 01 22− − − − =α α αz z zp

p...

der Modellgleichung (7.4) außerhalb des Einheitskreises z = 1 liegen. Dann ist Yt gemäß

(7.7) Yt u t uu

Y= + −=

∞

∑µ β ε0

mit µ α αY ii

p

= −=∑0

1

1/ ( ) und β0 1=

darstellbar. Die Darstellung wird als Moving-Average-Prozeß infiniter Ordnung, kurz MA(∞)-

Prozeß, bezeichnet. Die Koeffizientenfolge βu läßt sich mittels Koeffizientenvergleich über die

Identität

( ) ( )1 11 22

0

− − − − ⋅ ≡=

∞

∑α α α βB B B Bpp

uu

u

...

entwickeln, wobei das Symbol B den üblichen Backshift-Operator mit B Y Yt tτ

τ= − (τ = 0,1,...)

bezeichnet. Obige Bedingung bezüglich der Nullstellen des charakteristischen Polynoms garantiert,

daß βu eine absolut summierbare Koeffizientenfolge ist, d.h.

βuu=

∞

∑ < ∞0

,

und die rechte Seite von Gleichung (7.7) im quadratischen Mittel gegen eine wohl definierte

Zufallsvariable konvergiert. Sie impliziert im besonderen, daß der Prozeß stationär mit dem

(unbedingten) Prozeßmittel

(7.8) [ ]E Yt Y= =µ const. für alle t IZ∈

und der Varianz

(7.9) [ ]Var Yt uu

Y= = ⋅ ==

∞

∑σ σ βε2 2 2

0

const . für alle t IZ∈

ist (vgl. Fahrmeir et al. [1981, S.214ff]).

Für t n h= + gilt nun

Yn h u n h uu

Y+ + −=

∞= + ∑µ β ε

0

,

und wegen [ ]E n h u n n h uε ε+ − + −=X für h u− ≤ 0 bzw. [ ]E n h u nε + − =X 0 für h u− > 0 folgt



(7.10) [ ] [ ]$,hY E Y En n h n u n h u n

uu n h u

u h

KQ

Y Y= = + = ++ + −

=

∞

+ −=

∞

∑ ∑X Xµ β ε µ β ε0

.

Der Fehler en ,h der h-Schritt-Prognosefunktion $,hYn

KQ läßt sich schließlich schreiben:

(7.11) e Y Yn n h n u n h uu

hKQ

,h ,h$= − =+ + −

=

−

∑β ε0

1

.

D.h., für festes h und variables n folgen die h-Schritt-Prognosefehler einem Moving-Average-

Prozeß finiter Ordnung h-1. Wegen β0 1= gilt speziell für h=1:

e Y Yn n n nKQ

, ,$

1 1 1 1= − =+ +ε .

In Abschnitt 6.1 wurde bereits gezeigt, daß der KQ-Ansatz generell unverzerrte Prognosefunktionen

liefert; d.h. hier [ ] [ ]E e E en h n n h, ,X = = 0 . Aus obigen Ergebnissen lassen sich für den vorliegenden

Spezialfall einige weitere interessante Aussagen ableiten.

Natürliche Maße für die (Un-)Genauigkeit der h-Schritt-Prediktoren $,hYn

KQ sind die bedingten und

unbedingten Fehlervarianzen [ ] [ ]Var e E en h n n h n, ,X X= 2 bzw. [ ] [ ]Var e E en h n h, ,= 2 . Die

unbedingte Varianz des h-Schritt-Prognosefehlers en ,h erhält man unmittelbar aus (7.11):

[ ]Var en uu

h

,h = ⋅=

−

∑σ βε2 2

0

1

.

Für festes n und wachsenden Prognosehorizont h wachsen die Fehlervarianzen monoton und streben

für h → ∞ gegen die in (7.9) angegebene Prozeßvarianz [ ]Var Yt Y= σ2 . Aus (7.10) ist ferner

ersichtlich, daß die bedingten Erwartungswerte $,hYn

KQ für h → ∞ gegen das unbedingte Prozeßmittel

[ ]E Yt Y= µ streben.

Die unbedingte Varianz mißt die durchschnittliche Prognosegenauigkeit eines Prediktors über alle

Realisierungen des Zufallsvektors Xn. Im allgemeinen ist die bedingte Varianz [ ]Var en h n, X ein

informativeres Maß, da sie explizit den Zustand des datenerzeugenden Prozesses im Pro-

gnoseursprung berücksichtigt. Im Falle eines linearen Prozesses hat der Prozeßzustand interes-

santerweise keinen Einfluß auf die Prognosegenauigkeit; die bedingten und unbedingten Varianzen

sind identisch. Die h-Schritt-Prognosefehler en ,h sind Linearkombinationen unabhängiger 'zukünfti-

ger' Störungen ε εn n h+ +1,..., . Damit sind die Fehler en ,h und die Komponenten des Vektors Xn

stochastisch unabhängig voneinander. Insbesondere sind auch en ,h und die KQ-Prognosefunktionen$

,hYnKQ unabhängig.

Die genannten Eigenschaften stützen die intuitive Vermutung, daß mit wachsendem Prognosehorizont

die Zuverlässigkeit von Prognosen, gemessen durch die (bedingte) Fehlervarianz, monoton abnimmt.



Später wird gezeigt, daß diese Vermutung tatsächlich nur für lineare KQ-Prognosefunktionen

uneingeschränkt zutreffend ist. Im Zusammenhang mit nichtlinearen Funktionen kann sie irreführend

sein.

Aus Gleichung (7.11) lassen sich ferner Aussagen über die Kovarianzstruktur der Fehler ableiten. Die

Kovarianzen der h-Schritt-Prognosefehler e n h, und en h+τ , ( )τ = 0 1 2, , ,... sind durch

[ ] [ ]Cov e e E e e h

hn n n n

u uu

h

,h ,h ,h ,h, , , ,...,

,+ +

+=

− −

= ⋅ = ⋅ = −

> −

∑

τ τε τ

τσ β β τ

τ

2

0

1

0 1 1

1

0

gegeben. Die Fehler von Mehrschritt-Prognosen in verschiedenen Prognoseursprüngen sind somit

typischerweise korreliert. Für die Fehler von h-Schritt- und (h+τ)-Schritt-Prognosen

( )τ = 0 1 2, , ,... , die vom selben Ursprung ausgehen, gilt:

[ ] [ ]Cov e e E e en n n n u uu

h

,h ,h ,h ,h, + + +=

−= ⋅ = ⋅ ∑τ τ ε τσ β β2

0

1

( )τ = 01, ,... .

Auch sie sind typischerweise korreliert.

7.1.2 Nichtlineare Autoregression

Während im linearen Spezialfall die Ermittlung von Mehrschritt-KQ-Prognosen keine Mühe bereitet,

gestaltet sich die Aufgabe bei Vorliegen eines nichtlinearen autoregressiven Prozesses deutlich

aufwendiger. Einen rekursiven Ansatz, der den Aufwand für moderat große Prognoseschritte h

handhabbar macht, haben unabhängig voneinander Pemberton [1987], Tong & Moeanaddin [1988]

und Al-Qassem & Lane [1989] entwickelt. Die folgenden Ausführungen stützen sich auf Tong &

Moeanaddin [1988].

Zur Vereinfachung der Schreibweise seien die in Abschnitt 6.1 eingeführten bedingten Dichte-

funktionen der Prozeßvariablen Yn h+ gegeben X xn n= (h-Schritt-Prognosedichten, h = 1,2,...) im

folgenden kurz durch f yh n h n( )+ x gekennzeichnet. Hierbei ist xn n n py y= ′− +( ),..., 1 wieder

eine Realisation des p-dimensionalen Zufallsvektors Xn n n pY Y= ′− +( ),..., 1 . Gesucht sind die h-

Schritt-KQ-Prognosen im Ursprung t n= :

(7.12) ( ) [ ] ( )$,hY E Y y f y dyn n n h n n n h h n h n n h

KQ x X x x= = = ⋅+ + + +−∞

∞

∫ (h = 2,3,...) .

Der rekursive Ansatz von Tong & Moeanaddin nutzt bei der Berechnung der Punktprognosen die

Markov-Eigenschaft der NLAR(p)-Prozesse aus. Durch Anwendung der aus dem Studium der



Markov-Ketten wohl bekannten Chapman-Kolmogorov-Gleichung (siehe z.B. Papoulis [1965,

S.528ff]) können die h-Schritt-Prognosedichten für h = 2,3,... gemäß

(7.13)

[ ]

f y f y f y dy

f y g y dy

h n h n h n h n n n n

h n h n n n n

( ) ( ) ( )

( ) ( )

+ − + + + +−∞

∞

− + + + +−∞

∞

= ⋅

= ⋅ −

∫

∫

x x x

x x

1 1 1 1 1

1 1 1 1µ

entwickelt werden, wobei xn n n n py y y+ + − += ′1 1 2( ), ,..., und [ ]f y g yn n n n1 1 1( ) ( )+ += −x xµist. Mit ( )g ⋅ ist die Dichtefunktion der Störungen ε µt t tY= − −( )X 1 des NLAR-Prozesses be-

zeichnet. Aus (7.12) und (7.13) erhält man jetzt unmittelbar

(7.14) ( ) ( ) [ ]$ $,h ,hY Y g y dyn n n n n n n

KQ KQx x x= ⋅ −− + + +−∞

∞

∫ 1 1 1 1µ( ) (h = 2,3,...)

mit $,Yn n n

KQ

1 ( ) ( )x x= µ . Sind die Funktionen ( )µ ⋅ und ( )g ⋅ bekannt, dann können mittels Gleichung

(7.14) die h-Schritt-KQ-Prognosen in einer rekursiven Form ermittelt werden.

Analoge Rekursionen lassen sich für weitere interessierende Momente der bedingten Wahrschein-

lichkeitsverteilungen des datenerzeugenden Prozesses herleiten. Es sei k IR IR: → eine reelle (Borel-

meßbare) Funktion und k Yn h( )+ eine wohl definierte Zufallsvariable. Kn n,h ( )X bezeichne den

bedingten Erwartungswert [ ]E k Yn h n( )+ X . Dann folgt ebenfalls:

(7.15) ( ) ( ) ( )[ ]K K g y dyn n n n n n n,h ,hx x x= ⋅ −− + + +−∞

∞

∫ 1 1 1 1µ (h = 2,3,...) .

Mit ( )k x x= 2 erhält man beispielsweise K E Yn n n h n,h ( ) [ ]X X= +2 , und wegen

[ ] ( )[ ] [ ] ( )Var e E Y Y E Y Yn n n h n n n h n nKQ KQ

,h ,h ,h$ $X X X= − = −+ +

22

2

sind auch die bedingten Fehlervarianzen für h = 2 3, ,... in rekursiver Form berechenbar. Für h =1

gilt Var e Varn n n n[ ] [ ],1 12X X= =+ε σε .

Problematisch ist, daß für die Gleichungen (7.14) und (7.15) nur in wenigen Spezialfällen des

Modells (7.1) (z.B. dem linearen Fall) einfach analytische Lösungen gefunden werden können. In der

Regel müssen die Integrale numerisch berechnet werden, was bei einem großen Prognosehorizont h

mit einem erheblichen Rechenaufwand und der Gefahr einer Akkumulation von Approximations- und

Rundungsfehlern verbunden ist. Man beachte, daß sich hinter den Rekursionsgleichungen (7.14) und

(7.15) für jedes h > 1 ( )h − 1 -fache Integrale verbergen.



Ohne nähere Spezifikation der Funktion ( )µ x lassen sich bezüglich der Eigenschaften nichtlinearer

KQ-Prognosefunktionen nur allgemeine Aussagen treffen. Liegt einer Zeitreihe ein streng stationärer,

ergodischer NLAR(p)-Prozeß Yt t IZ∈ zugrunde, dann konvergieren für h→∞ und beliebige

zulässige xn die h-Schritt-Prognosedichten f yh n( )x gegen die stationäre univariate Randdichte

( )f yYt der Prozeßvariablen Yt . Es gilt ( )limh Yt

f y f yh n→∞ =( )x an allen Stetigkeitsstellen y

von fYt (vgl. Tong [1990, S.139ff]). Hinreichende Bedingungen für die Ergodizität von NLAR-

Prozessen diskutieren z.B. Tong [1990, S.126ff] oder Tjøstheim [1990]. Die Konvergenz der

bedingten Dichten impliziert eine Konvergenz der bedingten Erwartungswerte

[ ]$,Y E Yn h n n h n n

KQ ( )x X x= =+ gegen das unbedingte Prozeßmittel E Yt Y[ ]= µ und der bedingten

Fehlervarianzen [ ]Var en h n n, X x= gegen die unbedingte Prozeßvarianz Var Yt Y[ ]= σ2 . Die

Fehlervarianzen bleiben durch die Prozeßvarianz beschränkt. Diese allgemeinen Eigenschaften von

KQ-Prediktoren wurden bereits für lineare AR(p)-Prozesse beobachtet. Ansonsten können die

Eigenschaften linearer und nichtlinearer KQ-Prediktoren jedoch bemerkenswerte Unterschiede auf-

weisen. Einige interessante Aspekte werden in Kapitel 7.3.1.1 am Beispiel von Spezialfällen des

allgemeinen NLAR(p)-Prozesses diskutiert.

7.2 Alternative Prognosetechniken

In der Prognosepraxis ist die Modellgleichung (7.1) natürlich nicht a priori gegeben. Die Funktion

( )µ x ist unbekannt und muß auf der Basis eines beobachteten Ausschnitts yt ( )t n=1,..., des

datenerzeugenden Prozesses Yt t IZ∈ geschätzt werden. Die Funktion ( )µ x wird im folgenden als

nichtlinear unterstellt. Desweiteren wird angenommen, daß ein adäquat gewähltes MLP(p,r,1)-Netz,

dessen Ausgabefunktion ( )f x w, $ geeignet ist, ( )µ x für Prognosezwecke hinreichend gut zu ap-

proximieren, bereits an die Zeitreihendaten angepaßt wurde. Eine Einschritt-Prognose zum Zeitpunkt

t n= für den zukünftigen Zeitreihenwert yn+1 erhält man dann gemäß ( )$ , $,y fn n1 = x w mit

xn n n py y= ′− +( ),... , 1 . Bei der Ermittlung von Mehrschritt-Prognosen ist die Verfolgung

verschiedener Strategien und der Einsatz verschiedener Techniken denkbar. Hierbei fließen neben

theoretischen auch pragmatische Überlegungen mit ein. Das Augenmerk richtet sich im folgenden auf

vier alternative Ansätze, die als (i) iterativer oder deterministischer Ansatz, (ii) rekursiver KQ-

Ansatz, (iii) residuenbasierter- oder Bootstrap-Ansatz und (iv) direkter Ansatz bezeichnet werden

sollen.

(i) Iterative Prognosen

Der einfachste Weg Mehrschritt-Prognosen zu berechnen, ist die (deterministische) Iteration der

Ausgabefunktion des Künstlichen Neuronalen Netzes:



(7.16) ( ) ( )$ $ ~ , $, , ,

y Y fn h n h n n hI I: = =x x w (h = 1,2,...)

mit ~ ~ ,...,~, , ,xn h n h n h py y= ′− −( )1 , wobei ~,y yn h u n h u− + −= für h u− ≤ 0 und ~ $, ,y yn h u n h u

I− −= für

h u− > 0 ist. In der Praxis wird diese Vorgehensweise weithin genutzt, aus theoretischer Sicht ist

der Ansatz jedoch weniger befriedigend. Bei Vorliegen nichtlinearer Zeitreihen führt obiges

Iterations- oder Rekursionsschema zu suboptimalen Prognosen im Sinne des MSE-Kriteriums. Dies

gilt auch im nur theoretisch denkbaren Fall einer perfekten Approximation von ( )µ x durch

( )f x w, $ . Suboptimalität bedeutet nicht, daß iterative Prognosen generell unzuverlässig sind. Es

besteht jedoch die Gefahr, daß mit steigendem Prognoseschritt h die Prediktoren ( )$,Yn h n

I X einen

substantiellen Bias aufweisen und die mittleren quadratischen Prognosefehler

[ ]E Y Yn h n h nI( ( ))+ − $, X 2 inflationär anwachsen. Inwieweit diese Gefahr wirksam wird, hängt

wesentlich von den Eigenschaften des datenerzeugenden Prozesses ab.

(ii) Rekursive KQ-Prognosen

Der zweite Ansatz nutzt das Rekursionsschema (7.14) von Tong & Moeanaddin [1988] zur

approximativen Ermittlung von KQ-Prognosen. Die h-Schritt-Prognosen werden gemäß

(7.17) ( ) ( ) [ ]$ $ $, ,Y Y g y f dyn h n n h n n n n

R Rx x x w= ⋅ −− + + +−∞

∞

∫ 1 1 1 1( , ) (h = 2,3,...)

mit $ $,Y fn n nR

1 ( ) ( , )x x w= rekursiv berechnet, wobei die Integrale auf numerischem Wege zu lösen

sind. Eine Vielzahl verschiedener numerischer Integrationsmethoden, wie z.B. Gauß'sche Quadratur-

oder Monte-Carlo-Verfahren, stehen für die Implementierung der Prognosetechnik zur Verfügung.

Ein problematischer Aspekt des Ansatzes wurde bereits erwähnt: Mit wachsendem Prognoseschritt

h steigt der Rechenaufwand enorm an und die Präzision der numerischen Ergebnisse sinkt. Aufwand

und Präzision können durch die Wahl der Integrationsmethode beeinflußt werden. In der Regel muß

allerdings eine vergleichsweise hohe Präzision der numerischen Lösungen durch einen erhöhten

Implementierungs- und/oder Rechenaufwand erkauft werden. Jeder Entscheidung für eine bestimmte

Integrationsmethode liegt somit ein Kompromiß zugrunde. Ein weiteres Problem ist, daß die

Verteilung der Störungen εt des datenerzeugenden NLAR(p)-Prozesses - und damit auch die

Dichtefunktion ( )g ⋅ - in der Praxis zumeist unbekannt ist. Das Problem kann pragmatisch durch eine

a priori Annahme, z.B. der Annahme der Normalverteilung, bezüglich der Störverteilung umgangen

werden. Dies birgt allerdings die Gefahr, daß die Prognosen auf falschen Voraussetzungen fußen. In

praktischen Anwendungen ist es ratsam, Verteilungsannahmen auf Basis der Netzresiduen

$ $ε t t ty f= − −( , )x w1 ( )t p n= +1,..., zu testen.



(iii) Bootstrap-Prognosen

Der Bootstrap- oder residuenbasierte Ansatz ist eng mit dem rekursiven KQ-Ansatz mittels Monte-

Carlo-Integration verwandt. Die Monte-Carlo-Lösungen der Integrale (7.17) basieren auf zufalls-

zahlengetriebenen Simulationen der Netzausgabefunktion. Die (Pseudo-) Zufallszahlen werden aus

der Verteilung der Störungen εt gewählt (siehe Abschnitt 7.3.1.4). Beim Bootstrap-Ansatz treten an

ihre Stelle die Netzresiduen $ $ε t t ty f= − −( , )x w1 ( )t p n= +1,..., . Die Wahrscheinlichkeits-

verteilung der Störungen wird somit durch die Häufigkeitsverteilung der Residuen approximiert. Ein

offensichtlicher Vorteil des residuenbasierten Ansatzes ist, daß Verteilungsannahmen unnötig sind.

Eine Beeinträchtigung der Prognosequalität aufgrund einer Misspezifikation der Störverteilung ist

nicht zu befürchten. Andererseits kann natürlich die Approximation der Störverteilung durch

Häufigkeitsverteilung der Residuen sehr grob sein und sich negativ auf die Prognosegüte auswirken.

(iv) Direkte Prognosen

Die bisher vorgestellten Ansätze ermitteln Mehrschritt-Prognosen auf rekursive Weisen. Die Güte

der Prognosen wird natürlich durch die Qualität des Approximators ( )f x w, $ beeinflußt. Rekursive

Methoden sind mit dem Risiko behaftet, daß sich Approximationsfehler mit wachsendem

Prognoseschritt verstärken und die Prognosegüte beeinträchtigen. Eine Alternative bietet die direkte

Prognose. Der direkte Ansatz läßt sich als eine spezifische Methode zur Schätzung von KQ-

Prognosen motivieren: Analog zu (7.1) sind die Prozeßvariablen Yt h+ für alle t und h = 2 3, ,...

gemäß

(7.18) ( ) ( ) ( )Yt h t t hh h

+ += +µ εX

mit ( ) ( ) [ ]µ h E Yt h tx X x= =+ und ( ) ( ) ( )ε µt h t h th hY+ += − X formal darstellbar. Auf der Informa-

tionsbasis einer beobachteten Zeitreihe yt ( )t n=1,..., gilt es jetzt, für jeden Prognoseschritt h ein

MLP(p,r,1)-Netz so zu spezifizieren und zu trainieren, daß die zugehörige Ausgabefunktion, sie sei mit( ) ( )( )f h hx w, $ gekennzeichnet, die unbekannte Funktion ( ) ( )µ h x möglichst gut approximiert. Die

direkten Mehrschritt-Prognosen im Prognoseursprung t n= sind dann durch

(7.19) ( ) ( ) ( )( )$ , $,

Y fn h n nD h hx x w= (h = 2,3,...)

gegeben. Die Flexibilität der 'neuronalen' Funktionsapproximatoren kann als Rechtfertigung für die

Vorgehensweise dienen.

Wie die erstgenannten Verfahren weist auch der direkte Ansatz Nachteile auf. Da für jeden

Prognoseschritt ein spezifisches Netz benötigt wird, ist der hohe Rechenaufwand offensichtlich.

Technische Probleme resultieren aus den statistischen Eigenschaften der Störungen ( )ε t hh+ in

Gleichung (7.18). Die Störungen sind mit den Fehlern et h, von h-Schritt-KQ-Prognosen identisch.

Für h >1 sind die Fehler i.d.R. stochastisch abhängig. Im Spezialfall eines linearen AR(p)-Prozesses



konnte beispielsweise gezeigt werden, daß sie dem korrelierten MA(h-1)-Prozeß (7.11) folgen. Die

Abhängigkeit erschwert zum einen die Spezifikation geeigneter Netzwerkarchitekturen:

Spezifikationstests wie der LM-Test von Teräsvirta & Lin [1993] oder Selektionskriterien wie das

AIC, SIC und HQIC fußen auf der Annahme unabhängiger Störungen. Sie können im Falle

abhängiger Störungen inadäquate Spezifikationsergebnisse liefern. Zum anderen wird im Fall

korrelierter Fehler die Wirksamkeit der Gewichts- oder Parameterschätzung beeinträchtigt:

Verglichen mit unkorrelierten führen korrelierte Fehler zu vergrößerten Varianzen der

Backpropagation- bzw. Nichtlinearen-Kleinste-Quadrate-Schätzer (vgl. das asymptotische Ergebnis

(5.34) in Kapitel 5.5).

Die vier Prognoseansätze besitzen jeweils spezifische Vor- und Nachteile. In der Praxis ist es

schwierig zu entscheiden, welcher Ansatz verfolgt und wie er implementiert werden sollte. Un-

glücklicherweise liegen nur wenige Erkenntnisse, die als Entscheidungshilfen dienen könnten, darüber

vor, wie sich die skizzierten Spezifika der Techniken auf die jeweilige Prognosegüte auswirken. Die

Analyse der Auswirkungen gestaltet sich sehr aufwendig, da neben den Techniken selbst auch die

Approximationseigenschaften der KNN und die Eigenschaften des datenerzeugenden Prozesses die

Prognoseergebnisse beeinflussen. Im Kontext nichtlinearer dynamischer ökonometrischer

Mehrgleichungssysteme sind analytische Ergebnisse für iterative, rekursive KQ- und residuenbasierte

Prediktoren verfügbar. Brown & Mariano [1989], Mariano & Brown [1989] untersuchen die

asymptotischen Eigenschaften der Prediktoren unter den Annahmen, daß (a) das datenerzeugende

dynamische System mit Ausnahme einer endlichen Anzahl von Parametern bekannt ist und (b)

konsistente Schätzer für die Parameter verfügbar sind. In dem hier interessierenden Kontext ist erste

Annahme allerdings unrealistisch, so daß die asymptotischen Betrachtungen nur einen begrenzten

Wert besitzen können. Lin & Granger [1994] untersuchen verschiedene Prognosetechniken für

KNN im Rahmen einer Simulationsstudie und vergleichen die Ergebnisse mit Prognosen

parametrischer und nichtparametrischer Modelle. Ermittelt wurden Zweischritt-Prognosen für

Realisationen zweier NLAR-Prozesse. Die Ergebnisse geben interessante Einblicke, sie erlauben

jedoch nur eine sehr grobe Einschätzung der verwendeten Prognosetechniken.

Die Eigenschaften der alternativen Prognosetechniken sollen im folgenden in einer Simulationsstudie

detaillierter analysiert werden. Im Vordergrund steht hierbei die Frage, inwieweit der Einsatz

rechenintensiver Techniken überhaupt lohnend ist. Am Beispiel simulierter Zeitreihen wird untersucht,

welcher Gewinn an Prognosegenauigkeit mit approximativen KQ-Verfahren gegenüber einfach

ermittelbaren iterativen Prognosen realisiert werden kann. Desweiteren werden die

Prognoseeigenschaften der approximativen KQ-Verfahren untereinander verglichen und nach

möglichen substanziellen Unterschieden gefahndet.



7.3 Experimenteller Vergleich der Prognosetechniken

7.3.1 Design der Simulationsstudie

Das Design der Simulationsstudie ist notwendigerweise durch Kompromisse gekennzeichnet.

Angestrebt wurde die Gewinnung hinreichend verallgemeinerungsfähiger und hinreichend präziser

experimenteller Ergebnisse. Im Hinblick auf den enormen Rechenaufwand, der mit der Durchführung

einer Simulationsstudie verbunden sein kann, stellen die beiden Ziele Gegensätze dar.

'Verallgemeinerungsfähigkeit' erfordert den Vergleich der Prognosetechniken unter möglichst

unterschiedlichen Versuchsbedingungen. 'Präzision' hingegen kann nur durch häufige Wiederholung

des Experimentes unter gleichartigen Versuchsbedingungen erreicht werden (vgl. Birkenfeld [1977,

S.62ff]).

Die benötigten Zeitreihen wurden durch Simulation fünf verschiedener nichtlinearer stochastischer

Prozesse Yt t IZ∈

erzeugt. Die Auswahl der Prozesse erfolgte unter Beachtung zweier (zumindest

partiell) konfliktärer Auswahlkriterien. Einerseits sollten die Prozesse möglichst vielfältige nichtlineare

Charakteristika und Prognoseeigenschaften aufweisen, um eine hinreichende Verallgemeine-

rungsfähigkeit der Simulationsergebnisse zu gewährleisten. Andererseits sollten ihre generierenden

Modelle möglichst einfach aufgebaut sein, um sicherzustellen, daß die prognoserelevanten Strukturen

der Prozesse durch ebenfalls einfach aufgebaute KNN hinreichend gut approximiert werden können.

Der mit dem Training der Netze verbundene Rechenaufwand wird hierdurch in vertretbaren

Schranken gehalten. Ausgewählt wurden vier spezielle NLAR(1)-Prozesse sowie ein Prozeß vom

bilinearen Typ. Sie werden in Abschnitt 7.3.1.1 vorgestellt, und ihre Eigenschaften werden

ausführlich diskutiert.

Für jeden Prozeß wurden W = 100 voneinander unabhängige Realisationen yt (t=1,2,...,T) der

Länge T = 400 generiert. Die Simulationstechnik ist in Abschnitt 7.3.1.2 dargelegt. Die ersten

N = 300 Werte yt (t=1,2,...,N) einer Zeitreihe dienten als Trainingsmenge für Künstliche Neu-

ronale Netze. Die folgenden H = 100 Werte yt (t=301,302,...,T) verblieben zur Evaluierung der

Prognosetechniken. Verwendet wurden ausschließlich zweischichtige MLP-Netzwerke. Die

Spezifikation ihrer Neuronenzahl erfolgte mit Hilfe des LM-Tests von Teräsvirta & Lin [1993].

Durch den Einsatz des Tests sollten im Rahmen der Studie praktische Modellbildungsprozesse

nachgeahmt werden. Diese Vorgehensweise erschien sinnvoll, weil sie die Nutzung von a priori

Information bezüglich des Datenmaterials (weitgehend) unnötig machte. Ein starker Eingang von a

priori Information in die Spezifikationsergebnisse hätte den 'ex-ante'-Charakter der Prognosen

eingeschränkt. Detaillierte Angaben zum Netzwerktraining und zur Netzwerkspezifikation liefert der

Abschnitt 7.3.1.3.



Für jeden Prozeß wurden mittels alternativer Techniken ( )W H h⋅ + −1 h-Schritt-Prognosen

berechnet. Der Prognosehorizont h variierte in der Menge 1 2 3 5 10, , , , . Zur vergleichenden

Beurteilung der Prognosegüte wurden der Bias, der mittlere quadratische Fehler und der mittlere

absolute Fehler der Prognosen ermittelt (siehe Abschnitt 7.3.1.5). Technische Aspekte der

Implementierung der alternativen Prognoseverfahren werden in Abschnitt 7.3.1.4 diskutiert.

Darstellung und Diskussion der Simulationsergebnisse folgen in den Kapiteln 7.3.2 und 7.3.3.

7.3.1.1 Auswahl der stochastischen Prozesse

Die zur Durchführung der Simulationsstudie benötigten Zeitreihen wurden durch Simulation der

folgenden fünf stationären nichtlinearen stochastischen Prozesse generiert:

(P1) Y e Yt

Y

t tt= − − ⋅

⋅ +−

−−0 5 3 0 12

1. . ε , ( )εt ind~ ,0 1 ;

(P2) Y e Yt

Y

t tt= − + ⋅

⋅ +−

−−0 5 3 5 12

1. . ε , ( )εt ind~ , .0 0 04 ;

(P3) YY Y

Y Ytt t t

t t t

=− ⋅ + ≤

− − ⋅ + >

− −

− −

15 0 9 0

0 4 0 6 0

1 1

1 1

. .

. .

ε

ε

falls

falls , ( )εt ind~ ,0 1 ;

(P4) YY Y

Y Ytt t t

t t t

=− ⋅ + ≤

+ ⋅ + >

− −

− −

15 0 7 3

1 0 0 8 3

1 1

1 1

. .

. .

ε

ε

falls

falls , ( )εt ind~ ,0 4 ;

(P5) Y Y Yt t t t t= − +− − −0 5 0 31 1 1. . ε ε , ( )εt ind~ ,0 1 .

Hierbei kennzeichnet ε σεt ind~ ,( )0 2 abkürzend stochastisch unabhängige, identisch normalverteilte

Störungen mit dem Erwartungswert E t[ ]ε = 0 und der Varianz Var t[ ]ε σε= 2 .

Die nichtlinearen Charakteristika und die Prognoseeigenschaften der Prozesse werden im folgenden

näher untersucht.

Exponentiell-Autoregressive-Prozesse

Die Prozesse (P1) und (P2) sind Spezialfälle eines Exponentiell-Autoregressiven-Prozesses erster

Ordnung, kurz EXPAR(1)-Prozeß (siehe Haggan & Ozaki [1981]). Das datenerzeugende Modell

läßt sich in allgemeiner Form schreiben gemäß:

(7.20) ( )[ ]Y Y Yt t t t= + ⋅ − ⋅ +− −α β γ εexp 1 12 , ( )ε σεt iid~ ,0 2 .



0 50 100 150 200 250 300

-5

-3

-1

1

3

5

Abb. 7.1: Realisation des EXPAR(1)-Prozesses (P1)

0 50 100 150 200 250 300

-2

-1

0

1

2

Abb. 7.2: Realisation des EXPAR(1)-Prozesses (P2)

Die Modellgleichung (7.20) beinhaltet vier reellwertige Parameter α, β , γ und σε2 mit γ > 0 und

0 2< < ∞σ ε . Der Skalierungsparameter γ ist in (P1) und (P2) gleich eins gesetzt. Hinreichend für

die Existenz eines ergodischen und streng stationären Prozesses Yt , der (7.20) erfüllt, ist, daß der

Parameter α betragsmäßig kleiner 1 ist. Die Bedingung folgt aus einem Ergebnis für eine

allgemeinere Klasse Exponentiell-Autoregressiver-Modelle von Tong [1990, S.129f]. In (P1) und

(P2) genügt α der Ungleichung α < 1 .

Obwohl sehr einfach aufgebaut, können EXPAR(1)-Modelle vielfältige nichtlineare Verhaltensmuster

generieren. Zur Illustration zeigen die Abbildungen 7.1 und 7.2 jeweils eine typische Realisation yt



(t=1,...,300) der Prozesse (P1) und (P2). Die erste Zeitreihe weist zyklische Schwankungen um den

Wert 0 mit der Periode 2 auf. Die zweite Reihe zeigt ebenfalls ein zyklisches Verhalten. Das Niveau,

um das die Zeitreihenwerte oszillieren, kann sich hier jedoch sprungartig verschieben.

Unterdrückt man den stochastischen Störterm in einem nichtlinearen autoregressiven Modell (z.B.

durch Setzen von ε t = 0 für alle t t> 0 ), dann geht es in eine deterministische nichtlineare

Differenzengleichung über. Tong [1990, S.98] bezeichnet diese als das Skelett (skeleton) des Mo-

dells. Die Lösung der Differenzengleichung erlaubt interessante Einblicke in das dynamische

Verhalten des zugrundeliegenden stochastischen Modells.

Das Skelett des EXPAR(1)-Modells (7.20) soll hier vereinfachend durch y yt t

= −λ( )1

mit

λ: IR IR→ und t = 0 1 2, , , . .. gekennzeichnet werden. Ferner sei

y y y y0 0 0 0, .. .λ λ λ( 1 ) ( 2 ) ( 3 )( ), ( ), ( ),

eine Trajektorie des deterministischen dynamischen Systems mit dem Anfangswert y0, und

( )( )λ λ λ λ( ) ( ) ( )

m a l

t y y y

t

t0 0= =L

1 244 344

bezeichne die t-te Iteration der Abbildung λ, wobei λ λ( 1 ) ( ) ( )y y0 0≡ ist. Die Trajektorien eines

stabilen Systems konvergieren, wenn t → ∞ strebt. Sie können entweder durch stabile Fixpunkte

oder durch stabile Grenzzyklen angezogen werden. Eine reelle Zahl y* heißt lokal stabiler Fixpunkt,

wenn eine Umgebung U IR⊂ von y* so existiert, daß

lim *t

t y y→ ∞

=λ( ) ( )0

für alle y U0

∈ gilt. Ist U, der sogenannte Anziehungsbereich von y*, mit dem Definitionsbereich

von λ identisch, spricht man von einem global stabilen Fixpunkt. Fixpunkte gehen offensichtlich unter

der Wirkung der Abbildung in sich selbst über; d.h., es gilt y y* *= λ( ) . Eine reelle Zahl z1 heißt

lokal stabiler periodischer Punkt mit der Periode k, wenn eine natürliche Zahl k >1 und eine

Umgebung U IR⊂ von z1 so existieren, daß

limj

j k y z→∞

⋅ =λ ( ) ( )0 1

für alle y U0

∈ gilt. Hierbei ist k die kleinste natürliche Zahl, für die die Konvergenz erfüllt ist. Mit

z1 existieren weitere lokal stabile periodische Punkte z z2 1

= λ (1) ( ) , z z3 1

= λ (2) ( ) ,...,

z zk

k= −λ ( 1) ( )1

. Der k-dimensionale Vektor z = ′( )z z zk1 2, ,..., heißt lokal stabiler Grenz-

zyklus der Periode k. Ist U mit den Definitionsbereich von λ identisch, spricht man wieder von

einem global stabilen Grenzzyklus. Für k = 1 entartet der Grenzzyklus zu einem Fixpunkt (vgl. Ozaki

[1982], Tong [1983, S.71ff]).



In den letzten Jahren wurden in der Fachliteratur ausführlich nichtlineare Differenzen- und Diffe-

rentialgleichungssysteme mit chaotischer Dynamik diskutiert. Als 'chaotisch' wird ein System

bezeichnet, wenn seine Trajektorien ein unregelmäßiges, nicht-periodisches Verhalten aufweisen und

eine sensitive Abhängigkeit des Trajektorienverlaufs von den Startbedingungen vorliegt (siehe z.B.

Schuster [1989]). Die Frage, ob EXPAR-Modelle Chaos generieren können, ist noch offen.

Für das EXPAR(1)-Modell (7.20) lassen sich Bedingungen für das Auftreten grenzzyklischen

Verhaltens angeben (vgl. Haggan & Ozaki [1981]). Notwendige Bedingung ist, daß die Un-

gleichungen

(7.21) α < 1 , α β+ ≥ 1

beide erfüllt sind. Eine hinreichende Bedingung ist:

(7.22) 1 0− <αβ

oder 1 1− >αβ

mit β ≠ 0 .

Die Koeffizienten α = −0 5. und β = −3 0. in (P1) genügen (7.21) und (7.22). Das Skelett besitzt

einen global stabilen Grenzzyklus ( )z = − ′1339. , + 1.339 der Periode k = 2 . Die periodischen

Punkte z1 und z2 erhält man durch Lösen des Gleichungssystems

( )[ ]( )[ ]

α β

α β

+ − =

+ − =

exp

exp

z z z

z z z

2 2 1

1 1 2

2

2 .

Wegen α β+ > 1 weist die Differenzengleichung für yt− ≈1 0 ein tendenziell explodierendes

Verhalten auf, während für | |yt− >>1 0 das System gedämpft wird, da α <1 gilt.

Die Koeffizienten α = −0 5. und β = 3 5. in (P2) erfüllen die notwendige Bedingung (7.21), aber nicht

die hinreichende Bedingung (7.22). Dennoch weist das Modell grenzzyklisches Verhalten auf. Sein

Skelett besitzt zwei lokal stabile Grenzzyklen ( )z1 0 644 1167 0 463 1 077= ′. , . , . , . und z z2 1= − der

Periode k = 4 .

Die Dynamik der Differenzengleichungen verdeutlicht die Abbildung 7.3. Sie zeigt weitere, durch

Simulation erzeugte Realisationen der beiden EXPAR-Prozesse. Die Störprozesse εt wurden

jeweils zum Zeitpunkt t0 25= abgeschnitten; d.h., der Input ε t der Modellgleichungen (P1) und

(P2) wurde für alle t t> 0 gleich null gesetzt. Die Outputsequenzen yt konvergieren rasch gegen

die jeweiligen Grenzzyklen. Im Fall (P1) streben die Outputs unabhängig vom Startzustand zum

Zeitpunkt t0 gegen den global stabilen 2er Zyklus. Im Fall (P2) konvergieren die Sequenzen in

Abhängigkeit der Anfangswerte gegen einen der beiden lokal stabilen 4er Zyklen z1 oder z2.

Angemerkt sei, daß die Outputwerte yt für t t> 0 auch als iterative ( )t t− 0 -Schritt-Prognosen der

Zeitreihen im Prognoseursprung t0 interpretiert werden können.



0 20 40 60 80 100

-3.5

-2.5

-1.5

-0.5

0.5

1.5

2.5

3.5

(a)

0 20 40 60 80 100

-2

-1

0

1

2

(b)

Abb. 7.3: Global stabiler Grenzzyklus des EXPAR(1)-Modells (P1) (Abb. 7.3a) und lokal stabileGrenzzyklen des EXPAR(1)-Modells (P2) (Abb. 7.3b)

-6 -4 -2 0 2 4 6

y

0

0.05

0.1

0.15

0.2

0.25

fY

( ).

(a)

-3 -2 -1 0 1 2 3

y

0

0.1

0.2

0.3

0.4

0.5

0.6

(b)

fY

( ).

Abb. 7.4: Univariate Randdichten der EXPAR(1)-Prozesse (P1) (Abb.7.4a) und (P2) (Abb.7.4b)



Das asymptotische Verhalten des Skeletts λ wirkt natürlich auf die Wahrscheinlichkeitsverteilungen

des zugeordneten stochastischen Prozesses Yt und beeinflußt damit auch die Eigenschaften von

KQ-Prognosefunktionen. Generiert λ einen global stabilen Grenzzyklus z = ′( )z z z k1 2, ,..., der

Periode k, dann kann, Stationarität des Prozesses vorausgesetzt, die Dichte der univariaten

Randverteilung der Prozeßvariablen Yt formal als Mischung

[ ]f y z f y z f y z kk k1 1 2 2

( ) + ( )+...+ ( )− − −

von Dichtefunktionen fi (i = 1,2,...,k) dargestellt werden (vgl. Tong [1990, S.349]). Sie kann somit

mehrgipflig sein. Die univariate Randdichte fY ( )⋅ des EXPAR(1)-Prozesses (P1) zeigt die

Abbildung 7.4a. Sie ist bimodal. Die Modi der Randverteilung sind mit den periodischen Punkten z1

= −1.339 und z2 = +1.339 des global stabilen 2er-Grenzzyklus identisch. Ferner gilt E Yt[ ] = 0 und

Var Yt[ ] 2.74≅ . Das grenzzyklische Verhalten des EXPAR(1)-Prozesses (P2) führt ebenfalls zu

einer bimodalen Randdichte (Abbildung 7.4b). Hier ist E Yt[ ] = 0 und Var Yt[ ] 0.74≅ .

Die bedingten Verteilungen von Yn h+ gegeben Y yn n= der streng stationären, ergodischen

Prozesse (P1) und (P2) konvergieren für h → ∞ gegen die jeweilige univariate Randverteilung der

Prozeßvariablen. Damit weisen ihre Prognosedichten mit wachsendem Prognosehorizont h eine

zunehmend bimodale Form auf. Die Konvergenzgeschwindigkeit hängt dabei ganz wesentlich von

dem Zustand ab, in dem sich der Prozeß zum Zeitpunkt t = n befindet. Die Abbildung 7.5 zeigt für

verschiedene h die bedingten Dichten f y yh n h n( )+ des Prozesses (P1) mit (a) yn = 0 und (b) yn =

1.339. An der Stelle yn = 0, dem Prozeßmittel, sind die Dichten für h ≥ 2 bimodal. Offensichtlich

können KQ-Prognosen, also die Erwartungswerte der bedingten Verteilungen, in dieser Situation

bereits für kleines h zu wenig brauchbaren Prognoseergebnissen führen. Fern des Prozeßmittels

vollzieht sich die Konvergenz wesentlich langsamer (Abbildung 7.5a). KQ-Prognosen sind hier

aussagekräftiger. Der Prozeß (P2) besitzt vergleichbare Eigenschaften (vgl. Abbildung 7.6).1)

Man beachte, daß hier bimodale Dichten auftreten, obwohl die Störungen εt der Prozesse uni-

modale Verteilungen (Normalverteilungen) besitzen. Dieses Phänomen ist im Zusammenhang mit

linearen datenerzeugenden Prozessen unbekannt. Im Falle eines stationären AR(p)-Prozesses (7.4)

mit ε σεt ind~ ,( )0 2 sind beispielsweise die univariaten Randverteilungen und die h-Schritt-

Prognoseverteilungen des Prozesses ebenfalls Normalverteilungen. Da Linearkombi-

1) Die angegebenen Rand- und Prognosedichten sowie die Prozeßvarianzen wurden unter Ausnutzung der Re-

kursionsgleichungen (7.13)-(7.15) durch numerische Integration (Gauß-Hermite-Quadratur, siehe Abschnitt

7.3.1.4) bestimmt. Die später folgenden Ergebnisse für die Prozesse (P3)-(P5) wurden ebenfalls numerisch

ermittelt.



-6 -4 -2 0 2 4 6

y

0

0.1

0.2

0.3

0.4

(a)

fh

( | ). .h=1

h=2

h=3

-6 -4 -2 0 2 4 6

y

0

0.1

0.2

0.3

0.4

(b)

fh

( | ). .

h=1

h=3

h=10

h=2

h=4

Abb. 7.5: Bedingte Dichtefunktionen f y yh n h n( )+ des EXPAR(1)-Prozesses (P1) mit yn = 0.0

(Abb. 7.5a) und yn = 1.339 (Abb. 7.5b)

-3 -2 -1 0 1 2 3

y

0

0.4

0.8

1.2

1.6

2

(a)

fh

( | ). .h=1

h=2

h=3

h=4

-3 -2 -1 0 1 2 3

y

0

0.4

0.8

1.2

1.6

2

(b)

fh

( | ). .

h=1

h=2

h=3

h=10

Abb. 7.6: Bedingte Dichtefunktionen f y yh n h n( )+ des EXPAR(1)-Prozesses (P2) mit yn = 0.0

(Abb. 7.6a) und yn = 1.167 (Abb. 7.6b)



nationen normalverteilter Zufallsgrößen ebenfalls normalverteilt sind, folgt dies unmittelbar aus den

Gleichungen (7.7) und (7.11).

Threshold-Autoregressive-Prozesse

Die nichtlinearen Prozesse (P3) und (P4) sind vom threshold-autoregressiven Typ (siehe Tong

[1983]). Sie sind Spezialfälle eines Self-Exciting-Threshold-Autoregressiven-Prozesses der Ordnung

2,1,1, kurz SETAR(2,1,1)-Prozeß:

(7.23) YY Y r

Y Y rt

t t t

t t t

=+ + ≤

+ + >

− −

− −

α α ε

α α ε

0 1 1 1

0 1 1 1

(1) (1)

(2) (2)

falls

falls , ( )ε σεt iid~ ,0 2 .

Die Modellgleichung (7.23) ist aus 2 linearen Autoregressionen 1.Ordnung aufgebaut. Zu einem

Zeitpunkt t wird die Prozeßvariable Yt durch die erste lineare Autoregression generiert, falls in der

Vorperiode der realisierte Wert von Yt −1 einen festen, reellen Schwellenwertparameter r nicht

übersteigt. Anderenfalls wird die zweite lineare Autoregression aktiviert. Das Modell zeichnet sich

somit durch abrupte, zustandsabhängige Änderungen des dynamischen Verhaltens aus.

Ausnahmefälle liegen natürlich für α α0 0(1) (2)= und α α1 1

(1) (2)= bzw. für r → ∞ vor. Die Gleichung

(7.23) geht dann in ein einfaches lineares AR(1)-Modell über.

Eine notwendige und hinreichende Bedingung für die Existenz eines streng stationären, ergodischen

Prozesses Yt , der durch das SETAR(2,1,1)-Modell erzeugt wird, geben Petruccelli & Woolford

[1984] und Chan & Tong [1986] an. Ein solcher Prozeß existiert genau dann, wenn die

Ungleichungen

(7.24) α1 1(1) < , α1 1(2) < und α α1 1 1(1) (2)⋅ <

erfüllt sind. Die Parameter α α1 1(1) (2) , in (P3) und (P4) wurden so gewählt, daß sie deutlich innerhalb

der durch (7.24) beschriebenen Stationaritätsregion liegen.

Typische Realisationen yt (t=1,...,300) der beiden ausgewählten Prozesse zeigen die Abbildungen

7.7 und 7.8. Die erste Zeitreihe weist ein ausgeprägt zyklisches Verhalten mit der Periode 2 auf. Die

Amplitude der zyklischen Schwankungen variiert im Zeitablauf. Die Modellparameter in (P3) sind so

festgelegt, daß der Prozeß abwechselnd Werte in den beiden Schwellenwertregimen ( ]−∞, r und

( )r ,+∞ mit r = 0 annimmt. Vergleichbar mit dem EXPAR(1)-Modell (P1) besitzt das Skelett λ von

(P3) einen global stabilen Grenzzyklus ( )z = − ′2 8261 4 0435. , . der Periode k = 2 . Die

periodischen Punkte z1 und z2 erhält man durch Lösen des linearen Gleichungssystems

α α

α α0 1 2 1

0 1 1 2

(1) (1)

(2) (2) .

+ =

+ =

z z

z z



0 50 100 150 200 250 300

-9

-6

-3

0

3

6

9

Abb. 7.7: Realisation des SETAR(2,1,1)-Prozesses (P3)

0 50 100 150 200 250 300

-6

-2

2

6

10

14

18

Abb. 7.8: Realisation des SETAR(2,1,1)-Prozesses (P4)

Die zweite Zeitreihe zeigt kein grenzzyklisches Verhalten. Das Skelett λ des datengenerierenden

Modells (P4) besitzt zwei lokal stabile Fixpunkte

y10

110 8824* .=

−=

α

α

(1)

(1) und y2

0

115 0* .=

−=

α

α

(2)

(2) .

In Abbildung 7.8 ist eine deutliche Änderung des Verhaltensmusters der Daten erkennbar, wenn der

Schwellenwert r = 3 über- bzw. unterschritten wird. Im Schwellenwertregime ( ]−∞, r tendiert die

Reihe zu einem alternierenden Verhalten mit geringer Variabilität. Im zweiten Regime ( )r ,+∞ steigt

die Streuung der Reihe. Alternierende Muster sind hier nicht zu beobachten.



Die Berechnung von KQ-Prognosen für SETAR(2,1,1)-Prozesse (7.23) mit unabhängigen, identisch

N ( )0 2,σε -verteilten Störungen εt

diskutiert Moeanaddin [1991] (zitiert nach de Gooijer &

Kumar [1992]). Die MSE-optimale Einschritt-Prognose im Ursprung t=n ist natürlich:

(7.25) ( ) [ ]$,Y y E Y y

y y r

y y rn n n n

n n

n n

KQ1 1

0 1

0 1

= =+ ≤

+ >

+

α α

α α

(1) (1)

(2) (2)

falls

falls .

Gilt y rn ≤ , dann ist die bedingte Wahrscheinlichkeitsverteilung von Yn+1 gegeben Y yn n= eine

N yn( )(1) (1) α α σε0 1

2+ , -Verteilung. Für y rn > liegt eine N yn( )(2) (2) α α σε0 1

2+ , -Verteilung vor.

Aus (7.23) und (7.25) folgt für die Zweischritt-Prognose:

[ ][ ]( ) ( )

[ ]( ) ( )

( ) ( ) ( )

$

$ $

,

, ,

Y y E Y y

E Y y P Y r y

E Y y P Y r y

Y y p Y y p

n n n n

n n n n

n n n n

n n n n

KQ

KQ KQ

2 2

0 1 1 1

0 1 1 1

0 1 1 1 0 1 1 11

( )

( ) ( )

(1) (1)

(2) (2)

(1) (1) (2) (2)

=

= + ⋅ ⋅ ≤

+ + ⋅ ⋅ >

= + ⋅ ⋅ + + ⋅ ⋅ −

+

+ +

+ +

α α

α α

α α α α

mit ( ) ( )p P Y r y r Y yn n n n nKQ

1 1 1 1= ≤ = −+ Φ $ $, ,( ) σ .

Dabei bezeichnet ( )Φ ⋅ die Verteilungsfunktion der Standardnormalverteilung, und $ ,σ σεn 12 2= ist die

bedingte Varianz des Einschritt-Prognosefehlers. Für den allgemeinen h-Schritt-Fall gilt:

(7.26) ( ) ( ) ( )$ $ $,h ,h ,hY y Y y p Y y pn n n n h n n h

KQ KQ KQ( ) ( ) ( )(1) (1) (2) (2)= + ⋅ ⋅ + + ⋅ ⋅ −− − − −α α α α0 1 1 1 0 1 1 11

mit ( ) ( )p P Y r y r Y yh n h n n n nKQ

− + − − −= ≤ = −1 1 1 1Φ $ $,h ,h( ) σ

und $ ,hσn −12 = [ ] [ ] ( )Var e y E Y y Y yn n n h n n n

KQ,h ,h

$− + − −= −1 1 1

22

( ) .

Die bedingte Varianz $ ,σn h−12

des (h-1)-Schritt-Prognosefehlers kann für h > 2 nicht analytisch

bestimmt werden, sondern muß mittels numerischer Integrationstechniken berechnet werden. Die

bedingte Verteilung von Yn h+ bei gegebenem Y yn n= ist für h ≥ 2 keine Normalverteilung mehr.



-10 -8 -6 -4 -2 0 2 4 6 8 10 12

y

0

0.03

0.06

0.09

0.12

0.15

fY

( ).

(a)

-10 -5 0 5 10 15 20

y

0

0.04

0.08

0.12

0.16

0.2

(b)

fY

( ).

Abb. 7.9: Univariate Randdichten der SETAR(2,1,1)-Prozesse (P3) (Abb. 7.9a) und (P4) (Abb. 7.9b)

Die bedingten Verteilungen des Prozesses (P3) wurden bereits eingehend von Tong & Moeanaddin

[1988] und Moeanaddin & Tong [1990] untersucht.2) Aufgrund des grenzzyklischen Verhaltens ist

die Dichte der univariaten Randverteilung der Prozeßvariablen ausgeprägt bimodal (Abbildung 7.9a).

Die Modi der Randverteilung sind mit den periodischen Punkten z1 = −2.8261 und z2 = 4.0435 des

Grenzzyklus identisch. Erwartungswert und Varianz der Randverteilung sind E Yt[ ] ≅ 0 61. bzw.

Var Yt[ ] ≅ 14 16. . Für wachsendes h konvergieren die bedingten Verteilungen von Yn h+ gegeben

Y yn n= gegen die Randverteilung und ihre Dichten werden ebenfalls bimodal. An der Stelle yn =

0.61, dem Prozeßmittel, vollzieht sich die Konvergenz besonders schnell. Die bedingten Dichten

f y yh n h n( )+ sind für h ≥ 3 bimodal (Abbildung 7.10a). Wie bereits am Beispiel der EXPAR(1)-

Prozesse (P1) und (P2) diskutiert, können KQ-Prognosen auch hier bei wachsendem

Prognosehorizont h irreführende Ergebnisse liefern. Dieser Sachverhalt sollte allerdings nicht

überbewertet werden. Aufgrund der Bimodalität der Randverteilung ist die Wahrscheinlichkeit, daß

sich der Prozeß in der Nähe seines Erwartungswertes realisiert, gering. Für Werte yn, die deutlich

vom Prozeßmittel ver-

2) Moeanaddin & Tong [1990] geben graphisch bedingte Dichten des SETAR-Prozesses (P3) an. Ihre Ergebnis se

weichen von den hier vorgestellten Dichten ab. Die Standardabweichung der Störungen des Prozesses beträgt

bei Moeanaddin & Tong nicht wie angegeben σ ε =1 , sondern ist σ ε =2 .



-10 -8 -6 -4 -2 0 2 4 6 8 10 12

y

0

0.1

0.2

0.3

0.4

(a)

fh

( | ). .

h=1

h=3 h=2

h=4

-10 -8 -6 -4 -2 0 2 4 6 8 10 12

y

0

0.1

0.2

0.3

0.4

(b)

fh

( | ). .

h=1

h=3

h=5h=2

h=4

Abb. 7.10: Bedingte Dichtefunktionen f y yh n h n( )+ des SETAR(2,1,1)-Prozesses (P3) mit yn = 0.61

(Abb. 7.10a) und yn = 4.0435 (Abb. 7.10b)

-10 -5 0 5 10 15 20

y

0

0.04

0.08

0.12

0.16

0.2

fh

( | ). .

h=2

h=1

h=4

h=3

Abb. 7.11: Bedingte Dichtefunktionen f y yh n h n( )+ des SETAR(2,1,1)-Prozesses (P4) mit yn = 4.36



schieden sind, bleiben die bedingten Dichten für moderate Prognoseschritte h unimodal und der

KQ-Ansatz liefert sinnvolle Prognosen. Dies verdeutlicht die Abbildung 7.10b. Sie zeigt die

bedingten Dichten f y yh n h n( )+ mit yn = 4.0435 und h = 1,2,...,5.

Bei einer genaueren Betrachtung der Graphik 7.10b wird ein interessantes Charakteristikum des

Prozesses (P3) sichtbar, das von Tong & Moeanaddin [1988] gefunden wurde. Die Varianzen $ ,hσn2

der bedingten Verteilungen streben für h → ∞ gegen die Prozeßvarianz Var Yt Y[ ] = σ2 . Das

Wachstum ist an der Stelle yn = 4.0435 jedoch nicht monoton. Es gilt

$ $ $ ... , $ $ $ ..., , , , , ,σ σ σ σ σ σ σ σn n n n n nY Y1 3 5 2 4 62 2 2 2 2 2 2 2< < < ≤ < < < ≤ ,

aber

$ $, ,σ στ τn n2 2 12 2> + ( )τ = 1 2, ,... .

Konkret erhält man für h = 1,2,...,5:

$ .,σ n 12 1 0= , $ .,σ n 2

2 1 8417= , $ .,σ n 32 1 7098= , $ .,σ n 4

2 2 5944= und $ .,σ n 52 2 2079= .

Konsequenz ist, daß h-Schritt-Prognosen zuverlässiger als (h-1)-Schritt-Prognosen sein können,

wobei die 'Zuverlässigkeit' durch die bedingte Fehlervarianz gemessen wird. Vergleichbare

Phänomene können bei linearen Prozessen nicht festgestellt werden. Die Fehlervarianzen bilden dort

immer eine mit dem Prognosehorizont h monoton wachsende Folge.

Die Abbildung 7.11 zeigt schließlich Prognosedichten des SETAR-Prozesses (P4). Dargestellt sind

die bedingten Dichtefunktionen f y yh n h n( )+ mit yn = 4.36 und h = 1,2,3,4. Sie sind unimodal und

für h ≥ 2 linksschief. Im Gegensatz zu den Prozessen (P1) - (P3) treten hier auch für großes h keine

bimodalen Funktionen auf. Die univariate Randdichte fY ( )⋅ der Prozeßvariablen ist unimodal (vgl.

Abbildung 7.9b). Der Modus der Randverteilung ist mit dem lokal stabilen Fixpunkt y 2 5 0* .=identisch. Ferner gilt E Yt[ ] 4.36≅ und Var Yt[ ] 12.94≅ .

Bilinear-Autoregressiver-Prozeß

Der letzte simulierte Prozeß (P5) ist ein Spezialfall des Bilinear-Autoregressiven-Prozesses der

Ordnung 1,1,1, kurz BAR(1,1,1)-Prozeß:

(7.27) Y Y Yt t t t t= + +− − −α β ε ε1 1 1 , ( )ε σεt iid~ ,0 2

(siehe Granger & Andersen [1978]). Die Modellparameter α, β und σε2 sind reellwertige Kon-

stanten mit 0 2< < ∞σε . Die Gleichung (7.27) läßt sich alternativ auch in der Form

(7.28) Y t Yt t t= +−Α( ) 1 ε mit Α( )t t= + −α βε 1



schreiben und kann formal als ein lineares AR(1)-Modell interpretiert werden, allerdings mit sto-

chastischen Koeffizienten Α( )t . Die Koeffizientenfolge ( )Α t ist i.i.d. mit [ ]E tΑ( ) = α und

[ ]Var tΑ( ) = β σε2 2 . Man beachte, daß im Gegensatz zu den NLAR(1)-Modellen (P1) - (P4) hier zu

einem Zeitpunkt t nicht die gesamte für die Zukunft des Prozesses Yt relevante Information in der

aktuellen Prozeßvariable Yt enthalten ist.

Eine hinreichende Bedingung für die Existenz eines streng stationären Prozesses Yt , der (7.27)

erfüllt, ist durch die Ungleichung

(7.29) α β σε2 2 2 1+ <

gegeben (Bhaskara Rao et al. [1983]). Mit α = 0 5. , β = −0 3. und σε2 1= genügt (P5) dieser Be-

dingung. Die Momentfunktionen erster und zweiter Ordnung stationärer BAR(1,1,1)-Prozesse

können analytisch bestimmt werden. Es gilt (Sesay & Subba Rao [1988]):

(7.30) [ ]E Yt = =−

µβσ

αε2

1 ,

(7.31) [ ]E Yt2

2 2

2 2 22

2

1 2 4

1= =

+ +

− −⋅µ

β σ αβµ

α β σσε

εε

und

(7.32) [ ]Var Yt = = −γ µ µ0 22 ,

[ ]Cov Y Yt t, + = = +1 1 02γ αγ βµσ ε ,

[ ]Cov Y Yt t, + −= =τ τ τγ αγ 1 für τ ≥ 2 .

Für den Spezialfall (P5) erhält man

[ ]E Yt

= −0 6. , [ ]Var Yt

=1 9733. und [ ]Cov Y Yt t, .+ =

11 6667 .

Eine Realisation des Prozesses ist in der Abbildung 7.12 dargestellt. Erkennbar ist ein Charakte-

ristikum bilinearer Reihen. Der Zeitreihenplot weist plötzlich auftretende Ausschläge (z.B. zu den

Zeitpunkten t = 165 oder t = 268 ) auf. Angemerkt sei, daß der bilineare Term in (P5) mit β = −0 3.

ein moderates Gewicht besitzt. Wird dem Koeffizienten β des bilinearen Terms ein absolut großer

Wert ( β >> 0 ) zugeordnet, erzeugt das Modell (7.27) Reihen mit explosionsartigen Ausschlägen,

deren Amplituden weit größer sein können als die Amplituden der Ausschläge in Abbildung 7.12.

Dieser Aspekt wird in Abschnitt 7.3.2 weiter erörtert. Ferner sei angemerkt, daß das bilineare

Modell (7.27) kein grenzzyklisches Verhalten generieren kann. Aus (7.28) ist ersichtlich, daß das

Skelett eine homogene lineare Differenzengleichung der Form y yt t= −α 1 ist, die unter der Gültigkeit

der Stabilitätsbedingung α <1 lediglich den trivialen global stabilen Fixpunkt y* = 0 besitzt.



0 50 100 150 200 250 300

-6

-4

-2

0

2

4

Abb. 7.12: Realisation des BAR(1,1,1)-Prozesses (P5)

DieMSE-optimalen h-Schritt-Prognosefunktionen können für einen BAR(1,1,1)-Prozeß in

geschlossener Form angegeben werden. Der bedingte Erwartungswert E Y Y Yn h n n[ ]+ −, ,...1 sei

vereinfachend mit E Yc n h[ ]+ bezeichnet. Für den Einschritt-KQ-Prediktor im Prognoseursprung

t n= gilt:

(7.33) [ ] [ ][ ] [ ] [ ]

$,Y E Y E Y Y

E Y E Y E

Y Y

n c n c n n n n

c n c n n c n

n n n

KQ1 1 1

1

= = + +

= + +

= +

+ +

+

α β ε ε

α β ε ε

α β ε .

Hierbei ist Ec n[ ] = 0ε +1 , weil ε n+1 unabhängig von Y t nt ( )≤ ist. Für h = 2 folgt

(7.34) [ ] [ ][ ] [ ] [ ]

$

$

,

,

Y E Y E Y Y

E Y E Y E

Y

n c n c n n n n

c n c n n c n

n

KQ

KQ

2 2 1 1 1 2

1 1 1 2

12

= = + +

= + +

= +

+ + + + +

+ + + +

α β ε ε

α β ε ε

α βσε ,

da aufgrund der Unabhängigkeit der Störungen von Y t nt ( )≤ Ec n[ ] = 0ε +2 und

[ ] ( )[ ]

[ ] [ ]E Y E Y Y

E E

c n n c n n n n n

c n n

+ + + +

+ +

= + + ⋅

= = =

1 1 1 1

12

12 2

ε α β ε ε ε

ε ε σε

gilt. Für den allgemeinen h-Schritt-Fall erhält man durch analoge Argumentation:

(7.35) $ $,h ,hY Yn n

KQ KQ= +−α βσε12 ( h ≥ 2 ) .



Aus (7.33) ist ersichtlich, daß die KQ-Prognose die Invertierbarkeit des bilinearen Modells (7.27)

voraussetzt. Die Störung ε n in (7.33) ist nicht beobachtbar und muß daher geschätzt werden. Die

Invertierbarkeit des BAR(1,1,1)-Modells kann wie folgt definiert werden (vgl. Hallin [1980]): Es

bezeichne

$ $ε α β εv v v v vY Y Y= − −− − −1 1 1 ( )v u u t t= + −, ,..., ,1 1

eine Folge von 'Schätzern' der unbeobachtbaren Störungen ε v mit einem beliebigen Startwert

$ε εu u= . Das Modell (7.27) heißt invertierbar, wenn für alle εu

[ ]lim $u t tE

→−∞− =( )2ε ε 0

gilt. Hinreichend für die Invertierbarkeit von (7.27) ist, daß

(7.36) [ ]β2 2 1⋅ <E Yt

erfüllt ist (Subba Rao [1981, S.249]).

Mit β2 2 0 21E Yt[ ] = . genügt der Spezialfall (P5) der Invertierbarkeitsbedingung (7.36). Zur

Charakterisierung der Prognoseeigenschaften des Prozesses Yt zeigt Abbildung 7.13 die

Dichtefunktion seiner univariaten Randverteilung und die Dichten der bedingten Verteilungen von

Yn h+ (h=1,2,3,4) bei gegebenen Werten yn = −0 6. , ε n = 0 5. . Die Dichtefunktionen sind

eingipflig und mit Ausnahme der Gauß'schen Einschritt-Prognosedichte linksschief. Bemerkenswert

ist die schnelle Konvergenz der bedingten Verteilungen gegen die Randverteilung. Hier liefern

bedingte Erwartungswerte nur für sehr kleines h ( h ≤ 3 ) deutlich zuverlässigere Prognoseergebnisse

als das unbedingte Prozeßmittel.

Einen für die Prognose bilinearer Prozesse interessanten Aspekt diskutieren Granger & Andersen

[1978, S.49ff]. Die Autoren zeigen, daß die Momentfunktionen bis zur 2. Ordnung (7.30) -(7.32)

eines stationären BAR(1,1,1)-Prozesses denen eines linearen ARMA(1,1)-Prozesses der Form

(7.37) Y a a Y bt t t t= + + +− −0 1 1 1η η , η σηt sown~ ,( )0 2 ,

entsprechen, wobei a02= βσε , a1 = α gilt, und der Koeffizient b die Gleichung

( )( )γγ

1

0

1 1

12

1

1 2=

+ +

+ +

a b a b

a b b

erfüllt. In (7.37) ist ηt eine Folge unkorrelierter, identisch verteilter Zufallsvariablen (second

order white noise oder kurz sown) mit Erwartungswert Null und Varianz

[ ] [ ]Var Var Ya

a b bt tη ση= = ⋅−

+ +2 1

1 212

12

.



Dieses Ergebnis ermöglicht es, analytisch den Verlust an Prognosegenauigkeit zu quantifizieren, der

durch eine Beschränkung auf lineare KQ-Prognosen mittels des ARMA(1,1)-Modells (7.37)

entsteht. Für Einschritt-Prognosen beträgt der relative Verlust

Var

Var

Var Y

Var

a

a b bt

t

t

t

[ ]

[ ]

[ ]

[ ]

ηε ε

= ⋅−

+ +

1

1 212

12

,

da die linearen Prognosen die (unbedingte) Fehlervarianz Var t[ ]η aufweisen. Für den hier in-

teressierenden Spezialfall (P5) erhält man:

a0 0 3= − . , a1 0 5= . , b = 014123. und ση2 127457= . .

Die Fehlervarianz linearer Einschritt-Prognosen ist somit um 27.457% größer als die Fehlervarianz

bilinearer Einschritt-Prognosen. Dieser Aspekt wird in Abschnitt 7.3.2 weiter untersucht.

7.3.1.2 Simulation der stochastischen Prozesse

Von den Prozessen (P1) - (P5) wurden jeweils W = 100 unabhängige Realisationen der Länge T =

400 für die Durchführung der Studie benötigt. Die Zeitreihen wurden durch Einsatz folgender

Simulationstechnik generiert:

-10 -6 -2 2 6

y

0

0.1

0.2

0.3

0.4

(a)

fY

( ).

-10 -6 -2 2 6

y

0

0.1

0.2

0.3

0.4

fh

( | ). .

h=1

h=2

h=3

h=4

(b)

Abb. 7.13: Univariate Randdichte f Y ( )⋅ (Abb. 7.13a) und bedingte Dichten f y yh n h n n( , )+ ε mit

yn = −0.6, εn = 0.5 und h = 1,2,3,4 (Abb. 7.13b) des BAR(1,1,1)-Prozesses (P5)



Mittels der jeweiligen Modellgleichung wurde eine Sequenz von ( )E W T A+ ⋅ + = 100000 Werten

y0, y1, y2, .... rekursiv erzeugt. Als Startwert y0

diente das Prozeßmittel E Yt Y[ ]= µ . Während der

Simulation erreicht ein stationärer Prozeß nicht sofort auch einen stationären Zustand. Er benötigt

hierfür eine Einschwingphase, deren Länge prozeßabhängig ist. Um Initialisierungsfehler in den

Zeitreihen vernachlässigbar klein zu halten, wurden die ersten E = 2500 Werte der erzeugten

Sequenz nicht genutzt. Aus der Restsequenz wurden dann immer abwechselnd T = 400

aufeinanderfolgende Werte als Zeitreihe verwendet und A = 575 Werte entfernt. Dadurch wird

erreicht, daß zwischen den letzten Werten einer Zeitreihe und den ersten Werten der folgenden Reihe

keine Abhängigkeitsbeziehungen bestehen. Die so generierten W Zeitreihen können als Ergebnisse

wiederholter Durchführungen eines Zufallsexperiments aufgefaßt werden, wobei die einzelnen

Durchführungen sich gegenseitig nicht beeinflussen.

Die Werte der unabhängigen, identisch normalverteilten Störungen εt in (P1) - (P5) wurden mit Hilfe

erprobter Zufallsgeneratoren erzeugt. Genutzt wurden die FORTRAN Function-Unterprogramme

RAN1 und GRAND. Die Funktion RAN1 generiert im Intervall ( )0 , 1 gleichverteilte Pseudo-

zufallszahlen. Den Quellcode geben Press et al. [1988, S.192ff] an. Hier findet sich ebenfalls eine

Diskussion der Eigenschaften des Generators. Die Funktion GRAND erzeugt durch Transformation

von ( )0 , 1 -gleichverteilten Pseudozufallszahlen standardnormalverteilte Größen. Sie nutzt einen von

Brent [1974] entwickelten Algorithmus. Der Quellcode ist über die NETLIB Software-Bibliothek

via INTERNET frei verfügbar (siehe z.B. unter http://www.mirror.ac.uk/sites/netlib.bell-labs.com/

master/readme.html).

7.3.1.3 Spezifikation und Training Künstlicher Neuronaler Netze

Als Approximatoren der nichtlinearen Modellgleichungen in (P1) - (P5) wurden MLP(p,r,1)-Netze

mit Ausgabefunktionen der Form

(7.38) ( )f x xi ii

p

j j i j ii

p

j

r

x w, tanh= + + ⋅ +

= ==∑ ∑∑α α β γ γ0

10

11

genutzt, wobei x = ′( )x x p1 ,..., und w = ′( )α α α β β γ γ γ0 1 1 01 02, ,..., , ,..., , , ,...,p r pr sind.

Die KNN wurden an die ersten N = 300 Werte der simulierten Zeitreihen angepaßt. Als Lern-

verfahren kam nicht der Backpropagation-Algorithmus, sondern ein herkömmlicher nichtlinearer

KQ-Ansatz zum Einsatz. Die Adjustierung der Netzgewichte w erfolgte mit Hilfe des Levenberg-

Marquardt-Algorithmus (siehe Kapitel 5.4.3). Hierdurch konnte eine deutliche Einsparung an

benötigter Rechenzeit realisiert werden. Wie bereits an früherer Stelle festgestellt, ist die

Performance des Backpropagation-Lernens bei Simulationen von KNN auf herkömmlichen

Rechnern in aller Regel unbefriedigend.



Initialisiert wurden die Levenberg-Marquardt-Iterationen durch Vorgabe eines Startvektors w0 mit

( )− +0 2 0 2. , . -gleichverteilten Pseudozufallszahlen als Komponenten. Die Iterationen brachen nach k

Schritten ab, wenn der Abstand der aktuellen Residualquadratsumme Q k( )w vom Vorgänger

Q k( )w −1 den Toleranzwert eps = −10 5 nicht mehr überschritt. Um die Gefahr zu mildern, daß der

Lernprozeß eine lokale Minimumstelle der KQ-Zielfunktion als Ergebnis liefert, wurden die

Levenberg-Marquardt-Iterationen 10mal bis 15mal mit verschiedenen Startvektoren wiederholt. Die

Anzahl der Wiederholungen stieg mit der Neuronenzahl des jeweiligen Netzes. Nur der

Gewichtsvektor mit dem kleinsten zugehörigen Zielfunktionswert wurde gespeichert. Die Multistart-

Technik kann natürlich nicht das Auffinden eines globalen Minimums garantieren, sie liefert aber

zumindest eine gute lokale Lösung des Minimierungsproblems.

Die Spezifikation der Anzahl r verborgener Einheiten eines MLP-Netzes erfolgte mit Hilfe des

Lagrange-Multiplier-Tests von Teräsvirta & Lin [1993] (siehe Abschnitt 6.3.3). Es wurde ein

MLP(p,1,1)-Netz mit festem, vorgegebenem p trainiert und gegen eine MLP(p,2,1)-Alternative zum

Signifikanzniveau α = 0 05. getestet. Führte der Test zur Ablehnung des Nullmodells, folgte das

Training und das Testen eines MLP(p,2,1)-Netzes, usw. Die Prozedur stoppte nach der erstmaligen

Akzeptanz des Nullmodells. Lagen Realisationen der NLAR(1)-Prozesse (P1) - (P4) als Zeitreihen

vor, wurde die Ordnung der Eingabeschicht mit p = 1 vorgegeben. Für Realisationen des bilinearen

Prozesses (P5) wurde p = 2 festgelegt. Auskunft über die erzielten Spezifikationsergebnisse gibt

das Kapitel 7.3.2.

7.3.1.4 Implementierung der alternativen Prognosetechniken

Mit Hilfe der trainierten MLP(p,r,1)-Netze wurden deterministische Prognosen und zahlreiche

Approximationen von Kleinste-Quadrate-Prognosen ermittelt. Im folgenden werden die Im-

plementierungen der alternativen Prognosetechniken vorgestellt. Zur Vereinfachung der Notation

wird hierbei ohne Beschränkung der Allgemeinheit ein Netzwerk mit lediglich p = 1 Eingabeeinheiten

unterstellt.

(i) Iterative (deterministische) Prognosen (MLP-I)

Die Berechnung deterministischer h-Schritt-Prognosen bedarf keiner ausführlichen Erläuterung mehr.

Sie werden durch Iteration des 'Skeletts' ( )f ⋅ , $w eines Netzes ermittelt. Als Startwert dient der im

Prognoseursprung t n= vorliegende Zeitreihenwert yn:

(7.39) ( ) ( )$ $ $ $, , ,

y Y y f yn h n h n n hI I I= = −1

,w (h = 1,2,3,...)



mit $ ,y yn h nI

− =1 für h− =1 0 . Um eine übersichtliche Darstellung der Simulationsergebnisse zu

ermöglichen, werden die Prognosen im folgenden durch das Kürzel MLP-I gekennzeichnet.

(ii) Rekursive KQ-Prognosen (MLP-GH, MLP-MC)

Die rekursiven KQ-Prognosen werden durch numerisches Lösen der Rekursionsgleichungen

(7.40) [ ]$ $ $ , $, , ,y Y y Y y g y f y dyn h n h n n h n n n nR R R= = ⋅ −− + + +

−∞

∞

∫( ) ( ) ( )1 1 1 1w (h = 2,3,4,...) ,

berechnet, wobei ( )g ⋅ die Dichte der Störverteilung des datenerzeugenden Prozesses (oder einer

Approximation derselben) ist und $ $,Y y f yn n nR

1 ( ) ( , )= w gilt. Bei der Implementierung der

Prognosetechnik kann auf eine Vielzahl elaborierter numerischer Integrationsmethoden

zurückgegriffen werden. Hier wurden zwei verschiedene Implementierungen gewählt: Die erste macht

Gebrauch von einem Gauß'schen Quadraturverfahren, die zweite nutzt eine Monte-Carlo-Technik.

Für h = 2 reduziert sich (7.40) auf

(7.41) [ ]$ , $ , $,

Y y f y g y f y dyn n n n n nR

2 1 1 1( ) ( ) ( )= ⋅ −+ + +

−∞

∞

∫ w w .

Ein geeignetes Verfahren zur numerischen Bestimmung des Einfachintegrals ist die Gauß-Hermite-

Quadratur (siehe z.B. Press et al. [1988, S.121ff] und Kennedy & Gentle [1980, S.80ff]). Es sei

( ) ( )ϑ u f u g u f y un : [ ( )] ( )= ⋅ − ⋅, $ , $ expw w 2 gesetzt. Die Gauß-Hermite-Quadratur liefert eine

Näherungslösung des Berechnungsproblems ( )exp( )−∫−∞+∞ u u du2 ϑ in Form einer Summe

gewogener Funktionswerte von ϑ :

(7.42) exp( ) ( ) ( )

=

− ⋅ ≅ ⋅−∞

∞

∫ ∑u u du v us i ii

S2

1

ϑ ϑ .

Man beachte, daß die rechte Seite von (7.41) und die linke Seite von (7.42) identisch sind. Die

Funktion ( )v u u : ( )= −exp 2 wird als Gewichtsfunktion der Quadraturformel bezeichnet. S ist eine

wählbare natürliche Konstante. Als Argumente oder Stützstellen ui (i=1,2,...,S) für die

Funktionsauswertungen werden die Nullstellen eines im Intervall ( )−∞ +∞, bezüglich v(u)

orthogonalen Hermite'schen Polynoms ( )H uS der Ordnung S gewählt. Ein solches Polynom besitzt

die Darstellung:

( ) ( )H u

Se

d

dueS

S S

Su

S

Su=

⋅ − ⋅ ⋅

−2 1

2

1 22 2

! π

/

.

Die Gewichte vi ( )i S=1,..., sind durch die Gleichungen



vn

H u H ui

S

S i S i=

⋅ ⋅⋅

+

+

2 1

1

!

( ) ( )

π'

gegeben. Diese Wahl der Stützstellen und Gewichte ermöglicht es, alle Polynome aus der Klasse

P S2 1− der Polynome bis zum Höchstgrad 2 1S − durch die Quadraturformel ohne Approxi-

mationsfehler zu integrieren. D.h., im Falle ϑ ∈ −P S2 1 ist die Gleichung (7.42) exakt erfüllt.

Durch Ausnutzen der Gleichung (7.40) kann dieses numerische Vorgehen technisch sehr einfach auf

den allgemeinen h-Schritt-Fall verallgemeinert werden. Man erhält beispielsweise für

[ ]

[ ] [ ]

$ $ , $

, $ , $ , $

, ,Y y Y y g y f y dy

f y g y f y dy g y f y dy

n n n n n n n

n n n n n n n

R R3 2 1 1 1

2 2 1 2 1 1

( ) ( ) ( )

( ) ( ) ( )

= −

= −

−

+ + +−∞

∞

+ + + +−∞

∞

+ +−∞

∞

∫

∫∫

w

w w w

die Näherung

[ ] [ ]$ , $ , $ , $,Y y v f u g u f u v g u f yn n j j j i

j

S

i

S

i i nR

311

( ) ( ) ( ) ( )≅ ⋅ ⋅ −

⋅ ⋅ −

==∑∑ w w w ,

usw. Die Gewichte und Stützstellen der Quadraturformel sind wie oben angegeben definiert.

Allgemein ist die Berechnung einer (h-1)-fachen Summe von Produkten erforderlich. Dieser

Vorgehensweise sind allerdings Grenzen gesetzt. Mit wachsendem Prognosehorizont h steigt die

Gefahr der Akkumulation von Approximations- und Rundungsfehlern. Es wird daher zunehmend

fraglich, ob die erreichbare Approximationsgenauigkeit noch befriedigend ist. Desweiteren steigt der

Rechenaufwand mit h exponentiell an und ist für großes h nicht mehr handhabbar. Letzteres gilt im

verstärktem Maße für Netzwerke mit Ordnung p >1 . Hier werden (in Abhängigkeit von der

Implementierung des Quadraturverfahrens) bis zu S h−1 Auswertungen der Netzausgabefunktion

notwendig. Im Fall p = 1 ist nur die Berechnung und Speicherung von S Funktionswerten f u i( ), $w

( )i S=1,..., erforderlich.

Bei der Durchführung der Studie wurden h-Schritt-Prognosen durch Gauß-Hermite-Quadratur mit

einer Stützstellenanzahl von S = 48 berechnet. Zuvor mußte die Dichtefunktion g des Störterms εtspezifiziert werden. Sie wurde durch die Dichte einer N ( )0 2, $σε -Verteilung approximiert, wobei $σε

2

die geschätzte Residualvarianz des jeweiligen MLP-Netzes ist. Die resultierenden Prognosen sollen

kurz als MLP-GH-Prognosen bezeichnet und durch das Symbol $ $, ,y Y yn h n h n

GH GH= ( ) gekennzeichnet

werden.

Die Berechnung von Stützstellen und Gewichten der Quadraturformel erfolgte mit Hilfe von

Subroutinen aus der IQPACK-FORTRAN-Library (siehe Kautsky & Elhay [1982]). Der Quell-



code ist über die NETLIB Software-Bibliothek via INTERNET zugänglich. Die Programme

erlauben dem Anwender durch Manipulation von 'Skalierungsparametern' steuernd in die Be-

rechnung der Stützstellen einzugreifen. Diese Möglichkeit erwies sich als sehr hilfreich und wurde zur

Optimierung der Approximationsergebnisse genutzt.

Eine alternative Methode zur numerischen Bestimmung des Integrals (7.40) ist die Monte-Carlo-

Integration. Sie basiert auf der wiederholt (S−fach) durchgeführten Simulation der Netzausgabe-

funktion mit den bekannten Zeitreihenwerten als Startwerten:

(7.43) ( (y f y un h i n h i h i+ + −= +

, , ,, $( )

1 w (h = 1,2,3,... ; i =

1,2,...,S) ,

wobei (y yn h i n+ − =1, für alle i und h− =1 0 ist. , ..., u u uh S11 1 2, , , ist eine Menge von Pseudo-

zufallszahlen aus der Störverteilung des datenerzeugenden Prozesses. Ein naheliegender Nähe-

rungswert für den 'Erwartungswert' (7.40) ist das arithmetische Mittel

(7.44) yS

yn h n h ii

S

, ,( )1 1

1

= +=∑ (

(h = 2,3,4,...) .

Im Vergleich zu Gauß'schen Quadraturverfahren ist diese Technik sehr einfach implementierbar. Der

Preis, der hierfür allerdings gezahlt werden muß, ist eine geringere Präzision der Näherung; es sei

denn, die Anzahl S der durchgeführten Simulationen ist sehr groß.

Die Präzision von Monte-Carlo-Berechnungen kann durch Einsatz verschiedener Methoden,

sogenannter Varianzreduktionstechniken, gesteigert werden. Ein Ansatz, der nur geringen Im-

plementierungsaufwand erfordert, nutzt die negativen Werte −uh i, der Pseudozufallszahlen uh i, in

(7.43) als antithetische Größen. Es sei

(7.45) ) )y f y un h i n h i h i+ + −= + −

, , ,, $( ) ( )

1w (h = 1,2,3,... ; i = 1,2,...,S/2)

mit uh i, aus (7.43) sowie )y yn h i n+ − =1, für alle i und h− =1 0 . Einen Näherungswert für (7.40)

liefert jetzt

(7.46) ( )yS

y yn n h i n h ii

S

,h , ,

/( )2 1

1

2

= ++ +=∑ ( )

(h = 2,3,4,...) .

Man beachte, daß die Näherungswerte (7.44) und (7.46) auf der gleichen Anzahl S von Simu-

lationen basieren, wobei S als geradzahlig vorausgesetzt wird. Die simulierten Werte (yn h i+ , und

)yn h i+ , (i=1,2,...) können als Realisationen zweier Zufallsvariablen (Yn h+ und

)Yn h+ aufgefaßt

werden. Ihr arithmetisches Mittel besitzt die Varianz



[ ] ( )Var Y Y Var Y Var Y Cov Y Yn h n h n h n h n h n h1

2

1

42( ) [ ]+ [ ] [ , ]

( ) ( ) ( )+ + + + + ++ = +

mit Var Y Var Yn h n h[ ] [ ]( )

+ +≡ . Durch den antithetischen Gebrauch der Zufallsgrößen in (7.43) und

(7.45) sind die Zufallsvariablen offensichtlich negativ korreliert. Die Varianz des Mittelwertes ist

somit kleiner als die Varianzen der Zufallsvariablen selbst. Hieraus resultiert, daß in wiederholt

durchgeführten Simulationen mit verschiedenen Zufallszahlenmengen die Näherungswerte yn h,( )2 eine

geringere Streuung als die Näherungswerte yn h,( )1 aufweisen sollten (siehe z.B. Kleijnen & van

Groenendaal [1992, S.197ff]). Diese Technik ist natürlich nur dann sinnvoll einsetzbar, wenn (wie in

der Simulationsstudie gegeben) die Störungen εt des datenerzeugenden Prozesses symmetrisch um

den Mittelwert Null verteilt sind. Im Fall einer asymmetrischen Verteilung führt (7.46) zu verzerrten

Ergebnissen.

In Voruntersuchungen konnten durch die Modifikation (7.46) deutliche Präzisionsverbesserungen

gegenüber (7.44) erreicht werden. Präzisionsverbesserung bedeutet hier eine bessere Über-

einstimmung mit Gauß-Hermite-Ergebnissen. In der Studie wurden deshalb Monte-Carlo-Prognosen

gemäß (7.46) ermittelt (MLP-MC-Prognosen, symbolisch $ $, , ,y Y y yn h n h n n h

MC MC= =( ) ( )2 ). Die Zahl S

wurde mit S = 5000 vorgegeben. Die Störverteilung wurde wieder durch eine N ( )0 2, $σε -Verteilung

approximiert. Die Erzeugung der Pseudozufallszahlen erfolgte auch hier durch Einsatz der Gene-

ratoren RAN1 und GRAND (vgl. Abschnitt 7.3.1.2).

(iii) Bootstrap-Prognosen (MLP-B1, MLP-B2)

Bootstrap-Prognosen können analog zu (7.44) oder (7.46) berechnet werden. Der einzige Un-

terschied ist, daß hier die Verteilung der Störungen εt durch die empirische Häufigkeitsverteilung der

Residuen

$ $ε t t ty f y= − −( , )1 w ( t N= 2 3, ,..., )

eines an die Zeitreihe yt ( t N= 1,..., ) angepaßten MLP-Netzes approximiert wird. Ersetzt man in

(7.43) und (7.45) die Zufallszahlen uh i, durch zufällig aus der Menge , ..., $ $ $ε ε ε2 3 N mit

Zurücklegen gezogene Residuen, dann erhält man die h-Schritt-Bootstrap-Prognosen

(7.47) ( )$ $,h ,h ,y Y y

Syn n n n h i

i

SB B1 1 1

1

= = +=∑ (

(h = 2,3,4,...) ,

(7.48) ( ) ( )$ $,h ,h , ,

/

y Y yS

y yn n n n h i n h ii

SB B2 2 1

1

2

= = ++ +=∑ ( )

(h = 2,3,4,...) .

Zur Vermeidung unnötiger Approximationsfehler ist es sinnvoll, die Residuen zuvor zu zentrieren. Die

Prognosen sollen als MLP-B1- bzw. MLP-B2-Prognosen bezeichnet werden. Für beide Typen



werden in Abschnitt 7.3.2 Simulationsergebnisse ausgewiesen (mit S = 5000 ). Abweichend von den

Monte-Carlo-Ergebnissen wurden hier durch die antithetische Version nicht durchgängig verbesserte

Approximationen des Integrals (7.40) erreicht. Diese Beobachtung korrespondiert mit analytischen

Ergebnissen von Mariano & Brown [1989]. Für ein vergleichbares Paar residuenbasierter

Prediktoren konnten die Autoren keine eindeutige asymptotische Dominanz eines der Prediktoren

(im Sinne des MSE-Kriteriums) feststellen.

(iv) Direkte Prognosen (MLP-D)

Die Ermittlung direkter Mehrschritt-KQ-Prognosen erfolgte gemäß (7.18) und (7.19). Als

Approximatoren der bedingten Erwartungswertfunktionen ( ) ( ) [ ]µ h E Yt h tx X x= =+ (h = 2,

3,4,...) wurden erneut MLP(p,r,1)-Netze der Form (7.38) verwendet. Sie werden im folgenden als

h-Schritt-MLP(p,r,1)-Netze bezeichnet. Ihre Ausgabefunktionen seien gemäß

(7.49) ( ) ( )( ) ( ) ( ) ( ) ( ) ( )f x xh h h h h h hi i

i

p

j j i j ii

p

j

r

x w, tanh= + + ⋅ +

= ==∑ ∑∑α α β γ γ

01

011

notiert. Im Prognoseursprung t n= liefert ein trainiertes h-Schritt-Netz mit dem Gewichtsvektor( )$w h die Prognose (MLP-D-Prognose)

(7.50) ( ) ( ) ( )( )$ $ , $, ,

y Y fn h n h n nD D h h= =x x w (h = 2,3,4,...) .

Als Datenbasis für das Netzwerktraining dienten wieder die ersten N = 300 Werte yt ( t N=1,..., ) der

simulierten Zeitreihen. Die Gewichtsadjustierung erfolgte durch Minimierung der modifizierten KQ-

Zielfunktionen

( ) ( ) ( ) ( )( )QN h p

y fh h h ht h t

t p

N h

( ) ( )w x w=− − +

−+=

−

∑1

1

2, (h = 2,3,4,...)

via Levenberg-Marquardt-Iterationen (vgl. Abschnitt 7.3.1.3). Problematisch war die Spezifikation

der Ordnungszahlen p und r der KNN. Für h>1 sind die Residuen ( )$εt hh

+ =:( ) ( )y ft h th h

+ − ( , )x w$ eines h-Schritt-Netzes keine Realisationen stochastisch unabhängiger Zu-

fallsgrößen; dies gilt auch dann nicht, wenn ( ) ( )f h ht( , )x w$ die Funktion ( ) ( )µ h x fehlerfrei ap-

proximiert. Hieraus resultiert, daß der Lagrange-Multiplier-Test von Teräsvirta & Lin [1993] oder

Selektionskriterien wie das SIC von Schwarz [1978] nicht sinnvoll als Spezifikationswerkzeuge

eingesetzt werden konnten. Die Spezifikation der Netzordnung erfolgte deshalb durch Versuch und

Irrtum. An jede Zeitreihe wurden für festes h verschiedene h-Schritt-MLP(p,r,1)-Netze (7.49)

angepaßt und mit ihrer Hilfe Prognosewerte ermittelt. In Kapitel 7.3.2 werden ausschließlich die im

Sinne des MSE-Kriteriums besten Prognoseergebnisse ausgewiesen.



7.3.1.5 Kriterien für den Vergleich der Prognosetechniken

Zur vergleichenden Beurteilung der alternativen Prediktoren $,hYn

I , $,hYn

GH , $,hYn

MC , $,hYn

B1 , $,hYn

B2 und$

,hYnD wurden der Prognosebias E Y Yn h n[ ]+ − $

,h , der mittlere quadratische Prognosefehler

E Y Yn h n[( ) ]+ − $,h

2 und der mittlere absolute Prognosefehler E Y Yn h n[| | ]+ − $,h (mean absolute

error, kurz MAE) von h-Schritt-Prognosen als Kriterien gewählt und geschätzt.

Von den stochastischen Prozessen (P1) - (P5) lagen jeweils W =100 unabhängige Realisationen der

Länge T = 400 vor. Die i-te Realisation ( i W= 1,..., ) eines Prozesses soll hier mit yti( ) ( t T= 1,..., )

bezeichnet werden. Ferner sei $ ,hyti( ) eine h-Schritt-Prognose des Zeitreihenwertes yt h

i+

( ) im

Prognoseursprung t . Während die ersten N = 300 Zeitreihenwerte dem Netzwerktraining

vorbehalten waren, wurden für die folgenden H =100 Werte nun mittels der alternativen Techniken

h-Schritt-Prognosen $ ,yt hi( ) im Ursprung t N N T h= + −, ,...,1 ermittelt. Über alle 100 Realisationen

des Prozesses ergibt dies eine Anzahl von ( )100 101⋅ − h h-Schritt-Prognosen je Prognosetechnik.

Als Schätzwerte für die Vergleichskriterien dienten der mittlere empirische Prognosefehler

(empirischer Prognosebias)

(7.51) ( )( )

( ) ( )( )B hW H h

y yt h tt N

T h

i

Wi i=

+ −−+

=

−

=∑∑1

1 1

$ ,h ,

der mittlere quadratische empirische Prognosefehler

(7.52) ( )( )

( ) ( )( )MSE hW H h

y yt h tt N

T h

i

Wi i=

+ −−+

=

−

=∑∑1

1

2

1

$ ,h

und der mittlere absolute empirische Prognosefehler

(7.53) ( )( )

( ) ( )MAE hW H h

y yt h tt N

T h

i

Wi i=

+ −−+

=

−

=∑∑1

1 1

$ ,h

der h-Schritt-Prognosen.

Der Prognosehorizont h wurde aus der Menge 1,2,3,5,10 entnommen. Zwei erwähnenswerte

Spezialfälle sind:

• Für den bilinearen Prozeß (P5) liefern 5-Schritt- oder gar 10-Schritt-Prognosefunktionen keine

sinnvoll verwertbaren Prognoseergebnisse. Der Höchstwert von h betrug hier deshalb h=3.

• Um den Rechenaufwand zu begrenzen, wurde generell auf die Berechnung von 10-Schritt-MLP-

GH- und MLP-D-Prognosen verzichtet. Die Aussagekraft der Simulationsergebnisse wird

hierdurch nur im geringen Maße reduziert.



Die Bedeutung des MSE-Kriteriums wurde bereits in Kapitel 6 erörtert. Zur Beurteilung der

Prognoseergebnisse ist es sinnvoll, dem MSE-Kriterium das MAE-Kriterium an die Seite zu stellen.

Beim quadratischen MSE-Kriterium werden Abweichungen ( ) ( )y yn h n hi i+ − <$ , 1 vermindert und

Abweichungen ( ) ( )y yn h n hi i+ − >$ , 1 verstärkt berücksichtigt. Das MAE-Kriterium bewertet hingegen

alle (absoluten) Prognosefehler mit einem identischen Gewicht. Um beide Kriterien einfach

interpretieren und vergleichen zu können, wurde auch die Quadratwurzel von (7.52)

(7.54) ( ) ( )RMSE h MSE h=

ermittelt (root mean square error, kurz RMSE). Das Wurzel-MSE-Kriterium und das MAE-

Kriterium besitzen identische Dimensionen.

Die Kennzahlen (7.52) - (7.54) ermöglichen eine Beurteilung der relativen Güte alternativer Pro-

gnosefunktionen. Sie liefern aber keinen absoluten Maßstab. Eine Objektivierung des Vergleichs

kann erreicht werden, wenn Referenzprognosen mit in den Vergleich einbezogen werden. Zu diesem

Zweck wurden zusätzlich KQ-Prognosen ermittelt, die von der Kenntnis der datengenerierenden

Modelle (P1) - (P5) Gebrauch machen (Px-KQ-Prognosen mit x = 1 5,..., ). Im bilinearen Fall (P5)

erfolgte die Berechnung gemäß (7.33) - (7.35). Für die NLAR(1)-Prozesse (P1) - (P4) kam wieder

der rekursiven Ansatz von Tong & Moeanaddin [1988] zum Einsatz. Die Integrale wurden mittels

Gauß-Hermite-Quadratur ( h ≤ 5 ) bzw. Monte-Carlo-Integration ( h = 10 ) numerisch bestimmt.

Ferner wurden für (P1) - (P4) deterministische Mehrschritt-Prognosen durch Iteration des 'wahren'

Skeletts des jeweiligen Prozesses ermittelt (Px-I-Prognosen mit x = 1 4,..., ). Sie dienen speziell der

vertieften Beurteilung von MLP-I-Prognosen.

7.3.2 Ergebnisse der Simulationsstudie

Die Ergebnisse der Studie sind in den Tabellen 7.1 bis 7.6 zusammengestellt. Die Tabelle 7.1

informiert über die zur Prognoseberechnung verwendeten KNN. Angegeben sind die Häufig-

keitsverteilungen der mit Hilfe des Lagrange-Multiplier-Tests für die Prozesse (P1) - (P5) aus-

gewählten MLP(p,r,1)-Netze vom Typ (7.38). Die folgenden Tabellen weisen die erzielten

Prognoseergebnisse aus. Die Spalten 3-6 enthalten jeweils für alle Prognosetechniken die Werte der

Vergleichsgrößen (7.51), (7.52), (7.54) und (7.53). Die 7. Spalte gibt die relative Effizienz (EFF)

der Prognosen an. Damit ist hier die prozentuale Abweichung des mittleren quadratischen

empirischen Prognosefehlers (7.52) eines Prediktors von der Kennzahl des jeweiligen MSE-

optimalen Prediktors gemeint (vgl. auch Lin & Granger [1994]).



Exponentiell-Autoregressive-Prozesse

In Abschnitt 7.3.1.1 wurde gezeigt, daß die EXPAR(1)-Prozesse (P1) und (P2) verschiedene

nichtlineare Charakteristika besitzen. Dennoch weisen ihre Prognosedichten Gemeinsamkeiten auf. Es

überrascht daher nicht, daß die Simulationen der beiden Prozesse Prognoseergebnisse lieferten, in

denen ebenfalls Parallelen erkennbar sind (siehe Tabelle 7.2 und Tabelle 7.3). In beiden Fällen

ermöglichen MLP-Netze sehr gute Approximationen der datengenerierenden Modelle. Die MSE-

und MAE-Werte der neuronalen Einschritt-Prognosen, sie sind in den Tabellen als MLP-Prognosen

bezeichnet, weichen nur geringfügig von den Kenngrößen der MSE-optimalen P1-KQ- bzw. P2-

KQ-Prognosen ab. Der Verlust an Prognosegenauigkeit, gemessen durch den mittleren

quadratischen Fehler, beträgt lediglich 2.95% für (P1) und 3.5% für (P2). Hierbei ist zu beachten,

daß die größere Streuung der Fehler von MLP-Prognosen zum Teil durch Effekte der

Parameterschätzung bedingt ist.

Die Mehrschritt-Prognoseergebnisse der Simulationen erlauben ein 'Ranking' der alternativen

Prognosetechniken. Die approximativen KQ-Verfahren mittels Gauß-Hermite-Quadratur, Monte-

Carlo-Simulation und Bootstraping lieferten im Sinne des MSE- und des MAE-Kriteriums die

deutlich zuverlässigsten neuronalen h-Schritt-Prognosen (h=2,3,5,10). Die antithetischen Bootstrap-

Prognosen MLP-B2 erwiesen sich hier gegenüber den MLP-B1-Prognosen als geringfügig

effizienter. Ansonsten unterscheiden sich die Werte der Vergleichsgrößen nur marginal. Interessant

ist, daß der gegenüber den MSE-optimalen KQ-Prognosen entstandene Verlust an

Prognosegenauigkeit noch kleiner ist als im Einschritt-Fall. Dieses Phänomen kann zumindest partiell

durch die generellen Eigenschaften von KQ-Prognosen erklärt werden. Mit dem Prognosehorizont h

ProzeßNetzwerk

EXPAR(1)(P1)

EXPAR(1)(P2)

SETAR(2,1,1)(P3)

SETAR(2,1,1)(P4)

BAR(1,1,1)(P5)

MLP(1,1,1)MLP(1,2,1)MLP(1,3,1)MLP(2,1,1)MLP(2,2,1)MLP(2,3,1)MLP(2,4,1)

22717

71263

50473

4879

749377

Summe 100 100 100 100 100

Tabelle 7.1: Ergebnisse der Netzwerkspezifikation; Anzahl der mit Hilfe des Lagrange-Multiplier-Tests von Teräsvirta & Lin [1993] für jeweils 100 Realisationen der stochastischenProzesse (P1)-(P5) ausgewählten MLP(p,r,1)-Netze (7.38).



Prognose-Schritt

Prognose-Typ

Bias MSE RMSE MAE EFF

1 P1-KQMLP

-0.002880.00851

1.008351.03807

1.004171.01886

0.805690.81609

-2.95

2 P1-IP1-KQMLP-IMLP-GHMLP-MCMLP-B1MLP-B2MLP-D

-0.00725-0.004570.014620.001890.001510.003880.001900.00328

1.821301.630781.826901.642441.641661.643161.641591.67776

1.349551.277021.351631.281581.281271.281861.281241.29528

1.034660.996861.036241.001671.001211.001341.000561.01037

11.68-

12.030.710.670.760.662.88


0.00163-0.002840.023320.005890.006620.006790.006830.00920

2.322082.016462.358572.038552.039352.040322.039442.07639

1.523841.420021.535761.427781.428061.428401.428091.44097

1.160071.118321.169301.125041.125551.124771.124371.13417

15.16-

16.971.101.141.181.142.97


0.00162-0.003270.025250.005120.005640.008140.005800.00636

3.045902.407013.106452.426812.425672.428292.427732.45910

1.745251.551461.762511.557821.557461.558301.558121.56815

1.351121.266291.365431.274111.273251.272371.272151.27805

26.54-

29.060.820.780.880.862.16

10 P1-IP1-KQMLP-IMLP-MCMLP-B2

-0.01060-0.007320.015170.003690.00575

4.002082.694304.082062.713042.71692

2.000521.641432.020411.647131.64831

1.597791.377931.613281.381721.38256

48.54-

51.510.700.84

Tabelle 7.2: Ergebnisse der Simulationen des EXPAR(1)-Prozesses (P1)

wächst die Streuung der Prognosefehler. Da für ergodische, streng stationäre Prozesse die

Fehlervarianzen aber auch für h→∞ durch die Prozeßvarianz beschränkt bleiben, sollten

Unterschiede zwischen exakten KQ-Prognosen und KQ-Approximationen klein werden; es sei

denn, die Approximationen sind unbrauchbar.

Auch die vierte approximative KQ-Technik lieferte verwertbare Prognosen. Die relative Effizienz der

MLP-D-Prognosen beträgt für (P1) maximal 2.97% und für (P2) maximal 6.09%, wobei der Ge-



Prognose-Schritt

Prognose-Typ


1 P2-KQMLP

-.00058.00202

.04033

.04174.20083.20430

.16114

.16397-

3.502 P2-I

P2-KQMLP-IMLP-GHMLP-MCMLP-B1MLP-B2MLP-D

.00068 -.00064

.00364

.00241

.00242

.00235

.00238-.00454

.15706

.15075

.16383

.15435

.15437

.15445

.15442

.15993

.39630

.38826

.40476

.39287

.39290

.39301

.39296

.39991

.30605

.30357

.31123

.30572

.30574

.30570

.30569

.31198

4.19-

8.682.392.402.452.436.09


.00659 .00069 .00783.00309.00315.00299.00312.02609

.40100

.29404

.40331

.29577

.29571

.29591

.29560

.31162

.63325

.54225

.63507

.54385

.54379

.54398

.54369

.55823

.45672

.42370

.45695

.42307

.42245

.42321

.42243

.43775

36.38-

37.160.590.570.640.535.98


.00780

.00073

.00822

.00224

.00218

.00278

.00225

.02136

.66611

.44612

.66587

.45177

.45158

.45182

.45176

.46945

.81615

.66793

.81601

.67214

.67200

.67217

.67213

.68517

.59354

.52505

.59260

.52752

.52751

.52680

.52677

.54428

49.31-

49.261.271.221.281.265.23


.00062-.00165.00561

-.00833-.00590

.96493

.62994

.97623

.63669

.63705

.98231

.79369 .98804.79793.79815

.74742

.67181

.75078

.66900

.66838

53.18-

54.971.071.13

Tabelle 7.3: Ergebnisse der Simulationen des EXPAR(1)-Prozesses (P2)

nauigkeitsverlust gegenüber den MSE-optimalen KQ-Prognosen wiederum für großes h (hier: h=5)

am geringsten ist. Verglichen mit den Ergebnissen der drei erstgenannten Verfahren fällt die

Performance der direkten Technik jedoch erkennbar ab. Die MSE- und die MAE-Werte sind zum

Teil um mehrere Prozentpunkte größer.

Die Berechnung der direkten h-Schritt-Prognosen erforderte die Anpassung von spezifischen

h-Schritt-MLP(p,r,1)-Netzen (7.49) an die simulierten Zeitreihen. Trainiert wurden Netze mit



p=1 Eingabestellen und r=1, r=2 oder r=3 verborgenen Verarbeitungseinheiten. Die MLP-D-

Prognosen in Tabelle 7.2 basieren auf h-Schritt-MLP(1,1,1)-Netzen, in Tabelle 7.3 sind die

Prognoseergebnisse von h-Schritt-MLP(1,3,1)-Netzen ausgewiesen. Diese Netze ermöglichten von

allen getesteten Netzwerkarchitekturen jeweils die im MSE-Sinne besten Prognosen. Vergleicht man

die Ordnungen r der Netze mit den in Tabelle 7.1 angegebenen Spezifikationen der Einschritt-

MLP's, ist das zweite Ergebnis einigermaßen überraschend. Für die 100 Realisationen des

Prozesses (P2) wurden in 97 Fällen Einschritt-Netze mit r≤2 verborgenen Einheiten als adäquat

spezifiziert. Die h-Schritt-Netze besaßen hingegen mit r=3 die besten Prognoseeigenschaften. Ruft

man sich in Erinnerung, daß sie h-Schritt-KQ-Prognosefunktionen auf eine direkte Art und Weise

approximieren, erscheint dies wenig plausibel. Da der Prozeß ergodisch und streng stationär ist,

konvergieren KQ-Prediktoren für h→∞ stochastisch gegen das unbedingte Prozeßmittel µ Y . Die

Prognosefunktionen weisen somit für wachsendes h einen zunehmend 'glatteren' Verlauf auf und

sollten daher durch ein eher einfach aufgebautes KNN gut approximierbar sein. Die Behauptung

korrespondiert mit den für (P1) erzielten Ergebnissen und weiteren Resultaten, die auf den folgenden

Seiten vorgestellt werden. Ein Grund, warum im Falle des EXPAR(1)-Prozesses (P2) das Gegenteil

beobachtet wurde, kann in der hochgradig nichtlinearen Dynamik des Prozesses vermutet werden.

Weniger überraschend ist, daß die Eigenschaften der iterativen Prognosen für beide EXPAR(1)-

Prozesse relativ unbefriedigend sind. Ein Vergleich der Kenngrößen von MLP-I-Prognosen und

P1-I- bzw.- P2-I-Prognosen zeigt, daß das Ergebnis nicht durch mangelhafte Approximations-

eigenschaften der KNN oder durch starke Effekte der Parameterschätzung erklärt werden kann. Die

geringe Prognosezuverlässigkeit ist maßgeblich durch die deterministische Prognosetechnik selbst

bedingt. Hervorzuheben sind insbesondere die Eigenschaften der iterativen 10-Schritt-Prognosen.

Ihre mittleren quadratischen Fehler sind nicht durch die Varianzen Var Yt[ ] ≅ 2 74. bzw.

Var Yt[ ] ≅ 0 74. der beiden EXPAR(1)-Prozesse beschränkt. Sie überschreiten die Prozeßvarian-

zen deutlich. Hier sollte selbst die Verwendung des arithmetischen Zeitreihenmittels als Prediktor

'bessere' Prognoseergebnisse liefern. Die 10-Schritt-Prognosen sind demnach vollständig untauglich.

Für den Prozeß (P1) gilt gleiches bereits für die iterativen 5-Schritt-Prognosen.

Threshold-Autoregressive-Prozesse

Der SETAR(2,1,1)-Prozeß (P3) weist ebenso wie die EXPAR(1)-Prozesse (P1) und (P2) ein

grenzzyklisches Verhalten auf. Wie bei den Vorgängern resultiert hieraus, daß die Prognosedichten

für wachsendes h eine zunehmend bimodale Form besitzen. Bezüglich der Prognoseeigenschaften

kann dennoch ein bemerkenswerter Unterschied festgestellt werden. Aus der Sicht des Praktikers

sind für die exponentiell-autoregressiven Reihen lediglich h-Schritt-Prognosen mit h≤3 oder

höchstens h≤5 verwertbar. Die 10-Schritt-Prognosen, auch die MSE-optimalen Prognosen, liefern



kaum mehr Information über die Zukunft als das jeweilige Prozeßmittel. Im threshold-autoregressi-

ven Fall (P3) können hingegen auch für großes h sinnvoll verwertbare Prognosen ermittelt werden.

Die Zeitreihen besitzen ein stark ausgeprägtes - und damit gut prognostizierbares - zyklisches

Muster.

Die Einschritt-MLP-Netze (7.38) ermöglichten wieder sehr gute Approximationen des daten-

generierenden Modells. Die neuronalen Einschritt-Prognosen sind lediglich um 4.91% ineffizienter als

die MSE-optimalen P3-KQ-Prognosen (siehe Tabelle 7.4). Betrachtet man ausschließlich das

MSE-Kriterium, dann dominieren im Mehrschritt-Fall die MLP-GH-, MLP-MC- und MLP-B2-

Prognosen die mit ihnen konkurrierenden Prognosetechniken. Ihre MSE-Werte unterscheiden sich

kaum voneinander. Der Verlust an Prognosegenauigkeit gegenüber den MSE-optimalen Prognosen

ist gering. Abweichend von den bisher betrachteten Simulationsergebnissen ist die Dominanz der

Techniken gegenüber den MLP-I- und MLP-D-Prediktoren allerdings nicht stark ausgeprägt.

Schließt man in den Vergleich die MAE-Werte mit ein, ist zumindest für h≤3 ein eindeutiges Ranking

kaum mehr möglich. Hervorzuheben sind insbesondere die für h=2 und h=3 ermittelten guten

Prognoseeigenschaften der deterministischen MLP-I-Prognosen. Ihre Zuverlässigkeit ist mit der

Zuverlässigkeit von MLP-GH-, MLP-MC- und MLP-B2-Prognosen vergleichbar und geringfügig

größer als die von MLP-D-Prognosen. Der Grund hierfür wurde bereits erwähnt. Die Zeitreihen

weisen ausgeprägte zyklische Schwankungen auf, die kurzfristig gut deterministisch extrapolierbar

sind. Mit wachsendem Prognosehorizont steigen die mittleren quadratischen und mittleren absoluten

Prognosefehler allerdings deutlich. Angemerkt sei, daß hier die MLP-D-Prognosen mit Hilfe von h-

Schritt-MLP(1,1,1)-Netzen (h=2,3,5) ermittelt wurden.

Ein auf den ersten Blick überraschendes Ergebnis der Simulationsexperimente wurde bisher noch

nicht erwähnt. Nach Brown & Mariano [1989] führt die Verwendung von deterministischen

Prediktoren bei parametrischen dynamischen Modellen im allgemeinen zu verzerrten Mehrschritt-

Prognosen. Der Bias verschwindet auch dann nicht, wenn für die Schätzung der Modellparameter

infinit große Datensätze zur Verfügung stünden. Betrachtet man in den Tabellen 7.2 - 7.4 die

mittleren empirischen Prognosefehler der MLP-I-Prognosen genauer, fällt auf, daß der Ansatz hier

nicht deutlich verzerrte Prognosen liefert. Für die beiden EXPAR(1)-Prozesse (P1) und (P2) scheint

der empirische Prognosebias der MLP-I-Prognosen geringfügig größer als der Bias der exakten und

approximativen KQ-Prognosen zu sein, die ermittelten Werte weichen jedoch auch hier nicht

dramatisch vom Wert Null ab. Dieses Phänomen wurde bei der Auswertung der beiden noch

ausstehenden Simulationsexperimente nicht mehr beobachtet.



Prognose-Schritt

Prognose-Typ


1 P3-KQMLP

0.026500.02037

0.996131.04505

0.998061.02228

0.789330.81029

-4.91


-0.010560.00590

-0.01554-0.000620.000160.00006

-0.00022-0.00502

1.726921.721491.757331.752061.752511.754151.752511.76161

1.314121.312051.325641.323651.323821.324441.323821.32726

1.024881.025571.036431.036821.036971.037331.037001.03429

0.32-

2.081.781.801.901.802.33


0.038090.023060.015990.012960.012660.012990.012750.00421

2.225852.203742.254142.238192.238202.238622.237872.28560

1.491931.484501.501381.496061.496061.496201.495951.51182

1.148561.147791.157351.157241.156941.156961.156901.16166

1.00-

2.291.561.561.581.553.71


0.039960.018880.008240.009170.008330.008610.00836

-0.00491

3.029872.971723.149633.051803.051693.054863.051873.13021

1.740651.723871.774721.746941.746911.747821.746961.76924

1.293061.293001.315211.310931.310511.310961.310181.31681

1.96-

5.992.692.692.802.705.33


-0.021720.01212

-0.020800.002470.00285

4.561324.335144.971564.557464.55520

2.135722.082102.229702.134822.13429

1.499071.501671.559891.545451.54372

5.22-

14.685.135.08

Tabelle 7.4: Ergebnisse der Simulationen des SETAR(2,1,1)-Prozesses (P3)

Für den SETAR(2,1,1)-Prozeß (P4) betrug die Effizienz der neuronalen Einschritt-Prognosen 5.4%

(siehe Tabelle 7.5). Der Verlust an Prognosegenauigkeit gegenüber MSE-optimalen KQ-Prognosen

ist hier etwas größer als in den zuvor betrachteten Situationen. Unter den alternativen Mehrschritt-

Prognosetechniken besitzen die Gauß-Hermite-, Monte-Carlo- und Bootstrap-Prediktoren die

günstigsten MSE- und MAE-Eigenschaften, wobei der MLP-B1-Prediktor leicht effizienter als die

antithetische MLP-B2-Version erscheint. Die MLP-D-Prognosen wurden für h=2 mittels 2-Schritt-



Prognose-Schritt

Prognose-Typ


1 P4-KQMLP

-0.01872-0.01367

3.984544.19982

1.996132.04935

1.593651.63512

-5.40


0.11295-0.006240.159710.00149

-0.01479-0.00923-0.009110.00202

8.391287.857538.733408.038118.036838.038738.039378.31917

2.896772.803132.955232.835162.834932.835262.835382.88430

2.285602.229972.334572.254532.253922.254672.254502.29672

6.79-

11.152.302.282.312.315.88


0.23677-0.004050.359410.00155

-0.009040.000910.000080.01151

10.477529.64995

11.042649.810749.814589.810609.81431

10.19435

3.236903.106443.323053.132213.132823.132193.132783.19286

2.570942.486322.639212.505212.507202.506772.506772.55154

8.58-

14.431.671.711.661.705.64


0.40731-0.020830.57156

-0.00262-0.015340.001490.00001

-0.00689

13.2331411.5605613.9226011.7194711.7138811.7138411.7156312.22115

3.637743.400083.731303.423373.422553.422553.422812.49588

2.915182.752392.993382.765212.764162.763662.764152.82030

14.47-

20.431.371.331.331.345.71


0.59624-0.030890.75483

-0.03365-0.00431

15.9394612.8125816.2024112.8515512.85018

3.992433.579474.025233.584913.58471

3.233952.919883.251662.913072.91267

24.40-

26.460.300.29

Tabelle 7.5: Ergebnisse der Simulationen des SETAR(2,1,1)-Prozesses (P4)

MLP(1,2,1)-Netzen und für h=3 und h=5 mittels h-Schritt-MLP(1,1,1)-Netzen der Form (7.49)

ermittelt. Die Werte des MSE- und MAE-Kriteriums sind deutlich größer als die Kennzahlen der

zuvor genannten Techniken. Die eindeutig schlechteste Performance weist allerdings der

deterministische Ansatz auf. Die MSE-und MAE-Werte werden mit wachsendem Prognosehorizont

h extrem groß, wobei erstmals die Bias-Komponente des MSE ein signifikantes Gewicht besitzt.



Man beachte, daß auch die mittleren Prognosefehler der P4-I-Prognosen, die durch Iteration des

'wahren' Skeletts von (P4) ermittelt wurden, mit wachsendem h deutlich steigen.

Eine heuristische Erklärung, warum in diesem Simulationsexperiment der deterministische Prediktor

erstmals einen substanziellen Bias erkennen läßt, ist schnell gefunden. Das Skelett des

SETAR(2,1,1)-Prozesses (P4) besitzt zwei lokal stabile Fixpunkte y1 0 8824* .= und y2 5 0* .= , die

beide vom Prozeßmittel E Yt Y[ ] = ≅µ 4 36. verschieden sind. Approximiert ein KNN das Skelett

hinreichend gut, dann streben in Abhängigkeit vom jeweiligen Startwert yn die MLP-I-Prognosen für

h→∞ gegen einen der beiden Fixpunkte. Asymptotisch sind diese Prognosen offensichtlich nur dann

unverzerrt, wenn die Gleichung

( )y p y p Y1 2 1* * * *⋅ + ⋅ − = µ

erfüllt ist. Hierbei bezeichnet p* die Wahrscheinlichkeit, daß im Prognoseursprung t=n die

Zufallsvariable Yn einen Wert im Anziehungsbereich des Fixpunktes y1* annimmt. Der

Anziehungsbereich des Fixpunktes ist durch das Intervall ( ]−214286 3 0. , . gegeben. Mittels numeri-

scher Integration der univariaten Randdichte des Prozesses (vgl. Abbildung 7.9) erhält man

( )p P Yn* . . .= − < ≤ ≅214286 3 0 0 334 . Die obige Gleichung ist somit nicht erfüllt, und die MLP-

I-Prognosen sollten für hinreichend großes h einen Bias aufweisen.

Die Prozesse (P1) - (P3) sind durch grenzzyklisches Verhalten gekennzeichnet. Beispielsweise

besitzt das Skelett des EXPAR(1)-Prozesses (P1) den global stabilen Grenzzyklus

z = − + ′( )1 339 1 339. , . , dessen periodische Punkte symmetrisch bezüglich E Yt Y[ ]= =µ 0 sind.

Approximiert wieder ein KNN das Skelett des Prozesses hinreichend gut, dann streben die MLP-I-

Prognosen für h→∞ gegen z. Sie sind dann (asymptotisch) erwartungstreu. Analoge Argumente

lassen sich für (P2) und (P3) finden.

Bilinear-Autoregressiver-Prozeß

Mit der Simulation des BAR(1,1,1)-Prozesses (P5) wurden zwei verschiedene Ziele verfolgt.

Zunächst sollten wieder Erkenntnisse über die Eigenschaften der alternativen Mehrschritt-

Prognosetechniken gewonnen werden. Aufgrund der probabilistischen Eigenschaften des Prozesses

ist hier allerdings nur die Berechnung von 2-Schritt- oder höchstens 3-Schritt-Prognosen sinnvoll.

Das Simulationsexperiment kann somit nicht so umfangreich über die relativen Eigenschaften der

Prediktoren informieren, wie die zuvor beschriebenen Experimente. Damit gewinnt die zweite

Zielsetzung an Gewicht. Der bilineare Prozeß (P5) ist nicht wie seine Vorgänger (P1) - (P4) vom

Markov-Typ. Von besonderem Interesse ist hier das Ausmaß der Effizienzverluste neuronaler

Prognosen gegenüber MSE-optimalen Prognosen. Die Simulationsergebnisse können möglicher-



weise interessante Erkenntnisse über die Prognoseeigenschaften von MLP-Netzen für stochastische

Prozesse, die nicht mit der Markov-Eigenschaft ausgestattet sind, liefern.

Es wird zunächst auf die erste Fragestellung eingegangen. Die Werte der Vergleichsgrößen in Tabelle

7.6 unterscheiden sich für die approximativen KQ-Mehrschritt-Prognosetechniken mittels Gauß-

Hermite-Quadratur, Monte-Carlo-Simulation und Bootstraping nur geringfügig. Dies gilt abgestuft

auch für die direkten MLP-D-Prognosen, die hier durch Einsatz von h-Schritt-MLP(2,2,1)-Netzen

(h=2,3) berechnet wurden. Die mittleren quadratischen und mittleren absoluten empirischen Fehler

der direkten Prognosen sind nur für h=3 größer als die Kennzahlen der zuvor genannten Prognosen.

Die schlechteste Performance weist erneut der deterministische Ansatz auf. Die mittleren empirischen

Prognosefehler der MLP-I-Prognosen sind für h=2 und h=3 deutlich von null verschieden. Hieraus

resultieren große Werte des MSE- und MAE-Kriteriums.

Obwohl weniger offensichtlich, sind die heuristischen Argumente auf S.175 möglicherweise auch hier

zur Erklärung des Bias der MLP-I-Prognosen geeignet. Das Skelett von (P5) besitzt einen global

stabilen Fixpunkt y*=0, der nicht mit dem Prozeßmittel E Yt Y[ ] = = −µ 0 6. identisch ist. In

zusätzlichen Untersuchungen wurde beobachtet, daß die deterministischen Prognosen für h→ ∞ im

Prognose-Schritt

Prognose-Typ


1 P5-KQMLPARMA-KQ

-0.01583-0.00844-0.01167

1.007271.116091.25093

1.003631.056451.11845

0.799860.835120.88219

-10.8024.19

2 P5-KQMLP-IMLP-GHMLP-MCMLP-B1MLP-B2MLP-DARMA-KQ

-0.02135-0.260530.008110.007150.002980.00247

-0.00968-0.01920

1.677381.857371.767221.767481.767971.767961.764761.72172

1.295141.362851.329371.329471.329651.329651.328441.31214

1.005441.044901.027381.027461.027291.027211.026901.01376

-10.735.365.375.405.405.212.64

3 P5-KQMLP-IMLP-GHMLP-MCMLP-B1MLP-B2MLP-DARMA-KQ

-0.02427-0.437180.020540.019690.011810.01219

-0.01344-0.02304

1.831262.103001.893941.894771.894911.894371.946241.84153

1.353241.450171.376211.376511.376561.376361.395081.35703

1.038451.096301.058831.058831.058241.058241.064781.03947

-14.843.423.473.483.456.280.56

Tabelle 7.6: Ergebnisse der Simulationen des BAR(1,1,1)-Prozesses (P5)



quadratischen Mittel gegen den Wert Null tendieren. Ihr Bias strebt gegen µY = −0 6. . Der mittlere

Prognosefehler von 10-Schritt-Prognosen ist beispielsweise −0.58209 (MSE: 2.27393; MAE:

1.13023).

Im Einschritt-Fall beträgt der gegenüber den MSE-optimalen P5-KQ-Prognosen eingetretene

Verlust an Prognosegenauigkeit, gemessen durch das MSE-Kriterium, 10.8%. Die MAE-Werte

differieren um 5.64%. Die Ineffizienz der MLP-Prognosen ist damit um das zweifache bis 3.6-fache

größer als in den vorangegangenen Experimenten. Die vergleichsweise schlechten

Prognoseergebnisse können nicht auf einen 'lack-of-fit' der in Tabelle 7.1 ausgewiesenen KNN

zurückgeführt werden. Die Güte der Anpassung an die Trainingsbereiche der Zeitreihen erwies sich in

diagnostischen Tests als zufriedenstellend. Im Mehrschritt-Fall ist der relative Genauigkeitsverlust für

die approximativen KQ-Prognosen geringer. Hier muß allerdings berücksichtigt werden, daß die

Fehlervarianzen der 3-Schritt-Prognosen bereits annähernd die Größenordnung der Prozeßvarianz

Var Yt[ ] = 1973. erreicht haben (vgl. die Anmerkungen auf S.168f).

Größere Ineffizienzen der neuronalen Prognosen wurden in diesem Simulationsexperiment erwartet,

ihr tatsächliches Ausmaß ist jedoch enttäuschend. Bereits in Abschnitt 7.3.1.1 wurde darauf

hingewiesen, daß die bilineare Komponente des Prozesses ein relativ geringes Gewicht besitzt. In der

Tat sind bilineare Charakteristika in den simulierten Zeitreihen nur moderat ausgeprägt. In

Voruntersuchungen wurden deshalb auch bilineare Prozesse mit stark gewichteten bilinearen Termen

simuliert. Mittels KNN konnten in allen Fällen befriedigende Anpassungsergebnisse erzielt werden,

die Effizienzverluste der Prognosen gegenüber MSE-optimalen Prognosen fielen aber noch größer

aus, als in diesem Kapitel berichtet.

Um die Kritik zu relativieren, wurden in diesem Simulationsexperiment auch lineare Prognosen

ermittelt. Da lineare Prognoseansätze in der Praxis den Standard bilden, ist es interessant zu

untersuchen, ob die KNN im Vergleich zuverlässigere Prognosen liefern.

In Abschnitt 7.3.1.1 wurde erläutert, daß die statistischen Eigenschaften bis zur zweiten Ordnung des

bilinearen Prozesses (P5) durch das ARMA(1,1)-Modell

Y a a Y bt t t t= + + +− −0 1 1 1η η , η σηt sown~ ,( )0 2

mit a0 0 3= − . , a1 0 5= . , b = 014123. und ση2 1 27457= . exakt erfaßt werden. Das Modell wurde

zur Berechnung von KQ-Prognosen verwendet, die MSE-optimal in der Klasse aller linearen

Prediktoren für (P5) sind (vgl. Granger & Andersen [1978, S.67ff]). Die linearen h-Schritt-

Prognosefunktionen besitzen die Form:

$,Y a a Y bn n n1 0 1= + + η

und



$ $, ,Y a a Yn h n h= + −0 1 1 für h ≥ 2 .

Die linearen Prognosen sind in Tabelle 7.6 als ARMA-KQ-Prognosen gekennzeichnet. Für h=1 sind

ihre mittleren quadratischen und mittleren absoluten empirischen Fehler deutlich größer als die

Kennzahlen der MLP-Prognosen. Für h=2 und h=3 erweisen sich hingegen die linearen Prognosen

als effizienter. Ihre Effizienzverluste gegenüber den P5-KQ-Prognosen sind gering. Letzteres mußte

erwartet werden, da die linearen Prognosefunktionen und die bilinearen Prognosefunktionen (7.33) -

(7.35) nur für h=1 verschieden sind. Der Effekt unterschiedlicher Einschritt-Prognosen verschwindet

bei der rekursiven Ermittlung von Mehrschritt-Prognosen mit wachsendem Prognosehorizont. Aus

praxisorientierter Sicht sind die Unterschiede zwischen neuronalen und linearen Mehrschritt-

Prognosen allerdings eher unbedeutend, da die Prognoseunsicherheit hier insgesamt sehr hoch ist.

Interessanter sind die Ergebnisse im Einschritt-Fall. Hier ermöglichen KNN gegenüber dem linearen

Modell deutlich verbesserte Prognosen.

7.3.3 Diskussion der Ergebnisse

Die Simulationsstudie lieferte einige interessante Ergebnisse. Zunächst ist festzustellen, daß in allen

Experimenten die Performance der einfachen iterativen oder deterministischen Prognosetechnik

gegenüber den konkurrierenden rechenintensiveren Ansätzen abfiel. Das Ausmaß der Unterschiede

variierte jedoch von Prozeß zu Prozeß. Eine wesentliche Determinante der Güte deterministischer

Prognosen ist wesensbedingt der 'Rauschanteil' im datenerzeugenden Prozeß: Bei sinkenden

Varianzen des Störprozesses wird, die Verfügbarkeit eines prognosetauglichen KNN vorausgesetzt,

ihre Zuverlässigkeit steigen. Die Experimente weisen auch die Form der nichtlinearen Prozeßdynamik

als einen wichtigen Faktor aus. Während bei Prozessen mit grenzzyklischen Verhalten keine sub-

stantiellen Verzerrungen beobachtet wurden, trat bei Prozessen mit Fixpunkt-Verhalten ein deutlicher

Prognosebias auf. Die Ergebnisse lassen vermuten, daß die iterative Technik im Falle ausgeprägt

zyklischer Zeitreihen mit moderatem Rauschanteil durchaus zufriedenstellende Prognosen liefert.

Residuenbasierte Prognosetechniken sind in der Praxis einfacher einsetzbar als rekursive KQ-

Techniken, da sie keine Spezifikation der Störverteilung des datenerzeugenden Prozesses erfordern.

Es stellt sich die Frage, welche Einbußen an Prognosegenauigkeit gegenüber rekursiven KQ-

Techniken für diese Vereinfachung in Kauf genommen werden müssen, wenn die KQ-Techniken

von der a priori Kenntnis der Störverteilung Gebrauch machen können. In der vorliegenden Studie

wurden keine nennenswerten Performanceunterschiede zwischen Bootstrap-Prognosen auf der einen

und Gauß-Hermite- bzw. Monte-Carlo-Prognosen auf der anderen Seite festgestellt, wobei letztere

die Kenntnis der Störverteilung ausnutzten. Dieses Ergebnis wurde natürlich durch den (relativ zur

Komplexität der simulierten Prozesse) großen Umfang der verfügbaren Trainingsmengen begünstigt.



Lange Zeitreihen ermöglichen eine vergleichsweise gute Anpassung von KNN an die Daten und

damit auch eine brauchbare Approximation der Störverteilung durch die Häufigkeitsverteilung der

Netzresiduen. In zukünftigen Untersuchen ist zu klären, inwieweit bei sinkender Reihenlänge relative

Performanceverluste eintreten. Ebenso bleibt offen, wie sich umgekehrt eine Misspezifikation der

Störverteilung auf die Güte der rekursiven KQ-Prognosen auswirkt.

Die direkte Prognosetechnik lieferte in den ersten vier Experimenten unzuverlässigere Prognosen im

Sinne der Vergleichskriterien als die Bootstrap- und die rekursiven KQ-Techniken. Nur im fünften

Experiment wurden vergleichbare Prognosen ermittelt. Dieses Ergebnis ist bemerkenswert, zumal

kein 'fairer' Vergleich zugrunde lag: Die Mehrschritt-MLP-Netze wurden nicht ex-ante sondern ex-

post unter Berücksichtigung ihrer Prognoseeigenschaften ausgewählt. Als ein möglicher Vorteil der

direkten Technik wurde in Kapitel 7.2 der Tatbestand genannt, daß sie nicht wie rekursive

Prognoseansätze mit dem Risiko sich in einem Rekursionsprozeß verstärkender

Approximationsfehler von Netzwerken behaftet ist. In dieser Studie kam der Vorteil, wenn

überhaupt, nur in den Simulationen des bilinearen Prozesses (P5) zum Tragen. Ansonsten wurde er

durch Nachteile der Technik überkompensiert. Die wesentliche Ursache für die vergleichsweise

schlechte Performance direkter Prognosen ist in den seriellen Abhängigkeitsbeziehungen innerhalb

der Residualreihen der h-Schritt-Netze (h >1) zu suchen. In den Simulationen der NLAR(1)-

Prozesse (P1) - (P4) wiesen die Residualreihen typischerweise ausgeprägte Autokorrelationen (bis

zum Lag h−1) auf. Autokorrelationen in den Fehlern führen zu wachsenden Varianzen der NKQ-

Gewichtsschätzer und damit auch zu einem Anstieg der Variabilität der Prognosefehler. Man

beachte, daß dieser Effekt trotz der Verfügbarkeit umfangreicher Lerndatensätze deutlich wirksam

wurde. Das Problem kann durch eine Nichtlineare-Generalisierte-Kleinste-Quadrate-(NGKQ)-

Schätzung (siehe z.B. Seber & Wild [1989, S.271ff]) der Netzgewichte gemildert werden. Die

NGKQ-Schätzung führt allerdings zu einem weiteren Anstieg des ohnehin nicht unerheblichen Auf-

wands der direkten Technik. In vielen praktischen Anwendungen dürfte es fraglich sein, ob der

Zusatzaufwand gegenüber alternativen Techniken wie z.B. der Bootstrap-Prognose durch die

erreichbare Prognosegenauigkeit gerechtfertigt werden kann.

Die NLAR(1)-Prozesse (P1) - (P4) konnten in der Studie bereits durch sehr einfach aufgebaute

(Einschritt-) MLP(1,r,1)-Netze überzeugend modelliert und prognostiziert werden. Weniger günstige

Prognoseeigenschaften besaßen die Netzwerke im nicht-Markov'schen bilinearen Fall (P5). Dieses

Ergebnis wirft die Frage nach den Grenzen der Prognosefähigkeit von KNN auf. Eine abschließende

Antwort auf die Frage kann an dieser Stelle nicht gegeben werden. Um den Aufwand der Studie in

einem vertretbaren Rahmen halten zu können, wurde hier die Strategie der Auswahl und Schätzung

möglichst sparsam parametrisierter Netze verfolgt. Es ist durchaus denkbar, daß andere

Modellierungsstrategien im Falle nicht-Markov'scher Reihen zu verbesserten Prognosen führen. So

setzt z.B. Wu [1995] hochdimensionierte MLP(8,40,40,1)-Netze zur Prognose bilinearer Zeitreihen



mit z.T. stark ausgeprägter bilinearer Charakteristik ein. Eine Überanpassung der KNN an die Daten

wurde durch Einsatz einer Stopp-Training-Prozedur vermieden. Die Berechnung von Mehrschritt-

Prognosen erfolgte iterativ. Wu berichtet von durchaus zufriedenstellenden Prognoseergebnissen. Die

Studie basiert allerdings auf nur wenigen Zeitreihen, so daß eine endgültige Beurteilung der

Prognoseeigenschaften der hochdimensionierten KNN an dieser Stelle kaum möglich ist.


185

8 SCHÄTZUNG VON PROGNOSEREGIONEN MIT

KÜNSTLICHEN NEURONALEN NETZEN

In den bisherigen Ausführungen stand die Berechnung von Punktprognosen im Vordergrund. In der

Praxis der Zeitreihenprognose wird allerdings häufig über die Punktprognose hinausgehende

Information bezüglich der bedingten Verteilungen 'zukünftiger' Variablen eines stochastischen

Prozesses benötigt, die es ermöglicht, die Unsicherheit zukünftiger Entwicklungen - und damit implizit

die Zuverlässigkeit von Punktprognosen - abschätzen zu können. Solche Information können

geeignet gewählte Prognoseregionen liefern. Sie beschreiben Teilmengen des Zustandsraumes eines

stochastischen Prozesses, in denen sich der Prozeß in Abhängigkeit von seiner vergangenen

Entwicklung an zukünftigen Zeitpunkten mit einer vorgegebenen Wahrscheinlichkeit realisieren wird.

Die Berechnung von Prognoseregionen setzt die Lösung zweier Teilprobleme voraus. Zunächst gilt es

zu klären, wie bei Kenntnis der Prognoseverteilungen eines stochastischen Prozesses

Prognoseregionen so konstruiert werden können, daß sie möglichst umfassend die Unsicherheit

zukünftiger Entwicklungen beschreiben. Anschließend ist zu untersuchen, wie diese Prognose-

regionen auf der Basis beobachteter Zeitreihenwerte geschätzt werden können. In der Vergangenheit

wurden die beiden Problembereiche zumeist unter der Prämisse untersucht, daß als

datenerzeugender stochastischer Prozeß ein stationärer linearer Prozeß oder, noch restriktiver, ein

stationärer Gaußprozeß vorliegt. Eine umfassende Diskussion der unter diesen Prämissen erzielten

Ergebnisse ist z.B. bei Chatfield [1993] nachlesen. Die Konstruktion von Prognoseregionen für

stationäre nichtlineare Prozesse wird erst in jüngster Zeit in der Fachliteratur erörtert (siehe z.B.

Hyndman [1995], Yao & Tong [1995] und Yao [1996]). Die bisher vorliegenden Ansätze werden

zunächst vorgestellt. Anschließend wird der Einsatz Künstlicher Neuronaler Netze zur Schätzung von

Prognoseregionen diskutiert.

8.1 Konstruktion von Prognoseregionen

Als datenerzeugender Prozeß wird wieder ein streng stationärer NLAR(p)-Prozeß der Form

(8.1) ( )Yt t t= +−µ εX 1


186 SCHÄTZUNG VON PROGNOSEREGIONEN MIT KÜNSTLICHEN NEURONALEN NETZEN

mit X t t t pY Y= ′− +( ),..., 1 , ( ) [ ]µ x X x= =−E Yt t 1 für beliebige x ∈ IR p und ε σεt iid~ ,( )0 2

angenommen. Es sei angemerkt, daß die folgenden Definitionen von Prognoseregionen problemlos

auf nicht-autoregressive Prozesse übertragen werden können.

Eine Prognoseregion im Prognoseursprung nt = wird im folgenden als eine Menge reeller Zahlen

R Rh h n, ,α α≡ ( )X aufgefaßt, die für festes ( )α ∈ 01, , h IN∈ und xn IR p∈ die Gleichung

(8.2) ( )P Y Rn h h n n n+ ∈ = =,α α( ) x X x

erfüllt. Rh , α soll als eine h-Schritt-Prognoseregion mit der Überdeckungswahrscheinlichkeit αbezeichnet werden. Ist Rh , α ein Intervall, dann wird entsprechend von einem Prognoseintervall

gesprochen. Da eine Prognoseregion der Beurteilung der Prognoseunsicherheit dient, sollte Rh , α so

gewählt werden, daß Rh , α die relevanten Charakteristika der bedingten Verteilung von Yn h+gegeben X xn n= widerspiegelt.

Im Zusammenhang mit linearen stochastischen Prozessen werden üblicherweise Bedingte-Quantil-

Intervalle (BQI) der Form

(8.3) [ ]ξ ξα αh n h n, . , .,0 5 2 0 5 2− +( ) ( )X X

als h-Schritt-Prognoseregionen genutzt. Hierbei bezeichnet ξh r n, ( )x das r-Quantil der bedingten

Verteilung von Yn h+ gegeben X xn n= mit

( )P Y rn h h r n n n+ ≤ = =ξ , ( ) x X x , ( )r ∈ 0 1 , .

Die Breite eines realisierten Prognoseintervalls spiegelt die Streuung der Prognoseverteilung wider

und informiert so über die Prognoseunsicherheit. Die analytische Bestimmung eines BQI kann im

Einzelfall sehr aufwendig werden. In der Praxis werden daher häufig Prognoseintervalle berechnet,

die einen Gaußprozeß als datenerzeugenden Prozeß voraussetzen. Die Herleitung eines Intervalls

gestaltet sich hier einfach (siehe z.B. Box & Jenkins [1970, S.126ff]).

Liegt ein nichtlinearer datenerzeugender stochastischer Prozeß vor, können BQI nur eingeschränkt

über die Unsicherheit der zukünftigen Prozeßentwicklung informieren. In Kapitel 7.3.1.1 wurden

einige bemerkenswerte Phänomene der nichtlinearen Prediktion diskutiert, die im Zusammenhang mit

linearen Prozessen unbekannt sind:

(i) Die Prognoseunsicherheit, gemessen durch die Varianz der Prognoseverteilung, hängt

wesentlich vom Zustand des Prozesses im Prognoseursprung nt = ab.

(ii) Die Prognoseunsicherheit wächst mit dem Prognosehorizont h. Das Wachstum vollzieht sich

jedoch nicht notwendig monoton.


SCHÄTZUNG VON PROGNOSEREGIONEN MIT KÜNSTLICHEN NEURONALEN NETZEN 187

(iii) Es können asymmetrische und multimodale Prognoseverteilungen auftreten. Dies gilt selbst

dann, wenn die Störungen εt eines nichtlinearen Prozesses unimodal und symmetrisch

verteilt sind.

Die Breite eines BQI (8.3) variiert mit der Streuung der zugrundeliegenden Prognoseverteilung und

zeigt somit die prognosehorizont- und zustandsabhängige Variation der Prognoseunsicherheit auf.

Der Ansatz ist geeignet, über die beiden erstgenannten Phänomene zu informieren. Liegt jedoch eine

deutlich schiefe oder multimodale Prognoseverteilung vor, ist der Informationsgehalt eines BQI

ungenügend. Dies ist ein gravierender Schwachpunkt des Ansatzes. Speziell die Mehrgipfligkeit einer

Prognoseverteilung ist ein Phänomen, das mit höchster Unsicherheit verbunden ist. Nichtlineare KQ-

Prediktoren können in diesem Fall irreführende Punktprognosen liefern.

Um die mögliche Schiefe und Multimodalität von Prognoseverteilungen besser erfassen zu können,

haben Hyndman [1995] und Yao [1996] alternative Konstruktionsansätze für Prognoseregionen

vorgeschlagen. Die Regionen werden hier als Maximum-Bedingte-Dichte-Region (MBDR) bzw. als

Maximum-Bedingte-Dichte-Intervall (MBDI) bezeichnet. Die h-Schritt-MBDR Rh ,α mit

Überdeckungswahrscheinlichkeit α ist für festes ( )α ∈ 0 1, , h IN∈ und xn IR p∈ definiert als die

Menge

(8.4) ( | ) ( ) y y f y dh n h n< ∞ ∧ ≥x x,α ,

wobei gilt

d d f y dyh n h n

y f y dh n

, maxα α( ) ( | )

( | )

x x

x

= > ≥

≥∫0 .

Wie an früherer Stelle kennzeichnet fh n( | ) ⋅ x die Dichte der bedingten Verteilung von Yn h+gegeben X xn n= . Das h-Schritt-MBDI Rh , α mit Überdeckungswahrscheinlichkeit α ist für festes

( )α ∈ 0 1, , h IN∈ und xn IR p∈ gegeben durch das Intervall

(8.5) [ ]m b m bh n h n h n h n, , , ,α α α α( ) ( ) , ( ) ( )x x x x− + ,

wobei bh n,α ( )x das Minimum und mh n,α ( )x die Minimumstelle der Funktion

b y b f u duh n h n

y b

y b

, minα α( ; ) ( | ) x x= > ≥

−

+

∫0 , y ≤ ∞ ,

ist.

Das MBDI (8.5) besitzt unter allen Prognoseintervallen mit identischer Überdeckungswahrschein-

lichkeit die geringste Breite. Die MBDR (8.4) besitzt unter allen Prognoseregionen mit identischer



Überdeckungswahrscheinlichkeit das kleinste Lebesgue-Maß (vgl. Yao [1996]). Ist die bedingte

Dichte fh n( | ) ⋅ x multimodal, kann (in Abhängigkeit von α) eine MBDR aus mehreren unver-

bundenen Intervallen bestehen und so die Multimodalität der Prognoseverteilung widerspiegeln. Ist

fh n( | ) ⋅ x unimodal, dann geht eine MBDR in ein MBDI über. Die Intervallbreite kann bei schie-

fen Verteilungen substanziell kleiner sein als die Intervallbreite eines BQI (8.3). Ist fh n( | ) ⋅ x uni-

modal und symmetrisch, dann fallen MBDR, MBDI und BQI zusammen. Die Größe mh n,α ( )x in

(8.5) ist jetzt mit der Maximumstelle (Modus) von fh n( | ) ⋅ x identisch. Yao bezeichnet das MBDI

(8.3) deshalb auch als ein 'shortest conditional modal interval'.

Die unterschiedlichen Konzepte sollen anhand eines Beispiels verdeutlicht werden. Betrachtet wird

der SETAR (2,1,1)-Prozeß (P3) aus Kapitel 7.3.1.1 :

(8.6) YY Y

Y Yt

t t t

t t t

=− ⋅ + ≤

− − ⋅ + >

− −

− −

1 5 0 9 0

0 4 0 6 0

1 1

1 1

. .

. .

ε

ε

falls

falls , ( )εt ind~ ,0 1 .

Der Prozeß weist hochgradig nichtlineare Eigenschaften auf. Nimmt der Prozeß zum Zeitpunkt nt =

einen Wert yn nahe dem Prozeßmittel an, treten bereits für kleine h bimodale bedingte Dichten

f yh n( | ) ⋅ auf. Die Varianzen $,

σn h2 der bedingten Verteilungen hängen maßgeblich vom Zustand

des Prozesses im Prognoseursprung ab. Letzteres verdeutlicht die Abbildung 8.1. Sie zeigt für

verschiedene Prognoseschritte h die bedingten Standardabweichungen $,

σn h

in Abhängigkeit von

[ ]yn

∈ − +3 5 4 5. , . . Für festes h>1 ist die durch $,

σn h

gemessene Prognoseunsicherheit im ersten

Schwellenwertregime ( ]−∞,0 deutlich geringer als im zweiten Regime ( )0,∞ , wobei $,

σn h

an der

Stelle yn = 0 des Regimewechsels sprunghaft ansteigt. Für festes yn wachsen die

Standardabweichungen nur für Werte yn in der Umgebung des Regimewechsels monoton mit dem

Prognosehorizont h.

Die Tabelle 8.1 weist für yn = 0.61, h = 1,2,3,4 und α = 0.5, 0.75, 0.9 Prognoseregionen aus. Für

h = 1 ist die bedingte Dichte f yn1( | ) ⋅ mit der Dichte der N yn( )$ ,,12σε -Verteilung identisch,

wobei $ .,y n 1 0 766= − die 1-Schritt-KQ-Prognose und σε2 1= die Varianz der Störungen ist. BQI,

MBDI und MBDR fallen zusammen. Die Intervalle sind mit Hilfe einer Tabelle der

Standardnormalverteilung ermittelbar. Für h > 1 ist eine analytische Bestimmung von

Prognoseregionen nicht mehr möglich. Sie wurden hier in zwei Schritten auf numerischem Wege

berechnet. Zunächst wurde die Rekursionsbeziehung (7.13)

f y y f y y f y y dyh n h n h n h n n n n( ) ( ) ( )-

+ − + + + +∞

∞

= ⋅∫ 1 1 1 1 1 (h = 2,3,4,...)



-4 -3 -2 -1 0 1 2 3 4 5

1

1.5

2

2.5

3

h=2

h=4

h=3

h=5

h=3

h=2

h=5

h=4

h=1

yn

σn,h

^

Abb. 8.1 : Standardabweichungen $,

σn h

der bedingten Verteilungen von Yn h+ gegeben Y yn n= des

SETAR-Prozesses (8.6) für h=1,...,5 und −3.5 ≤ yn ≤ 4.5

-8 -6 -4 -2 0 2 4 6 8 10

0

0.05

0.1

0.15

0.2

0.25

f 4

( | ). .

y

MBDR

BQI

MBDI

d4,0.75(0.61)

Abb. 8.2: Bedingte Dichtefunktion f yn4 ( | ) ⋅ des SETAR-Prozesses (8.6) an der Stelle yn=0.61

und 4-Schritt-Prognoseregionen mit Überdeckungswahrscheinlichkeit α = 0.75



ausgenutzt. Die jeweilige h-Schritt-Prognosedichte wurde an 212 äquidistanten Punkten im Intervall

[−10 , +12] mittels Gauß-Hermite-Quadratur (S = 64 Stützstellen) berechnet. Die Dichten wurden

bereits in Abb. 7.10 auf S.153 graphisch dargestellt. In einem zweiten Schritt folgte die Bestimmung

der Prognoseregionen durch Anwendung der Simpson-Regel (siehe z.B. Press et al. [1988,

S.102ff]). Es sei angemerkt, daß insbesondere die numerische Bestimmung eines MBDI gemäß (8.5)

nicht unproblematisch ist. Da die Prognosedichten nur an diskreten Stützstellen bekannt sind, kann

die Minimierungsaufgabe in (8.5) in aller Regel nicht eindeutig gelöst werden. Um Eindeutigkeit zu

erzwingen, wurden daher die Prognosedichten zwischen den Stützstellen durch lineare Interpolation

angenähert.

Die markantesten Unterschiede weisen die ermittelten Regionen für h=4 auf. Die Abb. 8.2 zeigt zur

Illustration die bedingte Dichte f yn4

( | ) ⋅ und Prognoseregionen mit der Überdeckungswahr-

scheinlichkeit α = 0.75. Die Prognosedichte ist asymmetrisch und bimodal. Beide Charakteristika

werden durch die MBDR aufgezeigt. Sie zerfällt in zwei Intervalle unterschiedlicher Breite.

Einzelne Intervalle können die Bimodalität der Verteilung nicht aufzeigen. Das MBDI berücksichtigt

aber ihre Schiefe. Es lokalisiert ein Intervall, dessen zugehörige Wahrscheinlichkeitsmasse maximal

ist. Aufgrund der Linksschiefe der Verteilung ist es gegenüber dem BQI nach rechts verschoben.

Interessant ist ferner, daß die Breite des MBDI lediglich 92% der Breite des Quantilintervalls be-

trägt. Die Verwendung des MBDR-Ansatzes führt zu einer weiteren Reduktion der Prognoseregion.

Prognose- Typ Überdeckungswahrscheinlichkeitschritt α = 0.5 α = 0.75 α = 0.9

h = 1 alle [−1.441 , −0.092] [−1.916 , 0.384] [−2.411 , 0.879]

h = 2 BQI

MBDI

MBDR

[0.686 , 3.076]

[1.324 , 3.524]

(wie MBDI)

[−0.598 , 3.744]

[ 0.046 , 4.220]

(wie MBDI)

[−1.535 , 4.426]

[−1. 417 , 4.524]

(wie MBDI)

h = 3 BQI

MBDI

MBDR

[−2.503 , −0.151]

[−2.921 , −0.747]

(wie MBDI)

[−3.160 , 1.876]

[−3.905 , 0.339]

(wie MBDI)

[−3.833 , 3.226]

[−4.116 , 2.864]

[−4.185 , 0.907] ∪[1.345 , 3.182]

h = 4 BQI

MBDI

MBDR

[0.788 , 3.954]

[1.903 , 4.585]

(wie MBDI)

[−1.497 , 4.745]

[0.156 , 5.879]

[−2.068 , −1.164] ∪[0.960 , 5.526]

[−2.689 , 5.536]

[−2.526 , 5.678]

[−2.815 , −0.142] ∪[0.396 , 5.839]

Tabelle 8.1: h-Schritt-Prognoseregionen mit Überdeckungswahrscheinlichkeit α für den SETAR-Prozeß (8.6) an der Stelle yn = 0.61



-4 -3 -2 -1 0 1 2 3 4 5

-6

-3

0

3

6

9

yn

(a)

yn+3

-4 -3 -2 -1 0 1 2 3 4 5

-6

-3

0

3

6

9

yn

(b)

yn+3

-4 -3 -2 -1 0 1 2 3 4 5

-6

-3

0

3

6

9

yn

(c)

yn+3

Abb. 8.3: 3-Schritt-Prognoseregionen für den SETAR-Prozeß (8.6) mit (a) α = 0.5, (b) α = 0.75

und (c) α=0.9 [Grenzen eines BQI - - - , Grenzen eines MBDI ____ , Grenzen einer

MBDR ....., falls nicht mit MBDI identisch]



-4 -3 -2 -1 0 1 2 3 4 5

-6

-3

0

3

6

9

yn

(a)

yn+4

-4 -3 -2 -1 0 1 2 3 4 5

-6

-3

0

3

6

9(b)

yn+4

yn

-4 -3 -2 -1 0 1 2 3 4 5

-6

-3

0

3

6

9(c)

yn+4

yn

Abb. 8.4: 4-Schritt-Prognoseregionen für den SETAR-Prozeß (8.6) mit (a) α = 0.5, (b) α = 0.75

und (c) α=0.9 [Grenzen eines BQI - - - , Grenzen eines MBDI ____ , Grenzen einer

MBDR ....., falls nicht mit MBDI identisch]



Für α = 0.9 sind die Ergebnisse in analoger Weise zu interpretieren. Wählt man eine Über-

deckungswahrscheinlichkeit von α = 0.5, dann sind MBDR und MBDI identisch. Aufgrund der

Schiefe der Verteilung zeigt die MBDR jetzt die Bimodalität nicht mehr auf.

Umfassendere Berechnungsergebnisse sind in den Abbildungen 8.3 und 8.4 graphisch dargestellt. Sie

zeigen 3-Schritt- und 4-Schritt-Prognoseregionen (α = 0.5, 0.75, 0.9), wobei der Prozeß zum Zeit-

punkt t=n Werte im Intervall [ ]− +3 5 4 5. , . annimmt. Die Prognosedichten sind für yn ≤ −2 und yn ≥3 unimodal und näherungsweise symmetrisch. Die verschiedenen Prognoseregionen weichen nur

geringfügig voneinander ab. Ihre Intervallbreiten variieren mit dem Zustand des Prozesses im

Prognoseursprung. In der Umgebung von yn = −3.5 sind die 4-Schritt-Intervalle kürzer als die

korrespondierenden 3-Schritt-Intervalle. Dies weist auf das nicht-monotone Anwachsen der Pro-

gnoseunsicherheit bei Mehrschritt-Prognosen hin. Für Werte yn nahe null treten asymmetrische und

bimodale Dichten auf. Die Prognoseregionen dehnen sich stark aus und fallen z.T. deutlich ausein-

ander. Gegenüber den konkurrierenden Ansätzen erweisen sich hier die MDBR als informativer. Bei

einer geeigneten Wahl von α setzen sich die MBDR aus zwei unverbundenen Intervallen zusammen

und reflektieren so die Bimodalität der Prognoseverteilungen. Zu dem können die Regionen substan-

ziell kleiner sein als BQI und MBDI.

8.2 Schätzung von Prognoseregionen

In der Praxis sind die Prognoseregionen und die zugrundeliegenden Prognoseverteilungen eines sto-

chastischen Prozesses a priori unbekannt und müssen auf der Basis beobachteter Zeitreihenwerte

geschätzt werden. Yao [1996] schlägt zwei nichtparametrische Schätzer für Maximum-Bedingte-

Dichte-Intervalle bzw. Maximum-Bedingte-Dichte-Regionen vor, die auf einem Kernschätzer für

bedingte Verteilungsfunktionen basieren. Es ist naheliegend, auch Künstliche Neuronale Netze zur

nichtparametrischen Schätzung einzusetzen. Hierbei sind verschiedene Vorgehensweisen denkbar.

Zum einen kann durch das Training eines KNN die direkte Approximation einer Prognoseregion

oder einer Prognosedichte angestrebt werden. Zum anderen sind indirekte, rekursive Vorgehens-

weisen möglich, die auf Simulationstechniken zurückgreifen. Die indirekten Vorgehensweisen sind

deutlich einfacher implementierbar und mit einem geringeren Rechenaufwand verbunden als direkte

Ansätze. Sie sollen daher hier im Vordergrund stehen.

Es sei yt ( )t n=1,..., eine beobachtete Realisation des NLAR(p)-Prozesses (8.1). Sind die bedingte

Erwartungswertfunktion ( )µ ⋅ und die Dichtefunktion ( )g ⋅ der Störungen εt bekannt, dann können

h-Schritt-Prognoseregionen mittels numerischer Integration berechnet werden. Eine mögliche

Implementierung wurde bereits für den SETAR(2,1,1)-Prozeß (8.6) skizziert. Ist die Funktion ( )µ ⋅



unbekannt, erscheint es naheliegend, ein geeignet gewähltes KNN auf Basis der beobachteten

Zeitreihendaten zu trainieren und ( )µ ⋅ durch die Ausgabefunktion des Netzes zu approximieren.

Prognoseregionen können hierauf aufbauend mittels numerischer Integration geschätzt werden.

Hyndman [1995] schlägt für nichtlineare parametrische Zeitreihenmodelle einen alternativen Ansatz

vor, der die für großes h und großes p extrem rechenzeitaufwendige Berechnung von

Prognosedichten mittels numerischer Quadratur vermeidet. Der Ansatz ist auf den hier inter-

essierenden Kontext übertragbar. Mit den letzten beobachteten Zeitreihendaten xn =( ,..., )y y yn n n p, − − + ′1 1 als fest vorgegebenen Startwerten werden durch Monte-Carlo-Simulation

gemäß (7.43) S Pseudorealisierungen (yn h i+ , (i = 1,...,S) der Zufallsvariablen Yn+h erzeugt. Als

Simulationsmodell dient die Netzausgabefunktion, die Störungen εt werden durch Pseudozufalls-

zahlen ersetzt. Die Werte (yn h i+ , (i = 1,...,S) werden anschließend als eine Stichprobe zur

nichtparametrischen Schätzung der Dichte fh n( | ) ⋅ x der bedingten Verteilung von Yn h+ gegeben

X xn n= genutzt. Der Einsatz numerischer Integrationsverfahren ist ausschließlich zur Berechnung

von Prognoseregionen erforderlich. Die Monte-Carlo-Simulation setzt die Kenntnis der

Störverteilung in (8.1) voraus. Ist die Verteilung der Störungen unbekannt, kann eine Schätzung

durch eine residuenbasierte Simulation vermieden werden. An Stelle der Pseudozufallszahlen werden

hier Residuen verwendet, die durch zufälliges Ziehen mit Zurücklegen der Menge der zentrierten

Residuen des KNN entnommen wurden. Diese Ansätze sollen im folgenden als naive Monte-Carlo-

bzw. als naive Bootstrap-Schätzung von Prognoseregionen bezeichnet werden.

Die beiden Schätzansätze sind stark durch pragmatische Überlegungen geprägt. Als Vorzüge sind

die einfache Implementierbarkeit und ein handhabbarer Rechenaufwand zu nennen. Nachteilig ist,

daß die Schätzung Effekte des Netzwerktrainings nicht berücksichtigt. Sie ist in diesem Sinne 'naiv'.

Ihr liegt implizit die Annahme zugrunde, daß das verwendete KNN die bedingte

Erwartungswertfunktion des datenerzeugenden Prozesses exakt approximiert. Die

Prognoseunsicherheit resultiert dann ausschließlich aus dem stochastischen Charakter der Störungen

εt. Eine adäquate Spezifikation der Netzwerkarchitektur ebenso voraussetzend wie die

Verwendung konsistenter Schätzer für die Netzgewichte, kann diese Annahme allerdings nur

gerechtfertigt werden, wenn für das Netzwerktraining hinreichend lange Zeitreihen zur Verfügung

stehen. Andernfalls können Effekte der Gewichtsschätzung invalide Intervall- bzw. Regionprognosen

bewirken. Für parametrische lineare Zeitreihenmodelle ist wohl bekannt, daß die

Nichtberücksichtigung von Schätzeffekten bei kurzen Zeitreihen tendenziell zu ungerechtfertigt

schmalen Prognoseintervallen führt (vgl. Chatfield [1993]).

Für die Klasse der linearen autoregressiven Prozesse konnten verfeinerte Bootstrap-Techniken

entwickelt werden, die Parameterunsicherheit explizit als zusätzliche Quelle der Prognoseunsicherheit

berücksichtigen und verbesserte BQI-Prognosen für kurze Zeitreihen ermöglichen (siehe z.B.



Thombs & Schucany [1990], Kabaila [1993] und Breidt, Davis & Dunsmuir [1995]). Die Verfahren

nutzen die sogenannte Rückwärts-Darstellung der Prozesse aus. Der Begriff beschreibt das

Phänomen, daß die Umkehrung der zeitlichen Ordnung eines AR(p)-Prozesses unter Erhalt seiner

Korrelationsstruktur möglich ist. Nichtlineare autoregressive Prozesse besitzen keine vergleichbaren

Eigenschaften. Die Berücksichtigung von Schätzeffekten erweist sich hier als ein komplexes Problem,

für das bisher keine befriedigende Lösungen gefunden werden konnten.

Zur Demonstration des potentiellen Nutzens der naiven Bootstrap-Schätzung bei Vorliegen langer

Zeitreihen soll das numerische Beispiel aus dem Vorkapitel weitergeführt werden. Die in den

Abbildungen 8.3 und 8.4 dargestellten 3-Schritt- und 4-Schritt-Prognoseregionen des

SETAR(2,1,1)-Prozesses (8.6) wurden auf der Basis von n=500 simulierten Zeitreihenwerten yt (t

= 1,...,n) geschätzt.

Hierzu erfolgte mit den Methoden aus Kapitel 7.3.1.3 eine nichtlineare KQ-Anpassung eines

einfachen MLP(1,2,1)-Netzes an die Daten. Die Anpassung lieferte als Ergebnis das Netzwerk

(8.7) ( )( )

Y Y Y

Y

t t t

t t

= − ⋅ + ⋅ − − ⋅

− ⋅ − + ⋅ +− −

−

1438 0 603 0 641 2 552 0 702

1214 32 690 448 312

1 1

1

. . . tanh . .

. tanh . . ε

mit einer geschätzten Residualvarianz von $ .σε2 1027= . Das Netz generiert einen global stabilen 2er

Grenzzyklus mit den periodischen Punkten z1 2 8644= − . , z2 4 0608= . und ermöglicht eine

brauchbare Approximation des grenzzyklischen Verhaltens von (8.6).

Die Schätzung der Prognosedichten f yh n( | ) ⋅ mit h = 3, 4 und [ ]yn

∈ − +3 5 4 5. , . basierte für

festes h und yn auf jeweils S = 50000 Pseudorealisierungen (y n h i+ , (i = 1,...,S) der Zufallsvariablen

Yn+h gegeben Y yn n

= , die durch residuenbasierte Simulation erzeugt wurden. Anschließend folgte

eine Kerndichteschätzung

(8.8) $ ,f y yS b

Ky y

bh n

n h i

i

S

( | ) = 1

1⋅

−

+

=∑

(

mit Gaußkern ( ) ( ) ( )K u u= ⋅ −−2 20 5 2π . exp (siehe z.B. Silverman [1986] oder Härdle & Linton

[1994]). Die Dichten wurden über geeignet gewählten Intervallen an 212 äquidistanten Stützstellen

ermittelt. Die Bandbreite b des Kernschätzers wurde mit b S= ⋅ ⋅ −1 06 1 5. $σ festgelegt, wobei $σ die

Standardabweichung der jeweiligen Pseudostichprobe ist. Die abschließende Bestimmung der

Prognoseregionen erfolgte durch numerische Quadratur (Simpson-Regel).

Das in Kapitel 7.3 beschriebene Simulationsexperiment hat gezeigt, daß MLP-Netzwerke in der

Lage sind, die datengenerierenden Mechanismen nichtlinearer autoregressiver Prozesse gut zu

approximieren. Für den SETAR(2,1,1)-Prozeß (P3) bzw. (8.6) wiesen die neuronalen Mehrschritt-



KQ-Punktprognosen nur geringe Effizienzverluste gegenüber den MSE-optimalen Punktprognosen

auf. Es überrascht somit nicht, daß das MLP-Netz (8.7) auch hier überwiegend brauchbare

Intervall- bzw. Regionprognosen lieferte. Die geschätzten Prognoseregionen sind in den Abbildungen

8.5 und 8.6 graphisch dargestellt.

Für h = 3, |yn | > 1 und h=4, yn < −1, yn > 2 weichen die Schätzungen nur geringfügig von den

tatsächlichen Prognoseregionen ab. Größere Schätzfehler treten für Werte yn in der Umgebung des

Schwellenwertes r = 0 des SETAR-Prozesses auf. Einige ausgewählte Ergebnisse weist die Tabelle

8.2 in numerischer Form aus. Speziell sind für h=4, −0.5 ≤ yn < 0 und α = 0.9 die geschätzten

MBDR einzelne Intervalle, während die tatsächlichen Regionen aus zwei unverbundenen Intervallen

bestehen. Dies läßt darauf schließen, daß die Bimodalität der Prognosedichten unterschätzt wurde.

Die Fehler können maßgeblich auf schlechtere Approximationseigenschaften des MLP(1,2,1) in

dieser Region des Zustandsraumes zurückgeführt werden. Die Schätzgüte wird aber auch durch die

Kerndichteschätzung der Prognosedichten, insbesondere durch die Wahl der Bandbreite b der

Kernschätzers, beeinflußt. Zur Begrenzung des Rechenaufwandes erfolgte die Bandbreitenwahl hier

mittels einer einfachen Faustregel, die sich bei Vorliegen großer Stichproben aus unimodalen

Verteilungen (speziell Normalverteilungen) rechtfertigen läßt (siehe Silverman [1986]). Im Falle

multimodaler Dichten besteht allerdings die Gefahr der 'Überglättung' von Gipfeln und Tälern.

Obwohl diese Gefahr aufgrund des großen Umfanges S der Pseudostichproben eingeschränkt ist,

eröffnet der Einsatz verfeinerter Techniken der Bandbreitenwahl, z.B. Kreuz-Validierung, durchaus

Raum zur Erzielung verbesserter Schätzergebnisse.

Neben der Schätzung von Prognoseregionen via Simulationsmethoden sind weitere Vorgehensweisen

möglich. White [1992b] schlägt beispielsweise die direkte neuronale Raster-Schätzung (vgl.

Abschnitt 5.6.2) bedingter r-Quantile ξh r n, ( )x eines Prozesses mittels einfacher MLP(p,r,1)-

Netze der Form

f xj j i j ii

p

j

r

( )x w, = + ⋅ + ⋅

==∑∑β β φ γ γ0 0

11

mit x = ′( )x x p1,..., , w = ′( ,..., )β β γ γ0 01r pr, ,... , und der Squashing-Funktion φ vor. Er be-

weist, daß unter Gültigkeit allgemeiner Regularitätsbedingungen für stationäre mischende oder statio-

näre ergodische Prozesse Yt t IZ∈ eine konsistente Schätzung bedingter r-Quantile möglich ist. Un-

glücklicherweise können für das Netzwerktraining keine Standardmethoden verwendet werden. Die

Adjustierung der Netzgewichte erfordert die Minimierung der komplizierten, weil nicht differenzier-

baren Zielfunktion



-4 -3 -2 -1 0 1 2 3 4 5

-6

-3

0

3

6

9(a)

yn+3

yn

-4 -3 -2 -1 0 1 2 3 4 5

-6

-3

0

3

6

9(b)

yn+3

yn

-4 -3 -2 -1 0 1 2 3 4 5

-6

-3

0

3

6

9(c)

yn+3

yn

Abb. 8.5: Geschätzte 3-Schritt-Prognoseregionen für den SETAR-Prozeß (8.6) mit (a) α = 0.5,

(b) α = 0.75 und (c) α=0.9 [Grenzen eines BQI - - - , Grenzen eines MBDI ____ ,

Grenzen einer MBDR ....., falls nicht mit MBDI identisch]



-4 -3 -2 -1 0 1 2 3 4 5

-6

-3

0

3

6

9(a)

yn+4

yn

-4 -3 -2 -1 0 1 2 3 4 5

-6

-3

0

3

6

9(b)

yn+4

yn

-4 -3 -2 -1 0 1 2 3 4 5

-6

-3

0

3

6

9(c)

yn+4

yn

Abb. 8.6: Geschätzte 4-Schritt-Prognoseregionen für den SETAR-Prozeß (8.6) mit (a) α = 0.5,

(b) α = 0.75 und (c) α=0.9 [Grenzen eines BQI - - - , Grenzen eines MBDI ____ ,

Grenzen einer MBDR ....., falls nicht mit MBDI identisch]



Prognose-schritt

yn Typ Prognoseregionen Schätzungen

h = 3 -3.5 BQI

MBDI

MBDR

[1.977 , 6.776]

[1.983 , 6.782]

(wie MBDI)

[2.065 , 6.962]

[2.082 , 6.970]

(wie MBDI)

-0.5 BQI

MBDI

MBDR

[-0.944 , 5.328]

[-0.304 , 5.773]

(wie MBDI)

[-0.097 , 5.656]

[0.648 , 6.079]

(wie MBDI)

0.0 BQIMBDIMBDR

[-1.648 , 5.081][-1.352 , 5.324]

(wie MBDI)

[-0.853 , 5.485][0.129 , 6.143]

[-0.820 , -0.710]∪[0.234, 6.115]0.5 BQI

MBDIMBDR

[-3.774 , 3.333][-4.021 , 3.016]

[-4.087 , 0.856]∪[1.182 , 3.236]

[-4.004 , 3.330][-4.259 , 3.001]

[-4.488 , 0.643]∪[1.804 , 3.617]1 BQI

MBDIMBDR

[-3.967 , 2.836][-4.408 , 2.220]

[-4.456 , 0.874]∪[1.763 , 2.935]

[-4.164 , 2.909][-4.473 , 2.127]

[-4.741 , 0.600]∪[2.107 , 3.202]4.5 BQI

MBDIMBDR

[-5.115 , -0.846][-5.117 , -0.855]

(wie MBDI)

[-5.263 , -0.864][-5.295 , -0.915]

(wie MBDI)h = 4 -3.5 BQI

MBDIMBDR

[-5.219 , -0.826][-5.239, -0.847]

(wie MBDI)

[-5.396 , -0.876][-5.412 , -0.907]

(wie MBDI)-0.5 BQI

MBDIMBDR

[-4.335 , 2.374][-5.086 , 0.929]

[-5.056 , 0.816]∪[2.354 , 2.449]

[-4.601 , 1.334][-5.058 , 0.107]

(wie MBDI)0.0 BQI

MBDIMBDR

[-4.208 , 3.220][-4.621 , 2.648]

[-4.732 , 0.665]∪[1.726 , 3.392]

[-4.505 , 2.448][-5.280 , 0.581]

[-5.247 , 0.523]∪[2.656 , 2.702]0.5 BQI

MBDIMBDR

[-2.763 , 5.498][-2.615 , 5.626]

[-2.886 , -0.023]∪[0.466 , 5.769]

[-2.724 , 5.783][-2.525 , 5.952]

[-3.022 , -0.423]∪[0.707 , 6.250]1 BQI

MBDIMBDR

[-2.325 , 5.677][-2.010 , 5.936]

[-2.423 , -0.298]∪[0.362 , 6.082]

[-2.316 , 5.905][-1.880 , 6.259]

[-2.681 , -0.765]∪[0.697 , 6.444]4.5 BQI

MBDIMBDR

[1.583 , 6.710][1.646 , 6.746](wie MBDI)

[1.716 , 6.916][1.796 , 6.973](wie MBDI)

Tabelle 8.2: Ausgewählte 3-Schritt- und 4-Schritt-Prognoseregionen mit Überdeckungswahrschein-

lichkeit α=0.9 für den SETAR- Prozeß (8.6) und ihre Schätzungen



( ) [ ]

( ) [ ]

Z n Y f r I Y f

r I Y f

t tt p

n

t t

t t

w X w X w

X w

= − ⋅ ⋅ ≥

+ − ⋅ <

−−

= +−

−

∑11

11

11

( , ) ( , )

( , )

(

)

bezüglich w, wobei [ ]I ⋅ eine Indikatorfunktion für die angegebenen Ereignisse ist. White [1992b]

schlägt eine Heuristik zur approximativen Minimierung der Zielfunktion vor.

Unabhängig von der Schätzproblematik ist der Nutzen des Ansatzes begrenzt. Die Ausführungen in

Abschnitt 8.1 haben deutlich gemacht, daß Bedingte-Quantil-Intervalle wichtige Charakteristika von

Prognosedichten nichtlinearer Prozesse nicht aufzeigen können. Interessante Perspektiven eröffnen in

diesem Zusammenhang Ansätze, die eine nichtparametrische Schätzung von Prognosedichten durch

KNN zum Ziel haben. Sie ermöglichen auch die Schätzung von Maximum-Bedingte-Dichte-

Intervallen und Maximum-Bedingte-Dichte-Regionen. Geeignete Netzwerkarchitekturen diskutieren

beispielsweise Neuneier et al. [1994] oder Weigend & Srivastava [1995]. Ein wesentlicher Nachteil

dieser Ansätze ist allerdings der mit ihrem praktischen Einsatz verbundene hohe Rechenaufwand. Für

jeden Prognoseschritt h wird das Training eines spezifischen Netzwerkes notwendig. Ferner sind die

Methoden 'datenhungrig' und setzen das Vorliegen sehr langer Zeitreihen voraus. Weigend &

Srivastava [1995] demonstrieren ihren Ansatz beispielsweise anhand einer physikalischen Zeitreihe

mit 12000 Beobachtungen und einer simulierten Zeitreihe mit 10000 Werten im jeweiligen An-

passungsbereich. Da bisher nur wenige Anwendungsstudien vorliegen, ist eine vergleichende

Bewertung direkter Schätzansätze und naiver Monte-Carlo- bzw. naiver Bootstrap-Schätzungen

kaum möglich.


201

9 EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN

SONNENFLECKEN

Die Anwendungen Künstlicher Neuronaler Netze zu prognostischen Zwecken basierten in den

Kapiteln 7 und 8 auf synthetischem Datenmaterial. Die Prognose simulierter Zeitreihen ist eine

nützliche Methode zur Untersuchung alternativer Prognosetechniken. In einer 'künstlich geschaffenen

Welt' herrscht vollständige Kenntnis über die datengenerierenden stochastischen Mechanismen. Sie

ermöglicht daher die objektive Bewertung von Prognoseergebnissen. Allerdings besitzt eine solche

künstliche Welt in aller Regel nicht die Komplexität realer Prognosesituationen. Die

Simulationsergebnisse sollen deshalb an dieser Stelle durch Prognoseergebnisse einer empirischen

Anwendung Künstlicher Neuronaler Netze ergänzt werden. Als empirische Datenbasis wurde die

Wolf'sche Sonnenfleckenreihe ausgewählt.

Die Beobachtung von Sonnenflecken hat in der Astronomie eine sehr lange Tradition. Tong [1990,

S.419] erwähnt, daß erste bekannte chinesische Aufzeichnungen der Sonnenfleckenaktivität auf das

Jahr 28 v. Chr. datiert werden. Lückenlose Aufzeichnungen gibt es seit mehreren hundert Jahren.

Einen wesentlichen Beitrag leistete in der Mitte des 19. Jahrhunderts der Schweizer Astronom

Johann Rudolf Wolf (1816-1893). Er entwickelte in langjähriger Forschungsarbeit Indizes zur

Berechnung der täglichen Sonnenfleckenanzahl sowie deren monatlichen und jährlichen

Durchschnitte. Die Auswertung historischer Aufzeichnungen ermöglichte es ihm und nachfolgenden

Astronomen Jahresdurchschnitte bis zum Jahr 1700 zurückzurechnen. Die Geschichte dieser

Zeitreihe ist ausführlich dokumentiert durch Izenman [1983].

Die Abbildung 9.1 zeigt die Wolf'sche Sonnenfleckenreihe für die Jahre 1700-1988. Die Zeit-

reihenwerte sind Durchschnitte täglich ermittelter Indexzahlen ( )A G F10 + , wobei G die Anzahl

beobachteter Fleckengruppen und F die Anzahl beobachteter isolierter Flecken ist. Der Koeffizient

A charakterisiert den Beobachter, sein Teleskop und die herrschenden Wetterbedingungen. Dem

Zeitreihenplot liegen Zahlenangaben von Tong [1990, S.470] zugrunde. Es ist erkennbar, daß die

Sonnenfleckenaktivität im Zeitverlauf ausgeprägten zyklischen Schwankungen unterworfen ist. Die

Perioden der Zyklen variieren im Bereich von 9 bis 14 Jahren mit einer mittleren Periode von ca. 11

Jahren. Die Amplituden der Zyklen variieren deutlich. Die Amplitude des Zyklus mit der höchsten

Aktivität ist ca. viermal so groß wie die des Zyklus mit der geringsten Aktivität. Bemerkenswert ist


202 EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN

die Asymmetrie der Zyklen. Sie besitzen tendenziell kürzere Anstiegsperioden als Abstiegsperioden.

So waren beispielsweise in den Jahren 1700-1920 die Anstiegsperioden durchschnittlich 4.6 Jahre

lang, während die mittlere Abstiegsperiode 6.55 Jahre betrug. Die Tabelle 9.1 weist einige

charakterisierende Kennzahlen der Zeitreihe aus.

Die Ursachen des sogenannten Sonnenzyklus sind bis heute weitgehend ungeklärt und Gegenstand

der Forschung. Da keine Theorie mit prognostischem Wert verfügbar ist, erscheint es naheliegend,

zeitreihenanalytische Methoden zur Prognose zukünftiger Sonnenfleckenaktivitäten einzusetzen. Die

Zeitreihe hat schon sehr früh das Interesse von Statistikern geweckt. Hervorzuheben ist insbesondere

Beobachtungszeitraum 1700 - 1920 1921 - 1955 1921 - 1975

Mittelwert 43.48 53.00 63.05

Varianz 1174.22 1722.96 2375.89

Minimum 0 4.4 4.4

Maximum 154.4 151.6 190.2

mittlere Periode der Zyklen 1) 11.15 10.33 10.60

mittlere Anstiegsperiode 1) 4.60 4.00 3.80

mittlere Abstiegsperiode 1) 6.55 6.33 6.80

Tabelle 9.1: Kenngrößen der Wolf'schen Sonnenfleckenreihe [ 1) Durchschnitte aller Zyklen mitSchwerpunkt im jeweiligen Beobachtungszeitraum]

1700 1750 1800 1850 1900 1950 2000

0

50

100

150

200

250

Abb. 9.1: Durchschnittliche Anzahl von Sonnenflecken in den Jahren 1700 - 1988


EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN 203

die Pionierarbeit von Yule (1927). Ein Resultat dieser Arbeit war die erstmalige Einführung linearer

autoregressiver Zeitreihenmodelle. Es folgten, unter vielen anderen, Moran [1954], Schaerf [1964],

Box & Jenkins [1970], Morris [1977], Tong & Lim [1980], Subba Rao & Gabr [1984] und Lewis

& Stevens [1991]. In den jüngeren Arbeiten wurde zunehmend die Asymmetrie der Sonnenzyklen

als ein Indiz für die Nichtlinearität der Zeitreihe angesehen und eine nichtlineare Modellierung und

Prognose angestrebt. Der Zeitreihe wurde jetzt die Bedeutung eines Benchmark-Datensatzes

beigemessen, und sie diente primär als Grundlage für Methodenvergleiche. Inzwischen liegen auch

Ergebnisse konnektionistischer Methoden vor (siehe z.B. de Groot & Würtz [1991] und Weigend

[1991]).

Am Beispiel der Sonnenfleckenreihe wird hier der praktische Einsatz alternativer Techniken zur

Punkt- und Regionprognose demonstriert. Die Zeitreihe wurde aus zwei Gründen ausgewählt. Zum

einen konnte auf die Fülle bereits vorliegender Analyse- und Prognoseergebnisse Bezug genommen

werden. Dies ermöglicht den Vergleich verschiedener Prognoseergebnisse und erleichtert so die

Orientierung. Zum anderen setzen konnektionistische Methoden die Verfügbarkeit umfangreicher

Datensätze voraus. Gemessen an dieser Anforderung erweist sich die Zeitreihe als eher kurz. Der

Prognoseeinsatz von KNN erfolgt somit nicht unter 'idealen' Rahmenbedingungen. Tatsächlich ist das

Beispiel gut geeignet, einige Limitationen konnektionistischer Ansätze aufzuzeigen.

9.1 Zeitreihenmodelle

Für Vergleichszwecke wurden vier grundverschiedene Zeitreihenmodelle ausgewählt, die im

folgenden kurz vorgestellt werden. Die Modelle haben gemein, daß in den zugrundeliegenden

Analysen nur die ersten n = 221 Beobachtungen von Sonnenflecken aus den Jahren 1700-1920 zur

Modellauswahl und Parameterschätzung genutzt wurden. Die folgenden Werte verblieben zur

Evaluierung von Punktprognosen.

Die ersten beiden Zeitreihenmodelle wurden von Subba Rao & Gabr [1984] gefunden. Zur

Modellauswahl setzten sie das AIC-Kriteriums von Akaike [1974]

(9.1) AIC = +ln $σε2 2m

n

als Selektionskriterium ein. In (9.1) bezeichnet $σ ε2 die geschätzte Residualvarianz und m die Anzahl

der Parameter eines angepaßten Modells. Aus der Menge aller möglichen linearen AR(p)-Modelle

mit maximaler Ordnung p=10 selektierten die Autoren ein Teil- oder Subset-AR-Modell der

Ordnung p = 9, kurz SAR(9)-Modell, mit minimalem AIC-Wert. Es wird hier in einer geringfügig

modifizierten Form angegeben:



(9.2) Y Y Y Yt t t t t= + − + +− − −6 825 1 249 0 551 0 1501 2 9. . . . ε

mit $ .σε2 202 0= und AIC = 5.35. Das Modell (9.2) berücksichtigt das Datenniveau (y = 4348. )

durch das Absolutglied 6 825. . Subba Rao & Gabr verzichteten auf die Schätzung eines Absolut-

gliedes und paßten ihr Modell an die mittelwertbereinigte Zeitreihe an. Obwohl das SAR(9)-Modell

(9.2) lediglich vier geschätzte Koeffizienten beinhaltet, erfaßt es bereits 82.8% der empirischen

Varianz der Zeitreihe im Anpassungszeitraum (vgl. Tabelle 9.1).

Das zweite Modell von Subba Rao & Gabr [1984] ist das bilineare Subset-AR-Modell der

Ordnung (9,8,6), kurz SBAR(9,8,6)-Modell:

(9.3) Y Y Y Y

Y Y Y Y

Y Y Y

t t t t

t t t t t t t t

t t t t t t t

= + − +

− + − −

+ + + +

− − −

− − − − − − − −

− − − − − −

6 886 1 501 0 767 0 115

0 1458 0 0063 0 0072 0 0060

0 0036 0 0043 0 0018

1 2 9

2 1 8 1 1 3 4 3

1 6 2 4 3 2

. . . .

. . . .

. . .

ε ε ε ε

ε ε ε ε

mit $ .σε2 124 33= und AIC = 4.93. Die geschätzte Residualvarianz ist gegenüber der Residualvarianz

des SAR(9)-Modells um 38.5% reduziert. Die verbesserte Modellanpassung hat allerdings einen

Preis: Das Modell (9.3) beinhaltet 7 zusätzliche Parameter, die geschätzt werden mußten. Da das

AIC-Kriterium Modellkomplexität durch den Komplexitätsterm 2m/n negativ bewertet, wird mit

dieser Kenngröße eine geringere Anpassungsverbesserung von 7.9% gemessen.

Tong & Lim [1980] haben an die Zeitreihe das Threshold-Autoregressive-Modell

(9.4) Y

Y Y Y

Y Y

Y Y Y Y

Y Y Y Y

Y Y Y Y Y

t

t t t

t t t

t t t t

t t t t

t t t t t t

=

+ − +

+ ≤

+ − − +− + + −

+ − + − + >

− − −

− −

− − − −

− − − −

− − − − −

10 544 1 692 1 159 0 237

0 150 36 6

7 804 0 743 0 041 0 202 0 173

0 227 0 019 0 161 0 256

0 320 0 389 0 431 0 04 36 6

1 2 3

4 3

1 2 3 4

5 6 7 8

9 10 11 12 3

. . . .

. .

. . . . .

. . . .

. . . . .

+ falls

falls

(1)

(2)

ε

ε

angepaßt. Das SETAR(2;4,12)-Modell besitzt 19 Parameter. Die geschätzten Residualvarianzen

betragen $ .σε (1)2 254 64= im Schwellenwertregime ( ]−∞, . 36 6 und $ .σ

ε (2)2 66 80= im Schwellen-

wertregime ( )36 6. , + ∞ . Die (gepoolte) Gesamtresidualvarianz ist $ .σε2 15371= . Ferner gilt AIC =

5.0. Es sei angemerkt, daß Tong [1990, S.425] ein Modell mit geringfügigen Modifikationen

vorstellt. Da das ursprüngliche Modell (9.4) in der Literatur jedoch besser dokumentiert ist, wurde

hier auf die Verwendung der Modifikation für Prognosezwecke verzichtet.



Die Residualvarianz und der AIC-Wert von (9.4) sind größer als die Kenngrößen des bilinearen

Modells (9.3). Das SETAR(2;4,12)-Modell besitzt jedoch eine interessante Zusatzeigenschaft: Das

Skelett des Modells generiert grenzzyklisches Verhalten. Die Periode des Grenzzyklus beträgt 31

Jahre. Er setzt sich aus drei asymmetrischen Subzyklen zusammen, die Anstiegsperioden

(Abstiegsperioden) von 4 (6), 4 (6) und 4 (7) Jahren besitzen. Diese Charakteristika stimmen gut mit

dem zyklischen Verhalten der Zeitreihe überein.

Lewis & Stevens [1991] diskutieren den Einsatz Multivariater-Adaptiver-Regressions-Splines

(Friedman [1991]) für zeitreihenanalytische Zwecke. Die resultierende Methode bezeichnen sie als

ASTAR (adaptive spline threshold autoregression). Für die Sonnenfleckenreihe identifizierten und

schätzten sie das ASTAR-Modell

(9.5)

( ) ( )

( ) ( )

( ) ( ) ( )

Y Y Y Y

Y Y Y Y

Y Y Y Y Y

t t t t

t t t t

t t t t t t

= + + − − −

− − + −

− − + − − +

− − + − +

− − + − − +

− − + − − + − +

2 711 0 960 0 332 47 0 0 257 59 1

0 003 26 0 0 017 44 0

0 032 17 1 0 004 26 0 41 0

1 5 9

1 2 1 3

1 4 1 2 5

. . . . . .

. . . .

. . . . . ε

mit ( )x x+ = für x > 0 und ( )x + = 0 sonst. Das Modell besitzt 14 Parameter. Ferner ist$ .σ ε

2 114 1= und AIC = 4.87. Beide Kenngrößen sind deutlich kleiner als die Kenngrößen der

Vorgängermodelle. Der AIC-Wert wurde hier zu Vergleichzwecken nachträglich berechnet. Lewis

& Stevens betonen in ihrer Studie die Bedeutung grenzzyklischen Verhaltens für die Modellierung

und Prognose der Sonnenfleckenreihe. Das Skelett von (9.5) generiert einen komplexen Grenzzyklus

mit einer Periode von 137 Jahren, der gut die zyklischen Charakteristika der Zeitreihe beschreibt. Er

setzt sich aus 13 asymmetrischen Subzyklen zusammen, deren Perioden zwischen 10 und 11 Jahren

variieren.

9.2 Künstliche Neuronale Netze

Die Anpassung eines prognosetauglichen KNN an die Sonnenfleckenreihe wirft Probleme auf. Soll

das KNN mit den in Abschnitt 9.1 vorgestellten Zeitreihenmodellen vergleichbar sein, dann stehen

für die Auswahl einer geeigneten Netzwerkarchitektur und die Schätzung der Gewichte lediglich

n = 221 Beobachtungen aus den Jahren 1700-1920 zur Verfügung. Aufgrund der geringen

Datenbasis besteht selbst beim Training von Netzwerken mit einer moderaten Anzahl von Gewichten

die Gefahr einer Überanpassung an die Zeitreihe. Die Folge einer solchen Überanpassung wären

ungünstige Prognoseergebnisse.



In der Praxis wird die Gefahr des 'Overfittings' häufig durch Stopp-Training gemildert. In zeit-

reihenanalytischen Anwendungen ist der Nutzen der Stopp-Training-Prozedur jedoch höchst

zweifelhaft (vgl. Abschnitt 6.3.1). Erfolgversprechendere alternative Strategien zur Vermeidung von

Überanpassung sind (i) der Einsatz statistischer Selektionskriterien zur Auswahl einer möglichst

einfachen Netzwerkarchitektur, die geeignet ist, die Struktur der Reihe adäquat zu erfassen und (ii)

der Einsatz von Weight-Decay- oder Weight-Elimination-Techniken. Beide Ansätze werden hier

weiter verfolgt.

De Groot & Würtz [1991] haben in ihrer Studie die Minimum-AIC-Selektionsstrategie zur Auswahl

einer einfachen Netzwerkarchitektur genutzt. Aus einer vorgegebenen Menge von MLP(p,r,1)-

Netzen der Form

~tanh tanh

~Y Yt j

j

r

j i j t ii

p

t= + ⋅ + ⋅

+

=−

=∑ ∑β β γ γ ε0

10

1

,

( )~Y Yt t= − 100 200 (t = 1700, ... , 1920) ,

selektierten sie ein MLP(4,4,1)-Netz mit der geschätzten Residualvarianz $ .σ ε2 137 0= und dem

gemäß (9.1) berechneten minimalen AIC-Wert 5.15. Die Anzahl der Netzgewichte beträgt m = 25.

Das Selektionsergebnis von de Groot & Würtz ist überraschend. Es werden lediglich die Lags 1, 2,

3 und 4 der Zeitreihenwerte als Inputgrößen des Netzes genutzt. Die Zeitreihenmodelle aus Abschnitt

9.1 berücksichtigen hingegen durchgängig auch Lags höherer Ordnung (mindestens Lag 9). Die

Spezifikationsergebnisse für die Zeitreihenmodelle werden durch zusätzliche nichtparametrische

Analysen der Zeitreihe gestützt. Beispielsweise zeigte Robinson [1983] unter Verwendung eines

Kernregressionsschätzers, daß Lag 9 einen Beitrag zur nichtlinearen Prognose der Reihe liefert.

Tjøstheim & Auestad [1994] setzten ein nichtparametrisches Analogon des Final-Prediction-Error-

Kriteriums von Akaike [1969, 1970] zur Untersuchung der Lagstruktur ein. Als signifikant

selektierten sie die Lags 1, 3, 2, 9, 7 und 5, wobei die Reihenfolge der Lags ihren Beitrag zur

Modellierung der bedingten Erwartungswertfunktion des datengenerierenden Prozesses

widerspiegelt. De Groot & Würtz beschränkten sich in ihrer Studie auf die Analyse von Einschritt-

Prognosen und konnten mit dem MLP(4,4,1)-Netz überzeugende Ergebnisse erzielen. Aufgrund der

vorliegenden statistischen Befunde erscheint es jedoch fraglich, ob ein KNN, das Zeitreihenwerte mit

einem maximalen Lag von 4 als Input verarbeitet, gute Mehrschritt-Prognosen liefern kann. Eigene

Untersuchungen ergaben tatsächlich, daß sich die Prognoseperformance eines trainierten

MLP(4,4,1)-Netzes mit wachsendem Prognosehorizont rapide verschlechterte.



Die Diskrepanz des Spezifikationsergebnisses von de Groot & Würtz zu den Ergebnissen der

genannten statistischen Analysen kann im wesentlichen darauf zurückgeführt werden, daß die

untersuchten MLP-Netze keine lineare Komponente besitzen und in den Auswahlprozeß keine

'Subset-Netze', also Netze die nur ausgewählte Lags als Input empfangen, eingeschlossen wurden.

Das lediglich vier Parameter beinhaltende lineare SAR(9)-Modell (9.2) erklärt bereits 82.8% der

Streuung der Zeitreihe im Anpassungsbereich. Wird die Auswahl eines einfach aufgebauten Netzes

angestrebt, erscheint es sinnvoll, einen linearen Term zu berücksichtigen. Anderenfalls muß die

lineare Struktur der Reihe durch nichtlineare Verarbeitungseinheiten approximiert werden. Dies führt

tendenziell zur Auswahl von Netzen mit einer größeren Anzahl verborgener Verarbeitungseinheiten

und Netzparameter. Die Verwendung von Subset-Netzen ermöglicht die Berücksichtigung hoher

Lags als Input, ohne daß dies zwangsläufig zu einer großen Parameteranzahl führt.

Zur Auswahl eines sparsam dimensionierten KNN wurde hier eine von de Groot & Würtz [1991]

abweichende Vorgehensweise gewählt. Die Netzauswahl blieb auf sehr einfach aufgebaute Subset-

MLP(lr,1,1)-Netze der Form

(9.6)~ ~Y Y Yt l t l

i

r

l t li

r

ti i i i= + ⋅ + ⋅ + ⋅

+−

=−

=∑ ∑α α β γ γ ε0

10

1

Λ

mit der logistischen Funktion

(9.7) ( ) ( ) ( )Λ Λ: , , IR x x e x→ = + −0 1 1 1a

als Aktivierungsfunktion beschränkt. Durch die Symbole l l l r1 2, , . .. , sind natürliche Zahlen (Lags)

mit der Eigenschaft 1 1 2≤ < < < ≤l l l prL gekennzeichnet, wobei p eine vorgegebene maximale

Ordnung ist. Der Vektor der adjustierbaren Parameter w = (α α0 1, ,...,l α βl r

, ,

γ γ γ0 1, ,... ,l lr

mIR′ ∈) besitzt die Dimension m = 2(lr+1) + 1. Das so definierte Mehrschicht-

Perzeptron (9.6) kann nicht nur als ein sehr einfaches KNN, sondern auch als Spezialfall eines

logistischen Smooth-Transition-Autoregressiven Modells aufgefaßt werden (vgl. z.B. Granger &

Teräsvirta [1993, S.34ff] oder Seber & Wild [1989, S.465ff]). Es besitzt somit den Charme eines

'Zwitterwesens' zwischen einem Künstlichen Neuronalen Netz und einem statistischen Modell.

Mittels Nichtlineare-Kleinste-Quadrate-Schätzung (vgl. Kapitel 7.3.1.3) wurden alle möglichen 2p-1

Subset-Netze der Form (9.6) mit einer maximalen Ordnung von p = 9 geschätzt. Die Anpassung

erfolgte an die transformierten Zeitreihenwerte

( )~y yt t= − 100 200 (t = 1700, ... , 1920) .

Die Datentransformation wurde von de Groot & Würtz übernommen. Hierdurch konnte ein

verbessertes Konvergenzverhalten des iterativen Schätzalgorithmus erreicht werden. Zur Vermeidung



suboptimaler Schätzergebnisse wurden Multistarts mit zufällig ausgewählten Startgewichtsvektoren

und 10 bis 25 Startwiederholungen durchgeführt. Die Anzahl der Wiederholungen stieg stufenweise

mit der Anzahl der zu schätzenden Gewichte im Netz. Als Modellselektionskriterium wurde das

AIC-Kriterium (9.1) und, ergänzend, das SIC-Kriterium (Schwarz [1978]) mit

(9.8) SIC = + ⋅ln $

lnσε2 m n

n

verwendet. Das SIC bestraft die Parameteranzahl m eines Modells durch den Komplexitätsterm

( )m n n⋅ ln in einem stärkeren Maße als das AIC und bevorzugt tendenziell Modelle mit geringerer

Komplexität. Die Tabelle 9.2 zeigt ausgewählte Schätzergebnisse. Tabelliert sind Kenngrößen des

'vollen' MLP(9,1,1)-Netzes (Netz 1) mit den Inputlags 1-9 sowie Kenngrößen des Minimum-AIC-

Netzes (Netz 2) und des Minimum-SIC-Netzes (Netz 3).

Das Minimum-AIC-Netz 2 besitzt m = 15 Gewichte und berücksichtigt die Lags 1, 2, 3, 4, 5 und 9

der Zeitreihenwerte als Inputs. Die Lagstruktur entspricht der des ASTAR-Modells (9.5). Trotz

einer geringeren Anzahl von Netzparametern ist die geschätzte Residualvarianz gegenüber der

Residualvarianz des vollen MLP(9,1,1)-Netzes nur geringfügig erhöht. Das deterministische

Verhalten von Netz 2 ist stabil. Im Gegensatz zu den nichtlinearen Threshold-Autoregressiven-

Zeitreihenmodellen (9.4) und (9.5) generiert das Skelett jedoch kein grenzzyklisches Verhalten. Es

besitzt einen global stabilen Fixpunkt y* = 36.52, der interessanterweise mit dem Schwellenwert r =

36.6 des SETAR-Modells (9.4) approximativ identisch ist. Nach dem SIC-Kriterium belegte Netz 2

den dritten Rangplatz. Das Minimum-SIC-Netz 3 weist eine geringere Komplexität auf. Es

berücksichtigt lediglich die Lags 1,2 und 8 bei m = 9 Netzparametern. Die geringe Komplexität führt

allerdings zu einer gegenüber den Netzen 1 und 2 deutlich vergrößerten Residualvarianz. Darüber

hinaus besitzt Netz 3 ein wenig überzeugendes deterministisches Verhalten. Sein Skelett generiert

eratisch schwankende, möglicherweise chaotische Trajektorien. Dies läßt erhebliche Zweifel an der

Netz-nummer

Lagstruktur desMLP(lr,1,1)-Netzes

Anzahl mder Gewichte

Residualvarianz$σ ε

2AIC SIC

MLP(9,1,1)-Netz

1 1 2 3 4 5 6 7 8 9 21 132.44 5.0842 5.4167

Minimum-AIC-Netz

2 1 2 3 4 5 9 15 135.53 5.0507 5.2882

Minimum-SIC-Netz

3 1 2 8 9 155.99 5.1347 5.2772

Tabelle 9.2: Verschiedene MLP(lr,1,1)-Netze und ihre Kenngrößen



Prognosefähigkeit des Netzes aufkommen. Das Minimum-AIC-Netz 2 wurde daher hier präferiert

und für Prognosezwecke ausgewählt. Es wird im folgenden einfach als Subset-MLP(9,1,1)-Netz

oder noch kürzer als SMLP(9,1,1) bezeichnet. Die geschätzten Netzgewichte sind:

(9.9)

$ . $ . $ . $ . $ .

$ . $ .

$ .

$ . $ . $ . $ . $ .

$ . $ .

α α α α α

α α

β

γ γ γ γ γ

γ γ

0 1 2 3 4

5 9

0 1 2 3 4

5 9

0102 0 972 0198 0163 0125

0155 0112

0120

9546 4 19064 5 270237 15252 7 11429 2

23649 0 1430 7

= = = − = − =

= − =

= −

= = − = = =

= − =

Die Residuen des SMLP(9,1,1) sollten approximativ striktes White Noise (i.i.d.) sein, also keine

modellierbare Struktur aufweisen. Anderenfalls erfaßt das KNN die Struktur der Zeitreihe nur

unvollständig, und seine Auswahl als Prognosewerkzeug ist nicht zu rechtfertigen. Die Tabelle 9.3 auf

Seite 209 zeigt einige Kenngrößen der Residualreihe. Zur Diagnose der Residualstruktur sind

exemplarisch die Portmanteau-Statistik ( )Q lLB von Ljung & Box [1978] (basierend auf der

Residualautokorrelationsfunktion bis zu Lag l = 40), die Portmanteau-Statistik ( )Q lML von McLeod

& Li [1983] (basierend auf der Autokorrelationsfunktion der quadrierten Residuen bis zu Lag l =

40) und die Kehrpunkt-Statistik TP (siehe z.B. Brockwell & Davies [1991, S.312f]) ausgewiesen.

Ferner sind die ermittelten empirischen Signifikanzniveaus der diagnostischen Tests angegeben. Bei

Anwendung auf die Residuen eines KNN ist die asymptotische Verteilung der Statistik ( )Q lLB

unklar. Sie wurde hier einfach durch eine χ2-Verteilung mit l−p Freiheitsgraden (p=9) approximiert.

Es ist zu vermuten, daß diese Approximation zu einem konservativen Test führt. Die Statistik sollte

daher eher als ein einfaches deskriptives Maß für die Autokorrelationsstruktur der Residuen

interpretiert werden. Dennoch, keine der Statistiken nimmt so verdächtig große Werte an, daß sie

auf eine ausgeprägte Struktur in den Restgrößen und damit auf eine mangelhafte Anpassungsgüte des

KNN hinweisen würden.

Zusammenfassend muß festgestellt werden, daß die Netzwerkauswahl hier unter sehr restriktiven

Randbedingungen erfolgte und zumindest in dreierlei Hinsicht unbefriedigend ist:

• Die maximale Ordnung von (9.6) wurde mit p = 9 restriktiv festgelegt. Lags höherer Ordnung

konnten keine Berücksichtigung finden.

• Der lineare Term und die nichtlineare Komponente in (9.6) besitzen eine identische Lagstruktur.

Eine unabhängige Variation ihrer Lagstrukturen wurde ausgeschlossen.

• Das Netz (9.6) besitzt lediglich eine verborgene Verarbeitungseinheit. Der Ansatz nutzt das

Potential von MLP-Netzen mit mehreren verborgenen Einheiten somit nicht aus.



Der zuletzt genannte Kritikpunkt ist sicherlich besonders schwerwiegend. Eine Relaxation der

restriktiven Randbedingungen führt allerdings zu einem sprunghaft ansteigenden Rechenaufwand, der

praktisch kaum noch handhabbar ist. Die Restriktionen sind somit weniger statistisch denn

forschungsökonomisch begründet. Ein möglicher Ausweg aus diesem Dilemma ist die Adaption

hinreichend aus der Regressionsanalyse bekannter heuristischer Modellauswahlstrategien wie der

schrittweisen Regression. Hierdurch kann eine deutliche Begrenzung des erforderlichen

Rechenaufwandes erreicht werden. Solche Heuristiken bieten allerdings keine Gewähr dafür, daß

aus einer präspezifizierten Menge von Modellen das im Sinne eines Auswahlkriteriums 'beste' Modell

gefunden wird.

Eine gänzlich andere Methodik wählte Weigend [1991] zur Prognose der Sonnenfleckenreihe (siehe

auch Weigend et al. [1991, 1992]). Er setzte die in Kapitel 6.3.1 vorgestellte Weight-Elimination-

Technik ein. Ein sehr groß dimensioniertes MLP(p,r,1)-Netz

(9.10)~ ~Y Yt j

j

r

j ij t ii

p

t= + ⋅ + ⋅

+

=−

=∑ ∑φ β β γ γ ε0

10

1

Λ

mit p = 12, r = 8 und der logistischen Funktion (9.7) als Aktivierungsfunktion der Verarbei-

tungseinheiten wurde durch iterative Minimierung der Zielfunktion

(9.11) ( )WD tt p

nj

jj

rij

iji

p

j

r

w = + ⋅+

++

= + = ==∑ ∑ ∑∑$ε λ

β

β

γ

γ2

2

2

2

21 0 011 1

bezüglich des Gewichtsvektors w = ′( )β β β γ γ γ0 1 01 11, , , , , ,...,K r pr mittels Backpropagation

trainiert. Mit $εt sind die Netzresiduen bezeichnet. Während der erste Term auf der rechten Seite

von (9.11) die Anpassungsgüte mißt, dient der zweite Term als Komplexitätsstrafterm. Bei einer

geeigneten Wahl des Parameters λ erzwingt der Strafterm, daß im Ablauf des Trainingsprozesses

Gewichte, die nicht durch den Fehlergradienten deutlich gefördert werden, gegen null streben.

Weigend [1991] eliminierte Gewichte mit kleinen Absolutbeträgen aus dem Netz und reduzierte so

das Ausgangsperzeptron (9.10) auf ein MLP(12,3,1)-Netz.

Der Weight-Elimination-Ansatz befreit den Anwender von der Aufgabe, eine auf den jeweiligen

Datensatz speziell zugeschnittene Netzwerkarchitektur spezifizieren zu müssen. Ausgehend von

einem hinreichend groß dimensionierten Anfangsnetzwerk soll im Laufe des Trainingsprozesses eine

adäquate Konfiguration selbständig 'erlernt' werden. Zur Vermeidung einer Überanpassung ist

allerdings eine geeignete Adjustierung des Parameters λ in (9.11) erforderlich. Die Adjustierung von

λ erweist sich dabei als ein schwer lösbares Problem, für das Weigend [1991, S.47ff] nur eine

heuristische Quasilösung anbieten kann:



Solange der Trainingsprozeß eine Reduktion der Residualquadratsumme bewirkt, wird, beginnend

mit λ = 0, der Parameter λ nach jeder Iteration (Trainingsepoche) um ein kleines ∆λ vergrößert

(z.B. ∆λ = 10−6). Ist schließlich das Gewicht des Komplexitätsterms in (9.11) so angewachsen, daß

die Residualquadratsumme wieder steigt, wird λ zunächst verkleinert und anschließend wieder in

kleinen Schritten ∆λ erhöht, usw. Ziel ist es, eine langsame und stetige Verbesserung der

Netzanpassung an die Daten zu erreichen. Unterschreitet die Residualquadratsumme im Laufe des

Trainings einen vorgegebenen Zielwert, wird λ weiter schrittweise vergrößert, aber nicht mehr bei

kurzfristiger Verschlechterung der Anpassung verkleinert. Der Zielwert für die

Residualquadratsumme ist vom Anwender festzulegen. Er entscheidet ebenso über den Abbruch des

Netzwerktrainings. Ein objektives Abbruchkriterium ist nicht verfügbar, denn die fortlaufende

Adjustierung von λ verhindert eine Konvergenz der Zielfunktionswerte. Die Existenz eindeutiger

(lokaler oder globaler) Minima der Zielfunktion (9.11) setzt ein festes λ voraus. Damit entscheidet

letztendlich die subjektive Urteilsfähigkeit und Erfahrung des Anwenders, ob eine Überanpassung

verhindert werden kann. Rechtfertigen läßt sich diese Vorgehensweise nur durch die empirische

Beobachtung Weigends, daß selbst grobe Vorgaben durch den Anwender geeignet sind, Netzwerke

mit guten Prognoseeigenschaften zu trainieren.

Trotz der aufgezeigten Schwierigkeiten soll der Ansatz hier aufgegriffen werden. Unter Beachtung

der in Weigend [1991] sowie Weigend et al. [1992] angegebenen Implementierungshinweise für die

Weight-Elimination-Technik wurde ein MLP(12,3,1)-Netz der Form (9.10) mittels Backpropagation

trainiert. Es mußte lediglich eine Modifikation vorgenommen werden. Die Ausgabeeinheit des Netzes

besitzt eine auf das Intervall (0 , 1) beschränkte logistische Aktivierungsfunktion. Die Verwendung

einer Aktivierungsfunktion mit beschränktem Bildbereich macht eine Skalierung der Trainingsdaten

erforderlich. Weigend transformierte die Zeitreihenwerte gemäß ~ .y yt t= 191 2 . Die Skalierung

bewirkte, daß die retransformierten Netzausgaben auf das Intervall [ ]0 1912 , . beschränkt blieben.

Hier wurde die Lineartransformation

( )~y yt t= + 100 400 (t = 1700, ... , 1920)

gewählt. Durch die geänderte Transformationsvorschrift wurde der retransformierte Bildbereich der

Netzausgabefunktion auf das Intervall [ ]−100 300 , erweitert. Die Notwendigkeit dieser

Modifikation resultierte aus unterschiedlichen Zielsetzungen. Weigend [1991] setzte das trainierte

KNN zur Berechnung von Einschritt-Prognosen und iterativen Mehrschritt-Prognosen ein. Hier

wurde zusätzlich die Berechnung von Kleinste-Quadrate-Punktprognosen sowie Regionprognosen

via Monte-Carlo-Simulation und Bootstraping der Residuen angestrebt. Die Prognosetechniken

nutzen das trainierte KNN als ein Simulationsmodell. Die Änderung der Datenskalierung diente dem

Zweck, mögliche verzerrende Einflüsse einer stark beschränkten Netzausgabefunktion auf die

Simulationsergebnisse auszuschalten.



Zur Steuerung des Netzwerktrainings wurde als Zielvorgabe für die Residualquadratsumme ein

Wert festgelegt, der mit einer angestrebten Residualvarianz von 125.0 korrespondiert. Die

Festlegung orientiert sich rein willkürlich an der Residualvarianz des bilinearen Modells (9.3). Die

Zielvarianz wurde während des Backpropagation-Trainings nach ca. 25000 Trainingsepochen

erstmals erreicht, konnte aber in der Folge nur temporär unterschritten werden. Das Training wurde

schließlich nach 30000 Epochen abgebrochen. Die Gewichte des trainierten Netzes sind:

(9.12) $ .β0 2132= − $ .β1 2 528= + $ .β2 4 658= − $ .β3 4 387= +

(Gewichte der Verbindungen zwischen Ausgabeeinheit und verborgenen Einheiten);

$ .,γ 0 1 0 509= − $ .,γ11 1 259= + $ .,γ 2 1 0 051= − $ .,γ3 1 0 607= − $ .,γ 4 1 0 086= +

$ .,γ5 1 1379= − $ .,γ 6 1 0 312= + $ .,γ 7 1 0 443= + $ .,γ8 1 0 335= + $ .,γ9 1 1 616= +

$ .,γ10 1 1 262= + $ .,γ111 1787= + $ .,γ12 1 0 539= −

$ .,γ 0 2 0 295= + $ .,γ1 2 7 217= − $ .,γ 2 2 0 534= − $ .,γ3 2 1062= − $ .,γ 4 2 0 094= −

$ .,γ5 2 0 792= − $ .,γ 6 2 0 912= + $ .,γ 7 2 0 672= + $ .,γ8 2 1 487= + $ .,γ9 2 1 020= +

$ .,γ10 2 0 206= + $ .,γ11 2 0 369= + $ .,γ12 2 0 597= −

$ .,γ 0 3 0 753= − $ .,γ1 3 0 732= + $ .,γ 2 3 5 096= − $ .,γ3 3 2 920= − $ .,γ 4 3 0 766= −

$ .,γ5 3 1 233= + $ .,γ 6 3 0 426= + $ .,γ 7 3 1325= + $ .,γ8 3 2 248= + $ .,γ9 3 0 044= −

$ .,γ10 3 0 290= − $ .,γ11 3 0 897= $ .,γ12 3 1 249= −

(Gewichte der Verbindungen zwischen verborgenen Einheiten und Eingabestellen).

Die geschätzte Residualvarianz des MLP(12,3,1)-Netzes ist mit $ .σε2 125 35= geringfügig größer als

die Zielvorgabe. Verschiedene durchgeführte Residualanalysen lieferten keine Hinweise auf eine

ausgeprägte Struktur in der Residualreihe (siehe Tabelle 9.3). Das deterministische Verhalten des

Netzes ist stabil. Unabhängig von beliebig vorgegebenen Startwerten konvergieren die Trajektorien

des MLP(12,3,1) gegen den global stabilen Fixpunkt y* = 70.58.



Kennzahlen der Residuen $ε t SMLP(9,1,1) MLP(12,3,1)

Mittelwert $ε 0.0032 -0.0495

Varianz $σ ε2 135.5266 125.3482

Schiefe g1 0.7668 0.9104

Kurtosis g2 1.0181 2.0356

Portmanteau-Statistik ( )Q LB 40 33.9344 (0.3279) 1) 33.1713 (0.2295) 1)

Portmanteau-Statistik ( )Q M L 40 31.0139 (0.8451) 1) 28.2506 (0.9183) 1)

Kehrpunkt-Statistik TP -0.0274 (0.9781) 1) -0.4119 (0.6804) 1)

Tabelle 9.3: Kennzahlen der Residuen des SMLP(9,1,1) und des MLP(12,3,1)( 1) empirisches Signifikanzniveau des Tests; weitere Erläuterungen siehe Text)

9.3 Punktprognosen

Das SMLP(9,1,1) und das MLP(12,3,1) werden im folgenden zur Punkt- und Regionprognose der

Sonnenfleckenreihe eingesetzt. Zunächst steht die Punktprognose im Vordergrund. Neben der

Analyse und dem Vergleich der Prognoseeigenschaften der beiden KNN ist hierbei der

Performancevergleich alternativer Techniken zur Berechnung von Mehrschritt-Prognosen von

besonderem Interesse.

Zur Berechnung von Mehrschritt-Prognosen wurden drei verschiedene Techniken genutzt. Es

wurden deterministische oder iterative Prognosen (I-Prognosen) sowie approximative Kleinste-

Quadrate-Prognosen via Monte-Carlo-Simulation (MC-Prognosen) und Bootstrapping der

Residuen (B-Prognosen) ermittelt. Die Berechnung von MC- und B-Prognosen erfolgte durch

einfache (arithmetische) Mittelung von S=25000 zufallszahlengetriebenen bzw. residuengetriebenen

Simulationen der KNN. Im Vergleich zu früheren Anwendungen auf künstlich erzeugte Zeitreihen

erforderte der Einsatz der Monte-Carlo-Technik jetzt einen größeren Implementierungsaufwand. In

den früheren Anwendungen konnten die Störverteilungen Künstlicher Neuronaler Netze immer durch

Normalverteilungen geeignet approximiert werden (vgl. Kapitel 7). Zur Berechnung von MC-

Prognosen wurden daher normalverteilte Pseudozufallszahlen erzeugt. Die Analyse der Netzresiduen

zeigte, daß für die Störungen ε t des SMLP(9,1,1) und des MLP(12,3,1) die Normalverteilung kein

adäquates Verteilungsmodell ist.



-40 -30 -20 -10 0 10 20 30 40 50

.001

.010

.050

.200

.500

.800

.950

.990

.999

(a)

αi

ε(i)^

-40 -30 -20 -10 0 10 20 30 40 50

.001

.010

.050

.200

.500

.800

.950

.990

.999

(b)

αi

ε(i)^

3.2 3.5 3.8 4.1 4.4 4.7

.001

.010

.050

.200

.500

.800

.950

.990

.999

(c)

αi

η(i)^

2.2 2.6 3 3.4 3.8 4.2 4.6

.001

.010

.050

.200

.500

.800

.950

.990

.999

(d)

α

η

i

(i)^

Abb. 9.2: Normal Probability Plots von Residuen [Abb. 9.2a: Residuen des SMLP(9,1,1); Abb. 9.2b:Residuen des MLP(12,3,1); Abb. 9.2c: logarithmisch transformierte Residuen desSMLP(9,1,1); Abb. 9.2d: logarithmisch transformierte Residuen des MLP(12,3,1)]



Die Residuen $ε t des angepaßten SMLP(9,1,1) besitzen ebenso wie die Residuen des angepaßten

MLP(12,3,1) eine ausgeprägt asymmetrische Verteilung. Die empirische Schiefe g1 und die

empirische Kurtosis g2 der Residualreihen mit

(9.13) gm

mg

m

m1

3

23 2

4

22

3= = −,

und ( )mn p t

t p

n

ττε ε=

−−

= +∑1

1

$ $ , $ $ε ε=− = +

∑1

1n p tt p

n

(τ = 2, 3, 4)

sind deutlich größer als Null (siehe Tabelle 9.3). Im Falle einer Normalverteilung sollten beide

Statistiken nur geringfügig von Null abweichen. Eine graphische Analyse ermöglichen die in den

Abbildungen 2a,b dargestellten Normal Probability Plots der beiden Residualreihen. In den Plots

sind die Paare ( )( , ( ))$ε αi iΦ −1 , i = 1,...,N, als Punkte in einem Koordinatensystem mit einer

wahrscheinlichkeitsskalierten Ordinate (Wahrscheinlichkeitsnetz) eingetragen. Hierbei ist ( )$ε i das i-

te Glied der geordneten Residuenreihe ( ) ( )$ $ε ε1 2≤ ≤ ( )... $≤ ε N und Φ −1( )α i kennzeichnet das αi-

Quantil der Standardnormalverteilung mit ( )αi i N= − 0 5. (siehe z.B. D'Agostino [1986]). Ferner

ist N n p= − mit p = 9 für das SMLP(9,1,1) und p =12 für das MLP(12,3,1). Entstammen die

Residuen einer Normalverteilung, dann sollten die Punkte des Plots approximativ auf einer Geraden

liegen. Der Plot 2a zeigt jedoch eine konkave Krümmung, die auf eine ausgeprägt rechtsschiefe

Verteilung der Residuen des SMLP(9,1,1) zurückgeführt werden kann. Die Antisymmetrie des Plots

2b (approximativ um das 0.4-Quantil der Daten) weist auf eine rechtsschiefe und möglicherweise

leptokurtotische Verteilung der Residuen des MLP(12,3,1) hin.

Zur Implementierung der Monte-Carlo-Technik wurde eine pragmatische Vorgehensweise gewählt.

Durch eine einfache Logarithmustransformation der Form

(9.14) ( )$ ln $η εt tv= +

mit v = 50.0 konnte für die Residuen des SMLP(9,1,1) eine verbesserte Annäherung an die

Normalverteilung erreicht werden (vgl. Abb.2c). Die empirische Schiefe g1 0 0257= . und die

empirische Kurtosis g2 0 1284= . der transformierten Residuen nahmen jetzt Werte nahe Null an.

Der Kolmogorov-Smirnov-Test auf Normalverteilung der transformierten Restgrößen (siehe z.B.

Stephens [1986]) führte bei allen üblichen Signifikanzniveaus nicht zur Ablehnung der Nullhypothese.

Es wurde ein empirisches Signifikanzniveau des Tests von approximativ 0.87 ermittelt. Aufgrund der

Ergebnisse darf vermutet werden, daß die Störverteilung des SMLP(9,1,1) durch eine 'verschobene'

logarithmische Normalverteilung geeignet approximiert werden kann. Die für die Berechnung von

MC-Prognosen benötigten Pseudozufallszahlen u wurden gemäß u e vz= − erzeugt. Hierbei ist v



die konstante Niveauverschiebung, und z kennzeichnet eine N ( )µ σ, 2 -verteilte Pseudozufallszahl.

Die Parameter µ und σ 2 wurden durch das Mittel 3.8864 und die Varianz 0.0527 der

transformierten Restgrößen $ηt geschätzt.

Die Verteilung der Störungen des MLP(12,3,1)-Netzes wurde ebenfalls durch eine verschobene

logarithmische Normalverteilung angenähert. Diese Approximation erwies sich jedoch als nur

eingeschränkt befriedigend. Durch eine Logarithmustransformation (9.14) der Netz-Residuen (mit v

= 40.0) konnte zwar eine weitgehende Symmetrisierung der Restgrößenverteilung erreicht werden,

die empirische Kurtosis g2 3 0238= . der Daten $ηt war jedoch nicht mit einer Normalverteilung

kompatibel. Der große Wert von g2 läßt ebenso wie die Antisymmetrie des Normal Probability

Plots in Abb. 2d vermuten, daß die transformierten Residuen einer Verteilung mit 'heavy tails'

entstammen. Der Plot verdeutlicht aber auch, daß das Ergebnis durch drei extreme Werte stark

beeinflußt wird. Werden die ersten drei Werte ( ) ( ) ( )$ , $ , $η η η1 2 3 der geordneten Residuenreihe aus

dem Datensatz entfernt, erhält man die Kennzahlen g1 0 0914= . und g2 0 3665= . . Die Kennzahlen

können jetzt nicht mehr als starke Indizien gegen die Normalverteilungshypothese gewertet werden.

Die durchgeführten Analysen lieferten keine eindeutige Antwort auf die Frage, ob eine

leptokurtotische Verteilung vorliegt, oder ob die Residuen ( ) ( ) ( )$ , $ , $η η η1 2 3 als 'Ausreißer' aus einer

Normalverteilung betrachtet werden können. Um die Spezifikation der Störverteilung des Netzes

nicht stark von wenigen extremen Werten der Residualreihe abhängig machen zu müssen, wurde hier

letzteres unterstellt. An die logarithmisch transformierten Residuen $ηt wurde eine Normalverteilung

angepaßt mit dem Median 3.6413 der Daten und der Varianz 0.0653 der 'ausreißerbereinigten'

Daten als Schätzwerte für die Parameter µ und σ2. Die Normalverteilungshypothese wurde mittels

Kolmogorov-Smirnov-Test geprüft. Das empirische Signifikanzniveau betrug approximativ 0.62; die

Nullhypothese mußte somit nicht verworfen werden. Die zur Berechnung von MC-Prognosen

erforderlichen Pseudozufallszahlen wurden gemäß ( )u e v cz= − − generiert. Mit z ist wieder eine

N ( )µ σ, 2 -verteilte Pseudozufallszahl kennzeichnet, v ist die Niveauverschiebung und

c v e= − +µ σ 2 2 ist ein kleiner Korrekturterm, der zur Zentrierung der Zufallszahlen u um das Mittel

Null benötigt wurde.

Als Prognosezeitraum diente der historische Beobachtungszeitraum 1921-1975 der Sonnenflecken-

reihe. Für die Sonnenfleckenzahlen im Intervall 1921-1975 wurden mit wanderndem Prognose-

ursprung h-Schritt-Prognosen (h = 1,2,...,12) berechnet und zur Messung der erreichten Prognose-

güte die mittleren quadratischen h-Schritt-Prognosefehler MSE(h) ermittelt. Der maximale Progno-

seschritt h = 12 ist größer gewählt als die durchschnittliche Periode der Sonnenzyklen. Die

Ergebnisse sind der Tabelle 9.4 zu entnehmen. Prognoseergebnisse für die Sonnenfleckenzahlen in

den Jahren 1921-1955 sind dort gesondert ausgewiesen. Im Zeitraum 1921-1975 wurden 5 Sonnen-



SMLP(9,1,1) - Netz

Prognoseschritt I-Prognosen MC-Prognosen B-Prognosen

1921-1955 1921-1975 1921-1955 1921-1975 1921-1955 1921-1975

1 144.4 267.7 144.4 267.7 144.4 267.7

2 397.7 716.9 368.6 674.8 369.9 676.4

3 869.2 1128.3 684.9 960.2 696.8 966.9

4 1159.4 1392.4 750.7 996.5 759.9 1010.0

5 1387.7 1531.3 671.2 977.3 681.4 983.4

6 1368.8 1331.9 476.4 778.2 478.2 775.8

7 1425.8 1300.9 400.8 775.6 398.2 774.3

8 1461.0 1455.4 399.3 836.9 396.7 832.7

9 1542.3 1533.5 432.3 888.3 432.0 889.8

10 1600.2 1644.4 470.2 888.3 475.0 890.2

11 1681.3 1670.5 612.2 949.1 615.5 948.9

12 1893.4 1878.0 941.9 1284.3 946.8 1289.9

MLP(12,3,1) - Netz

Prognoseschritt I-Prognosen MC-Prognosen B-Prognosen

1921-1955 1921-1975 1921-1955 1921-1975 1921-1955 1921-1975

1 140.1 284.2 140.1 284.2 140.1 284.2

2 331.8 791.6 327.5 783.3 328.0 783.8

3 488.7 1198.3 486.5 1185.8 489.5 1191.3

4 415.6 988.1 488.1 1070.9 490.4 1076.3

5 378.3 951.8 493.8 1086.9 492.5 1088.7

6 364.9 944.4 474.7 1074.2 474.4 1075.4

7 339.4 925.1 444.1 1025.6 446.1 1021.6

8 323.1 813.7 440.9 916.3 445.2 918.9

9 323.0 729.7 455.9 857.3 457.3 859.3

10 347.6 755.0 484.4 910.6 481.5 913.9

11 363.1 851.4 504.4 1027.2 497.2 1023.8

12 420.0 1150.6 565.1 1328.9 561.7 1321.2

Tabelle 9.4: Mittlere quadratische Prognosefehler MSE(h) von h-Schritt-Prognosen für dieSonnenfleckenzahlen in den Jahren 1921-1975



zyklen beobachtet. Der 4. Zyklus (1955-1964) weist ein für die Struktur der Reihe deutlich un-

typisches Muster auf. Zum einen ist seine Amplitude wesentlich größer als die durchschnittliche

Amplitude der Vorgängerzyklen. Zum anderen wurde ein ungewöhnlich großer Sprung der Sonnen-

fleckenzahl 38.0 im Jahr 1955 auf 141.7 im Jahr 1956 observiert. Die Prognose der Sonnenflecken-

zahlen im Zeitraum 1956-1975 ist somit eine 'risikoreiche' Aufgabe und fordert von einem ein-

gesetzten Prediktor Robustheit gegenüber plötzlich auftretenden Anomalien. Die Prognoseergebnisse

für den Teilzeitraum 1921-1955 informieren über die Eigenschaften der Prediktoren unter typischen

Bedingungen.

Die Einschritt-Prognosen des SMLP(9,1,1) und des MLP(12,3,1) sind in der Abbildung 9.3

graphisch dargestellt. Über den Zeitraum 1921-1955 unterscheiden sich ihre mittleren quadratischen

Prognosefehler nur geringfügig. Die MSE(1)-Werte bewegen sich in einer mit den Residualvarianzen

der beiden KNN vergleichbaren Größenordnung. Über den gesamten Prognosezeitraum wurden

näherungsweise doppelt so große MSE(1)-Werte ermittelt, wobei der Verlust an

Prognosegenauigkeit für das MLP(12,3,1) deutlicher ausfällt. Bei der Bewertung dieses Ergebnisses

sollte die ab 1956 temporär anwachsende Variabilität der Zeitreihendaten berücksichtigt werden.

Eine einfache Maßzahl für die relative Prognosegüte ist das Bestimmtheitsmaß

(9.15)( )

Ry

2 11

2= − MSE

$σ ,

wobei $σ y2 die empirische Varianz der Daten im Prognosezeitraum bezeichnet. Mit den in Tabelle 9.1

angegeben Varianzen erhält man für das SMLP(9,1,1)

R1921 19552 0 916− = . , R1921 1975

2 0 887− = .

und für das MLP(12,3,1)

R1921 19552 0 919− = . , R1921 1975

2 0 880− = . .

Nach dieser Maßzahl ist die Prognoseperformance der KNN im gesamten Prognosezeitraum um ca.

3% bzw. 4% schlechter als im Teilzeitraum 1921-1955. Maßgeblich verantwortlich für den

Performanceverlust ist das atypische Anstiegsverhalten des 4. Zyklus in 1955-1964.

Bei der Analyse und dem Vergleich der Mehrschritt-Prognosen müssen zwei verschiedene

Einflußfaktoren berücksichtigt werden: Die Prognoseergebnisse hängen sowohl von den Pro-

gnoseeigenschaften der beiden KNN als auch von den eingesetzten Prognosetechniken ab. Einige

interessante Ergebnisse sind:



• SMLP(9,1,1)

Für die iterativen h-Schritt-Prognosen des Netzes wurden mit wachsendem Prognosehorizont h

inflationär steigende mittlere quadratische Prognosefehler ermittelt. Die approximativen KQ-

Techniken lieferten deutlich verbesserte Prognosen. Die MC- und B-Prognosewerte

unterscheiden sich nur unwesentlich. Folge ist, daß auch ihre MSE(h)-Werte nur geringe

Unterschiede aufweisen. Bemerkenswert ist ferner, daß die MSE(h)-Werte der h-Schritt-KQ-

Prognosen nicht monoton mit dem Prognosehorizont h wachsen. Die mittleren quadratischen

Prognosefehler sinken im 5., 6. und 7. Prognoseschritt, ehe sie erneut ansteigen.

•• MLP(12,3,1)

Auch im Fall des MLP(12,3,1) lieferten die Monte-Carlo-Technik und der Bootstrap-Ansatz

vergleichbare Prognosen. Die MSE(h)-Werte der MC- und B-Prognosen weichen nur marginal

voneinander ab. Wiederum ist zu beobachten, daß die MSE(h)-Werte nicht monoton mit dem

Prognoseschritt h anwachsen. Gegenüber den deterministischen Prognosen führte der Einsatz

approximativer KQ-Techniken hier allerdings nicht zu verbesserten Ergebnissen. Im Gegenteil,

die mittleren quadratischen Fehler der iterativen h-Schritt-Prognosen sind für h > 3 deutlich

geringer.

•• SMLP(9,1,1) versus MLP(12,3,1)

Vergleicht man die deterministischen Prognosen der beiden KNN, dann ist sofort ersichtlich, daß

das MLP(12,3,1) weit überlegene iterative Mehrschritt-Prognosen generierte. Der Vergleich von

KQ-Prognosen ergibt ein differenziertes Bild. Die relative Prognosegüte der Netze variiert jetzt

mit dem Prognosezeitraum. Über den Teilzeitraum 1921-1955 sind die MSE(h)-Werte der

MLP(12,3,1)-Prognosen z.T. deutlich kleiner als die korrespondierenden mittleren quadratischen

Fehler der SMLP(9,1,1)-Prognosen. Betrachtet man den gesamten Prognosezeitraum 1921-

1975, dann nivellieren sich die Unterschiede. Für kleine Prognoseschritte h liefert jetzt sogar das

SMLP(9,1,1) zuverlässigere Prognosen im Sinne des MSE-Kriteriums. Die Ergebnisse lassen

insgesamt den Schluß zu, daß das MLP(12,3,1) unter 'regulären' Bedingungen deutlich überlegene

Langfrist-Prognoseeigenschaften besitzt. Das sparsam dimensionierte SMLP(9,1,1) erweist sich

jedoch als robuster gegenüber den in 1955-1964 aufgetretenen Anomalien der Sonnenflecken-

aktivität.

In Hinblick auf den hier besonders interessierenden Performancevergleich alternativer Mehrschritt-

Prognosetechniken sind zwei Ergebnisse hervorzuheben. Die Monte-Carlo-Technik und der Boot-

strap-Ansatz lieferten für beide KNN weitgehend vergleichbare Prognosen. Ein eindeutiges

'Ranking' deterministischer Prognosen und approximativer KQ-Prognosen ist in diesem An-

wendungsbeispiel nicht möglich. Im Fall des SMLP(9,1,1) führte der Einsatz von KQ-Techniken zu



1920 1930 1940 1950 1960 1970 1980

0

50

100

150

200

250

Ein-Schritt-Prognosen

Zeitreihenwerte

(a) SMLP(9,1,1)

1920 1930 1940 1950 1960 1970 1980

0

50

100

150

200

250

(b)

Ein-Schritt-Prognosen

Zeitreihenwerte

MLP(12,3,1)

Abb. 9.3: Einschritt-Prognosen des SMLP(9,1,1) (Abb.9.3a) und des MLP(12,3,1) (Abb.9.3b) fürdie Sonnenfleckenzahlen in den Jahren 1921-1975



1920 1930 1940 1950 1960 1970 1980

0

50

100

150

200

250

(a) SMLP(9,1,1)

I-Prognosen (MSE = 2948.0)

B-Prognosen (MSE = 1320.1)

1920 1930 1940 1950 1960 1970 1980

0

50

100

150

200

250

(b) MLP(12,3,1)

I-Prognosen (MSE = 903.8)

B-Prognosen (MSE = 1014.8)

Abb. 9.4: h-Schritt-Prognosen (h=1,2,...,55) für die Sonnenfleckenzahlen in den Jahren 1921-1975im Prognoseursprung t=1920 [Abb.9.4a: Prognosen des SMLP(9,1,1); Abb.9.4b: Progno-sen des MLP(12,3,1)]



verbesserten Ergebnissen. Die iterativen Prognosen des MLP(12,3,1) wiesen hingegen kleinere

mittlere quadratische Prognosefehler auf als ihre KQ-Konkurrenten. Das zweite Ergebnis wirft

natürlich die Frage nach den Ursachen für die uneinheitliche Performance deterministischer

Prognosen und KQ-Prognosen auf. Einigen Aufschluß kann hier die nähere Betrachtung der

deterministischen Verhaltensweisen der beiden KNN geben.

Die Skelette beider Netze erzeugen deterministische Trajektorien, die unabhängig von den jeweiligen

Startwerten gegen einen global stabilen Fixpunkt y* konvergieren (y* = 36.52 bzw. y* = 70.58).

Während die Trajektorien des SMLP(9,1,1) typischerweise sehr schnell gegen ihren Fixpunkt

streben, zeigen die Trajektorien des MLP(12,3,1) jedoch ein pseudozyklisches Muster, das nur sehr

langsam ausklingt. Dies verdeutlicht exemplarisch die Abbildung 9.4. Sie zeigt h-Schritt-Prognosen

der Zeitreihenwerte im Prognoseursprung t = 1920 mit h = 1,2,...,55 (I- und B-Prognosen). Die

deterministische Iteration des SMLP(9,1,1) liefert bereits nach wenigen Iterationsschritten

Prognosewerte, die nicht mehr über die zyklische Struktur der Reihe informieren. Erst die Monte-

Carlo-Simulation oder, wie in Abbildung 9.4 zugrunde gelegt, die residuenbasierte Simulation des

KNN führt zu Prognosen mit langsam abklingendem zyklischen Muster. Die Abbildung zeigt

natürlich ebenfalls, daß die Langfrist-Prognoseeigenschaften des Netzes auch bei Einsatz von KQ-

Techniken limitiert bleiben. Mit wachsendem Prognosehorizont sind die B-Prognosen nicht mehr in

der Lage, die Periodik 'zukünftiger' Sonnenzyklen brauchbar vorherzusagen. Der deterministische

Pfad des MLP(12,3,1) weist über den gesamten Prognosezeitraum zyklische Schwankungen auf.

Der Einsatz von Simulationstechniken führt hier zu einer Glättung der Prognosewerte. Dieser

'Glättungseffekt' verstärkt sich mit wachsendem Prognosehorizont. Bemerkenswert ist, daß die I-

Prognosen die Periodendauer der fünf Zyklen im Prognosezeitraum zuverlässig vorhersagen. Die

Amplituden des 3. und 4. Zyklus werden jedoch deutlich unterschätzt. Eine zusätzliche Glättung der

Prognosewerte führt hier zu vergrößerten Fehlern. Dieses Phänomen konnte in abgeschwächter

Form auch bei den mit wanderendem Prognoseursprung ermittelten kurzfristigen h-Schritt-

Prognosen des Netzes beobachtet werden. Es ist die wesentliche Quelle für die in Tabelle 9.4

ausgewiesenen Performanceunterschiede der I- und KQ-Prognosen des MLP(12,3,1).

Für die weitere Bewertung der erzielten Prognoseergebnisse ist ein objektiver Vergleichsmaßstab

hilfreich. Die Tabelle 9.5 informiert über die Prognoseeigenschaften der Zeitreihenmodelle (9.2) bis

(9.5) aus Abschnitt 9.1. Tabelliert sind wieder die mittleren quadratischen Fehler von h-Schritt-

Prognosen (h = 1,2,...,12). Die Angaben für das bilineare SBAR(9,8,6)-Modell (9.3) und das

ASTAR-Modell (9.5) wurden von Subba Rao & Gabr [1984, S.201] bzw. Lewis & Stevens

[1991, S.875f] übernommen. Der Prognosebereich deckt hier leider nur den Teilzeitraum 1921-

1955 ab. Angemerkt sei, daß die Mehrschritt-Prognosen des ASTAR-Modells iterativ ermittelt

wurden. Ansonsten liegen den Kennzahlen KQ-Prognosen zugrunde. Im Falle des SETAR-Modells



(9.4) handelt es sich um Monte-Carlo-Prognosen, die als Mittelwerte von jeweils S = 25000

Simulationen des Modells mit logarithmisch normalverteilten Pseudozufallszahlen berechnet wurden.

Der detaillierte Vergleich der Kennzahlen in den Tabellen 9.4 und 9.5 sei dem Leser selbst

überlassen. Hier sollen lediglich einige interessante Aspekte aufgegriffen werden, die sich aus den

Ergebnissen für den Prognosezeitraum 1921-1955 ergeben.

• Die Modelle SBAR(9,8,6) und SETAR(2;4,12) besitzen gegenüber dem linearen SAR(9)-

Modell überlegene Einschritt-Prognoseeigenschaften. Im Mehrschritt-Fall ist ihre Performance

allerdings nur für kleine Prognoseschritte h überzeugend. Die mittleren quadratischen Fehler ihrer

h-Schritt-KQ-Prognosen wachsen rasch mit dem Prognosehorizont und sind für h > 6 größer als

die MSE(h)-Werte für das SAR(9)-Modell. Die beiden KNN erzeugten im Vergleich zu allen

drei genannten Modellen deutlich verbesserte Mehrschritt-KQ-Prognosen. Im Einschritt-Fall

hingegen konnte nur die Performance des linearen Modells übertroffen werden.

• Unter den konkurrierenden Zeitreihenmodellen besitzt das ASTAR-Modell weit überlegene

Mehrschritt-Prognoseeigenschaften. Man beachte, daß die MSE(h)-Werte für das Modells nicht

monoton mit h wachsen, sondern temporär nach dem Prognoseschritt h = 4 sinken. Dieses

Modell

Prognoseschritt SAR SETAR SBAR ASTAR

1921-1955 1921-1975 1921-1955 1921-1975 1921-1955 1921-1955

1 212.3 295.2 148.2 243.5 123.8 132.5

2 413.5 647.3 377.4 633.0 337.5 314.8

3 643.5 956.0 655.6 1043.2 569.8 467.3

4 691.9 1056.8 753.4 1327.9 659.0 415.1

5 728.9 1091.9 757.8 1464.7 718.9 367.2

6 750.3 1109.2 830.3 1556.5 732.4 408.0

7 768.1 1135.9 939.9 1677.5 781.7 441.2

8 813.1 1150.9 1041.9 1728.7 833.2 455.1

9 851.7 1179.9 1080.9 1756.4 900.6 -

10 886.3 1209.0 1082.3 1765.0 961.9 -

11 984.0 1353.3 1120.1 1851.0 1013.8 -

12 1181.6 1692.7 1227.0 2048.2 1139.2 -

Tabelle 9.5: Prognoseergebnisse der Zeitreihenmodelle (9.2) bis (9.5). Mittlere quadratische Pro-gnosefehler MSE(h) von h-Schritt-Prognosen für die Sonnenfleckenzahlen in denJahren 1921-1975



Phänomen wurde bereits für die Prognosen des SMLP(9,1,1) und des MLP(12,3,1) beobachtet.

Für kleine Prognoseschritte h übertreffen die ASTAR-Prognosen die KQ-Prognosen des

SMLP(9,1,1) deutlich. Mit wachsendem Prognosehorizont scheinen sich die Performanceunter-

schiede zu nivellieren. Ein eindeutiges 'Ranking' von ASTAR-Modell und MLP(12,3,1) ist

aufgrund der vorliegenden Ergebnisse nicht möglich. Die mittleren quadratischen Fehler der

ASTAR-Prognosen sind kleiner als die MSE(h)-Werte der KQ-Prognosen und größer als die

MSE(h)-Werte der I-Prognosen des KNN.

Der Performancevergleich KNN versus ASTAR-Modell leidet unter dem Umstand, daß für das

ASTAR-Modell nur Kennzahlen von (iterativen) h-Schritt-Prognosen mit maximalem Horizont h = 8

über den Zeitraum 1921-1955 zur Verfügung standen. Die Ergebnisse lassen jedoch vermuten, daß

das ASTAR-Modell und das MLP(12,3,1)-Netz durchaus vergleichbare Mehrschritt-Prognose-

eigenschaften besitzen und beide eine gegenüber den Konkurrenten verbesserte Prognoseperfor-

mance aufweisen.

9.4 Regionprognosen

Das SMLP(9,1,1) und das MLP(12,3,1) besitzen sehr unterschiedliche Mehrschritt-Prognose-

eigenschaften. Eine interessante Frage ist, wie sich diese Unterschiede auf Regionprognosen beider

Netze auswirken. Zur Untersuchung der Fragestellung wurden Maximum-Bedingte-Dichte-Intervalle

(MBDI) und Maximum-Bedingte-Dichte-Regionen (MBDR) mit einer Überdeckungswahrschein-

lichkeit von α = 0.5 bzw. α = 0.75 geschätzt. Als Prognoseursprung wurde der Zeitpunkt t = 1920

gewählt. Der Prognosehorizont reichte über 24 Jahre bis ins Jahr 1944. Zur Schätzung der h-Schritt-

Prognoseregionen wurde der in Kapitel 8.2 vorgestellte (naive) Bootstrap-Ansatz mit anschließender

Kerndichteschätzung eingesetzt. Für jeden Prognoseschritt h basieren die Schätzungen auf S =

50000 residuengetriebenen Simulationen der beiden KNN. Die Ergebnisse sind graphisch in den

Abbildungen 9.5 und 9.6 dargestellt. Es werden Gemeinsamkeiten aber auch markante Unterschiede

der Regionprognosen sichtbar.

•• MLP(12,3,1)

Die Abbildung 9.5 zeigt die h-Schritt-B-Punktprognosen und die h-Schritt-MBDI (h = 1,..

.., 24) des MLP(12,3,1)-Netzes. Im Prognosezeitraum wurden zwei vollständige Sonnenzyklen

beobachtet. Sie werden recht zuverlässig durch die B-Prognosen des Netzes vorhergesagt. Der

mittlere quadratische Prognosefehler ist mit 127.2 nur marginal größer als die Residualvarianz des

KNN.



Das Netz erzeugte für alle Schritte h unimodale Prognosedichten. Die abgebildeten MBDI sind

somit zugleich MBDR. Interessant ist, daß die Breite der Prognoseintervalle deutlich mit dem

jeweiligen Prognoseschritt variiert. Während die MBDI in Prognoseabstiegsphasen auch für

großes h eng bleiben, dehnen sie sich in Anstiegsphasen stark aus. Dies reflektiert den

Tatbestand, daß die Amplituden der im Anpassungsbereich der Reihe beobachteten Zyklen stark

schwanken. Die Prognose des Anstiegs eines Sonnenzyklus ist mit großer Unsicherheit

verbunden. Aufgrund der guten Prognoseeigenschaften des Netzes decken die Prognoseintervalle

die tatsächlich ermittelten Sonnenfleckenzahlen zuverlässig ab. Lediglich die Beobachtung für das

Jahr 1930 fällt aus den MBDI mit α = 0.5 und α = 0.75 heraus.

•• SMLP(9,1,1)

Im Vergleich zum MLP(12,3,1)-Konkurrenten lieferte das SMLP(9,1,1) für große Progno-

seschritte h eher vage B-Punktprognosen der Sonnenfleckenzahlen. Der über den Zeitraum

1921-1944 berechnete mittlere quadratische Prognosefehler beträgt 258.6. Er ist approximativ

doppelt so groß ist wie der für das MLP(12,3,1) ermittelte MSE-Wert.

Wie bereits erwähnt, ist die Vorhersage des Anstiegs eines Sonnenzyklus mit erhöhter Un-

sicherheit verbunden. In Prognoseanstiegsphasen erzeugte das KNN bedingte Prognose-

verteilungen mit stark anwachsenden Varianzen. Ferner sind hier die generierten Prognosedichten

ausgeprägt rechtsschief und weisen in der Nähe von 'Prognosegipfeln' eine bimodale Form auf.

Das nicht-monotone Anwachsen der bedingten Varianzen wird durch die Intervallbreiten der in

Abbildung 9.6a dargestellten h-Schritt-MBDI aufgezeigt. Die Intervalle weiten sich in den

1920 1925 1930 1935 1940 1945

-40

0

40

80

120

160ZeitreihenwerteB-Prognosen

Abb. 9.5: h-Schritt-B-Prognosen und h-Schritt-MBDI (h = 1,2,...,24) des MLP(12,3,1) für dieSonnenfleckenzahlen in den Jahren 1921-1944 im Prognoseursprung t = 1920.[starke vertikale Linien: MBDI mit α = 0.5; dünne vertikale Linien: MBDI mit α = 0.75]



Anstiegsphasen stark aus, um sich anschließend in den Abstiegsphasen wieder temporär zu

verengen. Die MBDI mit der vorgegebenen Überdeckungswahrscheinlichkeit α = 0.5 sind in den

Anstiegsphasen nicht innerhalb der MBDI mit α = 0.75 zentriert. Dies verweist auf die Schiefe

der Prognosedichten. In der Umgebung von Prognosegipfeln (1926-1928 und 1936-1938) sind

die MBDI und die MBDR verschieden (siehe die Abbildungen 9.6b und 9.6c). Die MBDR

zerfallen hier jeweils in zwei disjunkte Teilintervalle und reflektieren so die Bimodalität der

bedingten Prognosedichten. Ein Vergleich der Abbildungen 9.5 und 9.6 zeigt, daß für große

Prognoseschritte h die Regionen des SMLP(9,1,1) substanziell größer sind als die h-Schritt-

MBDI des MLP(12,3,1).

Die Unterschiede in den Regionprognosen beider KNN sind im wesentlichen auf die limitierten

Langfrist-Prognoseeigenschaften des SMLP(9,1,1)-Netzes zurückzuführen. Es darf vermutet

werden, daß die Regionprognosen des SMLP(9,1,1) die tatsächliche Prognoseunsicherheit

überzeichnen. Speziell das Auftreten bimodaler Prognosedichten kann als Artefakt gewertet werden,

dessen Ursache in den statistischen Eigenschaften des Netzes und nicht in den statistischen

Eigenschaften des datenerzeugenden stochastischen Prozeß zu suchen ist.

Abschließend muß angemerkt werden, daß die Prognoseregionen beider Netze in den 'Prognose-

tälern' deutlich in den Bereich der negativen reellen Zahlen hineinreichen. Da die Zeitreihenwerte stets

nicht-negative reelle Zahlen sind, ist folglich der Aussagegehalt dieser Prognoseregionen stark

eingeschränkt. Eine pragmatische Lösung des Problems kann durch eine geeignete Transformation

der Zeitreihenwerte erreicht werden, z.B. durch eine Quadratwurzeltransformation (vgl. Tong [1990,

S.420ff]). Auf der Basis der transformierten Daten wird ein KNN trainiert und zur Schätzung von h-

Schritt-Prognosedichten eingesetzt. Anschließend werden die geschätzten Dichten auf die Skala der

Originaldaten retransformiert und können jetzt zur Berechnung von Prognoseregionen genutzt

werden. Die Verwendung der Quadratwurzeltransformation erzwingt, daß die resultierenden

Regionen Teilmengen der Menge der nicht-negativen reellen Zahlen sind. Auf eine detaillierte

Darstellung der Vorgehensweise und ihrer Ergebnisse wird hier verzichtet.



1920 1925 1930 1935 1940 1945

-40

0

40

80

120

160 Zeitreihenwerte

B-Prognosen

(a)

1920 1925 1930 1935 1940 1945

-40

0

40

80

120

160 Zeitreihenwerte

B-Prognosen

(b)

1920 1925 1930 1935 1940 1945

-40

0

40

80

120

160 Zeitreihenwerte

B-Prognosen

(c)

Abb. 9.6: h-Schritt-B-Prognosen und h-Schritt-Regionprognosen (h=1,2,...,24) des SMLP(9,1,1) fürdie Sonnenfleckenzahlen in den Jahren 1921-1944 im Prognoseursprung t = 1920.[Abb. 9.6a: MBDI mit α = 0.5 (starke vertikale Linien) und α = 0.75 (dünne vertikaleLinien); Abb. 9.6b: MBDR mit α = 0.5; Abb. 9.6c: MBDR mit α = 0.75]


229

10 SCHLUSSBEMERKUNGEN

Künstliche Neuronale Netze, speziell die in diesem Buch im Vordergrund stehende Klasse der

Mehrschicht-Perzeptrone, finden seit einigen Jahren große Beachtung als vielseitig verwendbare

datenanalytische Werkzeuge. Mit hervorgerufen wurde das Interesse sicherlich durch die Faszina-

tion, die von der Idee, Erkenntnisse über Organisationsstrukturen und Verarbeitungsmechanismen

biologischer Nervensysteme zur Konstruktion lernfähiger Informationsverarbeitungssysteme zu

nutzen, ausgeht.

Aus einer formalen, statistisch-mathematischen Sicht können Mehrschicht-Perzeptrone als flexible,

quasi-parametrische Funktionsapproximatoren aufgefaßt werden, die aus einfachen, nichtlinearen

Basisfunktionen, den sogenannten verborgenen Verarbeitungseinheiten, aufgebaut sind. Überwachte

Lernverfahren, wie der Backpropagation-Algorithmus und seine Varianten, gestatten es, die Netz-

werke zur Lösung vielfältiger nichtlinearer Regressionsprobleme, einschließlich der Zeitreihenpro-

gnose, einzusetzen (Kapitel 5).

In der vorliegenden Arbeit wurden Mehrschicht-Perzeptrone als eine spezifische Klasse nichtlinearer

autoregressiver Modelle zur Prognose univariater stationärer Zeitreihen motiviert (Kapitel 6). Da die

unterschiedlichsten Formen nichtlinearer Dynamik in Zeitreihen auftreten können, erfordert die Pro-

gnose ein entsprechend flexibles Instrumentarium. Mehrschicht-Perzeptrone stellen diesbezüglich

eine wertvolle Ergänzung des verfügbaren statistischen Instrumentariums dar, weil sie es dem An-

wender gestatten, die Modellflexibilität durch Variation der Basisfunktionenanzahl im Netzwerk oder

durch Regularisierungstechniken zu steuern. So können sowohl einfache als auch hoch flexible, in

ihrem Wesen nichtparametrische Modelle gebildet werden.

Der praktische Prognoseeinsatz der Netzwerke erfordert die Lösung zweier Problembereiche:

(i) Die Spezifikation eines prognosetauglichen Netzwerkes;

(ii) Die geeignete Nutzung des spezifizierten Netzwerkes zur Prognose.

Beide Problembereiche sind mit den heute verfügbaren Hilfswerkzeugen i.d.R. nicht einfach lösbar,

so daß Bedarf nach verbesserten Methoden besteht.

In der konnektionistischen Literatur wird vielfach behauptet, daß die Netzwerkspezifikation weit-

gehend durch Einsatz der Stopp-Training-Prozedur automatisierbar sei, "... so that people with little


230 SCHLUSSBEMERKUNGEN

knowledge of either forecasting or neural nets can prepare reasonable forecasts in short space of

time" (Hoptroff [1993], zitiert nach Chatfield [1996, S.209]). Wie in Kapitel 6.3 ausgeführt, ist das

Stopp-Training in zeitreihenanalytischen Anwendungen statistisch allerdings nicht zu rechtfertigen.

Neben Stopp-Training stehen weitere Spezifikationswerkzeuge zur Verfügung, die jedoch zumeist

mit einem sehr hohen Rechenaufwand verbunden sind und/oder umfangreiche Datensätze erfordern.

Insbesondere dann, wenn nur 'kurze' Zeitreihen (beispielsweise mit weniger als 200 Beobachtungen)

als Lerndaten gegeben sind, verlangt die Netzwerkspezifikation vom Anwender - wie jede andere

Form der nichtlinearen Modellierung auch - im hohen Maße Erfahrung und subjektives Urteilsver-

mögen. Im Bereich der Entwicklung von Spezifikationsverfahren bleibt somit noch ein erheblicher

Forschungsbedarf.

In den Kapiteln 7, 8 und 9 wurden verschiedene Techniken zur Ermittlung von Mehrschritt-Punkt-

prognosen und Mehrschritt-Regionprognosen diskutiert und deren Einsatz am Beispiel simulierter

Zeitreihen und einer empirischen Reihe untersucht.

Die übliche praktische Vorgehensweise der Mehrschritt-Punktprognose ist die iterative oder deter-

ministische Technik. Diese Technik, obwohl suboptimal im Sinne des MSE-Kriteriums, kann zu

befriedigenden Ergebnissen führen, wenn der 'Rauschanteil' im datenerzeugenden Prozeß gering ist

oder wenn ein datenerzeugender Prozeß mit moderatem Rauschanteil und ausgeprägt zyklischem

Verhalten vorliegt. Dies zeigte sich sowohl in Anwendungen auf simulierte Reihen (Kapitel 7.3) als

auch in der Anwendung auf die empirische Reihe der Wolf'schen Sonnenflecken (Kapitel 9). Anson-

sten besteht die Gefahr, daß deterministische Prognosen einen substantiellen Bias und inflationär

große mittlere quadratische Prognosefehler aufweisen. Der Einsatz rechenintensiver Verfahren wie

die rekursive Kleinste-Quadrate-Prognose, die Bootstrap-Prognose oder - mit Einschränkungen -

die direkte Prognose kann hier mit einem deutlichen Gewinn an Prognosegenauigkeit belohnt werden

(Kapitel 7.3).

Prognoseregionen sind Instrumente zur Beschreibung der Prognoseunsicherheit. In Kapitel 8 wurden

zwei interessante Ansätze von Hyndman [1995] und Yao [1996] - die Maximum-Bedingte-Dichte-

Region und das Maximum-Bedingte-Dichte-Intervall - diskutiert und eine 'naive' Monte-Carlo- und

Bootstrap-Schätzung der Prognoseregionen mittels Künstlicher Neuronaler Netze vorgeschlagen.

Diese auf Simulationstechniken basierenden Vorgehensweisen führen zu brauchbaren Ergebnissen,

wenn umfangreiche Datensätze verfügbar sind. Im Falle kurzer Zeitreihen besteht jedoch die Gefahr

einer Schätzung ungerechtfertigt kleiner Regionen, die die tatsächliche Prognoseunsicherheit unter-

zeichnen. Auch hier besteht noch ein erheblicher Forschungsbedarf zur Entwicklung verbesserter

Schätztechniken für kurze Zeitreihen. Eine interessante Perspektive eröffnet auch die direkte

Schätzung von Prognosedichten ohne Verwendung von Simulationstechniken. Die bisherigen Vor-


SCHLUSSBEMERKUNGEN 231

schläge zur direkten Schätzung (siehe z.B. Weigend & Srivastava [1994]) zeichnen sich allerdings

noch durch einen enorm hohen Datenbedarf aus.

Bei aller Faszination, die Künstliche Neuronale Netze verständlicherweise hervorrufen, bleibt somit

zusammenfassend festzuhalten, daß zum gegenwärtigen Zeitpunkt eine Reihe von Fragen noch unbe-

antwortet sind. Auf die Phase der teilweise unkritischen Begeisterung für die vielfältigen Einsatzmög-

lichkeiten Künstlicher Neuronaler Netze muß daher eine Phase der wissenschaftlichen Konsolidie-

rung folgen. Nichtzuletzt auch für die Statistik bietet sich diesbezüglich ein weites Feld für zukünftige

Forschungsbemühungen.


233

LITERATURVERZEICHNIS

Ackley, D.H., G.E. Hinton & T.J. Sejnowski [1985]: A learning algorithm for Boltzmann Maschines;Cognitive Science, 9, 147-169

Akaike, H. [1969]: Fitting autoregressions for predictions; Annals of the Institute of StatisticalMathematics, 21, 243-247

Akaike, H. [1970]: Statistical predictor identification; Annals of the Institute of StatisticalMathematics, 22, 203-217

Akaike [1974]: A new look at the statistical model identification; IEEE Transactions on AutomaticControl, AC-19, 716-723

Alberts, B., D. Bray, J. Lewis, M. Raff, K. Roberts & J.D. Watson [1987]: Molekularbiologie derZelle; Weinheim: VCH

Alberts, B., A. Johnson, J. Lewis, M. Raff, K. Roberts & P. Walter [2002]: Molecular biology ofthe cell, 4th ed.; New York: Garland Science

Al-Qas sem, M.S. & J.A. Lane [1989]: Forecasting exponential autoregressive models of order 1;Journal of Time Series Analysis, 10, 95-113

Arbib, M.A. [1987]: Brains, maschines and mathematics, 2nd ed.; New York et al.: Springer

Bauer, H. [1974]: Wahrscheinlichkeitstheorie und Grundzüge der Maßtheorie, 2. Aufl.; Berlin, NewYork: de Gruyter

Bhaskara Rao, M., T. Subba Rao & A.M. Walker [1983]: On the existence of some bilinear timeseries models; Journal of Time Series Analysis, 4, 95-110

Birkenfeld, W. [1977]: Methoden zur Analyse von kurzen Zeitreihen; Basel, Stuttgart: Birkhäuser

Birkenfeld, W. & R. Schuhr [1985]: Zur Theorie und Technik der Auswahl von AR-Teilmodellen inder Zeitreihenanalyse; in: Prace Naukove. Akademii Ekonomicznej imienia Oskara Langego, Nr.301, 167-186; Wroclaw

Bishop, C.M. [1995]: Neural networks for pattern recognition; Oxford: Clarendon Press

Block, H.D. [1962]: The perceptron: a model for brain functioning. I; Reviews of Modern Physics,34, 123-135

Blum, J. [1954]: Multivariate stochastic approximation methods; Annals of Mathematical Statistics,25, 737-744

Blum, E.K. & L.K. Li [1991]: Approximation theory and feedforward networks; Neural Networks, 4,511-516

Bodewig, E. [1956]: Matrix calculus; Amsterdam: North Holland


234 LITERATURVERZEICHNIS

Bollerslev, T. [1986]: Generalized autoregressive conditional heteroskedasticity; Journal ofEconometrics, 31, 307-327

Bollerslev, T., R.F. Engle & D.B. Nelson [1994]: ARCH models; in: R.F. Engle & D. McFadden(eds.): Handbook of econometrics, Vol. IV, 2959-3038; Amsterdam et al.: Elsevier

Box, G.E.P. & G.M. Jenkins [1970]: Time series analysis, forecasting and control; San Francisco etal.: Holden-Day

Breidt, F.J., R.A. Davis & W.T.M. Dunsmuir [1995]: Improved bootstrap prediction intervals forautoregressions; Journal of Time Series Analysis, 16, 177-200

Brent, R. P. [1974]: Algorithm 488; Communications of the Association for Computing Machinery,17, 704

Brockwell, P.J. & R.A.Davies [1991]: Time series: theory and methods, 2nd ed.; New York et al.:Springer

Brown, B.W. & R.S. Mariano [1989]: Predictors in dynamic nonlinear models: Large-samplebehavior; Econometric Theory, 5, 430-452

Broyden, C.G. [1970]: The convergence of a class of double rank minimization algorithms, part I andII; Journal of the Institute of Mathematics and its Applications, 6, 76-90 and 222-231

Bryson, A.E. & Y.-C. Ho [1969]: Applied optimal control; New York: Blaisdell

Buchholtz, C. [1982]: Grundlagen der Verhaltensphysiologie; Braunschweig, Wiesbaden: Vieweg

Burman, P., E. Chow & D. Nolan [1994]: A cross-validatory method for dependent data;Biometrika, 81, 351-358

Carpenter, G. & S. Grossberg [1987]: ART 2: Self-organization of stable category recognition codesfor analog input patterns; Applied Optics, 26, 4919-4930

Carpenter, G. & S. Grossberg [1990]: ART 3: Hierarchical search using chemical transmitters inself-organizing pattern recognition architectures; Neural Networks, 3, 129-152

Cater, J.P. [1987]: Successfully using peak learning rates of 10 (and greater) in back-propagationnetworks with the heuristic learning algorithm; in: M. Caudill & C. Butler (eds.): Proceedings ofthe First IEEE International Conference on Neural Networks, San Diego, CA, 1987, Vol. II, 645-651; New York: IEEE Press

Chan, K. S. & H. Tong [1986]: On estimating thresholds in autoregressive models; Journal of TimeSeries Analysis, 7, 179-190

Chatfield, C. [1993]: Calculating interval forecasts; Journal of Business & Economic Statistics, 11,121-144

Chatfield, C. [1996]: The analysis of time series: An introduction, fifth ed.; London et al.: Chapman& Hall

Chen, R. & R.S. Tsay [1993]: Functional-coefficient autoregressive models; Journal of the AmericanStatistical Association, 88, 298-308

Cheng, B. & D.M. Titterington [1994]: Neural networks: A Review from a statistical perspective;Statistical Science, 9, 2-54


LITERATURVERZEICHNIS 235

Cybenko, G. [1989]: Approximation by superpositions of a sigmoid function; Mathematics of Control,Signals, and Systems, 2, 303-314

D'Agostino, R.B. [1986]: Graphical analysis; in: R.B. D'Agostino & M.A. Stephens (eds.):Goodness-of-fit-techniques, 7-62; New York, Basel: Marcel Dekker

De Gooijer, J.G. & K. Kumar [1992]: Some recent developments in non-linear time series modelling,testing, and forecasting; International Journal of Forecasting, 8, 135-156

De Groot, C. & D. Würtz [1991]: Analysis of univariate time series with connectionist nets: a casestudy of two classical examples; Neurocomputing, 3, 177-192

Dennis Jr., J.E. & J.J. More [1977]: Quasi-Newton methods, motivation, and theory; SIAM Review,19, 46-89

Domowitz, I. & H. White [1982]: Misspecified models with dependent observations; Journal ofEconometrics, 20, 35-58

Doob, J.L. [1953]: Stochastic processes; New York, London, Sydney: Wiley

Engle, R.F. [1982]: Autoregressive conditional heteroskedasticity with estimates of the variance ofUnited Kingdom inflation; Econometrica, 50, 987-1007

Fahrmeir, L., H. Kaufmann & F. Ost [1981]: Stochastische Prozesse. Eine Einführung in Theorieund Anwendungen; München, Wien: Hanser

Fletcher, R. [1970]: A new approach to variable metric algorithms; Computer Journal, 13, 317-322

Fletcher, R. [1987]: Practical methods of optimization, 2nd ed.; Chichester et al.: Wiley

Friedman, J.H. [1991]: Multivariate adaptive regression splines (with discussion); Annals ofStatistics, 19, 1-141

Friedman, J.H. & W. Stuetzle [1981]: Projection pursuit regression; Journal of the AmericanStatistical Association, 76, 817-823

Frohn, J. [1995]: Grundausbildung in Ökonometrie, 2. Aufl.; Berlin, New York: de Gruyter

Funahashi, K. [1989]: On the approximate realization of continuous mappings by neural networks;Neural Networks, 2, 183-192

Gallant, A.R. & H. White [1988]: A unified theory of estimation and inference for nonlinear dynamicmodels; Oxford, New York: Basil Blackwell

Gauß, C.F. [1823]: Theoria combinationis observationum erroribus minimis obnoxiae; in:Commentationes societates Gottingensis recentiones, Vol. V, ad annos 1819-22, S.38-90,Göttingen 1823; Supplementum ,Vol. VI, ad annos 1823-27, S. 57-98

Geisser, S. [1975]: The predictive sample reuse method with applications; Journal of the AmericanStatistical Association, 70, 320-328

Geman, S., E. Bienenstock & R. Doursat [1992]: Neural networks and the bias/variance dilemma;Neural Computation, 4, 1-58

Goldfarb, D. [1970]: A family of variable metric methods derived by variational means; Mathematicsof Computation, 24, 23-26



Goldfeld, S.M. , R.E. Quandt & H.F. Trotter [1966]: Maximization by quadratic hill-climbing;Econometrica, 34, 541-551

Goldfeld, S.M. & R.E. Quandt [1976]: Nonlinear methods in econometrics, 2nd ed.; Amsterdam,New York, Oxford: North-Holland

Granger, C.W.J. & A.P. Andersen [1978]: An introduction to bilinear time series models;Göttingen: Vandenhoeck und Ruprecht

Granger, C.W.J. & T. Teräsvirta [1993]: Modelling nonlinear economic relationships; Oxford etal.: Oxford University Press

Grenander, U. [1981]: Abstract inference; New York et al.: Wiley

Härdle, W. & O. Linton [1994]: Applied nonparametric methods; in: R.F. Engle & D. McFadden(eds.): Handbook of econometrics, Vol. IV, 2295-2339; Amsterdam et al.: Elsevier

Härdle, W., H. Lütkepohl & R. Chen [1997]: A review of nonparametric time series analysis;International Statistical Review, 65, 49-72

Hagan, M.T. & M.B. Menhaj [1994]: Training feedforward networks with the Marquardt algorithm;IEEE Transactions on Neural Networks, 5, 989-993

Haggan, V. & T. Ozaki [1981]: Modelling nonlinear random vibrations using an amplitude-dependentautoregressive time series model; Biometrika, 68, 189-196

Hallin, M. [1980]: Invertibility and generalised invertibility of time series models; Journal of theRoyal Statistical Society, Series B, 42, 210-212; Addendum [1981], 43, 103

Hannan, E.J. [1970]: Multiple time series; New York et al.: Wiley

Hannan, E.J. [1980]: The estimation of the order of an ARMA process; The Annals of Statistics, 8,1071-1081

Hannan, E.J. & G.B. Quinn [1979]: The determination of the order of an autoregression; Journal ofthe Royal Statistical Society, Series B, 41, 190-195

Harvey, A. [1990]: The econometric analysis of time series, 2nd ed.; New York et al.: Philip Allan

Hastie, T.J. & R.J. Tibshirani [1990]: Generalized additive models; London: Chapman & Hall

Haykin, S. [1994]: Neural networks; New York: Macmillan College Publishing

Hebb, D.O. [1949]: The organization of behaviour; New York: Wiley

Hecht-Nielsen, R. [1989]: Theory of the back-propagation neural network ; in: Proceedings of theInternational Joint Conference on Neural Networks, Washington, D.C., 1989, Vol. I, 593-606; NewYork: IEEE Press

Hertz, J., A. Krogh & R.G. Palmer [1991]: Introduction to the theory of neural computation;Redwood City et al.: Addison-Wesley

Hinton, G.E. [1986]: Learning distributed representations of concepts; in: Proceedings of the EighthAnnual Conference of the Cognitive Science Society, Amherst, 1986, 1-12; Hillsdale: Erlbaum



Hinton, G.E. & T.J. Sejnowski [1986]: Learning and relearning in Boltzmann Maschines; in: D.E.Rumelhart & J.L. McClelland (eds.): Parallel Distributed Processing: Explorations in the micro-structures of cognition, Vol. I, 282-317; Cambridge: M.I.T. Press

Hoerl, A.E. & R.W. Kennrad [1970a]: Ridge regression. Biased estimation for nonorthogonalproblems; Technometrics, 12, 55-67

Hoerl, A.E. & R.W. Kennrad [1970b]: Ridge regression. Applications to nonorthogonal problems;Technometrics, 12, 69-82

Hopfield, J.J. [1982]: Neural networks and physical systems with emergent collective computationalabilities; Proceedings of the National Academy of Science U.S.A., 79, 2554-2558

Hopfield, J.J. [1984]: Neurons with graded response have collective computational properties likethose of two-state neurons; Proceedings of the National Academy of Science U.S.A., 81, 3088-3092

Hoptroff, R.G. [1993]: The principles and practice of time series forecasting and business modellingusing neural nets; Neural Computing & Applications, 1, 59-66

Hornik, K., M. Stinchcombe & H. White [1989]: Multi-layer feedforward networks are universalapproximators; Neural Networks, 2, 551-560

Hyndman, R. [1995]: Highest-density forecast regions for non-linear and non-normal time seriesmodels; Journal of Forecasting, 14, 431-441

Iosifescu, M. & R. Theodorescu [1969]: Random processes and learning; New York et al.: Springer

Izenman, A.J. [1983]: J. R. Wolf and H. A. Wolfer: An historical note on the Zurich sunspot relativenumbers; Journal of the Royal Statistical Society, Series A, 146, 311-318

Jacobs, R.A. [1988]: Increased rates of convergence through learning rate adaption; NeuralNetworks, 1, 295-307

Kabaila, P. [1993]: On bootstrap predictive inference for autoregressive processes; Journal of TimeSeries Analysis, 14, 473-484

Kasparian, V., C. Batur, H. Zhang & J. Padovan [1994]: Davidon least squares-based learningalgorithm for feedforward neural networks; Neural Networks, 7, 661-670

Kautsky, J. & S. Elhay [1982]: Calculation of the weights of interpolatory quadratures; Numer.Math., 40, 407-422

Kay, J.W. & D.M. Titterington [2000]: Statistics and neural networks: Advances at the interface;Oxford: Oxford University Press

Kennedy, W.J. & J.E. Gentle [1980]: Statistical computing; New York, Basel: Marcel Dekker

Kiefer, J. & J. Wolfowitz [1952]: Stochastic estimation of the maximum of a regression funktion;Annals of Mathematical Statistics, 23, 462-466

Kirkpatrick, S., C.D. Gelatt Jr. & M.P. Vecchi [1983]: Optimization by simulated annealing;Science, 220, 671-680

Kleijnen, J. & W. van Groenendaal [1992]: Simulation. A statistical perspective; Chichester et al.:Wiley



Kohonen, T. [1982]: Self-organized formation of topologically correct feature maps; BiologicalCybernetics, 43, 59-69

Kohonen, T. [1984]: Self-organization and associative memory; Berlin: Springer

Kosko, B. [1988]: Bidirectional associative memories; IEEE Transactions on Systems, Man andCybernetics, 18, 49-60

Kuan, C.-M. & K. Hornik [1991]: Convergence of learning algorithms with constant learning rates;IEEE Transactions on Neural Networks, 2, 484-489

Kuan, C.-M. & H. White [1989]: Recursive M-estimation, nonlinear regression and neural networklearning with dependent observations; UCSD Department of Economics discussion paper

Kuan, C.-M. & H. White [1994]: Artificial neural networks: an econometric perspective;Econometric Reviews, 13, 1-91

Kushner, H. [1987]: Asymptotic global behavior for stochastic approximations and diffusions withslowly decreasing noise effects: global minimization via Monte Carlo ; SIAM Journal on AppliedMathematics, 47, 169-185

Le Cun, Y. [1985]: Une Procédure d'Apprentissage pour Réseau à Seuil Assymétrique ; in: Cognitiva85: A la Frontière de l'Intelligence Artificielle des Sciences de la Connaissance des Neurosciences,Paris, 599-604; Paris: CESTA

Lee, T.-H., H. White & C.W.J. Granger [1993]: Testing the neglected nonlinearity in time seriesmodels; Journal of Econometrics, 56, 269-290

Leisch, F., A. Trapletti & K. Hornik [1999]: Stationarity and stability of autoregressive neural net-work processes; in: M.S. Kearns, S.A. Solla & D.A. Cohn (eds.): Advances in neural informationprocessing systems, Vol. XI, 267-273; Cambridge, Mass.: MIT Press

Levenberg, K. [1944]: A method for the solution of certain nonlinear problems in least squares;Quarterly of Applied Mathematics, 2, 164-168

Lewis, P.A.W. & J.G. Stevens [1991]: Nonlinear modeling of time series using multivariate adaptiveregression splines (MARS); Journal of the American Statistical Association, 86, 864-877

Lin, J.-L. & C.W.J. Granger [1994]: Forecasting from non-linear models in practice; Journal ofForecasting, 13, 1-9

Lippmann, R.P. [1987]: An introduction to computing with neural nets; IEEE ASSP Magazine, 4,4-22

Ljung, G.M. & G.E.P. Box [1978]: On a measure of lack of fit in times series models; Biometrika,65, 297-303

Luukkonen, R., P. Saikkonen & T. Teräsvirta [1988]: Testing linearity against smooth transitionautoregressive models; Biometrika, 75, 491-499

MacKay, D.J.C. [1995]: Bayesian methods for neural networks: Theory and applications; TechnicalReport, Cavendish Laboratory, Cambridge, CB3 0HE, U.K.



Mariano, R.S. & B.W. Brown [1989]: Stochastic simulation, prediction and validation of nonlinearmodels; in: L.R. Klein & Marquez, J. (eds.): Economics in theory and practice: an eclecticapproach, 17-36; Amsterdam: Kluwer Academic Publishers

Marquardt, D.W. [1963]: An algorithm for least squares estimation of non linear parameters;Journal of the Society of Industrial Applied Mathematics, 2, 431-441

McCulloch, W.S. & W. Pitts [1943]: A logical calculus of the ideas immanent in nervous activity;Bulletin of Mathematical Biophysics, 5, 115-133

McLeod, A.I. & W.K. Li [1983]: Diagnostic checking ARMA time series models using squared-residual autocorrelations; Journal of Time Series Analysis, 4, 269-273

Miller, M. [1994]: Das Optimieren von Neuronalen Netzen für den Einsatz zur Prognose in der Öko-nomie; in: G. Bol, G. Nakhaeizadeh & K.-H. Vollmer (Hrsg.): Finanzmarktanwendungenneuronaler Netze und ökonometrische Verfahren: Ergebnisse des 4. Karlsruher Ökonometrie-Workshops, 125-147; Heidelberg: Physica

Minsky, M. & S. Papert [1969]: Perceptrons; Cambridge, Mass.: MIT Press

Moeanaddin, R. [1991]: Approximating multi-step non-linear least squares prediction of thresholdautoregressive models; Paper presented at the IMS Philadelphia meeting 1991

Moeanaddin, R. & H. Tong [1990]: Numerical evaluation of distributions in non-linear autoregres-sion; Journal of Time Series Analysis, 11, 33-48

Moody, J.E. [1992]: The effective number of parameters: An analysis of generalization andregularization in nonlinear learning systems; in J.E. Moody, S.J. Hanson & R.P. Lippmann (eds.):Advances in neural information processing systems 4, 847-854; San Mateo, CA: MorganKaufmann

Moody, J.E. & C. Darken [1989]: Fast learning in networks of locally-tuned processing units;Neural Computation, 1, 281-294

Moran, P.A.P. [1954]: Some experiments on the prediction of sunspot numbers; Journal of the RoyalStatistical Society, Series B, 16, 112-117

Morris, M.J. [1977]: Forecasting the sunspot cycle; Journal of the Royal Statistical Society, Series A,140, 437-468

Murata, N., S. Yoshizawa & S. Amari [1991]: A criterion for determining the number of parametersin an artificial neural network model; in T. Kohonen, K. Mäkisara, O. Simula & J. Kangas (eds.):Artificial neural networks, Vol. 1, 9-14; Amsterdam et al.: North-Holland

Nauck, D., F. Klawonn & R. Kruse [1996]: Neuronale Netze und Fuzzy-Systeme: Grundlagen desKonnektionismus, Neuronaler Fuzzy-Systeme und der Kopplung mit wissensbasierten Methoden, 2.Auflage; Braunschweig: Vieweg

Neuneier, R., F. Hergert, W. Finnoff & D. Ormoneit [1994]: Estimation of conditional densities: acomparison of neural network approaches; in: M. Mariano & P.G. Morasso (eds.): Proceedings ofthe International Conference on Artifical Neural Networks, Vol. 1, 689-692; New York et al.:Springer



Nicholls, D.F. & B.G. Quinn [1982]: Random coefficient autoregressive models: an introduction;New York et al.: Springer

Ozaki, T. [1982]: The statistical analysis of pertubed limit cycle processes using nonlinear time seriesmodels; Journal of Time Series Analysis, 3, 29-41

Papoulis, A. [1965]: Probability, random variables, and stochastic processes; New York et al.:McGraw-Hill

Parker, D.B. [1982]: Learning logic ; Invention report 581-64, File 1, Office of TechnologyLicensing, Stanford University

Pemberton, J. [1987]: Exact least squares multi-step prediction from nonlinear autoregressivemodels; Journal of Time Series Analysis, 8, 443-448

Petruccelli, J.D. & S.W. Woolford [1984]: A threshold AR(1) model; Journal of Applied Probability,18, 617-627

Poggio, T. & F. Girosi [1990]: Networks for approximation and learning; Proceedings of the IEEE,78, 1481-1497

Press, W.H., B.P. Flannery, S.A.Teukolsky & W.T. Vetterling [1988]: Numerical recipes: the artof scientific computing; Cambridge et al.: Cambridge University Press

Priestley, M.B. [1980]: State-dependent models: a general approach to non-linear time seriesanalysis; Journal of Time Series Analysis, 1, 47-71

Priestley, M.B. [1981]: Spectral analysis and time series, Vol. 1 and 2; London et al.: Academic Press

Riedmiller & Braun [1993]: A direct adaptive method for faster backpropagation learning: theRPROP algorithm; in: H. Ruspini (ed.): Proceedings of the IEEE International Conference onNeural Networks, San Fransisco, 1993, 586-591; New York: IEEE Press

Rinnooy Kan, A.H.G., C.G.E. Boender & G.T. Timmer [1985]: A stochastic approach to globaloptimization; in: K. Schittkowski (ed.): Computational mathematical programming; NATO ASISeries, F15, 281-308; Berlin et al.: Springer

Ripley, B.D. [1993]: Statistical aspects of neural networks; in: O.E. Barndorff-Nielsen, J.L. Jensen &W.S. Kendall (eds.): Networks and chaos - statistical and probabilistic aspects, 40-123; London etal.: Chapman & Hall

Ripley, B.D. [1994]: Neural networks and related methods for classification (with discussion); Journalof the Royal Statistical Society, Series B, 56, 409-456

Ripley, B.D. [1996]: Pattern recognition and neural networks; Cambridge: Cambridge UniversityPress

Ritter, H., T. Martinetz & K. Schulten [1992]: Neuronale Netze. Eine Einführung in die Informatikselbstorganisierter Netzwerke, 2. Aufl.; Bonn et al.: Addison-Wesley

Robbins, H. & S. Monro [1951]: A stochastic approximation method; Annals of MathematicalStatistics, 22, 400-4071

Robinson, P.M. [1983]: Non-parametric estimation for time series models; Journal of Time SeriesAnalysis, 4, 185-208



Rojas, R. [1993]: Theorie der neuronalen Netze: Eine systematische Einführung; Berlin et al.:Springer

Rosenblatt, F. [1958]: The perceptron: a probabilistic model for information storage andorganization in the brain ; Psychological Review, 65, 386-408

Rosenblatt, F. [1962]: Principles of neurodynamics; New York: Spartan

Rosenblatt, M. [1956]: A central limit theorem and a strong mixing condition; Proceedings of theNational Academy of Science, U.S.A., 42, 43-47

Rosenblatt, M. [1978]: Dependence and asymptotic independence for random processes; in: M.Rosenblatt (ed.): Studies in probability theory; Washington, D.C.: Mathematical Association ofAmerica

Rumelhart, D.E., G.E. Hinton & R.J. Williams [1986a]: Learning representations by back-propagating errors; Nature, 323, 533-536

Rumelhart, D.E., G.E. Hinton & R.J. Williams [1986b]: Learning internal representations by errorpropagation; in: D.E. Rumelhart & J.L. McClelland (eds.): Parallel Distributed Processing:Explorations in the microstructures of cognition, Vol. I, 318-362, Cambridge: M.I.T. Press

Sarle, W.S. [1995]: Stopped training and other remedies for overfitting; Technical Report, SASInstitute Inc., Cary, NC 27513, U.S.A.

Schaerf, M.C. [1964]: Estimation of the covariance and autoregressive structure of a stationary timeseries; Ph. D. thesis, Stanford University

Schlittgen, R. [1996]: Statistische Inferenz; München, Wien: Oldenburg

Schlittgen, R. & B. Streitberg [1994]: Zeitreihenanalyse, 5. Aufl.; München, Wien: Oldenburg

Schuhr, B. [1990]: Soziale Haltung und individuelles Lernen bei weiblichen Labormäusen (MusMusculus, Han:NMRI); Dissertation Marburg/Lahn

Schuhr, R. [1991]: Lineare versus nichtlineare Modelle für univariate Zeitreihen: Diagnoseverfahrenund Tests; Frankfurt et al.: Peter Lang

Schuster, H.G. [1989]: Deterministic chaos: an introduction, 2nd rev. ed.; Weinheim et al.: VCH

Schwarz, G. [1978]: Estimating the dimension of a model; Annals of Statistics, 6, 461-464

Seber, G.A. & C.J. Wild [1989]: Nonlinear regression; New York et al.: Wiley

Sejnowski, T.J. & C.R. Rosenberg [1987]: Parallel networks that learn to pronounce English text;Complex Systems, 1, 145-168

Sesay, S.A.O. & T. Subba Rao [1988]: Yule-walker type difference equations for higher-ordermoments and cumulants for bilinear time series models; Journal of Time Series Analysis, 9,385-401

Shanno, D.F. [1970]: Conditioning of quasi-Newton methods for function minimization; Mathematicsof Computation, 24, 647-656

Silverman, B.W. [1986]: Density estimation for statistics and data analysis; London: Chapman &Hall



Silvey, S.D. [1959]: The Lagrangean multiplier test; Annals of Mathematical Statistics, 30, 389-407

Smith, M. [1993]: Neural networks for statistical modeling; New York: Van Nostrand Reinhold

Stephens, M.A. [1986]: Tests based on EDF statistics; in: R.B. D'Agostino & M.A. Stephens (eds.):Goodness-of-fit-techniques, 97-193; New York, Basel: Marcel Dekker

Stinchcombe, M. & H. White [1989]: Universal approximation using feedforward networks withnon-sigmoid hidden layer activation functions; in: Proceedings of the International JointConference on Neural Networks, Washington, D.C., 1989, Vol. I, 612-617, New York: IEEE Press

Stone, M. [1974]: Cross-validatory choice and assessment of statistical predictions; Journal of theRoyal Statistical Society, Series B, 36, 11-147

Stout, W.F. [1974]: Almost sure convergence; New York: Academic Press

Subba Rao, T. [1981]: On the theory of bilinear time series models; Journal of the Royal StatisticalSociety, Series B, 43, 244-255

Subba Rao, T. & M.M. Gabr [1984]: An introduction to bispectral analysis and bilinear time seriesmodels; New York et al.: Springer

Teräsvirta, T. & H.M. Anderson [1993]: Characterizing nonlinearities in business cycles usingsmooth transition autoregressive models; in: M.H. Pesaran & S.M. Potter (eds.): Nonlineardynamics, chaos and econometrics, 111-128; Chichester et al.: Wiley

Teräsvirta, T. & C.-F. J. Lin [1993]: Determining the number of hidden units in a single hidden-layer neural network model; Arbeids Notat 1993/7, Norges Bank, Research Department

Teräsvirta, T., C.-F. Lin & C.W.J. Granger [1993]: Power of the neural network linearity test;Journal of Time Series Analysis, 14, 209-220

Thisted, R.A. [1988]: Elements of statistical computing. Numerical computation; New York, London:Chapman & Hall

Thombs, L.A. & W.R. Schucany [1990]: Bootstrap prediction intervals for autoregression; Journalof the American Statistical Association, 85, 486-492

Tjøstheim, D. [1990]: Non-linear time series and markov chains; Advances in Applied Probabilty,22, 587-611

Tjøstheim, D. [1994]: Nonlinear time series, a selective review; Scandinavian Journal of Statistics,21, 97-130

Tjøstheim, D. & B.H. Auestad [1994]: Nonparametric identification of nonlinear time series:selecting significant lags; Journal of the American Statistical Association, 89, 1410-1419

Tollenaere, T. [1990]: SuperSAB: fast adaptive backpropagation with good scaling properties; NeuralNetworks, 3, 561.573

Tong, H. [1983]: Threshold models in non-linear time series analysis; New York et al.: Springer

Tong, H. [1990]: Non-linear time series: a dynamical system approach; Oxford et al.: OxfordUniversity Press



Tong, H. & K.S. Lim [1980]: Threshold autoregression, limit cycles and cyclical data ; Journal of theRoyal Statistical Society, Series B, 42, 245-292

Tong, H. & R. Moeanaddin [1988]: On multi-step non-linear least squares prediction; TheStatistican, 37, 101-110

Trapletti, A., F. Leisch & K. Hornik [1998]: Stationary and integrated autoregressive neuralnetwork processes; Working Paper No. 24, November 1998, Vienna University of Economics andBusiness Administration, SFB ‚Adaptive Information Systems and Modelling in Economics andManagement Science‘

Trippi, R.R. & E. Turban (eds.) [1996]: Neural networks in finance and investing. Using artificialintelligence to improve real-world performance, 2nd ed.; Chicago, Cambridge: Probus

Tsypkin. Y.Z. [1971]: Adaption and learning in automatic systems; New York: Academic Press

Weigend, A.S. [1991]: Connectionist architectures for time series prediction; Ph. D. thesis, StanfordUniversity

Weigend, A.S., D.E. Rumelhart & B.A. Huberman [1991]: Generalisation by weight-eliminationwith application to forecasting; in: R.P. Lippman, J.E. Moody & D.S. Touretzky (eds.): Advancesin neural information processing systems 3, 875-882; San Mateo, California: Morgan KaufmanPublishers

Weigend, A.S., B.A. Huberman & D.E. Rumelhart [1992]: Predicting sunspots and exchange rateswith connectionist networks; in: M. Casdagli & S. Eubank (eds.): Nonlinear modeling and fore-casting, 395-432; Redwood City et al.: Addison-Wesley

Weigend, A.S. & A.N. Srivastava [1995]: Predicting conditional probability distributions: aconnectionist approach; Technical Report, University of Colorado at Boulder, Department ofComputer Science

Werbos, P.J. [1974]: Beyond regression: New tools for prediction and analysis in behavioral sciences;Ph. D. Thesis, Harvard University

White, H. [1981]: Consequences and detection of misspecified nonlinear regression models; Journalof the American Statistical Association, 76, 419-433

White, H. [1984]: Asymptotic theory for econometricians; Orlando et al.: Academic Press

White, H. [1989a]: Some asymptotic results for learning in single hidden layer feedforward networks;Journal of the American Statistical Association, 84, 1008-1013

White, H. [1989b]: Learning in artificial neural networks: a statistical perspective; NeuralComputation, 1, 425-464

White, H. [1989c]: An additional hidden unit test for neglected non-linearity in multilayerfeedforward networks; in: Proceedings of the International Joint Conference on Neural Networks,Washington, D.C., 1989, Vol. II, 451-455; New York: IEEE Press

White, H. [1990]: Connectionist nonparametric regression: multilayer feedforward networks canlearn arbitrary mappings; Neural Networks, 3, 535-550



White, H. [1992a]: Parametric statistical estimation with artifical neural networks; Discussion Paper92-13, March 1992, University of Carlifornia, San Diego, Department of Economics

White, H. [1992b]: Nonparametric estimation of conditional quantiles using neural networks; in: C.Page & R. Le Page (eds.): Computing Science and Statistics; New York et al.: Springer

White, H. & I. Domowitz [1984]: Nonlinear regression with dependent observations; Econometrica,52, 143-161

Widrow, B. & M.E. Hoff [1960]: Adaptive switching circuits; IRE WESCON Convention Record,New York: IRE, 96-104

Widrow, B., P.E. Mantey, L.J. Griffiths & B.B. Goode [1967]: Adaptive antenna systems;Proceedings of the IEEE, 55, 2143-2159

Widrow, B., J.R. Glover Jr., J.M. McCool, J. Kaunitz, C.S. Williams, R.H. Hearn, J.R. Zeidler,J. Dong Jr. & R.C. Goodlin [1975]: Adaptive noise cancelling: principles and applications;Proceedings of the IEEE, 63, 1692-1716

Widrow, B. & S.D. Stearns [1985]: Adaptive signal processing; Englewood Cliffs, N.J.: Prentice-Hall

Widrow, B. & R. Winter [1988]: Neural nets for adaptive filtering and adaptive pattern recognition;Computer, 21, 25-39

Winter, R. & B. Widrow [1988]: MADALINE RULE II: a training algorithm for neural networks; in:Proceedings of the Second Annual IEEE International Conference on Neural networks, San Diego,CA, 1988, Vol. I, 401-408: New York: IEEE Press

Wooldridge, J.M. [1994]: Estimation and inference for dependent processes; in: R.F. Engle & D.McFadden (eds.): Handbook of econometrics, Vol. IV, 2639-2738; Amsterdam et al.: Elsevier

Wu, B. [1995]: Model-free forecasting for nonlinear time series (with application to exchange rates);Computational Statistics & Data Analysis, 19, 433-459

Yao, Q. & H. Tong [1995]: On prediction and chaos in stochastic systems; in: H. Tong (ed.): Chaosand forecasting. Proceedings of the Royal Society Discussion Meeting, London, 2-3 March 1994,57-86; Singapore et al.: World Scientific

Yao, Q. [1996]: Conditional predictive regions for stochastic processes; IMS Technical Report UKC /IMS / 96 / 18, University of Kent at Canterbury, Institute of Mathematics and Statistics

Young, P. [1984]: Recursive estimation and time-series analysis. An introduction; Berlin et al.:Springer

Yule, G.U. [1927]: On the method of investigating periodicities in disturbed series, with specialreference to Wolfer's sunspot series; Philosophical Transactions of the Royal Society, Series A,226, 267-298

Zimmermann, H.G. [1994]: Neuronale Netze als Entscheidungskalkül; in: H. Rehkugler & H.G.Zimmermann (Hrsg.): Neuronale Netze in der Ökonomie: Grundlagen und finanzwirtschaftlicheAnwendungen, 1-87; München: Franz Vahlen


künstliche neuronale netze und prognose nichtlinearer ... · die neueren forschungsbemühungen im...

Documents