künstliche neuronale netze und prognose nichtlinearer ... · die neueren forschungsbemühungen im...
TRANSCRIPT
-3 -2 -1 0 1 2 3
0
0.4
0.8
1.2
1.6
2
fh
( | ). .
Künstliche Neuronale Netze und nichtlineare Prognose univariater Zeitreihen
Roland Schuhr
Prof. Dr. Roland Schuhr
Institut für Empirische Wirtschaftsforschung Bereich Statistik Wirtschaftswissenschaftliche Fakultät der Universität Leipzig
Grimmaische Strasse 12 D-04109 Leipzig
Email: [email protected]
Habilitationsschrift zur Erlangung der venia legendi im Lehrgebiet der Statistik
vorgelegt dem Fachbereich Wirtschaftswissenschaften der
Philipps-Universität zu Marburg von
Roland Schuhr Marburg, März 1998
(Partiell aktualisiert in 2004)
INHALTSVERZEICHNIS
Seite
Kapitel 1 Einleitung und Überblick............................................................................. 1
1.1 Analyse und Prognose nichtlinearer Zeitreihen.................................................. 1
1.2 Künstliche Neuronale Netze ........................................................................... 3
1.3 Inhalt des Buches............................................................................................ 7
Kapitel 2 Neurophysiologische Aspekte .................................................................... 9
2.1 Funktionelle Gliederung des menschlichen Nervensystems................................ 9
2.2 Informationsverarbeitung durch Nervenzellen................................................... 10
2.3 Lernen und Gedächtnisbildung......................................................................... 15
Kapitel 3 Das klassische Perzeptron.......................................................................... 17
3.1 McCulloch-Pitts-Neurone............................................................................... 17
3.2 Die Netzwerkarchitektur eines einfachen Photo-Perzeptrons............................ 21
3.3 Der Perzeptron-Lernalgorithmus ..................................................................... 25
3.4 Grenzen des Perzeptron-Ansatzes................................................................... 28
Kapitel 4 Least-Mean-Square-Algorithmus und lineare Netzwerke ........................ 31
4.1 Eine einfache Lernmaschine und lineare Regressionsprobleme .......................... 32
4.1.1 Das Lernziel des LMS-Algorithmus .................................................... 34
4.1.2 Der datenerzeugende Prozeß.............................................................. 39
4.2 LMS-Algorithmus und Echtzeit-Lernen........................................................... 46
4.3 Rekursive Kleinste-Quadrate-Schätzung ......................................................... 49
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
II
4.4 Stochastische Approximation.......................................................................... 54
4.5 LMS-Algorithmus und zyklisches Lernen......................................................... 56
4.6 Lineare Multi-Output-Netzwerke.................................................................... 59
4.7 Das ADALINE.............................................................................................. 61
Kapitel 5 Backpropagation und Mehrschicht-Perzeptrone ....................................... 65
5.1 Neurone mit sigmoiden Aktivierungsfunktionen................................................ 66
5.2 Netzwerkarchitekturen von Mehrschicht-Perzeptronen.................................... 68
5.3 Der Backpropagation-Algorithmus.................................................................. 72
5.3.1 Mehrschicht-Perzeptrone und nichtlineare Regressionsprobleme .......... 72
5.3.2 Backpropagation und zyklisches Lernen.............................................. 74
5.4 Backpropagation-Varianten und alternative Algorithmen.................................. 78
5.4.1 Beschleunigung von Backpropagation................................................. 78
5.4.2 Lokale Minima ................................................................................... 80
5.4.3 Alternative Optimierungsverfahren....................................................... 82
5.5 Asymptotische Eigenschaften der Backpropagation-Schätzer........................... 92
5.6 Mehrschicht-Perzeptrone und nichtparametrische Regression........................... 97
5.6.1 Das Bias/Varianz-Dilemma ................................................................. 97
5.6.2 Nichtparametrische Raster-Schätzer ................................................... 99
Kapitel 6 Modellierung und Prognose nichtlinearer Zeitreihen................................ 103
6.1 Das Prognoseproblem.................................................................................... 103
6.2 Neuronale-Netzwerk-Tests auf Nichtlinearität des datenerzeugenden
Prozesses ....................................................................................................... 111
6.3 Netzwerkspezifikation..................................................................................... 119
6.3.1 Regularisierung................................................................................... 120
6.3.2 Modellselektion mittels Kreuzvalidierung und Informationskriterien.124
6.3.3 Diagnose der Anzahl verborgener Verarbeitungseinheiten.................... 131
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
III
Kapitel 7 Mehrschritt-Punktprognosen mit Künstlichen Neuronalen Netzen......... 135
7.1 Rekursive Kleinste-Quadrate-Prognose autoregressiver Prozesse .................... 135
7.1.1 Lineare Autoregression....................................................................... 136
7.1.2 Nichtlineare Autoregression................................................................ 139
7.2 Alternative Prognosetechniken........................................................................ 141
7.3 Experimenteller Vergleich der Prognosetechniken............................................ 145
7.3.1 Design der Simulationsstudie............................................................... 145
7.3.1.1 Auswahl der stochastischen Prozesse.................................................. 146
7.3.1.2 Simulation der stochastischen Prozesse ............................................... 162
7.3.1.3 Spezifikation und Training Künstlicher Neuronaler Netze..................... 163
7.3.1.4 Implementierung der alternativen Prognosetechniken............................ 164
7.3.1.5 Kriterien für den Vergleich der Prognosetechniken.............................. 170
7.3.2 Ergebnisse der Simulationsstudie......................................................... 171
7.3.3 Diskussion der Ergebnisse .................................................................. 182
Kapitel 8 Schätzung von Prognoseregionen mit Künstlichen Neuronalen Netzen... 185
8.1 Konstruktion von Prognoseregionen................................................................ 185
8.2 Schätzung von Prognoseregionen.................................................................... 193
Kapitel 9 Ein empirisches Beispiel: Die Wolf'schen Sonnenflecken........................ 201
9.1 Zeitreihenmodelle............................................................................................ 203
9.2 Künstliche Neuronale Netze ........................................................................... 205
9.3 Punktprognosen.............................................................................................. 213
9.4 Regionprognosen............................................................................................ 224
Kapitel 10 Schlußbemerkungen.................................................................................... 229
Literaturverzeichnis................................................................................................................ 233
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
1
1 EINLEITUNG UND ÜBERBLICK
1.1 Analyse und Prognose nichtlinearer Zeitreihen
Die Analyse und Prognose wirtschaftlicher Vorgänge mit Hilfe zeitreihenanalytischer Metho-
den hat eine lange Tradition. Die statistische Analyse von Zeitreihendaten liefert Erkenntnisse
über Verhaltensmuster in der Entwicklung ökonomischer Variablen und ermöglicht ein tiefe-
res Verständnis der zugrundeliegenden ökonomischen Prozesse. Wirtschaftliche Entschei-
dungsprozesse sind typischerweise durch Unsicherheit bezüglich der zukünftigen Entwick-
lung entscheidungsrelevanter Variablen gekennzeichnet. Zuverlässige Prognosen führen zu
einer Reduktion der Unsicherheit und erleichtern so die Entscheidungsfindung.
Die traditionellen statistischen Methoden arbeiten überwiegend unter den Annahmen, daß (a)
die Zeitreihen oder Transformationen der Reihen durch stationäre stochastische Prozesse er-
zeugt werden und (b) die probabilistischen Eigenschaften der Prozesse durch lineare Modelle
beschreibbar sind. Desweiteren wird häufig explizit oder implizit ein normalverteilter erzeu-
gender Prozeß unterstellt. Diese Annahmen führen zu einer substanziellen Vereinfachung der
Analyse- und Prognoseproblematik. So können die stochastischen Eigenschaften eines statio-
nären Gaußprozesses bereits vollständig durch seine zeitinvarianten Momente bis zur zweiten
Ordnung (Mittelwert und Autokovarianzen) charakterisiert werden. Die Schätzung der Mo-
mente und die Prognose einer Zeitreihe sind jetzt mit vergleichsweise geringem Aufwand
durchführbar. Innerhalb dieses konzeptionellen Rahmens stellen die von Box & Jenkins
[1970] eingeführten linearen Autoregressiven-Moving-Average-(ARMA)-Modelle und ihre
multivariaten Verallgemeinerungen wie die Vektor-Autoregressiven-Moving-Average-
(VARMA)- Modelle die wohl populärsten Analyse- und Prognosewerkzeuge dar.
Stationarität, Linearität und Normalverteilung sind allerdings mathematische Idealisierungen,
die in vielen Fällen nur grobe Approximationen realer dynamischer Phänomene sein können.
Die neueren Forschungsbemühungen im Bereich der Zeitreihenanalyse zielen deshalb im
besonderen auf die Überwindung der restriktiven Annahmen ab. Seit Ende der 1970ziger
Jahre hat sich das Interesse zunehmend auf die Analyse und Prognose stationärer nichtlinearer
(und damit auch nichtnormalverteilter) Reihen gerichtet. Diese Entwicklung wurde nicht zu-
letzt durch Ergebnisse ökonomischer Studien angeschoben, die aufzeigten, daß zahlreiche
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
2 EINLEITUNG UND ÜBERBLICK
wirtschaftliche Phänomene nur unzureichend durch lineare Modelle beschrieben werden kön-
nen. Beispielhaft seien zwei Ergebnisse genannt: Seit langem ist bekannt, daß Konjunktur-
zyklen typischerweise asymmetrisch sind. Konjunkturelle Abschwungphasen sind tendenziell
kurzlebiger als konjunkturelle Aufschwungphasen. Dieses Phänomen schlägt sich in zahlrei-
chen makroökonomischen Zeitreihen in Form asymmetrischer zyklischer Bewegungsmuster
nieder. Da lineare Zeitreihenmodelle ausschließlich symmetrische zyklische Fluktuationen
generieren, können asymmetrische Konjunkturzyklen als ein Indiz für einen nichtlinearen
datengenerierenden Mechanismus gewertet werden (siehe z.B. Teräsvirta & Anderson
[1993]). Ein anderes, in Analysen hochfrequenter Finanzmarktreihen häufig beobachtetes
nichtlineares Phänomen ist die Volatilitätenclusterung. Die Variabilität von Preisänderungs-
raten oder Renditen auf spekulativen Märkten ist typischerweise nicht zeitkonstant. Phasen
höherer Volatilität wechseln mit Phasen niedriger Volatilität ab. Das Phänomen läßt auf
nichtkonstante bedingte Varianzen der datenerzeugenden Prozesse schließen und ist mit der
Annahme eines stationären Gaußprozesses inkompatibel (siehe z.B. Bollerslev et al. [1994]).
Da nichtlineare Dynamik in sehr unterschiedlichen Formen auftreten kann, sind die Vor-
schläge zur Modellierung nichtlinearer Zeitreihen zahlreich und zum Teil sehr unterschiedlich
motiviert. Es können zwei Klassen von Ansätzen unterschieden werden. Die Grenzziehung ist
hierbei allerdings nicht durchgängig scharf. Die erste Klasse nutzt parametrische Zeitreihen-
modelle als Analyse- und Prognosewerkzeuge. Sie sind vielfach nichtlineare Erweiterungen
linearer autoregressiver Modelle oder linearer ARMA-Modelle. Typische Beispiele sind die
Bilinear-Autoregressiven-Moving-Average-(BARMA)-Modelle von Granger & Andersen
[1978], die Exponentiell-Autoregressiven-(EXPAR)-Modelle von Haggan & Qzaki [1981],
die Threshold-Autoregressiven-(TAR)-Modelle von Tong & Lim [1978], Tong [1983], die
Smooth-Transition-Autoregressiven-(STAR)-Modelle von Chan & Tong [1986] und Granger
& Teräsvirta [1993], die Random-Coefficient-Autoregressiven-(RCAR)-Modelle von Nicholls
& Quinn [1982] sowie die autoregressiven bedingt heteroskedastischen Modelle (ARCH-Mo-
delle) von Engle [1982] und die generalisierten ARCH-Modelle (GARCH-Modelle) von
Bollerslev [1986]. Einen Überblick über diese und andere Ansätze geben z.B. Tong [1990]
und Granger & Teräsvirta [1993].
Die parametrischen Zeitreihenmodelle beschreiben jeweils spezifische Formen von Nicht-
linearität. In der Praxis kann es schwierig sein, zu entscheiden, ob eines und wenn ja, welches
dieser Modelle eine adäquate Erfassung der nichtlinearen Struktur eines datenerzeugenden
Prozesses ermöglicht. Um die subjektive Auswahl eines spezifischen parametrischen Modells
zu vermeiden, setzt eine zweite Klasse von Ansätzen nichtparametrische Regressionstechniken
zur Analyse und Prognose nichtlinearer Zeitreihen ein. So untersucht z.B. Robinson [1983]
den Einsatz nichtparametrischer Kernschätzer zur Schätzung bedingter Mittelwerte und be-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
EINLEITUNG UND ÜBERBLICK 3
dingter Dichten datenerzeugender Prozesse. Weitere Ansätze sind die Nichtlinear-Additiven-
Autoregressiven-(NAAR)-Modelle und Hastie & Tibshirani [1990], die Adaptive-Spline-
Threshold-Autoregressiven-(ASTAR)-Modelle von Lewis & Stevens [1991] oder die Functio-
nal-Coefficient-Autoregressiven-(FAR)-Modelle von Chen & Tsay [1993]. Die Ansätze besit-
zen den Vorzug, daß sie sehr flexibel sind und 'die Daten für sich selbst sprechen lassen'. Die
Flexibilität hat allerdings einen Preis: Zuverlässige Analyse- und Prognoseergebnisse dürfen
in aller Regel nur dann erwartet werden, wenn lange Zeitreihen ohne Strukturbrüche verfüg-
bar sind. Im ökonomischen Bereich beschränkt sich der Einsatz dieser Verfahren im wesent-
lichen auf hochfrequente Finanzmarktreihen, die in hinreichender Länge verfügbar sind. Um-
fassende Überblicke über die Verfahren geben Tjøstheim [1994] und Härdle et al. [1997].
1.2 Künstliche Neuronale Netze
Begünstigt wurde der Forschungsaufschwung im Bereich der nichtlinearen Zeitreihenanalyse
seit den späten 1970ziger Jahren durch die Fortschritte der Computertechnologie. Nichtlineare
Modellierung und Prediktion sind rechenaufwendig. Erst die Verfügbarkeit leistungsstarker
Computer machte die Überwindung der Linearitätsrestriktion möglich. Vergleichbares gilt
auch für andere Bereiche der Statistik wie Regressions- und Diskriminanzanalyse.
Zeitlich parallel zu dieser Entwicklung erlebte ein Forschungsbereich der Kognitionswissen-
schaften und der Künstlichen Intelligenz eine Renaissance, der auf den ersten Blick keinerlei
Beziehungen zur nichtlinearen statistischen Modellierung zu haben scheint. Er wird in der
Literatur uneinheitlich als Konnektionismus, Parallel Distributed Processing, Neurocompu-
ting oder Neuroinformatik bezeichnet. Ein wesentliches Ziel dieses Forschungsbereiches ist
es, Erkenntnisse über Organisationsstrukturen und Informationsverarbeitungsmechanismen
biologischer Nervensysteme zur Entwicklung neuartiger Computer zu nutzen, die in der Lage
sind, spezifische, bisher dem Menschen vorbehaltene Intelligenzleistungen nachzuahmen.
Von diesem Ziel ist man heute noch ein gutes Stück entfernt. Die intensive Forschung in den
achtziger und neunziger Jahren führte jedoch zur Entwicklung einer reichen Klasse von Mo-
dellen, die geeignet sind vielfältige Informationsverarbeitungsaufgaben zu lösen. Die Modelle
werden als konnektionistische Modelle, Parallel Distributed Processors oder als Künstliche
Neuronale Netze (KNN) bezeichnet. Nicht ohne Ironie ist, daß das intensive Studium Künst-
licher Neuronaler Netze, die als Alternativen zum herkömmlichen digitalen Universalrechner
intendiert sind, erst durch die Fortschritte der konventionellen Computertechnik möglich
wurde. Die Verfügbarkeit leistungsstarker Rechner erlaubte es den Forschern, in einem Um-
fang Modelle zu simulieren und zu testen, der vor 1980 nicht möglich war.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
4 EINLEITUNG UND ÜBERBLICK
Keines der bisher entwickelten Modelle erhebt den Anspruch, die Komplexität biologischer
Nervensysteme auch nur annähernd zu erfassen. Aufbau und Funktionsprinzipen von KNN
orientieren sich nur an einigen bekannten (oder sogar nur vermuteten) Organisationsstrukturen
und Informationsverarbeitungsmechanismen des biologischen Vorbildes. Als wichtige Orien-
tierungspunkte erachtet man insbesondere die hochgradige Parallelität der Informationsver-
arbeitung in Nervensystemen, die verteilte Speicherung der Information an den synaptischen
Koppelungsstellen der Nervenzellen und die Gedächtnisbildung durch Lernen. Die For-
schungsbemühungen werden nicht nur durch neurobiologische Aspekte stimuliert. KNN ver-
einigen Erkenntnisse und Konzepte, die in verschiedenen Wissenschaftsdisziplinen erarbeitet
wurden, z.B. in der Psychologie, den Ingenieurswissenschaften, der Informatik, der Physik,
der Mathematik und Statistik. Eine Folge der vielfältigen Forschungseinflüsse ist, daß es eine
allgemein akzeptierte Definition des Begriffs 'Künstliches Neuronales Netz' de facto nicht
gibt. Viele Netzwerkmodelle weisen jedoch spezifische Gemeinsamkeiten auf, deren Hervor-
hebung geeignet ist, eine umfangreiche Modellklasse näher zu charakterisieren.
Ein KNN soll hier anschaulich als ein adaptiver Abbildungsautomat interpretiert werden, der
numerisch codierte Signale x ∈ IR p seines Umsystems als Eingaben empfängt und auf diese
mit numerischen Ausgabesignalen o ∈ IRq antwortet (vgl. Rojas [1993, S.30ff]). Formal läßt
sich das Input-Output-Verhalten durch eine vektorwertige Funktion f IR IRp q: → beschrei-
ben. Der Automat ist charakteristischerweise aus einer größeren Anzahl primitiver Einheiten
aufgebaut, die über gerichtete und gewichtete Verbindungsleitungen miteinander gekoppelt
sind. Die Einheiten fungieren als Schnittstellen zum Umsystem (Eingabe- bzw. Ausgabeein-
heiten) und/oder als Berechnungselemente (Verarbeitungseinheiten, Prozessoren). Die Archi-
tektur des Automaten besitzt die Topologie eines gerichteten und gewichteten Graphen,
dessen Knoten die Einheiten repräsentieren und dessen Kanten die Verbindungen der Ein-
heiten sind. Ferner ist er mit einem Algorithmus ausgestattet, der eine Änderung des Input-
Output-Verhaltens aufgrund von Stimuli des Umsystems ermöglicht.
Die Verarbeitungseinheiten modellieren in stark idealisierter Form die Signalverarbeitung
durch Nervenzellen. Sie werden daher auch als Neurone und die Verbindungen als Synapsen
bezeichnet. Einzelne Verarbeitungseinheiten können, da sehr einfach aufgebaut, keine kom-
plexen Signalverarbeitungsprozesse ausführen. Die Ausführung komplexer Prozesse wird
durch die parallele Aktivität vieler Einheiten und die Signalübertragung zwischen den Ein-
heiten über ihre synaptischen Verbindungen realisiert. Die Verarbeitungseinheiten führen
typischerweise nichtlineare Signaltransformationen durch, so daß das Netzwerk eine nicht-lineare Funktion f modelliert.
Zur Bearbeitung einer Informationsverarbeitungsaufgabe benötigen KNN keinen speziellen
Lösungsalgorithmus. Sie ahmen Lernprozesse biologischer Nervensysteme nach und lösen
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
EINLEITUNG UND ÜBERBLICK 5
Aufgaben aufgrund von 'Erfahrungswissen'. Die Gewichte der synaptischen Verbindungen
spielen hierbei eine Schlüsselrolle. Lernen in KNN bedeutet, die Gewichte derart zu bestim-
men, daß das Netz auf Eingabesignale x mit 'geeigneten' Ausgabesignalen o antwortet. Dies
setzt die Verfügbarkeit von Lerndaten und eines Verfahrens, das den Lernprozeß steuert, vor-
aus. Ein solches Verfahren wird als Lernalgorithmus oder Lernregel bezeichnet. Das Erfah-
rungswissen eines Netzes wird in den Gewichten verteilt gespeichert.
Ein spezifisches KNN-Modell ist charakterisiert durch seine Netztopologie, die Eigenschaften
seiner Berechnungselemente und seinen Lernalgorithmus. Der Modellierungsspielraum, der
sich aus den Kombinationsmöglichkeiten verschiedener Topologien, Berechnungselemente
und Algorithmen ergibt, ist offensichtlich enorm. Richtungsweisende Modellentwicklungen in
den achtziger Jahren sind (neben anderen) die sogenannten Hopfield-Netze (Hopfield [1982,
1984]), die selbstorganisierenden oder topologischen Karten (Kohonen [1982, 1984]), die
Boltzmann-Maschine (Ackley et al. [1985], Hinton & Sejnowski [1986]), die Mehrschicht-
Perzeptrone (Rumelhart et al. [1986a,b]), die ART-(Adaptive Resonance Theory)-Modelle
(Carpenter & Grossberg [1987, 1990]), die bidirektionalen Assoziativspeicher (Kosko [1988])
und die Radialen-Basisfunktionen-Netze (Moody & Darken [1989], Poggio & Girosi [1990]).
Einen kompakten Überblick geben z.B. Hertz et al. [1991] und Haykin [1994] oder die
deutschsprachigen Einführungen von Rojas [1993] und Nauck et al. [1996].
Konzipiert wurden die Modelle zumeist zur Lösung klassischer Informationsverarbeitungs-
probleme aus dem Bereich der Künstlichen Intelligenz. Im Vordergrund standen insbesondere
die assoziative Speicherung von Information sowie die Wiedererkennung und Klassifikation
akustischer und optischer Signale. Die Erwartungen, die an 'Neurocomputer' geknüpft werden,
sind vielfältig. Zum einen sollen durch eine massiv parallele Signalverarbeitung Berechnungs-
vorgänge beschleunigt werden. Zum anderen soll im Vergleich zu herkömmlichen Rechnern
ein höherer Grad an Robustheit und Fehlertoleranz erreicht werden. Da KNN über viele Ver-
arbeitungseinheiten verfügen und Information lokal verteilt im System speichern, führt der
Ausfall einzelner Teilkomponenten nicht notwendig zu wesentlichen Störungen der Gesamt-
systemperformance. Die größten Erwartungen werden an die Adaptivität oder Lernfähigkeit
geknüpft. KNN sollen in einem Lernprozeß Strukturen in Lerndaten erfassen und diese
Strukturen zur Lösung von Informationsverarbeitungsaufgaben interpolieren oder extrapolie-
ren. Der Befähigung zur Inter- und Extrapolation - man spricht auch von der 'Generalisierung
erworbenen Wissens' - wird in Anwendungsbereichen wie beispielsweise der Spracherken-
nung eine besondere Bedeutung beigemessen, da Spracherkennungssysteme mit wechselnden
Sprechern, wechselnden Dialekten, unbekannten Worten oder Redewendungen, etc. konfron-
tiert werden können (vgl. Lippmann [1987]).
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
6 EINLEITUNG UND ÜBERBLICK
In der zweiten Hälfte der achtziger Jahre gelang es zunehmend, den potentiellen Nutzen von
KNN in Bereichen wie der Spracherkennung und Spracherzeugung, der optischen Schrift-
zeichenerkennung, der Restauration 'verrauschter' oder fragmentarischer Bildinformation oder
der Datencodierung und Datenkompression durch Referenzanwendungen zu demonstrieren.
Aufmerksamkeit bei einer breiteren Öffentlichkeit erregte insbesondere das NETtalk Projekt
von Sejnowski & Rosenberg [1987]. Dem NETtalk System gelang es mit einigem Erfolg, die
Transformation von gedrucktem englischen Text in Sprache zu erlernen. Den ersten Referenz-
anwendungen folgte eine Flut von Anwendungsstudien in den unterschiedlichsten Problembe-
reichen. KNN wurden zunehmend als universell einsetzbare datenanalytische Werkzeuge zur
Lösung von Regressions-, Diskriminations-, Klassifikations- oder Datenreduktionsproblemen
begriffen und mit Erfolg genutzt. Auch Ökonomen aus Wissenschaft und Praxis griffen diese
Entwicklung rasch und enthusiastisch auf. Inzwischen liegt eine große Anzahl Publikationen
vor, welche die Einsatzmöglichkeiten von KNN in der Ökonomie ausleuchten. Schwerpunkte
bilden z.B. die Kreditwürdigkeitsprüfung von Bankkunden, die Früherkennung von Unter-
nehmenskrisen, das 'Mining' in Datenbanken und die Prognose ökonomischer Zeitreihen,
insbesondere Finanzmarktreihen. Interessante Einblicke gibt z.B. die Fallstudiensammlung
von Trippi & Turban [1996].
Aus statistischer Sicht ist natürlich interessant, daß KNN in Bereichen Anwendung finden, die
zuvor eine Domäne statistischer Methoden waren. Es kann nicht gänzlich überraschen, daß
konnektionistische und statistische Ansätze eine Reihe von Gemeinsamkeiten aufweisen. Das
Lernproblem in konnektionistischen Modellen ist eng verwandt mit der statistischen Schätz-
problematik. In der Tat haben statistische Methoden die Entwicklung von Lernverfahren nicht
unerheblich beeinflußt. Viele konnektionistische Modelle, wie etwa die Mehrschicht-Per-
zeptrone oder die Radialen-Basisfunktionen-Netze, lassen sich ohne Mühe als statistische
Modelle auffassen und in die statistische Theorie einbetten. Die Beziehungen zwischen kon-
nektionistischen und statistischen Ansätzen wurden bereits in einer ganzen Reihe von Ver-
öffentlichungen herausgearbeitet. Beispielhaft seien hier die Arbeiten von White [1989a,b],
Kuan & White [1994], Cheng & Titterington [1994], Bishop [1995], Ripley [1993, 1994,
1996] und Kay & Titterington [2000] genannt. Die im praktischen Einsatz erzielten Erfolge
und die statistischen Bezüge lassen KNN als interessante Erweiterungen des statistischen
Instrumentariums erscheinen. Ein potentiell ergiebiges Einsatzfeld ist insbesondere die nicht-
lineare Zeitreihenanalyse.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
EINLEITUNG UND ÜBERBLICK 7
1.3 Inhalt des Buches
In diesem Buch wird der Einsatz einer Klasse Künstlicher Neuronaler Netze, der Mehr-
schicht-Perzeptrone, zur Prognose nichtlinearer stationärer Zeitreihen näher untersucht.
Die Mehrschicht-Perzeptrone (multilayer perceptrons) sind in der Praxis die mit Abstand
populärsten KNN-Modelle. Sie sind (vergleichsweise) einfach auf herkömmlichen Computern
simulierbar und vielseitig als Datenanalyse- und Prognosewerkzeuge einsetzbar. Charakte-
ristisch für die Modellkasse ist eine rückkoppelungsfreie Netzwerktopologie, in der nicht-
lineare Verarbeitungseinheiten in mehreren Schichten angeordnet sind, und ein spezifisches
Lernverfahren, der sogenannte Backpropagation-Algorithmus. In der konnektionistischen
Literatur werden die Modelle daher gelegentlich auch als Multilayer-Feedforward- oder
Backpropagation-Netze bezeichnet.
Aus statistischer Sicht können Mehrschicht-Perzeptrone als quasi-parametrische Regressions-
modelle beschrieben werden; vergleichbar mit statistischen Ansätzen wie den Multivariaten-
Adaptiven-Regressionssplines (MARS) von Friedman [1991] und insbesondere der Pro-
jection-Pursuit-Regression von Friedman & Stuetzle [1981]. Sie sind quasi-parametrisch, weil
sie einerseits eine endliche Menge modifizierbarer Parameter (Gewichte) enthalten, die an-
hand von Daten zu adjustieren sind, aber anderseits als flexible, nicht auf eine spezifische
Funktionsklasse beschränkte Funktionsapproximatoren intendiert sind. Das Backpropagation-
Lernverfahren weist enge Bezüge zur herkömmlichen Nichtlinearen-Kleinste-Quadrate-
Methode auf. Der Ansatz ist potentiell wertvoll, weil er dem Anwender gestattet, die Flexibi-
lität der Modelle durch Variation der Anzahl der Verarbeitungseinheiten und Schichten im
Netzwerk zu steuern. Das Spektrum reicht von sehr einfachen bis hin zu hoch flexiblen, in
ihrem Wesen nichtparametrischen Modellen. Diese Bandbreite läßt Mehrschicht-Perzeptrone
als interessante Instrumente zur Lösung nichtlinearer Regressionsprobleme, einschließlich
Diskrimination und Zeitreihenprognose, erscheinen.
Die ersten Kapitel des Buches richten sich primär an Leser, die mit konnektionistischen Kon-
zepten nicht vertraut sind. In Kapitel 2 wird ein kurzer Überblick über einige neurobiologische
Aspekte der Informationsverarbeitung beim Menschen gegeben, soweit diese für das Ver-
ständnis von KNN-Modellen hilfreich erscheinen. Die Ausführungen sind notwendigerweise
stark vereinfachend. Der Autor, der keinerlei Expertenstatus auf diesem Gebiet für sich in An-
spruch nimmt, hofft, daß die Ausführungen dem Unkundigen zur Orientierung dienen und daß
der Kundige sein Wissen in ihnen wiederfindet. Mehrschicht-Perzeptrone sind aus der Kombi-
nation zweier historisch älterer Ansätze hervorgegangen: den Perzeptronen und dem LMS-
Algorithmus. Die 'klassischen' Perzeptrone werden in Kapitel 3 vorgestellt. Sie wurden bereits
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
8 EINLEITUNG UND ÜBERBLICK
in den 1950ziger Jahren von dem Psychologen Frank Rosenblatt als Lernmaschinen zur Lö-
sung von Musterwiedererkennungsaufgaben entwickelt. Das Studium der Modelle ist nütz-
lich, da sie bereits wesentliche konstruktive Elemente der modernen Netzwerke enthalten und
die biologischen Bezüge in ihnen transparenter sind. Der von Widrow & Hoff [1960] ent-
wickelte Least-Mean-Square-(LMS)-Algorithmus ist der Prototyp des Backpropagation-Algo-
rithmus. Er ist ein statistischer Ansatz; eng verwandt mit der rekursiven Kleinste-Quadrate-
Schätzung und der stochastischen Approximation. Der LMS-Algorithmus wird in Kapitel 4
als ein 'Lernverfahren' für einfache lineare Modelle vorgestellt, und die statistischen Hinter-
gründe werden diskutiert. In Kapitel 5 werden die Ergebnisse der Vorkapitel aufgegriffen und
Mehrschicht-Perzeptrone als ein nichtlinearer, quasi-parametrischer Regressionsansatz moti-
viert. Im Mittelpunkt stehen hierbei der von Rumelhart et al. [1986a,b] popularisierte Back-
propagation-Algorithmus und seine Varianten.
Die weiteren Kapitel des Buches befassen sich mit der Prognoseproblematik. Mehrschicht-
Perzeptrone können zur Prognose univariater und multivariater Zeitreihen eingesetzt werden.
Zur Vereinfachung der Diskussion bleiben die Ausführungen auf univariate Zeitreihen be-
schränkt. Angemerkt sei, daß einige Konzepte problemlos auf multivariate Reihen übertragen
werden können. In Kapitel 6 werden Mehrschicht-Perzeptrone als nichtlineare autoregressive
Zeitreihenmodelle eingeführt und Aspekte der Modellkonstruktion, insbesondere Tests auf
Nichtlinearität von Zeitreihen und die Spezifikation einer geeigneten Netzwerkarchitektur,
diskutiert. Während den Problemen der Modellkonstruktion in der Literatur bereits größere
Aufmerksamkeit geschenkt wurde, fanden die Probleme bei der Ermittlung von Mehrschritt-
Punktprognosen und Mehrschritt-Regionprognosen (Intervallprognosen) weit geringeres In-
teresse. In der Tat ist die Prognose mit nichtlinearen Zeitreihenmodellen ein deutlich kompli-
zierteres und rechenaufwendigeres Unterfangen als die lineare Prognose. Die nichtlineare
Prognose wird daher auch in der zeitreihenanalytischen Literatur erst in der jüngeren Vergan-
genheit intensiver diskutiert. Gegenstand des 7. Kapitels ist die Schätzung optimaler Mehr-
schritt-Punktprognosen im Sinne des Mean-Square-Error-Kriteriums mit Hilfe von KNN. Es
werden verschiedene praktische Schätzmethoden vorgestellt und deren Eigenschaften in einer
Monte-Carlo-Studie untersucht. In Kapitel 8 werden aktuelle Vorschläge zur Konstruktion
von Prognoseregionen für nichtlineare Zeitreihen aufgegriffen und deren Schätzung mit Hilfe
von KNN diskutiert. Eine Demonstration des praktischen Einsatzes der Prognosetechniken
folgt in Kapitel 9 am Beispiel einer bekannten empirischen Benchmark-Reihe, den Wolf'schen
Sonnenflecken. Eine kritische Zusammenfassung und einen Ausblick auf offene Probleme
gibt abschließend das Kapitel 10.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
9
2 Neurophysiologische Aspekte
Durch Pionierarbeiten von Camillo Golgi (1844-1926), Santiago Ramón y Cajal (1852-1934)und anderen ist seit Beginn des 20. Jahrhunderts bekannt, daß Nervenzellen (Neurone) diefunktionellen Grundelemente des menschlichen Informationsverarbeitungssystems bilden. DieZellen sind zu einem komplexen, hierarchisch strukturierten neuronalen Netzwerk, dem Ner-vensystem, miteinander verbunden und ermöglichen Informationstransport und Informations-verarbeitung durch Austausch von Signalen untereinander. Nach heutigen Schätzungen be-wegt sich die Anzahl der Nervenzellen des menschlichen Nervensystems in einer Größenord-nung von 1011, wobei eine einzelne Zelle mit Hunderten oder Tausenden anderer Nerven-zellen über Kontaktstellen Signale austauschen kann.
2.1 Funktionelle Gliederung des menschlichen Nervensystems
Unter Vernachlässigung des hier weniger relevanten autonomen Nervensystems, das für dieSteuerung physiologischer Prozesse im Organismus zuständig ist, läßt sich das menschlicheNervensystem funktionell in das periphere Nervensystem und das zentrale Nervensystem(ZNS) gliedern. Das periphere System besteht aus zuleitenden (afferenten) und ableitenden(efferenten) Nervenfasern. Stimuli der Umwelt und des Organismus selbst (etwa Berührung,Druck, Kälte, Wärme, etc.) werden durch nervöse Endorgane der afferenten Fasern, die Re-zeptoren, registriert und als Signale über die Fasern zum ZNS geleitet. Das ZNS integriert undverarbeitet die ankommenden Signale und sendet über die efferenten Fasern des peripherenNervensystems seinerseits Signale zu Effektorzellen (Muskulatur, Drüsen, etc.). Das ZNS be-steht aus dem Gehirn und dem Rückenmark. Das Gehirn führt den Großteil der eigentlichenInformationsverarbeitungsaufgaben des ZNS aus. Das Rückenmark fungiert im wesentlichenals zentrales 'Verbindungskabel' zwischen den einzelnen Körperteilen und dem Gehirn, er-ledigt in geringerem Umfang aber auch selbständig Informationsverarbeitung.
Ein bekanntes Beispiel für Informationsverarbeitung im Rückenmark ist der Kniesehnenreflex(Patellarsehnenreflex). Schlägt man einem Menschen, der mit locker frei hängenden Unter-schenkeln sitzt, unterhalb der Kniescheibe leicht an das Knie, so schnellt der Unterschenkel
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
10 NEUROPHYSIOLOGISCHE ASPEKTE
nach oben. Die über die Kniescheibe verlaufende Patellarsehne verbindet die Oberschenkel-muskulatur mit dem Schienbein. Durch den Schlag wird sie in die Höhlung zwischen Knie-scheibe und Schienbein gedrückt, was wiederum eine leichte Dehnung der Oberschenkelmus-kulatur (Musculus quadriceps femoris) verursacht. Dehnungsrezeptoren des Muskels sendenden Reiz über mehrere afferente Bahnen (Ia-Fasern) an das Rückenmark. Je Eingangsleitungtransformiert eine einzige Umschaltstelle im Rückenmark die Information und leitet den Reizüber efferente Bahnen (α-Neurone) an den Effektor (Musculus quadriceps femoris) weiter.Die Muskulatur kontrahiert, und der Unterschenkel schnellt nach oben (vgl. Buchholtz [1982,S.12ff]).
2.2 Informationsverarbeitung durch Nervenzellen
Nervenzellen treten in unterschiedlichen Formen auf und nehmen im neuronalen Gesamtsystemunterschiedliche Funktionen wahr. Die Struktur eines generischen Neurons zeigt schematischdie Abbildung 2.1. Die Darstellung orientiert sich am Aufbau der in großer Anzahl in dermenschlichen Großhirnrinde (Neokortex) lokalisierten Pyramidenzellen (Golgi-Typ-I-Neuron).Zentrum des Neurons ist sein Zellkörper (Soma), der den Zellkern und für den Zellstoffwech-sel notwendige Strukturen und Substanzen enthält. Aus dem Zellkörper entspringt eine ver-ästelte Struktur kürzerer Zellfortsätze, die Dendriten, sowie (höchstens) eine längere Nerven-faser, das Axon. Die Dendriten übernehmen Signale anderer Nervenzellen und leiten sie zumSoma, während das Axon die Aufgabe der Signalableitung an andere Neuronen bzw. Effekto-ren hat. Das Axon spaltet sich an seinem Ende in kleine Ästchen auf, die sich zu kugelförmi-
Dendriten
Soma
Zellkern
Axon
Endknöpfchen / Synapsen
Endverästelungen
Abb. 2.1: Schematische Darstellung des Aufbaus einer Nervenzelle (vgl. Alberts et al. [2002, S.638])
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
NEUROPHYSIOLOGISCHE ASPEKTE 11
gen Synapsenendknöpfchen verdicken. Ein Endknöpfchen ist jeweils Bestandteil einer Kon-taktstelle, der Synapse, die eine Signalübertragung zu einem anderen Neuron ermöglicht. Inder Regel stellt die Synapse Kontakt zu einem Dendriten oder dem Soma der Empfängerzelleher. In seltenen Fällen besteht der Kontakt zu ihrem Axon. Die Länge eines Axons variiert jenach Zelltyp von weniger als einem Millimeter bis zu mehr als einem Meter. Beispielsweiselaufen Axone von Pyramidenzellen der Großhirnrinde über die sogenannten Pyramidenbahnendes Rückenmarks zu den Muskeln. Die Anzahl der Dendriten und der Endknöpfchen variiertebenfalls. Nervenzellen können bis zu 200000 Dendriten und eine entsprechend große Zahlvon Endknöpfchen aufweisen. Der Durchschnittswert beträgt jeweils ca. 10000.
Der Informationsverarbeitung in Neuronennetzen liegen komplexe chemische Prozesse zu-grunde, die hier nur in groben Zügen skizziert werden sollen. Eine ausführliche Darstellungfindet sich beispielsweise in Alberts et al. [2002]. Ein ruhendes, inaktives Neuron hältzwischen dem Innen- und Außenraum der Zelle eine Potentialdifferenz (Ruhepotential) vonca. 60-80 Millivolt (mV) aufrecht. Die negative Ladung liegt auf der Innenseite der Zellmem-bran. Die Potentialdifferenz ist durch eine unterschiedliche Ionenkonzentration innerhalb undaußerhalb der Zelle bedingt. Im Außenraum liegt eine höhere Konzentration von positivenNatriumionen (Na+) und negativen Chloridionen (Cl−) vor, während sich im Innenraum mehrpositive Kaliumionen (K+) befinden. Die Zellmembran ist semipermeabel. Sie ist für die ge-nannten Ionen-Klassen durchlässig. Die Diffusionspotentiale der Ionen ergeben additiv dasGesamt-Ruhepotential. Die Konzentrationsunterschiede werden durch einen Mechanismus derMembran, die Ionenpumpe, unter Energieverbrauch erhalten. Außerdem wirkt stabilisierend,daß im Ruhezustand die Membran für K+-Ionen deutlich durchlässiger als für Na+-Ionen ist.
Ein Nervensignal ist eine kurzzeitige, lokale Änderung des Ruhepotentials, das vom Somaausgehend über das Axon zu anderen Neuronen abgeleitet wird. Das Signal wird in der Regeldurch eine elektrische Erregung der Zellmembran am Axonhügel, der Ansatzstelle des Axonsam Soma, initiiert. Die Durchlässigkeit der Membran für Na+-Ionen steigt schlagartig an, unddie Ionen diffundieren in das Zellinnere. Als Ergebnis dieses Prozesses kehrt sich die Polari-sierung an der Membran um. Die negative Ladung liegt jetzt außen, wobei zwischen Zellinne-rem und Zelläußerem eine Spannung von 20-40 mV aufgebaut wird. Innerhalb von ca. 0.5Millisekunden entsteht ein sogenanntes Aktionspotential. Parallel erhöht sich auch die K+-Ionen-Durchlässigkeit der Membran. Aus dem Inneren diffundierende K+-Ionen haben einendem Aktionspotential entgegengesetzt wirkenden Effekt. Innerhalb einer weiteren Milli-sekunde (Refraktärphase) baut sich wieder ein Ruhepotential auf. Die ursprüngliche Ionen-verteilung wird anschließend durch die Ionenpumpe und die Rückführung der Ionen-Durch-lässigkeit der Membran in den Anfangszustand wiederhergestellt. Den Aufbau eines Aktions-potentials bezeichnet man auch als das Feuern der Nervenzelle. Dem Vorgang liegt eine
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
12 NEUROPHYSIOLOGISCHE ASPEKTE
Alles-oder-Nichts-Reaktion zugrunde. Erreicht die elektrische Erregung eine bestimmteSchwellenspannung (Depolarisations- oder Reizschwelle), wird ein volles Aktionspotentialmit 20-40 mV aufgebaut. Ansonsten wird kein Aktionspotential initiiert.
Die Erzeugung eines Aktionspotentials ist immer lokal auf einen Teilbereich der Membran be-grenzt. Die lokale Depolarisation des Membranbereichs ist aber ausreichend, um ein Aktions-potential in angrenzenden Bereichen anzuregen. Das Potential pflanzt sich an der Axonmem-bran nach dem Muster fallender Dominosteine vom Soma ausgehend bis zu den Endknöpfchen
mV
+40
0
-40
Na+
K+
^
^Axon
Ruhepotential
Aktionspotential
Momentaufnahme zum Zeitpunkt t = 0 ms
Zellmembran
Wanderungsrichtung
− − − − − − − + + + − − − − − − − − − − − − − − − − − − − − − − − − − − − −
− − − − − − − + + + − − − − − − − − − − − − − − − − − − − − − − − − − − − −
-80
mm
mV
+40
0
-40
-80
Na+
K+
^
^Axon
Ruhepotential
Aktionspotential
Momentaufnahme zum Zeitpunkt t = 1 ms
Zellmembran
Wanderungsrichtung
− − − − − − − − − − − − − − − − + + + − − − − − − − − − − − − − − − − − − − −
− − − − − − − − − − − − − − − − + + + − − − − − − − − − − − − − − − − − − − −
mm
Abb. 2.2: Wanderung des Aktionspotentials (verändert nach Alberts et al. [1987, S.1155]). Die Po-tentialkurven sind wegen der räumlichen Orientierung der Darstellung spiegelverkehrt zuihrer zeitlichen Entwicklung eingezeichnet. [Einheiten: Millimeter (mm), Millisekunden(ms), Millivolt (mV)]
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
NEUROPHYSIOLOGISCHE ASPEKTE 13
fort (vgl. Abb. 2.2). Die aktiven Membranbereiche sind während ihrer Refraktärphase für er-neute Erregungen unempfindlich. Dadurch sind Rückwirkungen unmöglich und das Aktions-potential wandert zuverlässig in eine Richtung. Das Alles-oder-Nichts-Prinzip verhindert, daßsich auf langen Leitungsbahnen der Impuls abschwächt. Die Nervenzelle kann in kurzer ZeitSequenzen von Aktionspotentialen über das Axon ableiten. Die Impulse sind in Amplitudeund Form gleichartig. Information wird durch Modulation der Frequenz, mit der das Neuronfeuert, und die Dauer der Sequenz kodiert. Der Frequenzmodulation sind natürliche Grenzengesetzt. Die maximale Frequenz liegt bei ca. 200 Impulsen pro Sekunde. Die Wanderungs-geschwindigkeit der Impulse auf dem Axon kann bis zu ca. 100 Meter pro Sekunde betragen.
Nervensignale werden von einem Neuron zu anderen Nervenzellen über spezifische Kontakt-stellen, die Synapsen, übertragen. Der einfachste Weg ist die elektrische Koppelung von Zellenmittels elektrischer Synapsen. Der gewöhnliche Übertragungsmechanismus ist aber indirekterNatur. Zum Einsatz kommen hier chemische Synapsen. Ein Endknöpfchen der Senderzellesteht in engem Kontakt zu einem Bereich der Zellmembran der Empfängerzelle. Die (prä-synaptische) Membran des Endknöpfchen und die (postsynaptische) Membran des Empfän-gers bleiben voneinander elektrisch isoliert; sie sind durch den synaptischen Spalt getrennt(siehe Abb. 2.3). Erreicht ein über das Axon des Senders wanderndes Aktionspotential dasEndknöpfchen, wird die präsynaptische Membran depolarisiert. Die Änderung des elektrischenPotentials löst die Freisetzung eines neuronspezifischen chemischen Überträgerstoffes (Neuro-transmitter) aus, der über den synaptischen Spalt diffundiert und eine Veränderung der Ionen-Durchlässigkeit der postsynaptischen Membran auslöst. Folge ist eine elektrische Spannungs-änderung an diesem Membranbereich. Da nur über die präsynaptische Membran Neurotrans-mitter freigesetzt werden können, ist die Richtung der Übertragung vorgegeben.
Synapsen sitzen in großer Zahl auf den Dendriten und dem Soma der Empfängerzelle. JedeSynapse erzeugt eine charakteristische Spannungsänderung oder postsynaptisches Potential(PSP), wenn die mit ihr verbundene präsynaptische Zelle feuert. Einige Synapsen erregen dieZelle, andere hemmen sie. Der Neurotransmitter einer erregenden (exzitatorischen) Synapseerhöht die Durchlässigkeit der postsynaptischen Membran für Na+-Ionen. Die ins Zellinnerediffundierenden Ionen bauen ein depolarisierendes PSP auf. Bei hemmenden (inhibitorischen)Synapsen bewirkt der Transmitter eine Erhöhung der Membrandurchlässigkeit für K+-Ionenund Cl−-Ionen. Die Diffusion von K+-Ionen nach außen und Cl−-Ionen nach innen verstärktdas Ruhepotential. Es wird ein hyperpolarisierendes PSP erzeugt. Ein weiteres Charakteristi-kum einer Synapse ist ihre Verbindungsstärke. Während Aktionspotentiale von Neuron zuNeuron recht einheitlich sind, unterscheiden sich die an verschiedenen Synapsen eines ein-zelnen Neurons ausgelösten PSP stark in Amplitude und Dauer. Sie weisen somit keinenAlles-oder-Nichts-Charakter auf.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
14 NEUROPHYSIOLOGISCHE ASPEKTE
. . . . .
Endknöpfchen von Neuron A
.... ........ . . . .. .. . . . .....
.... . .. ....... ..
...... :... . .
....
::
(präsynaptische Zelle)
präsynaptische Membransynaptischer Spaltpostsynaptische Membran
Dendrit von Neuron B(postsynaptische Zelle)
Neurotransmitter
Vesikel mit Neurotransmitter
freigesetzter
Abb. 2.3: Schematischer Aufbau einer typischen Synapse (verändert nach Alberts et al. [2002, S.645])
Einzelne PSP haben in der Regel einen geringen Einfluß auf den Erregungszustand einerZelle. Die Membran der Dendriten und des Zellkörpers ist in geringerem Ausmaß erregbar alsdie Axonmembran. Bedeutung erhält das einzelne PSP erst im Zusammenspiel mit anderenPotentialen. Treffen Signale zeitgleich in mehreren, räumlich nahegelegenen Synapsen ein,werden die entstehenden PSP miteinander verrechnet. In der Zellregion wird ein Potentialaufgebaut, das sich - vereinfacht gesprochen - als Summe der einzelnen erregenden und hem-menden PSP ergibt. So entstehen lokal Ströme, die sich über die Zellmembran ausbreiten. Ander Somamembran werden sie zu einem postsynaptischen Summationspotential verrechnet.Überwiegen die erregenden Potentiale, kommt es zur Depolarisation; überwiegen hemmende,zur Hyperpolarisation. Neben diesem als räumliche Summation der empfangenen Signale be-zeichneten Vorgang bildet die zeitliche Summation einen zweiten wichtigen Teilaspekt derInformationsverarbeitung durch Neurone. Kommen an einer Synapse in schneller Folge Akti-onspotentiale an, so überlagern sich die ausgelösten PSP zu einem ununterbrochenen Durch-schnitts-PSP, dessen Spannung die Feuerfrequenz des präsynaptischen Neurons kodiert.Räumliche und zeitliche Summation erfolgen im wesentlichen durch Amplitudenmodulation.Im Zeitablauf variierende Eingangssignale bewirken kontinuierliche Spannungsänderungen ander Somamembran.
Der letzte Schritt der neuronalen Informationsverarbeitung ist die Erzeugung einer Signalaus-gabe, die über das Axon der Zelle abgeleitet wird. In diesem Schritt wird das postsynaptischeSummationspotential der Somamembran am Axonhügel in einem komplexen Prozeß fre-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
NEUROPHYSIOLOGISCHE ASPEKTE 15
quenzmoduliert. Wirkt das Summationspotential depolarisierend, treibt der am Axonhügeleinfließende Strom die Membran bis zu ihrer Depolarisationsschwelle. Die Membran sendetein Aktionspotential über das Axon und kehrt zum Ruhepotential zurück. Danach kann derSchwellenwert erneut erreicht und überschritten werden, usw. Je stärker der Depolarisations-strom ist, desto höher ist die Frequenz mit der die Zelle am Axonhügel feuert. Die Reiz-schwelle des Axonhügels kann sich im Zeitablauf ändern. Der Mechanismus adaptiert oft, sodaß die Zelle schwach auf eine konstante Erregung, aber stark auf eine Veränderung reagiert.
Der Informationsgehalt von Nervensignalen hängt natürlich nicht ausschließlich von der Fre-quenz ab, mit der ein Neuron feuert. Entscheidend ist auch, welche Funktion die feuerndeNervenzelle im neuronalen Gesamtsystem ausübt. Man unterscheidet sensorische und motori-sche Funktionen sowie Verrechnungsfunktionen. Bei einem sensorischen Neuron sind die Si-gnale Reize spezifischer Rezeptoren, bei einem motorischen Neuron sind sie Kontraktions-oder Relaxationsbefehle für einen bestimmten Muskel. Bei einem Interneuron sind die SignaleTeile der Verrechnung, die sensorische Information aus verschiedenen Quellen verknüpft unddaraus eine geeignete motorische Reaktion ableitet. Für die Informationsverarbeitung beimKniesehnenreflex sind beispielsweise mehrere, parallel arbeitende Reflexbögen 'Rezeptor -sensorische Zelle - motorische Zelle - Effektor' verantwortlich. Da hier zwischen Sensor undmotorischem Neuron keine Interneurone synaptisch geschaltet sind, kann der Organismus sehrschnell auf den äußeren Reiz reagieren. Komplexe Informationsverarbeitungsaufgaben sindallerdings durch solch einfache Schaltungen nicht zu lösen. Hier bedarf es der Kommunikationeiner Vielzahl engmaschig vernetzter Nervenzellen.
2.3 Lernen und Gedächtnisbildung
Das Nervensystem als Ganzes präsentiert sich dem Forscher als ein neuronales Netz von her-ausfordernder Komplexität. Fortschritte wurden bei der Untersuchung einzelner Nervenzellenund der Mechanismen einfacher Reflexe erzielt. Auch gelang es, einige Organisationsstruktu-ren des Nervengeflechts zu erkennen. Von einem wirklichen Verständnis des Aufbaus und derArbeitsweise des menschlichen Gehirns ist man aber heute noch sehr weit entfernt. Dies giltim besonderen für die beeindruckendste Eigenschaft des Gehirns: die Lernfähigkeit.
Lernen setzt die Aufnahme, die Verarbeitung, die Speicherung und das Abrufen von Informa-tion voraus. Die Fähigkeit des Gehirns Information zu speichern, wird als Gedächtnis bezeich-net. Nach der Speicherdauer werden mindestens zwei Formen unterschieden: das Kurzzeit-gedächtnis und das Langzeitgedächtnis (vgl. z.B. Schuhr [1990, S.18ff]).
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
16 NEUROPHYSIOLOGISCHE ASPEKTE
Die Speicherdauer des Kurzzeitgedächtnisses bewegt sich im Sekunden- bis Minutenbereich.Es wird vermutet, daß auf dieser Ebene Information durch Erregungsmuster von Neuronenkodiert und bewahrt wird. Diese Hypothese wird durch experimentelle Befunde gestützt. DasKurzzeitgedächtnis ist durch Elektroschocks, Unterkühlung, Narkosen oder CO2-Inhalationstörbar. Diese Eingriffe blockieren bioelektrische Prozesse im ZNS.
Das Langzeitgedächtnis erweist sich gegenüber solchen Störungen als resistent. Die Speicher-dauer kann mit der gesamten Lebensdauer eines Individuums übereinstimmen. Bezüglich derGedächtnisbildung geht man von der Modellvorstellung aus, daß Inhalte des Kurzzeitgedächt-nisses in das Langzeitgedächtnis übertragen werden und so eine bleibende Gedächtnisspuraufgebaut wird. Herrschende Meinung ist, daß diese Übertragung durch Änderung der Verbin-dungsstärken synaptischer Kontakte zwischen Neuronen realisiert wird. Die Inhalte des Lang-zeitgedächtnisses wären demnach im wesentlichen durch synaptische Verbindungsmuster imGehirn kodiert und gespeichert. Die vollständige Bildung oder Eliminierung einer Synapse istein Ereignis, dessen Folgen ein Leben lang andauern können. Eine Hypothese bezüglichneurophysiologischer Prozesse beim Lernen wurde erstmals von Donald O. Hebb formuliert.Er postulierte, daß sich der Wirkungsgrad einer Synapse erhöht, wenn die präsynaptische unddie postsynaptische Zelle gleichzeitig aktiv sind (Hebb [1949]). Die Erhöhung des Wirkungs-grades könnte z.B. durch eine verstärkte Neurotransmitterausschüttung der präsynaptischenMembran oder eine gesteigerte Permeabilität der postsynaptischen Membran erklärt werden.Für diese Plastizität von Synapsen und eine durch geeignete Reize auslösbare dauerhafte Än-derung ihrer Wirkungsgrade gibt es inzwischen eine Fülle experimenteller Belege. Die Ent-schlüsselung der molekularen Basis der Gedächtnisleistung des menschlichen Gehirns bleibtaber dennoch eine zentrale Herausforderung für zukünftige Forschungen (vgl. Alberts et al.[2002, S.1240f]).
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
17
3 Das klassische Perzeptron
Tragende Grundkonzepte der modernen Forschung auf dem Gebiet der Künstlichen Neuro-nalen Netze wurden bereits in den 1950ziger Jahren von einer Forschergruppe der CornellUniversität um den Psychologen Frank Rosenblatt entwickelt. Rosenblatts Ziele waren ambi-tioniert: Er versuchte mit Hilfe von Modellen, die Bedeutung von Organisationsstrukturen inbiologischen Gehirnen für wichtige Gehirnfunktionen, wie z.B. die Gedächtnisbildung, näherzu durchleuchten. Ferner strebte er den Entwurf von Lernmaschinen an, die Objekte oder Zu-stände ihres Umsystems wahrnehmen können, und die, stimuliert durch wiederholte Wahr-nehmungen, befähigt sind zu lernen, diese Objekte oder Zustände Kategorien zuzuordnen.Resultat der Bemühungen war die Entwicklung einer Klasse Künstlicher Neuronaler Netze,die als Perceptrons bezeichnet wurden. Die Perzeptrone sind die historisch ältesten lernfähi-gen Netzwerkmodelle, die in der Lage sind, nicht-triviale Informationsverarbeitungsaufgabenzu lösen. Mit dem Bau des Mark I Perceptron gelang auch die technische Realisation einesarbeitsfähigen - wenn auch sehr einfachen - Neurocomputers (siehe z.B. Rosenblatt [1958]sowie Rosenblatt [1962] für eine Zusammenfassung der Forschungsarbeiten).
In diesem Kapitel werden wichtige Basiskonzepte am Beispiel eines speziellen Netzwerktypsvorgestellt, den Rosenblatt [1958] als ein einfaches Photo-Perzeptron (simple perceptron) be-zeichnet. Das einfache Photo-Perzeptron weist alle charakteristischen Grundkomponenten desPerzeptron-Modellansatzes auf, besitzt aber eine vergleichsweise einfache Netzwerkarchitek-tur. Es ist primär zur Verarbeitung optischer Signale konzipiert. Da die optischen Eingabeein-heiten des Netzes jedoch durch unspezifische Eingabeeinheiten, die beliebige Signale desUmsystems aufnehmen, ersetzt werden können, bedeutet dies keine Einschränkung der Allge-meinheit des Modells.
3.1 McCulloch-Pitts-Neurone
Grundbaustein eines Perzeptrons ist eine Verarbeitungseinheit, die sehr stark vereinfacht dieSignalverarbeitungsmechanismen einer biologischen Nervenzelle nachahmt. Die Konzeptionder Einheit wurde durch ein abstraktes Modell einer Nervenzelle inspiriert, das bereits Anfangder vierziger Jahre von McCulloch & Pitts [1943] vorgestellt wurde. Das McCulloch-Pitts-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
18 DAS KLASSISCHE PERZEPTRON
Neuron läßt sich als eine in diskreter Zeit arbeitende logische Schwellenwerteinheit charakte-risieren (vgl. Abb. 3.1). Die Einheit sei durch das Symbol u j gekennzeichnet. Sie empfängtüber m erregende und n hemmende Eingangsleitungen (Synapsen) binäre Signale zit andererEinheiten ui ( i m n= +1,..., ). Es gilt zit = 1, wenn zu einem Zeitpunkt t die mit der i-tenEingangsleitung verbundene präsynaptische Einheit feuert; ansonsten ist zit = 0 . Das Modell-neuron verrechnet die erregenden und hemmenden Eingangssignale und sendet über eine Aus-gangsleitung (Axon), die sich vielfach verzweigt, seinerseits ein binäres Signal z j t, +1 zu nach-geschalteten Einheiten. Die Signalverarbeitung kann formal durch eine binäre Stufenfunktionbeschrieben werden:
(3.1) ( )z z zj t t it j it
i
m
i m
m n
, + = = ≥ ∧ =
∑ ∑
= +
+
11 0
01 1
ϕ ζz , falls
, sonst ,
=
wobei zt t m n tz z= ( ,..., )1 + , der (m+n)-dimensionale Vektor der Eingangssignale ist. Es giltz j t, + =1 1 genau dann, wenn die Summe der erregenden Inputs zit ( )i m= 1,..., einen festen,reellen Schwellenwert (Reizschwelle) ζ j > 0 erreicht und gleichzeitig die Summe der hem-menden Inputs zit ( )i m m n= + +1,..., null ist. Das Neuron ist erregt und feuert einen Einheits-impuls. Ansonsten ist es nicht erregt, und das Ausgangssignal ist z j t, + =1 0 . Der Effekt hem-mender Eingaben ist in diesem Modell absolut. Bereits eine aktive hemmende Synapseverhindert die Erregung der Einheit. McCulloch & Pitts unterstellen ferner, daß für die Ver-rechnung der Inputs ein festes Zeitquantum (Refraktärzeit) erforderlich ist. Dieses Zeitquan-tum ist hier durch das Einheitszeitintervall der Länge 1 repräsentiert. Das Modellneuron ope-riert auf einer diskreten Zeitskala, deren Werte der Einfachheit halber t = 1,2,3,... seien. DieAnnahme ermöglicht es, die Aktivitäten mehrerer Einheiten zu synchronisieren.
z +
+
-
-
z
z
z
1t
mt
m+1,t
m+n,t
ϕ( )z z
...
..
.
Eingangsleitungen (Synapsen)
Ausgangsleitung (Axon)
Eingangssignale
Ausgangssignal
j,t+1t
Abb. 3.1: Diagramm eines McCulloch-Pitts-Neuron. Erregende Eingangsleitungen sind durch einPluszeichen, hemmende durch ein Minuszeichen gekennzeichnet.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
DAS KLASSISCHE PERZEPTRON 19
Durch einzelne Schwellenwerteinheiten (3.1) lassen sich elementare Boole'sche Funktionenwie Konjunktion, Disjunktion oder Negation realisieren. Hierauf aufbauend haben McCulloch& Pitts [1943] bewiesen, daß Netzwerke aus synchron arbeitenden Einheiten theoretisch uni-verselle Berechnungen durchführen können. Eine Konsequenz hieraus ist, daß prinzipielljeder herkömmliche Digitalrechner durch ein in geeigneter Weise vorgegebenes Netzwerk aussynchron arbeitenden Einheiten simuliert werden kann (siehe auch Arbib [1987, S.17ff], Rojas[1993, S.31ff]). Obwohl sehr einfach konstruiert, sind McCulloch-Pitts-Neurone mächtigeVerarbeitungseinheiten. Die neurobiologische Plausibilität des Modells ist allerdings stark be-schränkt. Besonders signifikante Vereinfachungen des biologischen Vorbildes sind:
• Biologische Nervenzellen führen eine hochgradig nichtlineare (räumliche und zeitliche)Summation ihrer Eingangssignale durch und antworten auf diese mit kontinuierlich variie-renden Erregungszuständen (postsynaptische Summationspotentiale), die frequenzmoduliertals Impulssequenzen abgeleitet werden. Das Modellneuron kann hingegen nur zwei Erre-gungszustände annehmen: Es ist erregt, oder es ist nicht erregt. Ein erregtes Neuron feuerteinen Einheitsimpuls.
• Biologische Nervenzellen benötigen kein festes Zeitquantum für die Inputverrechnung. DieZellen eines Nervensystems operieren nicht wie die Modellneurone synchron auf einer dis-kreten Zeitskala t = 1,2,3,... . Sie arbeiten in kontinuierlicher Zeit und asynchron.
• Die synaptischen Verbindungen und die Reizschwellen der Nervenzellen sind adaptiv oderplastisch. Insbesondere der Plastizität synaptischer Verbindungsstärken wird eine entschei-dende Bedeutung für die Speicher- und Lernfähigkeit biologischer Nervensysteme beige-messen. Die Modellneurone besitzen keinerlei Plastizität.
Die genannten Aspekte waren im Jahr 1943 weitgehend unbekannt. Unabhängig von diesemTatbestand war die biologische Plausibilität des Modells für die Arbeit von McCulloch undPitts von eher untergeordneter Bedeutung. Ihr primäres Interesse galt den Berechnungsmög-lichkeiten, die Netzwerke aus logischen Schwellenwerteinheiten eröffnen. Perzeptrone sollenhingegen Lernprozesse in biologischen Nervensystemen modellieren. McCulloch-Pitts-Netzenfehlt die Plastizität, um dieses Ziel erreichen zu können. Hypothesen über die Bedeutung dersynaptischen Verbindungsstärken für Lernprozesse postulierte erstmals Hebb [1949]. DieHebb'schen Hypothesen waren zunächst weitgehend spekulativer Natur, sie flossen aber in dieEntwicklung der Perzeptrone in Form eines modifizierten Neuronenmodells ein. Eine 'moder-ne' Fassung des Modells zeigt schematisch die Abbildung 3.2 (vgl. Hertz et al. [1991, S.3]).
Die Verarbeitungseinheit - sie sei wieder symbolisch durch u j gekennzeichnet - empfängt zueinem Zeitpunkt t über k synaptische Eingänge gewichtete Signale w zij it⋅ ( )i k= 1,..., mitw IRij ∈ und zit ∈ 0 1, . Die Größe wij ist der i-ten Eingangsleitung von u j zugeordnet und
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
20 DAS KLASSISCHE PERZEPTRON
heißt ihr synaptisches Gewicht oder ihr Verbindungsgewicht. Sie dient der Modellierung vonWirkung und Verbindungsstärke einer biologischen Synapse. Falls wij > 0 ist, wirkt der i-teEingang erregend; falls wij < 0 ist, wirkt der i-te Eingang hemmend. Je größer der Absolut-betrag | |wij des Gewichtes ist, umso größer ist der Wirkungsgrad des Einganges. Die synapti-schen Gewichte müssen keine fest vorgegebenen Konstanten, sondern können veränderbareGrößen sein. Dadurch gewinnen die synaptischen Eingangsleitungen Plastizität, die zur Mo-dellierung von Lernprozessen genutzt werden kann.
Die Verarbeitung der Eingangssignale erfolgt in zwei Schritten. Die Verarbeitungseinheit ver-fügt über einen Addierer (in Abb. 3.2 durch das Summenzeichen Σ symbolisiert), der die ge-wichteten erregenden oder hemmenden Signale aufsummiert:
(3.2) v w zjt ij iti
k= ⋅
=∑
1 .
Dem Addierer nachgeschaltet ist eine Schwellenwertinstanz (in Abb. 3.2 durch ein Stufen-symbol dargestellt). Erreicht die Summe v jt einen reellen Schwellenwert ζ j , so wird dieEinheit erregt (aktiviert) und feuert den Einheitsimpuls z j t, + =1 1. Ansonsten ist das Aus-gangssignal z j t, + =1 0 . Hierbei sei wieder unterstellt, daß zur Signalverrechnung ein Ein-heitszeitintervall der Länge 1 benötigt wird. Formal gilt:
(3.3) ( )z H vj t jt j, + = −1 ζ ,
wobei H(x) die Heaviside-Funktion ist mit
(3.4) ( )H xxx
=≥<
1 00 0
für für .
Der Schwellenwert ist, ebenso wie ein synaptisches Gewicht, in einem Lernprozeß adjustierbar.
z
z
z
z
..
.
Ausgangssignal
...Σ
w
w
wkt kj
2t 2
1t 1
ζSchwellenwert
j
j
j
v j,t+1jt
Eingangssignale
synaptische GewichteSynapsen und
Axon
Abb. 3.2: Diagramm eines modifizierten McCulloch-Pitts-Neurons
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
DAS KLASSISCHE PERZEPTRON 21
In der neueren konnektionistischen Literatur wird die Summe v jt üblicherweise als Netto-input der Einheit u j bezeichnet und die Heaviside-Funktion H(x) durch Termini wie Aktivie-rungs- oder Transferfunktion der Einheit u j charakterisiert. Ferner wird, die Pionierleistungenvon McCulloch & Pitts [1943] würdigend, häufig auch das modifizierte Neuronenmodell alsein McCulloch-Pitts-Neuron bezeichnet (siehe z.B. Hertz et al. [1991]). Diese Konvention sollhier übernommen werden.
Das McCulloch-Pitts-Neuron in Abbildung 3.2 kann als das Basisparadigma einer künstlichenNervenzelle betrachtet werden. Die Verarbeitungseinheiten in einer Vielzahl neuerer Netz-werkmodelle sind einfache Verallgemeinerungen. Sie führen typischerweise Funktionsaus-wertungen der Form
(3.5) ( )z w z vj t ij iti
k
j jt j, +=
= ⋅ −
= −∑1
1φ ζ φ ζ
durch. Die Eingangssignale in (3.5) sind reelle, nicht notwendigerweise binäre Inputs. Die In-puts werden wie in (3.2) linear in die Menge IR der reellen Zahlen abgebildet. Zur Berechnungdes Erregungszustands oder der Aktivität z j t, +1 kann die Aktivierungsfunktion H(x) in (3.3)durch ein anderes Funktional φ: IR IR→ ersetzt werden. Typisch ist die Verwendung mono-ton wachsender und beschränkter Funktionale als Aktivierungsfunktionen für Verarbeitungs-einheiten.
3.2 Die Netzwerkarchitektur eines einfachen Photo-Perzeptrons
Photo-Perzeptrone sind konzipiert als lernfähige Künstliche Neuronale Netze zur Lösung spe-zifischer Musterwiedererkennungsaufgaben. Sie sollen optische Signale ihres Umsystemswahrnehmen und einer von mehreren Kategorien oder Klassen zuordnen. Aus statistischerSicht stellen sie spezifische diskriminanzanalytische Instrumente dar, die - im Gegensatz zuherkömmlichen statistischen Verfahren - nicht auf wahrscheinlichkeitstheoretischen Argu-menten basieren.
Die Abbildung 3.3 zeigt schematisch die Netzwerkarchitektur des einfachen Photo-Perzept-rons. Das Netz setzt sich aus Einheiten zusammen, die drei Klassen funktional verschiedenerEinheiten entstammen. Rosenblatt [1958, 1962] unterscheidet Sensor-Einheiten (S-Punkte),Assoziations-Einheiten (A-Einheiten) und Response-Einheiten (R-Einheiten). Zwischen Ein-heiten werden binäre Signale über gerichtete und gewichtete synaptische Verbindungen aus-getauscht.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
22 DAS KLASSISCHE PERZEPTRON
Die S-Punkte bilden eine lichtempfindliche Schicht, die als Retina bezeichnet wird. Sie rea-gieren auf Stimuli nach dem Alles-oder-Nichts-Prinzip. S-Punkte in Regionen der Retina mitstarkem Lichteinfall werden aktiviert. Sie feuern jeweils einen Einheitsimpuls. Die S-Punktein Retinaregionen mit schwachem Lichteinfall bleibt inaktiv. Ihr Ausgangssignal ist die ZahlNull. Die Einheiten können technisch durch Photozellen realisiert werden.
Die binären Ausgangssignale der S-Punkte werden über gerichtete und gewichtete synaptischeVerbindungen an A-Einheiten gesendet, die die sogenannte assoziative Schicht des Netzesbilden. Die A-Einheiten besitzen den Aufbau eines McCulloch-Pitts-Neurons. Die Signalver-arbeitung erfolgt gemäß (3.2) - (3.4). Ihre Schwellenwerte sind beliebige, aber feste reelleZahlen. Die Gewichte der synaptischen Verbindungen werden in diesem Modell zufällig ausder Menge −1, 0, +1 gewählt. Die Impulse der S-Punkte können somit hemmend oder erre-gend auf eine A-Einheit wirken. Ist ein Gewicht gleich null gesetzt, dann besteht keine wirk-same synaptische Kopplung zwischen der präsynaptischen und der postsynaptischen Einheit.In der Regel ist eine A-Einheit nur mit einer echten Teilmenge aller S-Punkte wirksam ver-bunden, die als Quellmenge der A-Einheit bezeichnet wird. Einmal zufällig festgelegtesynaptische Gewichte sind fortan nicht mehr veränderbar.
Führen die Signale der Quellmenge einer A-Einheit zu deren Aktivierung, dann feuert die A-Einheit über gerichtete und gewichtete synaptische Verbindungen einen Einheitsimpuls an R-Einheiten. Die R-Einheiten bilden die Response- oder Ausgabeschicht des Perzeptrons. Siesind wie die A-Einheiten vom McCulloch-Pitts-Typ. Die wirksamen Verbindungen von den
.Stimulus .
.
Assoziative Schichtaus R-Einheiten
Retinaaus S-Punkten aus A-Einheiten
Response-Schicht
Response
Abb. 3.3: Ein einfaches Photo-Perzeptron mit zwei R-Einheiten. Die Einheiten des Netzes werdendurch Kreise und die synaptischen Verbindungen durch Linien symbolisieren. Die Pfeilegeben die Richtung des Signalfusses an.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
DAS KLASSISCHE PERZEPTRON 23
A-Einheiten zu den R-Einheiten werden wieder zufällig festgelegt. Jede R-Einheit besitzt eineQuellmenge von A-Einheiten, die typischerweise eine echte Teilmenge aller A-Einheiten ist.Die Gewichte der synaptischen Verbindungen zwischen den Elementen einer Quellmenge undder zugehörigen R-Einheit sind hier keine fest vorgegebenen Größen, sondern sie sind ver-änderbar. Ebenso sind die reellen Schwellenwerte der R-Einheiten veränderbar. Führt der Si-gnaleingang zur Aktivierung einer R-Einheit, sendet sie einen Einheitsimpuls an das Um-system des Netzes.
Die Netzwerkarchitektur, soweit sie bis hierher beschrieben wurde, wird in der modernenTerminiologie als eine vorwärtsgerichtete Schichtenarchitektur (feedforward network) be-zeichnet. Funktional identische Einheiten des Netzes sind jeweils in einer Schicht angeordnet.Nur Einheiten aus zwei direkt aufeinanderfolgenden Schichten sind synaptisch miteinanderverbunden. Die Signale fließen über vorwärtsgerichtete Leitungen von der Retina zur Assozia-tionsschicht und von dort weiter zur Response-Schicht. Der Modellansatz läßt aber auchFeedback im Signalfluß zu. Das Perzeptron in Abbildung 3.3 weist Feedback-Kopplungen(hellgraue Pfeile) zwischen R-Einheiten und A-Einheiten auf. Jede R-Einheit besitzt hem-mend wirkende Verbindungen zu A-Einheiten, die nicht Element der eigenen Quellmengesind. Ferner bestehen hemmend wirkende Verbindungen zwischen den R-Einheiten. Überdiese synaptischen Verbindungen kann die R-Einheit mit dem größten Nettoinput (mit demhöchsten Erregungspotential) Signale senden, die eine mögliche Aktivierung anderer R-Ein-heiten verhindern. Das Netz antwortet auf einen über die Retina eingehenden Stimulus durchden Einheitsimpuls einer einzelnen aktiven R-Einheit.
Das Künstliche Neuronale Netz kann als ein dreischichtiges Stimulus-Response-Modell biolo-gischer Nervensysteme interpretiert werden. Die S-Punkte stellen die Rezeptoren und die R-Einheiten die Effektoren des Perzeptrons dar. Die A-Einheiten modellieren die Funktion vonInterneuronen. Die Verbindungsstruktur der Einheiten weist ausgeprägt stochastische Zügeauf. Dieser Aspekt der Netzwerkarchitektur leitet sich aus der Annahme Rosenblatts ab, daßbiologische Nervensysteme, soweit dies genetische Restriktionen zulassen, in starkem Maßestochastische Kopplungsstrukturen aufweisen. Ferner sind die Gewichte der synaptischenVerbindungen von den A-Einheiten zu den R-Einheiten variable Größen. Das Input-Output-Verhalten des Perzeptrons ist somit veränderbar. Diese Plastizität des Netzes kann zur Model-lierung von Lernprozessen genutzt werden. Als Lernziel steht bei Rosenblatt die Musterwie-dererkennung oder Musterklassifikation im Vordergrund. Das Perzeptron soll auf hinreichendähnliche Umweltstimuli durch den Impuls ein und derselben aktiven R-Einheit antworten.Verschiedene Stimuli sollen hingegen zur Aktivierung verschiedener R-Einheiten führen.Verfügt das Netz über q IN∈ R-Einheiten, dann kann es Eingaben q verschiedenen Klassenzuordnen. Die Klassenzugehörigkeit wird durch die jeweils aktive R-Einheit indiziert.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
24 DAS KLASSISCHE PERZEPTRON
Ein Lernverfahren für Perzeptrone wird im folgenden Abschnitt vorgestellt. Zuvor wird ihrInput-Output-Verhalten formaler als bisher erfolgt beschrieben. Für die hier verfolgten Zieleist es ausreichend, sich auf Netze mit lediglich einer Response-Einheit zu beschränken. DieseBeschränkung ermöglicht deutliche Vereinfachungen des Ausgangsmodells. Es wird jetzt keinZufallsmechanismus mehr benötigt, der verschiedenen R-Einheiten jeweils eine Quellmengevon A-Einheiten zuordnet. Alle A-Einheiten der assoziativen Schicht werden über wirksamesynaptische Verbindungen mit der einzigen R-Einheit gekoppelt. Hemmend wirkende Feed-back-Verbindungen von der R-Einheit zu den A-Einheiten sind in diesem Perzeptron funk-tional überflüssig und werden daher ebenfalls nicht mehr benötigt. Zur weiteren Verein-fachung der Darstellung bleibt der zeitliche Aspekt der Signalverarbeitung unberücksichtigt.
Es sei p IN∈ die Anzahl der S-Punkte und k IN∈ die Anzahl der A-Einheiten des betrach-ten Netzwerkes. Die S-Punkte der Retina bilden optische Stimuli des Umsystems in eineMenge X p= 0 1 , ab. Die Menge X wird im folgenden als der Eingaberaum und ein p-di-mensionaler Vektor x = ′ ∈( )x x Xp1 , , als ein Eingabemuster bezeichnet. Ein Eingabemu-ster x wird über synaptische Verbindungen zur assoziativen Schicht gesendet. Die A-Einhei-ten der Schicht transformieren x in einen k-dimensionalen Vektor z = ′ ∈( )z z z Zj k1 , , , ,mit Z k= 0 1 , . Für die Komponenten zj von z gilt:
(3.6) z H w xj ij ii
p
j= ⋅ −
=∑
1ζ ( )j k= 1 2, ,..., ,
wobei H(x) die Heaviside-Aktivierungsfunktion (3.4), ζ j ein beliebiger, aber fester reellerSchwellenwert und wij das reelle synaptische Gewicht der i-ten Eingangsleitung der j-ten A-Einheit ist. Die Gewichte wij werden wieder zufällig aus der Menge −1, 0, +1 vorgegeben.Um die Mengen X und Z auch verbal differenzieren zu können, soll Z als der Assoziations-raum bezeichnet werden. Ein Vektor z ∈Z wird Assoziationsmuster genannt. Die Komponen-ten eines Assoziationsmusters z sind die Eingangssignale der R-Einheit. Die Einheit antwortetdurch binäres Ausgangssignal o ∈ 0 , 1 gemäß
(3.7a) o H w zj jj
k= ⋅ −
=∑
1ζ .
Hierbei sind jetzt w IRj ∈ ( )j k= 1,..., die Gewichte der Eingangsleitungen und ζ ∈ IR derSchwellenwert. Gewichte und Schwellenwert in (3.7a) sind variable Größen. Sie sollen zu ei-nem Gewichts- oder Parametervektor w = ′ ∈ ⊆ +( )w w W IRk
k1
1,..., ,ζ zusammengefaßt wer-den. Mit W ist der Parameterraum gekennzeichnet. Setzt man ~ ( , )z z= ′ − ′1 , dann läßt sich(3.7a) auch kompakter schreiben:
(3.7b) ( )o H= ′ ⋅w z~ .
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
DAS KLASSISCHE PERZEPTRON 25
Aus statistischer Sicht ist es naheliegend, (3.7) als eine lineare Diskriminanzfunktion und wals den Parametervektor der Diskriminanzfunktion zu interpretieren. Die Funktion ordnet eingegebenes Assoziationsmuster z einer von zwei Klassen zu. Die Klassen seien durch C0 undC1 symbolisiert. Der Funktionswert o = 0 oder o = 1 indiziert die Klassenzugehörigkeit.Stellt man sich Z temporär auf einen k-dimensionalen Hyperwürfel [ ]Z k= 0 , 1 erweitert vor,dann ergibt sich eine anschauliche geometrische Interpretation. Die R-Einheit definiert eine(k−1)-dimensionale Hyperebene
(3.8) ′ ⋅ =w z~ 0 , [ ]z ∈ 0 , 1 k ,
die den Assoziationsraum Z in zwei disjunkte Unterräume zerlegt. Jeder Unterraum ist mit ge-nau einer Klasse assoziiert. Das Input-Output-Verhalten des gesamten Perzeptrons kann formaldurch eine (Netzausgabe-) Funktion f X W: × → 0 1, - oder elementweise ( )o f= x w, -beschrieben werden. Die Netzausgabefunktion bildet den Eingaberaum X und den Raum W derfrei adjustierbaren Netzparameter in die Menge 0 1, ab. Sie ist als eine stückweise lineareDiskriminanzfunktion interpretierbar, die ein gegebenes Eingabemuster x einer der beidenKlassen C0 oder C1 zu ordnet. Der Eingaberaum X wird durch stückweise lineare Hyper-ebenen in zwei disjunkte (nicht notwendig zusammenhängende) Unterräume zerlegt.
Das Lernproblem für dieses Netzwerk besteht darin, den Parametervektor w auf der Basis vonLerndaten so zu adjustieren, daß die Netzausgabefunktion einen Eingaberaum X aufgaben-adäquat teilt. Zur Illustration sei beispielsweise angenommen, die Retina bildet (wie in derAbbildung 3.3 angedeutet) maschinen- oder handgeschriebene Zahlen 1, 2, 3, ..., 9 in dieMenge X ab. Die Lernaufgabe des Perzeptrons könnte dann in der Diskrimination gerader undungerader Zahlen bestehen. Man beachte, daß sich die Lernaufgabe als deutlich kompliziertererweisen kann, als sie auf dem ersten Blick erscheint. Die Signale des Umsystems sind opti-sche Stimuli. Eine maschinegeschriebene Zahl 'Drei' kann möglicherweise in verschiedenenSchrifttypen wie 3, 3, 3, 3,... auf die Retina projeziert werden. Bei handgeschriebenen Zahlenist die Variabilität der Schriften enorm. Eine Konsequenz hieraus ist, daß mit jeder Zahl ver-schiedene Eingabemuster verbunden sein können.
3.3 Der Perzeptron-Lernalgorithmus
Es stellt sich jetzt die Frage, wie die freien Parameter eines Perzeptrons so adjustiert werdenkönnen, daß das Künstliche Neuronale Netz eine vorgegebene Musterklassifikationsaufgabeerfüllt. Rosenblatt schlug verschiedene Varianten eines Lernverfahrens vor, das er Verstär-kungslernen (reinforcement rule) nannte. Hier wird eine Variante, die von Rosenblatt [1962]
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
26 DAS KLASSISCHE PERZEPTRON
und Block [1962] eingehender untersucht wurde, diskutiert. Sie wird in der neueren Literaturüblicherweise als der Perzeptron-Lernalgorithmus bezeichnet und als inkrementelles Fehler-korrekturlernen oder inkrementelles überwachtes Lernen mit Lehrer charakterisiert.
Die Grundidee des Lernalgorithmus ist denkbar einfach. Das Perzeptron wird mit einer Mengevon Klassifikationsbeispielen konfrontiert. Ist es in der Lage ein Beispiel nachzuvollziehen,d.h. klassifiziert es ein Eingabemuster richtig, dann bleiben seine freien Parameter unver-ändert. Anderenfalls erfolgt eine systematische Korrektur. Im günstigsten Fall ist das Künst-liche Neuronale Netz nach dem Abbruch der sogenannten Lern- oder Trainingsphase in derLage alle Beispiele nachzuvollziehen und kann darüber hinaus auch bisher unbekannte Musterkorrekt klassifizieren. Man sagt dann, das Netz generalisiert sein Wissen über das Umsystem.Das Verfahren heißt inkrementell, weil jede Konfrontation mit einem Beispiel zu einer Para-meteränderung führen kann. Das Künstliche Neuronale Netz vergrößert daher in der Lern-phase schrittweise seinen Wissensstand. Die neurophysiologischen Prozesse die Gehirne zueiner Gedächtnisbildung befähigen, sind - wie bereits in Kapitel 2.3 erwähnt - auch heutenoch weitgehend unerforscht. Die Bezeichnung 'überwachtes Lernen mit Lehrer' macht deut-lich, daß dem Verfahren ein weniger neurobiologisch denn pädagogisch motivierter Lernbe-griff zugrundeliegt. Es bedarf einer Instanz, dem Lehrer, der die Klassifizierungsergebnissedes Netzes als wahr oder falsch bewertet.
Die Diskussion des Perzeptron-Lernalgorithmus erfolgt hier am Beispiel des einfachen Photo-Perzeptrons mit einer Response-Einheit. Die Algorithmus kann direkt auf Netze mit mehrerenR-Einheiten verallgemeinert werden (siehe hierzu z.B. Ritter et al. [1992, S.27ff]). Die R-Ein-heit des Perzeptrons empfängt Assoziationsmuster z = ′ ∈( )z z Zk1 , , als Eingangssignaleund antwortet hierauf gemäß (3.7) mit binären Ausgangssignalen o ∈ 0 , 1 . Jedes Assozia-tionsmuster ist eine eindeutige Transformation eines Eingabemusters. Da die synaptische Ver-bindungsstruktur zwischen der Retina und der assoziativen Schicht des Perzeptrons fest vor-gegeben und daher nicht durch Lernen veränderbar ist, müssen die Eingabemuster an dieserStelle nicht weiter explizit berücksichtigt werden.
Es wird im folgenden angenommen, daß als Klassifikationsbeispiele N verschiedene Asso-ziationsmuster zν = ( )z z Zk1ν ν, , ′ ∈ ( )ν = 1,..., N zur Verfügung stehen. Jedes Muster zνgehört genau einer Klasse C0 oder C1 an. Die jeweilige Klassenzugehörigkeit ist bekannt. DieVektoren zν aus der Klasse C0 seien in einer Menge D0 und die Vektoren zν aus der KlasseC1 in einer Menge D1 zusammengefaßt. Die Vereinigungsmenge D D D Z= ∪ ⊆0 1 heißt inder konnektionistischen Terminiologie auch Trainingsmenge und ihre Elemente heißen Trai-ningsmuster. Die Trainingsmenge D ist in aller Regel eine echte Teilmenge des Assoziations-raumes Z und kann als eine Art Lernstichprobe aufgefaßt werden. Sie dient als Datenbasis zur
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
DAS KLASSISCHE PERZEPTRON 27
Adjustierung von Schwellenwert und synaptischen Gewichten der R-Einheit. Gesucht wird einParametervektor w, der eine fehlerfreie Klassifikation der Trainingsmuster durch die Ausgangs-signale der R-Einheit ermöglicht. Im folgenden soll vorausgesetzt werden, daß mindestens einParametervektor w existiert, der dieses Lernziel erfüllt; w genügt somit der Bedingung:
(3.9)~
~′ ⋅ < ∈
′ ⋅ ≥ ∈
z w z
z w zν ν
ν ν
0
00
1
für alle
für alle
D
D
mit ~ ( , )z zν ν= ′ − ′1 . Die Mengen D0 und D1 werden jetzt als linear trennbare Mengen be-zeichnet.
Gibt man einen beliebigen Vektor w* ∈ +IRk 1 als Parametervektor vor, z.B. w* ≡ 0 , dannwird die R-Einheit des Perzeptrons mit hoher Wahrscheinlichkeit mehrere Trainingsmusterzν ∈ D fehlklassifizieren. Der Perzeptron-Lernalgorithmus ist ein einfaches rekursives Ver-fahren, das schrittweise Korrekturen des Parametervektors vornimmt. Es sei zl l=1 2, ,... eineFolge von Trainingsmustern. Die Glieder dieser sogenannten Trainingssequenz werden durchwiederholtes zufälliges Ziehen mit Zurücklegen aus der Menge D bestimmt. Ferner sei wl l=1 2, ,... eine Folge von Parametervektoren mit w w1:= * als Anfangsglied. Die Glieder derTrainingssequenz werden schrittweise der R-Einheit als Eingaben präsentiert und von ihr klas-sifiziert. Nach jeder Fehlklassifikation wird eine Korrektur des Parametervektors vorgenom-men. Eine richtige Klassifikation löst keine Korrektur aus. Für alle Rekursions- oder Lern-schritte l = 1,2,3,... gilt:
(3.10) ww z z w zw z z w zw
l
l l l l l
l l l l l
l
DD+ =
− ′ ⋅ ≥ ∈+ ′ ⋅ < ∈
1
0
1
00
ηη
~ ~~ ~
falls und falls und sonst
mit η η∈ >IR, 0 . Die Gleichung (3.10) wird als die Lernregel und der Faktor η als die Lern-rate des Algorithmus bezeichnet. Die Lernrate wird in der Regel aus dem Intervall 0 1< ≤ηgewählt. Klassifiziert die R-Einheit nach erfolgten Korrekturen alle Elemente der Trainings-menge richtig, dann bewirkt die Lernregel keine weiteren Änderungen des Parametervektors.Der Lernalgorithmus kann abgebrochen werden.
Für spätere Ausführungen ist es sinnvoll, die Lernregel (3.10) in einer kompakteren Form zunotieren. Es bezeichne ol die Antwort der R-Einheit auf ein Trainingsmuster zl. Ferner sei yleine Indikatorvariable, die gemäß
yDDl
l
l=
∈∈
01
0
1
falls falls
zz
die Klassenzugehörigkeit von zl indiziert. Mit diesen Vereinbarungen läßt sich (3.10) nunschreiben:
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
28 DAS KLASSISCHE PERZEPTRON
(3.11) ( )w w z w zl l l l l l l ly o+ = + − = +1 η ηε~ ~ ( )l = 1 2 3, , ,... ,
wobei ε l l ly o= − der Ausgabefehler (das Fehlersignal) der R-Einheit ist. Die Variable ylwird auch als Zielausgabe oder Lehrersignal bezeichnet. Da yl und ol binäre Variablen sind,gilt stets ε l ∈ − +1 0 1, , .
Die Verwendung der Lernregel (3.10) bzw. (3.11) kann wie folgt motiviert werden (vgl. Arbib[1987, S.67]): Gilt ~ ′ ⋅ ≥z wl l 0 und zl D∈ 0 , dann ordnet die R-Einheit das Muster zl derKlasse C1 zu, obwohl es aus der Klasse C0 entstammt. Da stets ~ ~′ ⋅ >z zl l 0 ist, gilt auch
( )~ ~ ~ ~ ~ ~′ ⋅ − = ′ ⋅ − ′ < ′ ⋅z w z z w z z z wl l l l l l l l lη η .
D.h., wird wl durch den Vektor w w zl l l+ −1 ==== η~ ersetzt, dann wird die R-Einheit eine richtigeoder zumindest eine 'richtigere' Diskrimination von zl durchführen. Analoge Überlegungengelten für den zweiten Fehlklassifikationsfall ~ ′ ⋅ <z wl l 0 und zl D∈ 1 . Natürlich kann die nun'richtigere' Diskrimination eines Musters mit einer 'falscheren' Diskrimination eines anderenMusters verbunden sein. Die Lösbarkeit der Lernaufgabe durch den Algorithmus ist somit kei-neswegs offensichtlich. Unter Gültigkeit der eingangs formulierten Annahme, daß die Men-gen D0 und D1 linear trennbar sind, konnte Rosenblatt [1962] die Konvergenz des Algorith-mus nach einer endlichen Anzahl l0 von Lernschritten beweisen. D.h., es existiert einenatürliche Zahl l0 < ∞ so, daß
w w wl l l0 0 01 2= = =+ +
erfüllt ist. w w ::::= l0 genügt der Bedingung (3.9). Dieses zentrale Ergebnis ist in der Literatur
als Perzeptron-Konvergenz-Theorem bekannt. Ein Beweis findet sich z.B. auch bei Arbib[1987, S.67f] oder Hertz et al. [1991, S.100f].
Das Theorem sagt nichts über die Anzahl der erforderlichen Lernschritte aus. Diese kann mitder Dimension der Trainingsvektoren rasch ansteigen. Ist die Bedingung der linearen Trenn-barkeit nicht erfüllt, dann ist auch die Konvergenz des Algorithmus nicht sichergestellt. DieLernregel erzeugt jetzt i.d.R. eine nicht-konvergente, oszillierende Folge wl l=1 2, ,... von Para-metervektoren und führt zu keinem eindeutigen Lernergebnis.
3.4 Grenzen des Perzeptron-Ansatzes
Perzeptron-Lernen, soweit es bis hierher diskutiert wurde, ist ein lineares Verfahren zur Dis-krimination von Assoziationsmustern. In der Diskussion blieb die Funktion der A-Einheitendes Perzeptrons unbeachtet. Die A-Einheiten fungieren in dem Modell als Präprozessoren, diein einer Vorverarbeitungsstufe Eingabemuster x ∈ X in Assoziationsmuster z ∈Z transfor-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
DAS KLASSISCHE PERZEPTRON 29
mieren. Verzichtet man auf diese Vorverarbeitung, dann sind Eingabe- und Assoziations-muster identisch, und das Perzeptron kann nur dann eine Klassifikationsaufgabe fehlerfreierfüllen, wenn die Eingabemuster x linear trennbar sind. Ein in der Literatur häufig zitiertesBeispiel für die hieraus resultierenden Grenzen des Einsatzbereichs der Perzeptrone ist dasAntivalenz-Problem (XOR-Problem) von Minsky & Papert [1969]. Der Eingaberaum (≡ Trai-ningsmenge) ist hier X = 0 1 2
, . Ferner gilt:
x1ν x2ν yν1100
1010
0110
Die Variable yν indiziert die Klassenzugehörigkeit der Muster xν ν ν= ′ ∈( )x x X1 2, . ObigeTabelle ist wie die Wahrheitstafel der Boole'schen Antivalenz-Funktion aufgebaut. Es kannleicht gezeigt werden, daß keine Funktion ( )o H w x w xν ν ν ζ= + −1 1 2 2 mit w w IR1 2, ,ζ ∈existiert, die X aufgabengerecht in die Teilmengen ( ) ( ) 1 1 0 0, , , und ( ) ( ) 1 0 0 1, , , trennt. EinPerzeptron-Ansatz ohne Präprozessoren scheitert an diesem vergleichsweise trivialen Klassi-fikationsproblem. Ebenso leicht läßt sich die Existenz eines Perzeptrons mit A-Einheiten nach-weisen, das das Antivalenz-Problem löst. Ein solches Netz mit zwei A-Einheiten zeigt dieAbbildung 3.4 (vgl. Nauck et al. [1996, S.41ff]).
Durch die Verwendung von A-Einheiten wird im Perzeptron-Modell versucht, die Beschrän-kungen eines linearen Ansatzes zu überwinden. Die Netzausgabefunktion ( )o f= x w, verhältsich jetzt nicht mehr wie eine lineare, sondern wie eine stückweise lineare Diskriminanzfunk-tion (vgl. S.24f). Theoretisch resultiert hieraus die Möglichkeit, daß das Künstliche NeuronaleNetz auch die fehlerfreie Klassifikation linear nicht-trennbarer Eingabemuster erlernen kann.Das ist genau dann erreichbar, wenn die A-Einheiten den Eingaberaum in einen linear trenn-baren Assoziationsraum abbilden. Problematisch an dem Modellansatz ist, daß die synapti-schen Gewichte und die Schwellenwerte der A-Einheiten nicht zielgerichtet adjustiert, sondernzufällig festgelegt werden. Ein gegebenes Perzeptron kann folglich an einer Musterklassifika-tionsaufgabe selbst dann scheitern, wenn im Rahmen des Ansatzes eine Lösung prinzipiellexistiert.
Diese generelle Problematik war der 'Perzeptron-Gruppe' um Rosenblatt bekannt. Der Perzep-tron-Lernalgorithmus schöpft das Potential der Netzwerkarchitektur nicht aus. Die Flexibilitätder Netzausgabefunktion ( )o f= x w, ist eingeschränkt, da der Algorithmus lediglich die Pa-rameter w der R-Einheit adjustiert. Wäre hingegen die Adjustierung aller Gewichte undSchwellenwerte im Netzwerk auf der Basis von Trainingsmustern möglich, so stünde ein weit
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
30 DAS KLASSISCHE PERZEPTRON
flexibleres Instrument zur Lösung von Musterklassifikationsaufgaben zur Verfügung. EinLernverfahren, das dies leisten kann, war Anfang der 1960ziger Jahren jedoch unbekannt.
Erst in den achtziger Jahren wurde unter der Bezeichnung Backpropagation-Algorithmus einVerfahren popularisiert, das geeignet ist, alle synaptische Gewichte und Schwellenwerte inNetzen mit mehreren hintereinandergeschalteten Neuronenschichten zu trainieren. Der Back-propagation-Algorithmus ist eine Verallgemeinerung des sogenannten Least-Mean-Square-Algorithmus. Beide Ansätze werden in den folgenden Kapiteln vorgestellt. Hier sei bereits an-gemerkt, daß mit ihnen ein deutlicher Paradigmenwechsel verbunden ist: Wie der NameLeast-Mean-Square-Algorithmus andeutet, fließen in die Lernalgorithmen statistische Argu-mente ein. Ihre biologische Plausibilität spielt eine eher untergeordnete Rolle.
x
x2
1 ζ=1.5
ζ=0.5
ζ=0.5
−1
+1
1
1
1
1
Sensoren A-Einheiten R-Einheit
1.5
1.0
0.5
0.5 1.0 1.5
(0,0) (1,0)
(0,1) (1,1)
=1o
o=0
o=0x1
x2
(a) (b)
o
Abb. 3.4: Perzeptron und Antivalenz-Problem. (a) Perzeptron. Die Zahlen geben die Gewichte dersynaptischen Eingangsleitungen bzw. die Schwellenwerte der Einheiten an. (b) Geometri-sche Interpretation. Die A-Einheiten definieren zwei Geraden, die die ( )x x1 2, -Ebene indrei Regionen zerlegt. Hierbei werden reelle Eingabevektoren ( )x x IR1 2
2, ′∈ unterstellt.Die zentrale Region ist mit der Netzausgabe o=1 assoziiert, die anderen Regionen mit derNetzausgabe o=0.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
31
4 Least-Mean-Square-Algorithmus und lineareNetzwerke
Einen nachhaltigen Einfluß auf die heute verwendeten 'überwachten' Lernverfahren für Künst-liche Neuronale Netze übt der bereits im Jahr 1960 von Bernard Widrow zusammen mitMarcian E. Hoff vorgestellte Least-Mean-Square-(LMS)-Algorithmus aus (Widrow & Hoff[1960]). Er ist in der neueren konnektionistischen Literatur auch unter den BezeichnungenDelta-Lernregel oder Widrow-Hoff-Lernregel bekannt.
Die Autoren führten den LMS-Algorithmus zunächst als ein Adaptionsverfahren für eine ein-fach aufgebaute Lernmaschine, das ADALINE, ein. Der Name ADALINE ist ein Akronymfür adaptive linear element oder adaptive linear neuron. Das ADALINE ist ein einzelnes ad-aptives Neuron und somit kein neuronales Netzwerk im eigentlichen Wortsinne. Es kann je-doch als ein Baustein für komplexere Mehr-Neuronen-Systeme verwendet werden. DasADALINE ist, vergleichbar mit Rosenblatts Photo-Perzeptronen, als eine Maschine zur Bear-beitung optischer Musterwiedererkennungsprobleme konzipiert. Der LMS-Algorithmus solles ihr ermöglichen, anhand von Klassifikationsbeispielen die Diskrimination einfacher opti-scher Muster zu erlernen. Widrow und Hoff nehmen in ihrer Arbeit allerdings keinen direktenBezug auf die Forschungsarbeiten der 'Perzeptron-Gruppe'. Ihr Ansatz ist weniger durch bio-logische, denn durch ingenieurwissenschaftliche Überlegungen geprägt. Der LMS-Algorith-mus basiert auf statistischen Argumenten.
Die Einsatzmöglichkeiten des LMS-Algorithmus sind nicht auf das Training von Klassifika-tionsmaschinen beschränkt. Er kann nicht nur im Zusammenhang mit Diskriminationsproble-men, sondern auch als ein Verfahren zur Lösung allgemeinerer Regressionsprobleme einge-setzt werden. Der Algorithmus ist, wie es in der Namensgebung anklingt, eine rekursive Vari-ante der Kleinste-Quadrate-Methode. Ferner ist er eng mit der auf Robbins & Monro [1951]zurückgehenden stochastischen Approximationsmethode verwandt. In späteren Arbeiten vonWidrow und anderen Autoren wurden für den LMS-Algorithmus weitere Anwendungsgebieteerschlossen. Widrow etablierte ihn in dem primär ingenieurwissenschaftlich orientierten For-schungsbereich der adaptiven Signalverarbeitung als ein Adaptionsverfahren für lineare Sy-steme. Einsatzbeispiele solcher Systeme sind die adaptive Ausrichtung von Antennensyste-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
32 LMS-ALGORITHMUS UND LINEARE NETZWERKE
men oder die adaptive Rauschunterdrückung in weitreichenden Telefonleitungen (sieheWidrow et al. [1967], Widrow et al. [1975]). In der konnektionistischen Praxis etablierte sichder Algorithmus als ein häufig eingesetztes Lernverfahren für sogenannte lineare assoziativeSpeicher (siehe z.B. Ritter et al. [1992, S.39ff]).
In den folgenden Ausführungen steht der Prototyp-Charakter des Ansatzes für den Backpro-pagation-Algorithmus im Vordergrund. Der LMS-Algorithmus wird zunächst als ein Lernver-fahren für eine primitive Lernmaschine eingeführt, die nur eine einzige lineare Signalverarbei-tungseinheit besitzt. Lernziel ist die Lösung linearer Regressionsprobleme. Die Betrachtungenwerden an späterer Stelle auf Netzwerke mit mehreren, parallel geschalteten linearen Einhei-ten und auf das historisch interessante ADALINE erweitert.
Der LMS-Algorithmus kann in zwei verschiedenen Lernsituationen eingesetzt werden, diehier durch die Termini Echtzeit-Lernen und zyklisches Lernen umschrieben werden. Widrow& Hoff entwickelten den Algorithmus ursprünglich als ein Lernverfahren für Netze, die ineinen 'Echtzeit-Signalstrom' eingebettet sind. Damit ist gemeint, daß ein Netz im ZeitablaufSignale seines Umsystems empfängt, die es ohne wesentliche Zeitverzögerung als Trainings-daten bzw. -muster zur Adjustierung seiner Gewichte nutzt. Die Signale sind nur transitorischverfügbar, eine Datenspeicherung erfolgt nicht. Der Signalstrom besitzt den Charakter einer(theoretisch infinit langen) Zeitreihe. Die Autoren setzten den LMS-Algorithmus aber auch ineiner zweiten Lernsituation ein. Beim zyklischen Lernen ist eine endliche Daten- oder Trai-ningsmenge fest vorgegeben und gespeichert. Die Daten werden dem Netz in einer Trainings-sequenz solange zyklisch präsentiert, wie eine Verbesserung der Lernergebnisse erzielt wer-den kann. Danach wird der Lernprozeß abgebrochen, und das Netz gilt als trainiert. Eine ver-gleichbare Lernsituation wurde bereits beim Perzeptron-Lernen vorgestellt. Die Trainings-daten können Zeitreihen- oder Querschnittsdatencharakter aufweisen. Die skizzierte Vor-gehensweise erlaubt es, den Algorithmus zur Lösung sehr vielfältiger Lernaufgaben einzu-setzen. Den beiden Lernszenarien liegen grundverschiedene Datensituationen zugrunde. Umdie statistischen Hintergründe transparent werden zu lassen, werden Echtzeit-Lernen und zy-klisches Lernen getrennt behandelt.
4.1 Eine einfache Lernmaschine und lineare Regressionsprobleme
Der LMS-Algorithmus soll zunächst als ein Lernverfahren für ein primitives Netz motiviertwerden, das sich aus mehreren Eingabeeinheiten oder Sensoren und einer adaptiven linearenVerarbeitungseinheit zusammensetzt (vgl. Abb. 4.1). In den Ingenieurwissenschaften ist dieVerarbeitungseinheit als ein Adaptiver Linearer Kombinierer (adaptive linear combiner, kurz
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
LMS-ALGORITHMUS UND LINEARE NETZWERKE 33
ALC) bekannt. Für die Diskussion ist es nützlich, das Netz als eine Lernmaschine aufzufas-sen, die aus einfachen physikalischen Komponenten aufgebaut ist. Um diese Sicht zu betonen,wird die technische Bezeichnung ALC übernommen.
Das Netz empfängt über p Sensoren reellwertige Signale xi ( i p=1,..., ) seines Umsystems. DieEingangssignale werden über gewichtete Leitungen mit den reellen Gewichten wi (i = 1,...,p)an einen in der ALC-Einheit integrierten Addierer weitergeleitet. Das Netz ist ferner mit einemScheinsensor ausgestattet, der über eine mit w0 gewichteten Leitung ein Einheitssignal x0 1≡an den Addierer sendet. Der Scheinsensor wird als Biaseinheit und das Gewicht w0 als Biasge-wicht oder kurz Bias bezeichnet. Der Addierer berechnet die Summe der gewichteten Signale
(4.1) o w x w w xi ii
p
i ii
p= = +
= =∑ ∑
00
1 ,
die als das Ausgangssignal des Netzes zurück an das Umsystem gesandt wird. Das Ausgangs-signal o wird im folgenden als eine Funktion der Umsystemsignale und der Netzgewichteaufgefaßt. Der Zusammenhang wird formal durch die Netzausgabefunktion f IR W IRp: × →mit ( )o f= x w, beschrieben. Hierbei ist x = ′ ∈( )x x IRp
p1 , , der Vektor der Eingangssigna-
le, w = ′ ∈( )w w w Wp0 1, , , der Vektor der Gewichte und W IR p⊆ +1 der Gewichts- oderParameterraum. Schließlich sei ~x x= ′ ′(1, ) ein erweiterter Signalvektor. Mit diesen Verein-barungen kann (4.1) auch gemäß
(4.2) ( )f x w w x, ~= ′
geschrieben werden.
x
.....
w
w
wp p
1
0
Σ
ΣAdaptions-algorithmus
-o
y - oy
o
ZielausgabeFehlersignal
signaleEingangs-
Adjustierbare Gewichte
Sensoren
Sensor
. ...
x1
Adaptiver Linearer Kombinierer
AusgangssignalAddierer
1
Biaseinheit
Abb. 4.1: Primitives lineares Netz und Adaptiver Linearer Kombinierer (ALC)
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
34 LMS-ALGORITHMUS UND LINEARE NETZWERKE
Die Signalverarbeitungsaufgabe der ALC-Einheit besteht darin, auf Eingangssignale x mit'geeigneten' oder 'erwünschten' Ausgangssignalen o f= ( )x w, zu antworten. Damit sie ihreAufgabe erfüllen kann, ist eine adäquate Adjustierung des Gewichtsvektors w erforderlich.Wie in Abbildung 4.1 schematisch dargestellt, sind ein Gewichtsadaptionsalgorithmus, hierder LMS-Algorithmus, und ein Korrekturmechanismus für die Gewichte in dem ALC inte-griert. Der ALC wird so zu einer adaptiven Verarbeitungseinheit. Der LMS-Algorithmus istein überwachtes Adaptionsverfahren. Er setzt die Verfügbarkeit einer Menge von Lerndatenoder Trainingsmustern voraus, die sich jeweils aus einem Vektor x, im folgenden Eingabe-vektor genannt, und einer zugehörigen Zielausgabe y IR∈ zusammensetzen. Diese Trai-ningsmuster werden sequentiell in das Netz eingespeist. Der LMS-Algorithmus löst immerdann eine Gewichtskorrektur aus, wenn die Differenz y o− einer Zielausgabe y und der tat-sächlichen Ausgabe o f= ( )x w, von null verschieden ist. Ziel ist es, den Gewichtsvektor wso zu adjustieren, daß die Ausgaben o die vorgegebenen Zielausgaben y möglichst gutapproximieren. In der konnektionistischen Sprechweise sagt man auch, 'die Einheit soll ler-nen, die Eingabevektoren x mit den Zielausgaben y zu assoziieren'.
4.1.1 Das Lernziel des LMS-Algorithmus
Bevor der LMS-Algorithmus vorgestellt werden kann, muß die Frage erörtert werden, was imRahmen des LMS-Ansatzes unter einer 'möglichst guten' Approximation einer Zielausgabe ydurch die tatsächliche Ausgabe o der Einheit verstanden wird. Einleitend ist es notwendig, ei-nige Vereinbarungen bezüglich der statistischen Eigenschaften der Lerndaten zu treffen.
Es wird angenommen, daß als Lerndatensatz eine (finite oder infinite) Sequenz zt t=1 2, ,... vonTrainingsmustern verfügbar ist. Jedes Trainingsmuster ist ein (1+p)-dimensionaler Vektorz xt t ty= ′ ′( ), , der sich aus einem Eingabevektor xt t ptx x= ′( )1 , , und einer zugehörigenZielausgabe yt zusammensetzt. Weiter wird unterstellt, daß der datenerzeugende Mechanismuszufälligen Einflüssen unterliegt. Jedes Trainingsmuster zt wird als eine beobachtete Realisie-rung eines (1+p)-dimensionalen Zufallsvektors Zt aufgefaßt. Zt ist gemäß Z Xt t tY= ′ ′( ), ineine skalare Zielvariable Yt und einen p-dimensionalen Vektor Xt t ptX X= ( , )1 , ′ von Ein-gabevariablen partitioniert. Der Wertebereich der Zufallsvariablen kann abzählbar oder über-abzählbar sein. Das Lernziel wird die lineare Approximation (Erklärung, Prognose) von Ytdurch Xt sein. Die Zielvariable kann daher auch als eine abhängige oder zu erklärende Varia-ble aufgefaßt werden. Die Eingabevariablen Xit ( i p=1,..., ) stellen in diesem Sinne unabhän-gige oder erklärende Variablen dar. Die Sequenz Zt t=1 2, ,... von Zufallsvektoren wird als derdatenerzeugende Prozeß bezeichnet.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
LMS-ALGORITHMUS UND LINEARE NETZWERKE 35
Die probabilistische Eigenschaften, die der datenerzeugenden Prozeß sinnvollerweise besitzensollte, werden ausführlich in Abschnitt 4.1.2 festgelegt. An dieser Stelle ist es ausreichend, ei-nige wenige Vereinbarungen zu treffen. Es wird angenommen, daß die Zufallsvektoren Zt füralle t = 1,2,... identisch verteilt sind mit der Verteilungsfunktion ( ) ( )F P tZ z Z z= ≤ , z∈ +IR p 1 .Weiter wird angenommen, daß die Mittelwerte1)
[ ] ( )E Z z dFlt l lIR p
= =+∫ Z z µ
1
(l = 1,...,p+1)
und Kovarianzen
[ ] ( )E Z Z z z dFlt l kt k l l k kIR
lkp
( )( ) ( )( )− − = − − =+∫µ µ µ µ σZ z
1
(l,k = 1,...,p+1)
der Komponenten von Z Xt t t t p tY Z Z= ′ ′ ′+( ) = ( ), ,..., ,1 1 existieren. Zlt symbolisiert vorüber-gehend die l-te Komponente von Zt und zl einen Wert von Zlt (Zkt analog). Die Existenz derErwartungswerte ist sichergestellt, wenn alle Komponenten Zlt quadratisch integrierbar sind;d.h., ( )E Z z dFlt l[| | ] | | 2 2= < ∞∫ Z z ( l p= +1 1,..., ). Die Mittelwerte µl ( l p= +1 1,..., ) werden indem Mittelwertvektor E t[ ]Z ==== µµµµ Z und die Kovarianzen σlk ( l k p, ,...,= +1 1 ) in der Kovarianz-matrix Var t[ ]Z Z= ΣΣΣΣ zusammengefaßt. Der Vektor und die Matrix seien analog zuZ Xt t tY= ′ ′( ), in Teilkomponenten partitioniert:
(4.3) [ ]E EY
tt
t
YZX
====µµµµ
==== µµµµ
=
µ
XZ ,
(4.4) [ ] ( ) ( )Var E
EY Y
t t t
t
t
t
t
Y Y Y Y
Y
Z Z Z
X X
Z Z
X XZ
= − ⋅ − ′
=−−
⋅
−−
′
=
′
=
µµµµ µµµµ
µµµµ µµµµΣΣΣΣ
ΣΣΣΣ ΣΣΣΣΣΣΣΣ
µ µ σ2X
X X
mit [ ]σ µY YE Yt2 = −( )2 , [ ]ΣΣΣΣ µµµµY YE Yt tX = − −( )( )µ X X und [ ]ΣΣΣΣ µµµµ µµµµX = − − ′E t t( )( )X XX X .
Abschließend wird noch gefordert, daß die ( )p p, -Kovarianzmatrix ΣΣΣΣ X des Teilvektors Xt vonZt eine nichtsinguläre oder reguläre Matrix ist; d.h., ΣΣΣΣ X besitzt den vollen Rang ( )rg pΣΣΣΣ X =und ihre Inverse ΣΣΣΣ X
−1 existiert. Die Annahme impliziert die Abwesenheit exakter linearer Ab-
1) Es sei Z ein n-dimensionaler Zufallsvektor mit der Verteilungsfunktion F(z), g(Z) mit g: IRn→IR eine wohl
definierte skalare Zufallsvariable und z∈IRn. Zur Vereinfachung der Notation wird der Erwartungswert vong(Z) im folgenden ( )[ ] ( ) ( )E g g dFIRnZ z z= ∫ oder noch kürzer ( )[ ] ( ) ( )E g g dFZ z z= ∫ geschrieben. Die rech-ten Seiten der Gleichungen symbolisieren jeweils ein n-faches uneigentliches Stieltjes-Integral. Dabei wirdvorausgesetzt, daß g(Z) integrierbar ist; d.h. ( ) ( )g dFz z∫ < ∞ .
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
36 LMS-ALGORITHMUS UND LINEARE NETZWERKE
hängigkeitsbeziehungen zwischen den Komponenten des Zufallsvektors Xt. Existieren exaktelineare Beziehungen, kann das Problem durch Entfernen redundanter Zufallsvariablen aus Xtgelöst werden.
Die in (4.2) eingeführte Netzausgabefunktion soll jetzt gemäß
(4.5) ( )O ft t t= = ′X w w X, ~
notiert und als ein linearer Approximator oder linearer Prediktor der Zufallsvariablen Yt be-trachtet werden (t = 1,2,...). Es gilt ~ ,X Xt t= ′ ′( )1 . Als Maß für die Güte der Approximationdient der mittlere quadratische Fehler (mean square error, kurz MSE)
(4.6) ( ) ( ) ( ) ( )[ ] [ ]M y dF E Y EIR
t t tp
w w x z w XZ= − ′ = − ′ =+∫ ~ ~2 2 2
1
ε ,
wobei ε t t tY:= − ′w X~ den Approximationsfehler kennzeichnet. Der Gewichtsvektor w ist soeinzustellen, daß das Gütekriterium (4.6) minimal wird. Existiert eine eindeutig bestimmteLösung wo W∈ des Minimierungsproblems, dann ist ( )f t oX w, die beste lineare Approxi-mation der Zielvariablen Yt durch den Eingabevektor Xt im Sinne des MSE-Kriteriums.
Bei Kenntnis des Mittelwertvektors µµµµ Z und der Kovarianzmatrix ΣΣΣΣ Z kann das Minimierungs-problem unmittelbar gelöst werden. Aus (4.6) folgt:
( ) ( )[ ] [ ] [ ] [ ]M E Y E Y E Y Et t t t t t tw w X w X w X X w= − ′ = − ′ + ′ ′~ ~ ~ ~2 2 2 .
Notwendige Bedingung für die Existenz eines Minimums der Funktion M(w) ist, daß derVektor der partiellen Ableitungen 1. Ordnung von M(w) bezüglich w verschwindet:
( ) [ ] [ ]∂∂
ME Y Et t t t
ww X X X w= − + ′ =2 2~ ~ ~ 0 .
Aus der Bedingung folgt das sogenannte Normalgleichungssystem
(4.7) [ ] [ ]E E Yt t t t~ ~ ~X X w X′ = .
Mit
[ ] [ ]EEt t
t t
~ ~X XX XX
X
′ =′
′
1 µµµµ
µµµµ , [ ] [ ]E Y
E Yt tt t
Y~XX
=
µ und w w=
≡
ww
w
w
p
01 0
1
kann das Normalgleichungssystem auch äquivalent
[ ] [ ]w
w E E YY
t t t t
0 1
0 1
+ ′ =
+ ′ =
µµµµ
µµµµX
X
w
X X w X
µ
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
LMS-ALGORITHMUS UND LINEARE NETZWERKE 37
geschrieben werden. Aus der ersten Gleichung folgt sofort w Y0 1= − ′µ µµµµ Xw . Wegen µµµµ Xw0 =µµµµ µµµµ µµµµX X XwµY − ′ 1, [ ]ΣΣΣΣ µµµµ µµµµX X XX X= ′ − ′E t t , [ ]ΣΣΣΣ µµµµY YE Yt tX XX= −µ , gilt weiter ΣΣΣΣ ΣΣΣΣX Xw1 = Y .ΣΣΣΣ X ist die (p , p)-Kovarianzmatrix des Zufallsvektors Xt und ΣΣΣΣ YX ist die (p , 1)-Kreuzkovari-anzmatrix von Yt und Xt aus (4.4). Da ΣΣΣΣ X als eine reguläre Matrix vorausgesetzt wurde, istdie Gleichung ΣΣΣΣ ΣΣΣΣX Xw1 = Y eindeutig nach w1 lösbar: w X X1
1==== ΣΣΣΣ ΣΣΣΣ−Y . Das Normalgleichungs-
system besitzt somit die eindeutige Lösung:
(4.8) w X X X
X Xo
Y Y
Y
=− ′
−
−
µ µµµµ ΣΣΣΣ ΣΣΣΣ
ΣΣΣΣ ΣΣΣΣ
1
1 .
Die Lösung wo ist, wie sich leicht zeigen läßt, die globale Minimumstelle der quadratischenZielfunktion (4.6) (siehe z.B. Schlittgen & Streitberg [1994, S.519]).
Aus (4.8) ist ersichtlich, daß der Bias w0 verzichtbar wird, falls µµµµ Z ein Nullvektor ist. Eskann w0 ≡ 0 gesetzt werden. Die MSE-optimale lineare Approximation Ot
oo t:= ′w X~ der Ziel-
variablen Yt ist dadurch charakterisiert, daß Oto und der korrespondierende Approximations-
fehler ε to
t toY O:= − zueinander orthogonal sind. Man beachte, daß w X X Xo t t t tE E Y≡ ′ −[ ] [ ]~ ~ ~1
ist. Wegen
(4.9) [ ] ( )[ ] [ ] [ ][ ] [ ] [ ] [ ]
E E Y E Y E
E Y E E E Y
t to
t t t t t t t
t t t t t t t t
o o~ ~ ~ ~ ~ ~
~ ~ ~ ~ ~ ~
X X X w X X X w
X X X X X X
ε = − ′ = − ′
= − ′ ′ =−1 0 ,
sind die Komponenten von Xt und ε to unkorreliert. Da Ot
o eine Linearkombination von ~Xtist, sind auch Ot
o und ε to unkorreliert. Es gilt E O E Et
oto
o t to
o t to[ ] [ ] [ ]ε ε ε= ′ = ′ =w X w X~ ~ 0 . Die
erste Komponente des Vektors ~X t toε ist ε t
o , so daß aus (4.9) ferner E to[ ]ε = 0 folgt.
Die Netzausgabefunktion ( )f t oX w, ist der MSE-optimale lineare Approximator oder Pre-diktor der Zielvariablen Yt durch den Eingabevektor X t . Dies bedeutet nicht, daß dieNetzausgabefunktion auch der bestmögliche Prediktor im Sinne des MSE-Kriteriums seinmuß. Es ist wohl bekannt, daß der MSE-optimale Prediktor durch die bedingte Erwartungs-wertfunktion oder Regressionsfunktion µ( ) [ ]X Xt t tE Y= gegeben ist, wobei
(4.10) [ ] ( )µ( ) x X x xX= = = ∫E Y y dF yt t YIR
der bedingte Erwartungswert von Yt bei gegebenem Xt = x ist. F yY X x( ) = P Y yt t( ) ≤ =X xkennzeichnet die bedingte Verteilungsfunktion der Zielvariablen Yt für einen gegebenen Wertx der erklärenden Variablen Xt. Mit Hilfe von Standardargumenten kann leicht gezeigt wer-den, daß µ( )Xt die Minimumeigenschaft
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
38 LMS-ALGORITHMUS UND LINEARE NETZWERKE
(4.11) ( )[ ] ( )[ ]E Y g E Yt t t t− ≥ −( ) ( )X X2 2µ
besitzt, wobei g IR IRp: → eine beliebige Borel-meßbare Funktion2) ist. Es gilt:
( )[ ] ( )[ ]E Y g E Y gt t t t t t− = − + −( ) ( ) ( ) ( )X X X X2 2µ µ
( )[ ] ( )( )[ ]
( )[ ]( )[ ] ( )[ ]( )[ ]
= − + − −
+ −
= − + −
≥ −
E Y E Y g
E g
E Y E g
E Y
t t t t t t
t t
t t t t
t t
µ µ µ
µ
µ µ
µ
( ) ( ) ( ) ( )
( ) ( )
( ) ( ) ( )
( ) .
X X X X
X X
X X X
X
2
2
2 2
2
2
Die vorletzte Zeile ergibt sich durch Anwendung des Gesetzes für iterierte Erwartungswerte(Doob [1953, S.35]):
( )( )[ ] ( )( )[ ][ ]( )[ ]( )[ ]
E Y g E E Y g
E E Y g
t t t t t t t t t
t t t t t
− − = − −
= − − =
µ µ µ µ
µ µ
( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( )
X X X X X X X
X X X X 0
mit ( )[ ] [ ]E Y E Yt t t t t t t t− = − = − =µ µ µ µ( ) ( ) ( ) ( )X X X X X X 0 .
Die Netzausgabefunktion f t o( , )X w besitzt die Minimumeigenschaft (4.11) nur bezüglichder Menge aller linearen Funktionen g IR IRp: → . f t o( , )X w und die Regressionsfunktionµ( )Xt für Yt sind nur dann identisch, wenn µ( )Xt eine Linearkombination der Komponen-ten von Xt ist. Ein solcher linearer Zusammenhang zwischen Yt und Xt wird hier aber nichtunterstellt. Im allgemeinen ist µ( )Xt eine nichtlineare Funktion. Wegen
(4.12) ( ) ( )[ ] ( )[ ]M E Y f E ft t t tw X w X X w= − = + −( , ) ( ) ( , )2 2 2σ µ
mit σ µ2 = −E Yt t[( ( )) ]2X , kann f t o( , )X w als die beste lineare Approximation der Regres-sionsfunktion µ( )Xt im Sinne des MSE-Kriteriums interpretiert werden. Man beachte, daßder Vektor wo genau dann die Minimumstelle von M(w) ist, wenn wo den mittleren quadrati-schen Approximationsfehler E ft t[( ( ) ( , )) ]2µ X X w− minimiert. µ( )Xt wird als die allge-
2) Es seien B und pB die σ-Algebren der Borelmengen des IR und IRp. Eine Funktion IRIRg p → : heißt
Borel-meßbar, wenn die Urbildmenge )(:)( 1 BgIRBg p ∈∈=− xx einer jeden Menge B∈B ein Elementvon pB ist; kurz: pBg B∈− )(1 für alle B∈B . Die Eigenschaft stellt sicher, daß die Funktion g(Xt) einesZufallsvektors Xt eine wohl definierte Zufallsvariable ist (vgl. auch Abschnitt 4.1.2). Speziell sind allestetigen Funktionen Borel-meßbar.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
LMS-ALGORITHMUS UND LINEARE NETZWERKE 39
meine Regressionsfunktion und f t o( , )X w als die lineare Regressionsfunktion von Yt bezüg-lich Xt bezeichnet.
Die Berechnung des Vektors wo gemäß (4.8) setzt die Kenntnis des Mittelwertvektors µµµµ Zund der Kovarianzmatrix ΣΣΣΣ Z voraus. In der Praxis sind beide jedoch unbekannt. Das Lernzieldes LMS-Algorithmus besteht in der Schätzung des Vektors wo. Als Informationsbasis dienendie beobachteten Trainingsmuster zt t=1 2, ,... .
4.1.2 Der datenerzeugende Prozeß
Der LMS-Algorithmus kann als Echtzeit-Lernverfahren oder zyklisches Lernverfahren einge-setzt werden. In einer Echtzeit-Lernsituation repräsentieren die Komponenten eines Trai-ningsmusters zt t t pty x x= ′( ), , ,1 Messungen oder Beobachtungen spezifischer Merkmaledes Netzumsystems in einem Zeitpunkt t. Das Netz empfängt das Trainingsmuster von seinemUmsystem in Echtzeit und nutzt es zur Adjustierung seiner Gewichte. Im folgenden wird un-terstellt, daß der Beobachtungsvorgang beliebig oft wiederholbar ist und in äquidistantenZeitpunkten t = 1,2,3,... ausgeführt wird. Es entsteht eine zeitlich geordnete Vektorfolge odermultivariate Zeitreihe zt t=1 2, ,... . Die Komponenten xit (i = 1,...,p) des Eingabevektors xt re-präsentieren i.d.R. Beobachtungen verschiedener Merkmale. Es ist aber auch denkbar, daß derVektor gemäß xt t t px x= ( , ), − + ′1 aufgebaut ist und zeitverzögerte Beobachtungen einesempirischen Phänomens enthält. Es kann ferner ein Vektor xt t t py y= ( , )− − ′1 , zeitver-zögerter Zielausgaben vorliegen. In diesem Spezialfall geht die multivariate Zeitreihe in eineunivariate Reihe ( ) ( ),yt t p p= − −1 2, ... über.
Beim zyklischen Lernen ist eine Menge zt t N=1 2, ,... von N < ∞ Trainingsmustern vorgegeben.Der Lernprozeß beginnt hier stets nach Abschluß der Datenerfassung, so daß der Zeitbezugder Daten keine die Lernsituation prägende Bedeutung besitzt. Die Trainingsmuster könnenZeitreihendaten oder auch Querschnittsdaten sein. Im zweiten Fall repräsentieren die Trai-ningsmuster Ausprägungen spezifischer Merkmale, die in einem Zeitpunkt oder in einem be-grenzten Zeitraum an verschiedenen statistischen Einheiten beobachtet wurden. Eine Quer-schnittsdatenmenge wird im folgenden als eine beobachtete einfache Zufallsstichprobe vomUmfang N angenommen. Der Index t eines Trainingsmusters kennzeichnet die Nummer einesStichprobenzuges.
Unabhängig davon, ob Zeitreihen- oder Stichprobendaten vorliegen, soll ein Lerndatensatz alseine Realisation oder als Ausschnitt einer Realisation eines multivariaten stochastischen Pro-zesses mit den im Vorkapitel genannten Eigenschaften aufgefaßt werden. Im Falle von Stich-probendaten wird darüber hinaus angenommen, daß eine Familie stochastisch unabhängiger
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
40 LMS-ALGORITHMUS UND LINEARE NETZWERKE
und identisch verteilter (independent and identically distributed, kurz i.i.d.) Zufallsvektorenvorliegt. Zeitreihendaten sind in aller Regel Beobachtungen abhängiger Zufallsvektoren. Hierrichtet sich die Aufmerksamkeit auf stationäre ergodische oder stationäre mischende Prozesse.Einige Grundkonzepte sollen, soweit dies für das Verständnis späterer Ausführungen erforder-lich erscheint, kurz erläutert werden. Hinweise auf ausführliche Darstellungen in der Literaturfinden sich im Text.
Gegeben sei eine nicht-leere Indexmenge T und ein Wahrscheinlichkeitsraum ( )P,,FΩ . Hier-bei ist Ω (Grundraum) die Menge aller möglichen Ausgänge oder Ergebnisse eines Zufalls-vorganges. F (Ereignisfeld) ist eine Menge von Teilmengen von Ω, die alle Eigenschaften einerσ-Algebra besitzt: (i) F∈Ω , (ii) falls F∈A , dann F∈A und (iii) falls F∈ 21 ,...A,A , dann
F∈∞=1n nA . A bezeichnet das Komplement einer Menge A. Jede Menge F∈A heißt zufälli-
ges Ereignis. P (Wahrscheinlichkeitsmaß) ist eine auf F definierte Funktion IRP →F : mitden Eigenschaften: (i) P(A) ≥ 0 für alle F∈A , (ii) P(Ω) = 1 und (iii) ( )P Ann=
∞ =1 ( )P Ann=∞∑ 1
für jede Folge ,...A,A 21 paarweise disjunkter Mengen aus F. P ordnet jedem zufälligen Er-eignis F∈A die Wahrscheinlichkeit P(A) zu.
Ein multivariater stochastischer Prozeß sei jetzt definiert als eine Familie : Zt E t TΩ→ ∈,von Zufallsvektoren auf ( )P,,FΩ mit dem gemeinsamen Wertebereich E. Die Indexmenge Twird auch Parameterraum und der Wertebereich E Zustandsraum des Prozesses genannt. Fürjedes feste Ergebnis ω∈Ω des Zufallsvorganges heißt ( ) Zt t Tω , ∈ Realisation (synonym:Pfad, Trajektorie) des Prozesses (vgl. z.B. Fahrmeir et al. [1981, S.5f]). Ein Prozeß wird imfolgenden durch Zt t T∈ gekennzeichnet. Eine Realisiation wird zt t T∈ geschrieben.
Die geeignete Wahl der Mengen E und T hängt von der jeweiligen Anwendung eines stocha-stischen Prozesses ab. Als Zustandsraum E wird hier der IRr (oder eine Teilmenge hiervon)angenommen. In dem momentan interessierenden Kontext ist r = p+1. An späterer Stelle wer-den auch Dimensionen r > p+1 benötigt. Liegen einem Lernvorgang Stichprobendaten zu-grunde, dann wird der Parameter t des datenerzeugenden Prozesses als ein Zählindex und derProzeß selbst als eine Folge von Stichprobenvektoren interpretiert. Jeder Vektor Zt repräsen-tiert den potentiellen Ausgang eines Stichprobenzuges. Eine naheliegende Festlegung des Pa-rameterraums ist hier T IN= = 1,2,3,.... Im Zeitreihenfall ist t ein Zeitindex und der Prozeßeine zeitlich geordnete zufällige Folge. Da unterstellt wird, daß der Prozeß nur in Zeitpunktent = 1,2,... beobachtet wird, bietet sich wieder ein Parameterraum T IN= an. Aber auch dieWahl T IZ= = ...,−2,−1,0, +1,+2,... ist zweckmäßig. Der Prozeß besitzt jetzt in jedem Zeit-punkt t ≥1 bereits eine unendlich währende Geschichte. Diese Annahme vereinfacht häufigtheoretische Überlegungen. Je nach Zweckmäßigkeit wird im folgenden T IN= oder T IZ=unterstellt.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
LMS-ALGORITHMUS UND LINEARE NETZWERKE 41
Der Grundraum Ω soll ohne Beschränkung der Allgemeinheit als Menge Ω = ET aller Prozeß-realisationen definiert werden. Im Fall T IN= ist Ω = = × =
∞E ETt 1 die Menge aller Punkt-
folgen ω= ( , , )z z z1 2 3 ,... im Zustandsraum E (für T IZ= analog). Diese (kanonische) Defini-tion ermöglicht es, von realen Zufallsvorgängen und deren Grundräumen zu abstrahieren. EinZufallsvektor Zt ist jetzt ein Projektionsoperator, der für ein gegebenes ω die t-te Koordinate ztvon ω selektiert: Z zt t( )ω = . Als Ereignisfeld F wird die kleinste σ-Algebra angenommen, diealle Zylindermengen der Form ( ) ( ) ω ω ω∈ ∈ ∈Ω Z Zt t nA A
n1 1 , , mit n IN∈ , t t Tn1 ,..., ∈und E
nA,,A B∈1 enthält. Dabei steht ( ) ( ) ω ω ω∈ ∈ ∈Ω Z Zt t nA An1 1 , , für die Menge
( ) | = ω ω∈ ∈Ω Zt iin
iA1 und BE kennzeichnet die σ-Algebra der Borel-Mengen des Zu-
standsraumes E (Borel σ-Algebra). BE enthält alle offenen Teilmengen von E sowie derenKomplemente und Vereinigungsmengen. Für jede Abbildung Zt E: Ω→ mit Z zt t( )ω = ( )t T∈gilt F∈−
1 )(AtZ für alle EA B∈ , wobei Zt A− =1 ( ) : ( ) ω ω∈ ∈Ω Zt A die Urbildmenge von
A unter Zt ist. Die Zufallsvektoren Zt heißen ] [ EBF , -meßbare Abbildungen (siehe z.B. Doob[1953, S.46ff], Hannan [1970, S.3f und S.200] oder Bauer [1974, S.344ff]).
Zentrale Bedeutung für das Studium der probabilistischen Eigenschaften eines stochastischenProzesses besitzen die gemeinsamen Wahrscheinlichkeitsverteilungen der Prozeßvektoren,die durch das Wahrscheinlichkeitsmaß P festgelegt sind. Für ein beliebiges n IN∈ , beliebige
Tt,...,t n ∈1 und EnA,,A B∈1 bezeichne
(4.13) ( ) ( )P A A P A At t n t t nn n1 11 1,..., , ,( ) ( ) × × = ∈ ∈ ∈ω ω ωΩ Z Z
die gemeinsame Wahrscheinlichkeitsverteilung (Verteilung n-ter Ordnung) der Zufallsvekto-ren Z Zt tn1
,..., . Die Verteilungen n-ter Ordnung besitzen die Eigenschaften:
(i) P A A E P A At t n t t nn n1 1 11 1 1 1,..., ,...,( ) ( )× × × = × ×− −−
(ii) P A A P A At t n t t i in i in n1 1 11,..., ,...,( ) ( )× × = × × ,
wobei ( )i in1,..., eine beliebige Permutation von ( )1,...,n ist. Die Wahrscheinlichkeitsver-teilung Pt tn1 1,..., −
heißt auch Randverteilung (n-1)-ter Ordnung der Verteilung Pt tn1 ,..., . In Ab-schnitt 4.1.1 wurden die Verteilungen erster Ordnung durch Verteilungsfunktionen beschrie-ben. Eine Funktion [ ]F IRt
rZ : → 0 1, heißt Verteilungsfunktion des Zufallsvektors Zt, wenn
( ) ( )F Pt tZ z Z z= ∈ ≤( | ) ω ωΩ für alle z ∈ IRr gilt. Hierfür wird kurz ( ) ( )F Pt tZ z Z z= ≤geschrieben. Aufschluß über die Bedeutung der Wahrscheinlichkeitsverteilungen gibt der Satzvon Kolmogorov. Es besagt, daß unter Gültigkeit allgemeiner Voraussetzungen ein Prozeß Zt t T∈ durch die Familie Pt t n IN t t Tn n1 1,..., ; ,...,∈ ∈ seiner Verteilungen endlicher Ordnung ein-deutig bestimmt ist (siehe z.B. Bauer [1974, S.347]).
Stichprobendaten werden hier unter der üblichen Annahme betrachtet, daß der datenerzeugen-de Prozeß Zt t T IN∈ = eine Familie stochastisch unabhängiger und identisch verteilter Zufalls-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
42 LMS-ALGORITHMUS UND LINEARE NETZWERKE
vektoren (Stichprobenvektoren) ist. Die Zufallsvektoren heißen genau dann stochastischunabhängig, wenn für alle n IN∈ , Tt,...,t n ∈1 und E
nA,,A B∈1
(4.14) ( ) ( )P A A P At t n t ii
n
n i1 11
,..., × × ==∏
erfüllt ist. D.h., die gemeinsamen Wahrscheinlichkeitsverteilungen n-ter Ordnung der Zufalls-vektoren Z Zt tn1
,..., sind bereits vollständig durch die Randverteilungen erster OrdnungP At ii
( ) der einzelnen Vektoren Zti bestimmt. Eine identische Verteilung der Zufallsvektoren
ist gegeben, wenn P A P At t1 2( ) ( )= für beliebige t t T1 2, ∈ und EA B∈ gilt. Ein Ausschnitt
Zt t N=1,..., mit N < ∞ des Prozesses wird als eine einfache Zufallsstichprobe (mathematischeStichprobe) vom Umfang N bezeichnet. Die Bedingungen, unter denen eine Stichprobener-hebung zu einer einfachen Zufallsstichprobe führt, diskutiert z.B. Schlittgen [1996, S.135ff].
Im Zeitreihenkontext ist die Annahme stochastisch unabhängiger Prozeßvektoren nur in Aus-nahmefällen realistisch. In der Regel wird die Vergangenheit eines Prozesses Einfluß aufseine Gegenwart und Zukunft ausüben. Ein Prozeß Zt t T IN∈ = oder Zt t T IZ∈ = wird hierdeshalb als eine zeitlich geordnete Folge abhängiger Zufallsvektoren aufgefaßt.
Fordert man, daß die Wahrscheinlichkeitsverteilungen beliebiger Ordnung des Prozessesinvariant gegenüber Verschiebungen der Zeitkoordinaten auf der Zeitachse sein sollen, soführt dies zu einem streng stationären Prozeß. Konkret gilt: Ein stochastischer Prozeß heißtstreng stationär (oder stationär im engeren Sinne), wenn für alle n IN∈ , t t Tn1 ,..., ∈ und jedesganzzahlige τ die Wahrscheinlichkeitsverteilungen n-ter Ordnung der Zufallsvektorfolgen Z Zt tn1
,..., und Z Zt tn1 + +τ τ,..., identisch sind:
(4.15) ( ) ( )P A A P A At t n t t nn n1 11 1,..., ,...,× × = × ×+ +τ τ
für beliebige EnA,,A B∈1 . Bleibt die Invarianzforderung auf alle Wahrscheinlichkeitsver-
teilungen bis zu einer vorgegebenen Ordnung n = k beschränkt, so soll hier von einem statio-nären Prozeß k-ter Ordnung gesprochen werden. Im Spezialfall k = 1 wird nur die Zeitinvari-anz der Verteilungen erster Ordnung angenommen.
Ein stationärer Prozeß erster Ordnung genügt den Forderungen an einen datenerzeugendenProzeß aus Kapitel 4.1.1, wenn - wie hier durchgängig unterstellt - alle Komponenten derVektoren Zt quadratisch integrierbar sind. Die Mittelwertvektoren und Kovarianzmatrizen derZufallsvektoren existieren und sind aufgrund der geforderten Zeitinvarianz der Verteilungenerster Ordnung selbst zeitinvariant: E constt[ ]Z ==== µµµµ Z = . und Var constt[ ]Z Z= =ΣΣΣΣ . für allet T∈ . Damit ist sichergestellt, daß der lineare (korrelative) Zusammenhang zwischen Ziel- undEingabevariablen konstant ist. Im folgenden werden von der Stationarität erster Ordnung und
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
LMS-ALGORITHMUS UND LINEARE NETZWERKE 43
von der strengen Stationarität als Annahmen Gebrauch gemacht. Die Annahme der strengenStationarität ist stark restriktiv, sie besitzt aber theoretische Vorzüge. Darüber hinaus schafftsie größere Klarheit über die Zeitinvarianzeigenschaften eines Prozesses als die Stationaritäts-annahme erster Ordnung. Dies gilt speziell dann, wenn die Vektoren Zt zeitverzögerte Varia-blen enthalten3). Angemerkt sei, daß im Zusammenhang mit 'linearen Lernmaschinen' auchdas Konzept der sogenannten schwachen Stationarität von Interesse ist. Zur Straffung derDarstellung wird hierauf nicht eingegangen. Der interessierte Leser sei auf die Literatur ver-wiesen (siehe z.B. Hannan [1970, Kapitel 1]).
Eine sinnvolle Forderung an ein Lernverfahren ist, daß sich die Güte der Lernergebnisse fort-laufend verbessern sollte, wenn die Anzahl der verfügbaren Trainingsmuster wächst. Die hierinteressierenden Lernprobleme sind spezifische statistische Schätzprobleme. In die Spracheder Statistik übersetzt bedeutet obige Forderung, daß die verwendeten Schätzfunktionen ei-nem Gesetz der großen Zahl unterliegen und zu konsistenten Schätzungen führen sollten. ImFall eines datenerzeugenden i.i.d. Prozesses ist das Wirken eines Gesetzes der großen Zahl imallgemeinen gewährleistet. Im Fall stochastisch abhängiger Zufallsvektoren sind Stationaritäts-annahmen alleine nicht ausreichend. Zusätzlich muß sichergestellt sein, daß - vereinfacht ge-sprochen - die stochastischen Abhängigkeitsbeziehungen zwischen Prozeßvektoren nicht überinfinite Zeiträume hinweg wirksam sind, da sie ansonsten einen störenden Einfluß auf dieAsymptotik der Schätzfunktionen ausüben. Das 'Gedächtnis' des Prozesses sollte (in einemsehr weiten Sinne) beschränkt sein. Diese Beschränkung führt auf sogenannte ergodischeProzesse und mischende Prozesse. Die zugrundeliegenden theoretischen Konzepte besitzenprimär den Charakter von Beweishilfsmitteln und sind sehr technisch. Da hier die Beweis-führung nicht im Vordergrund steht, ist es ausreichend, die Konzepte in Grundzügen zu skiz-zieren. Bezüglich näherer Hintergründe sei auf Doob [1953], Hannan [1970] und Rosenblatt[1978] sowie auf die weiter unten angegebene Literatur verwiesen.
Das Ergodizitätskonzept soll vereinfachend für einen skalaren stochastischen Prozeß Zt t IN∈
auf ( )P,,FΩ mit dem Zustandsraum E IR= skizziert werden. Der Prozeß sei strengstationär. Zunächst ist es notwendig, den sogenannten Verschiebungsoperator einzuführen:
3) Es sei z.B. angenommen, daß Zt t T∈ eine Familie von Zufallsvektoren Zt t t t pY Y Y= ′− −( ), ,...,1 ist, die aus
zeitverzögerten Zielvariablen aufgebaut sind. Dem multivariaten Prozeß Zt t T∈ liegt ein univariater Prozeß Yt t T∈ zugrunde. Wird ein stationärer Prozeß erster Ordnung Zt t T∈ unterstellt, dann impliziert die An-nahme stärkere Zeitinvarianzeigenschaften des Prozesses Yt t T∈ . Wird Zt t T∈ als streng stationär ange-nommen, dann ist auch Yt t T∈ streng stationär.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
44 LMS-ALGORITHMUS UND LINEARE NETZWERKE
S bezeichne eine auf ( )P,,FΩ definierte eineindeutige Transformation S: Ω Ω→ mit den Ei-genschaften (i) F∈− AS 1 für alle F∈A und (ii) ( ) ( )P S A P A− =1 für alle F∈A 4). Die Trans-formation heißt (i) meßbar und (ii) (wahrscheinlichkeits-) maßerhaltend. Da sie als umkehrbareindeutig angenommen wird, gilt auch ( ) ( )P SA P A= . Die Transformation S sei jetzt wie folgtfestgelegt: Für jedes ω = ∈( )z z z1 2 3, , , Ω ist ′ =ω ωS z z z= ( )2 3 4, , , , ′′ = ′ω ω ωS S= =2
( )z z z3 4 5, , , , usw. Die so definierte Transformation heißt Verschiebungstransformation oderVerschiebungsoperator. Der Verschiebungsoperator erfüllt obige Annahmen (Doob [1953,S.452ff]). Mit seiner Hilfe kann eine korrespondierende Transformation von Zufallsgrößendefiniert werden. Es sei ( )Z Z1 = ω gegeben, wobei Z IR: Ω→ eine meßbare Abbildung(Zufallsvariable) ist. Dann sind Z Z S2 = ( )ω , Z Z S3
2= ( )ω , Z Z S43= ( )ω ,... ebenfalls Zu-
fallsvariablen. Da S maßerhaltend ist, gilt offensichtlich ( ) ( )P Z a P Z a1 ≤ = ≤ = | ( ) ω ω( ) ( )P Z S a P Z a | ( ) ω ω ≤ = ≤2 für beliebige reelle a. D.h., Z1 und Z2 (und auch Z3, Z4,...)
besitzen identische Wahrscheinlichkeitsverteilungen. Die Zufallsvariablen weisen noch dar-über hinausgehende Invarianzeigenschaften auf. Es läßt sich zeigen, daß Zt t IN∈ eine strengstationäre Folge ist. Auch die Umkehrung der Behauptung ist zulässig. Für jeden streng sta-tionären Prozeß Zt t IN∈ existiert eine maßerhaltende Transformation S, so daß ( )Z Z1 1= ω ,Z Z S2 1= ( )ω , Z Z S3 1
2= ( )ω ,... gilt (siehe White [1984, S.39f] und Stout [1974, S.169f]).
Zt t IN∈ sei ein gegebener streng stationärer Prozeß und S ein zugehöriger maßerhaltenderVerschiebungsoperator. Zt t IN∈ heißt genau dann ergodisch, wenn für alle Ereignispaare
F∈B,A gilt:
(4.16) ( ) ( ) ( )limN
N P A S B P A P Bt
t
N
→∞
−
=∩ = ⋅∑ 1
1 .
Zwei Ereignisse A und B heißen voneinander unabhängig, wenn ( ) ( ) ( )P A B P A P B∩ = er-füllt ist. Die Transformation S Bt kann als eine Verschiebung des Ereignisses B auf der Zeit-achse aufgefaßt werden. Da S maßerhaltend ist, gilt ( ) ( )P S B P Bt = . Obige Definition sagtsomit aus, daß für alle Ereignisse A und B die Ereignisse A und S Bt im Mittel asymptotischunabhängig sind. Ergodizität ist als eine Form 'durchschnittlicher asymptotischer Unabhän-gigkeit' von Ereignissen interpretierbar (White [1984, S.41f]). Die Definition kann problemlosauf multivariate stochastische Prozesse erweitert werden (siehe z.B. Hannan [1970, S.200ff]).
Mit ZN N =1 2, ,... soll jetzt eine Folge arithmetischer Mittelwerte Z ZN tNN t= ∑−=
11 bezeichnet
werden. Ist der zugrundeliegende (univariate oder multivariate) Prozeß Zt t IN∈ streng statio-
4) Die Transformation S ordnet jedem Element ω∈Ω gemäß ′ =ω ωS genau ein Element ′ ∈ω Ω zu. Wird S
auf Mengen angewendet, dann wird die Transformation für jedes Element der Menge ausgeführt. S−1A stehtfür die Menge ω ω∈ ∈Ω | S A .
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
LMS-ALGORITHMUS UND LINEARE NETZWERKE 45
när und ergodisch mit dem Prozeßmittel µµµµ Z Z= E t[ ] , dann wirkt auf die Folge ZN N =1 2, ,...
ein starkes Gesetz der großen Zahl (White [1984, S.42], Hannan [1970, S.201]). Die arithme-tischen Mittel konvergieren für N →∞ mit Wahrscheinlichkeit 1 (fast sicher) gegen µµµµ Z :
(4.17) PN Nlim
→∞=
=Z Zµµµµ 1 oder symbolisch Z ZN
f s . . → µµµµ
(f.s.: konvergiert fast sicher). Dieses starke Gesetz der großen Zahl ist auch als Ergodizitäts-theorem bekannt.
Eng verwandt mit den ergodischen Prozessen sind die gleichförmig mischenden und starkmischenden stochastischen Prozesse. Ihre Definition erfordert zunächst die Einführung zweierMaße für die stochastische Abhängigkeit von Ereignissen. Es seien G und H zwei σ-Algebrenund [ ]10 : ,P →F ein Wahrscheinlichkeitsmaß auf dem Wahrscheinlichkeitsraum ( )P,,FΩmit HGF ,⊃ . Weiter sei
(4.18a) ( )( )
( ) ( )HPGHPsup,GPH,G
−=φ>∈∈
0HG
HG ,
(4.18b) ( )
( ) ( ) ( )HPGPHGPsup,H,G
−∩=α∈∈
HG
HG ,
wobei ( ) ( ) ( )P H G P H G P G= ∩ für ( )P G > 0 die bedingte Wahrscheinlichkeit von H gege-ben G ist. Die Abbildungen φ und α sind Maße der stochastischen Abhängigkeit zwischen denEreignissen aus G und den Ereignissen aus H. Sie geben an, inwieweit die Wahrscheinlichkeitdes gemeinsamen Eintretens von Ereignissen aus beiden σ-Algebren von dem Produkt derWahrscheinlichkeiten des Eintretens jedes Ereignisses abweicht. Sind die Ereignisse aus Gund H unabhängig, dann und nur dann nehmen φ und α den Wert null an. φ ist ein relativesund α ein absolutes Maß der Unabhängigkeit.
Gegeben sei jetzt ein über den Wahrscheinlichkeitsraum ( )P,,FΩ definierter (univariater odermultivariater) stochastischer Prozeß Zt t IZ∈ . Ferner sei b
aF die σ-Algebra der Ereignisse, diedurch die Prozeßvektoren Za, Za+1,... , Zb erzeugt ist, und
(4.18c) ( ) ( )+∞τ+∞−φ=τφ t
t
t,sup FF ,
(4.18d) ( ) ( )+∞τ+∞−α=τα t
t
t,sup FF .
Die Abbildungen φ und α messen nun die Abhängigkeit zwischen Ereignissen, die auf derZeitachse mindestens τ Zeitperioden voneinander entfernt sind. Es gilt ( ) ( )φ τ α τ= = 0 füralle τ >0 genau dann, wenn der Prozeß eine Familie unabhängiger Zufallsvektoren ist. Strebt( )φ τ → 0 für τ → ∞ , so heißt der Prozeß gleichförmig oder φ-mischend. Strebt ( )α τ → 0
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
46 LMS-ALGORITHMUS UND LINEARE NETZWERKE
für τ → ∞ , liegt ein stark oder α-mischender Prozeß vor. Die φ-Mischung eines Prozessesimpliziert eine α-Mischung (siehe Iosifescu & Theodorescu [1969], Rosenblatt [1956]; vgl.auch White & Domowitz [1984]).
Es kann gezeigt werden, daß jeder streng stationäre φ- oder α-mischende Prozeß auch ein er-godischer Prozeß ist (Rosenblatt [1978]). Umgekehrt ist allerdings nicht jeder ergodische Pro-zeß auch mischend. In diesem Sinne erweisen sich die Mischungsbedingungen im Vergleichzur Ergodizität als strengere Restriktionen des Prozeßgedächtnisses. Andererseits ist das Er-godizitätskonzept unmittelbar mit streng stationären Prozessen verknüpft. Für die vorgestelltenMischungskonzepte gilt dies nicht. Sie ermöglichen ein starkes Gesetz der großen Zahl in derForm (4.17) unter weit schwächeren Zeitinvarianzannahmen bezüglich der probabilistischenStruktur eines Prozesses, z.B. für stationäre Prozesse erster Ordnung (White [1984, S.46f]).
Im folgenden wird unterstellt, daß Zeitreihendaten entweder durch einen ergodischen strengstationären Prozeß oder einem mischenden stationären Prozeß erster Ordnung erzeugt werden.Ergodizitäts- und Mischungseigenschaften sind im allgemeinen nicht empirisch verifizierbarund müssen als gegeben unterstellt werden. Die Stationaritätsannahmen können hingegen auf-grund von Datenbefunden geprüft werden. Empirische Mittelwerte, Varianzen und Kovarian-zen der Daten, die sich im Zeitablauf ändern, zeigen Verletzungen der Annahmen auf. In prak-tischen Anwendungen erweisen sich die Stationaritätsvoraussetzungen als stark restriktiv. Siegrenzen beispielsweise trendbehaftete Lerndaten aus. Der restriktive Charakter kann jedochdurch eine geeignete Vorverarbeitung der Daten abgeschwächt werden. Es können Methodeneingesetzt werden, die nichtstationäre Reihen in stationäre transformieren (siehe hierzu z.B.Schlittgen und Streitberg [1994, S.289ff]).
4.2 LMS-Algorithmus und Echtzeit-Lernen
Das Lernziel des LMS-Ansatzes besteht in der Schätzung des MSE-optimalen Gewichts-vektors wo aus Gleichung (4.8). In jeder Echtzeit-Lernsituation steht hierfür als Datenbasiseine einzelne, in den Zeitpunkten t = 1,2,3... beobachtbare Realisation des datenerzeugendenProzesses Zt t T∈ zur Verfügung. Die Schätzung des Gewichtsvektors erfolgt in einer rekursi-ven Form:
w w wt t t+ = +1 ∆ (t = 1,2,3,...) .
Hierbei ist wt ein im Zeitpunkt t aktuell vorliegender Schätzer für wo und ( )∆ ∆ ,w Z wt t t :=eine durch den Zufallsvektor Zt im Zeitpunkt t angeregte Änderung von wt . Das Problem
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
LMS-ALGORITHMUS UND LINEARE NETZWERKE 47
besteht darin, eine Funktion ( )∆ Z wt t, so zu finden, daß die Schätzerfolge , ,...wt t=1 2
ineinem geeigneten Sinne gegen den optimalen Gewichtsvektor wo konvergiert.
Die Idee, die Widrow & Hoff dem LMS-Algorithmus zugrunde legen, läßt sich wie folgt skiz-zieren (vgl. auch Widrow & Stearns [1985, S.99ff] oder Haykin [1994, S.121ff]): Bei Kennt-nis des Mittelwertvektors µµµµ Z und der Kovarianzmatrix ΣΣΣΣ Z der Prozeßvektoren könnte dieoptimale Lösung wo des linearen Approximationsproblems mit Hilfe der Methode des steil-sten Abstiegs auf iterativem Wege ermittelt werden, ohne daß hierbei die Inversion der Sub-matrix ΣΣΣΣ X von ΣΣΣΣ Z erforderlich wird. Es sei jetzt w1 ein vorgegebener Anfangswert, wt eineNäherung von wo im t-ten Iterationsschritt und
( ) [ ] [ ]∂∂
∂∂
M ME Y Et
t t t t tt
( )ww
ww X X X w
w w= = − + ′
=2 2~ ~ ~
der Gradient des mittleren quadratischen Fehlers (4.6) an der Stelle w w= t . In jedem Iterati-onsschritt t wird eine Korrektur der Näherung wt mit einer reellen Schrittweite c>0 in Rich-tung des negativen Gradienten vorgenommen:
(4.19)
[ ] [ ]( )[ ] [ ]( )
w www
w X X X w
w X X X w
t tt
t t t t t t
t t t t t t
cM
c E Y E
c E Y E
+ = −
= − ′ + ′
= + ′ − ′
1
2
2
∂∂( )
−−−− ~ ~ ~
~ ~ ~ (t = 1,2,3,...) .
Bei geeigneter Wahl des Anfangswertes w1 und der Schrittweite c stellt wt+1 gegenüber wteine verbesserte Näherung der Minimumstelle von (4.6) dar, und die Näherungswerte strebenmit wachsender Iterationszahl gegen wo. Die Methode des steilsten Abstiegs wird ausführ-licher in einem erweiterten Zusammenhang in Kapitel 5.4.3 erläutert.
Im Rahmen des LMS-Ansatzes wird der Iterationsindex t als Zeitindex interpretiert. Die(unbekannten) Erwartungswerte E Yt t[ ]~X und E t t[ ]~ ~X X ′ werden in jedem aktuellen Zeitpunktt durch die beobachteten Werte von Yt t
~X bzw. ~ ~X Xt t′ geschätzt. Damit erhält man aus (4.19)die LMS-Schätz- oder Adaptionsgleichung (auch Delta- oder Widrow-Hoff-Lernregel):
(4.20a) ( )( )
~ ~ ~
~ ~w w X X X w
w w X X
w w
t t t t t t t
t t t t t
t t
Y
Y
+ = + − ′
= + − ′
= +
1 η
η
∆ (t = 1,2,3,...)
mit( )∆ ~ ~w w X Xt t t t tY= − ′η
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
48 LMS-ALGORITHMUS UND LINEARE NETZWERKE
und η = >2 0c . Zu einem identischen Ergebnis gelangt man, wenn in jedem aktuellen Zeit-punkt t die quadratische Funktion
( )~M Yt t t t t( ) : w w X= = − ′ε 2 2
als Schätzer des mittleren quadratischen Fehlers (4.6) genutzt wird, wobei ~ε t t t tY= − ′w X derFehler der Approximation der Zufallsvariablen Yt durch die aktuelle Ausgabe des Netzes ist(Fehlersignal oder Residuum). Ersetzt man ∂ ∂M t( )w w in (4.19) durch
( )∂∂
ε~ ~ ~MYt
t t t t t t( )ww
w X X X= − − ′ = −2 2 ,
folgt äquivalent zu (4.20a):
(4.20b) ( )~ ~
~w w w X X
w X
t t t t t t
t t t
Y+ = + − ′
= +
1 η
ηε
(t = 1,2,3,...) .
Die zweite Zeile in (4.20b) ist die in der konnektionistischen Literatur gebräuchlichereSchreibweise der Lernregel, wobei üblicherweise an Stelle von ε t das Symbol δ t verwendetwird. Wie Hertz et al. [1991, S.104] anmerken, rührt von der Verwendung des Delta-Symbolsdie Bezeichnung Delta-Regel her.
Zur Initialisierung des Algorithmus wird w1 üblicherweise gleich dem Nullvektor gesetzt.Die positive reelle Konstante η heißt Adaptions- oder Lernrate. Sie steuert die Stabilität unddie Geschwindigkeit des Adaptionsprozesses. Aus (4.20) ist ersichtlich, daß eine ungeeigneteFestlegung von η zu einer instabilen, explodierenden Sequenz von LMS-Schätzern , ,...wt t=1 2
führen kann oder zumindest eine irgendwie geartete Konvergenz der Folge gegen den optima-len Gewichtsvektor wo verhindert. Ein Kriterium für die Wahl von η liefern Widrow & Stearn[1985, S.101f]. Sie zeigen (für stationäre Prozesse Zt t T∈ mit stochastisch unabhängigenZufallsvektoren), daß die Beschränkung
(4.21) 0 2< <ηλmax
hinreichend für eine asymptotisch erwartungstreue Schätzung ist; d.h.
(4.22) [ ]limt t oE→∞
=w w .
Hierbei ist λmax der größte Eigenwert der Kovarianzmatrix ΣΣΣΣ X . Man beachte, eine reguläre(p,p)-Kovarianzmatrix ΣΣΣΣ X ist eine symmetrische, positiv definite Matrix und besitzt daher preelle, positive Eigenwerte. Die Summe der Eigenwerte ist gleich der Spur tr( ΣΣΣΣ X ) von ΣΣΣΣ X .Die Spur tr( ΣΣΣΣ X ) wiederum ist definiert als die Summe der Hauptdiagonaleinträge von ΣΣΣΣ X und
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
LMS-ALGORITHMUS UND LINEARE NETZWERKE 49
entspricht somit gerade die Summe der Varianzen Var X E X E Xit it it[ ] [( [ ]) ]= − 2 (i = 1,...,p)der Komponenten des Zufallsvektors Xt. Es gilt:
( ) [ ]01
< < = ∑=
λmax tr Var Xiti
pΣΣΣΣ X .
Je stärker die Zufallsvariablen streuen, umso stärker wird (4.21) die Lernrate η beschränken(siehe hierzu auch Haykin [1994, S.129ff]). In der Praxis sollte daher bei der Wahl von η dieVariabilität des datenerzeugenden Prozesses Berücksichtigung finden.
Asymptotische Erwartungstreue ist eine sehr schwache Konvergenzaussage, da sie die asym-ptotische Variabilität der Schätzungen nicht berücksichtigt. Die LMS-Schätzer sollten darüberhinaus auch konsistent sein. Ein problematischer Aspekt des Ansatzes ist, daß η als eine Kon-stante angenommen wird. Eine konstante Lernrate verhindert im allgemeinen eine konsistenteSchätzung von wo - auch unter restriktiven Annahmen bezüglich der statistischen Eigenschaf-ten des stochastischen Prozesses Z t t T∈ (siehe Kuan & Hornik [1991]). Die LMS-Schätzer , ,...wt t=1 2 für wo bilden einen stochastischen Prozeß. Mit η = const. werden sich die Trajek-torien des Prozesses in aller Regel nicht stabilisieren. Hierzu ist es offensichtlich notwendig,daß η für t → ∞ mit einer geeigneten Rate gegen null strebt. In der Tat kann durch eine ge-eignete Steuerung der Lernrate Konsistenz erreicht werden (siehe Kapitel 4.4).
Ungeachtet der Problematik hat sich der LMS-Algorithmus als Lernverfahren etabliert. Erbesitzt den Vorzug, daß die erforderlichen Rechenoperationen äußerst einfacher Natur und dieSpeicheranforderungen minimal sind: Es wird keine über die Speicherung der jeweils aktuel-len Gewichte hinausgehende Datenspeicherung notwendig. Die beiden Aspekte ermöglicheneine einfache technische Umsetzung der ALC-Einheit in Abbildung 4.1.
4.3 Rekursive Kleinste-Quadrate-Schätzung
Der LMS-Algorithmus war bereits im Jahre 1960 kein grundsätzlich neues Verfahren. Zumeinen kann der Ansatz als ein Spezialfall der stochastischen Approximations- oder stochasti-schen Gradientenmethode aufgefaßt werden, deren Grundlagen Anfang der fünfziger Jahrevon Robbins & Monro [1951] entwickelt wurden. Zum anderen kann der Algorithmus als einevereinfachte Variante der rekursiven Kleinste-Quadrate-Schätzung interpretiert werden, derenUrsprünge bis zu den Arbeiten von Carl Friedrich Gauß [1823] zurückverfolgt werden können(vgl. Young [1984]). Es ist lohnend, die Beziehungen des LMS-Algorithmus zu den genanntenMethoden, beginnend mit der rekursiven Kleinste-Quadrate-Schätzung, näher zu untersuchen.
Es sei angenommen, daß für die Schätzung des MSE-optimalen Gewichtsvektors wo in einemZeitpunkt t > 1 beobachtete Werte des Ausschnitts Z Xi i iY= ′ ′( ), (i = 1,...,t) eines datener-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
50 LMS-ALGORITHMUS UND LINEARE NETZWERKE
zeugenden stochastischen Prozesses Z t t T∈ verfügbar sind. Aus statistischer Sicht bestehteine naheliegende Problemlösung darin, den Vektor wo durch die Minimumstelle desKleinste-Quadrate-Kriteriums
(4.23) ( ) ( )Q t Yt i ii
tw w X= − ′−
=∑1 2
1
~
zu schätzen. Mit
(4.24) Y =
YY
Yt
1
2 und X
XX
X
=
′′
′
=
~~
~
1
2
11 1
12 2
1
11
1t
p
p
t pt
X XX X
X X
kann die Zielfunktion (4.23) auch gemäß
( ) ( ) ( ) ( )
( )
Q t Y t
t
t i ii
tw w X Y Xw Y Xw
Y Y w X Y w X Xw
= − ′ = − ′ −
= ′ − ′ ′ + ′ ′
−
=
−
−
∑1 2
1
1
1 2
~
geschrieben werden. Differentiation bezüglich w und Nullsetzen des Vektors der 1. Ableitun-gen liefert ein Normalgleichungssystem
(4.25) t t− −′ = ′1 1X Xw X Y ,
dessen Lösung
(4.26) ( ) ( ) ( )w X X X Y X X X YtKQ t t= ′ ′ = ′ ′− − − −1 1 1 1
der Schätzer für wo nach der Kleinste-Quadrate-(KQ)-Methode ist. Um die Existenz einereindeutigen Lösung sicherstellen zu können, sei vorausgesetzt, daß die (p+1,p+1)-Matrix ′X Xmit Wahrscheinlichkeit 1 nichtsingulär ist, oder äquivalent, daß X mit Wahrscheinlichkeit 1den Rang ( )rg pX = +1 besitzt. Dies setzt notwendig t p> beobachtete Zufallsvektoren vor-aus. Die KQ-Schätzfunktion wt
KQ soll, wenn keine Gefahr der Verwechslung mit dem LMS-Schätzer besteht, einfach wt geschrieben werden.
Der KQ-Schätzer wt basiert auf den im Zeitpunkt t beobachtbaren Zufallsvektoren Zi (i = 1,....,t). Im weiteren Zeitablauf vergrößert sich fortlaufend die zur Schätzung verfügbare Infor-mationsbasis: Die Zufallsvektoren Zt+1, Zt+2,... werden ebenfalls beobachtbar. Natürlich kannin jedem Zeitpunkt t+1, t+2,... der Vektor Y und die Matrix X um zusätzliche Komponentenerweitert und eine Schätzung gemäß (4.26) durchgeführt werden. Diese Vorgehensweise istjedoch rechenintensiv, da bei jeder Schätzung die Matrix ′X X invertiert werden muß, und
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
LMS-ALGORITHMUS UND LINEARE NETZWERKE 51
speicheraufwendig, da alle Beobachtungen der Vergangenheit gespeichert werden müssen.Beides kann durch eine rekursive KQ-Schätzung von wo vermieden werden.
Es seien folgende Vereinbarungen getroffen:
(4.27) w M Vt t t= ,
( )M X X X Xt i ii
t= ′ = ′−
=
−∑1
1
1( )~ ~ , V X Y Xt i ii
tY= ′ =
=∑ ~
1
mit ′X X , ′X Y und wt aus (4.26). Ist jetzt auch eine Beobachtung des ZufallsvektorsZ Xt t tY+ + += ′ ′1 1 1( ), gegeben, dann können Mt+
−1
1 und Vt+1 berechnet werden gemäß
(4.28) M M X Xt t t t+− −
+ += + ′11 1
1 1~ ~ , V V Xt t t tY+ + + += +1 1 1 1
~ .
Prämultiplikation von Mt+−
11 mit Mt+1 und anschließende Postmultiplikation mit Mt liefert
(4.29)
M M M M M M M X X M
M M M X X M
t t t t t t t t t t
t t t t t t
+ +−
+−
+ + +
+ + + +
= + ′ ⇔
= + ′
1 11
11
1 1 1
1 1 1 1
~ ~
~ ~
.
Die Postmultiplikation von Mt mit ~X t+1 ergibt
( )M X M X M X X M X
M X X M X
t t t t t t t t t
t t t t t
~ ~ ~ ~ ~
~ ~ ~+ + + + + + +
+ + + +
= + ′
+ ′
1 1 1 1 1 1 1
1 1 1 11= ,
woraus nach Postmultiplikation mit ( )1 1 1 11+ ′ ′+ + +
−~ ~ ~X M X X Mt t t t t folgt
( )M X X M X X M M X X Mt t t t t t t t t t t~ ~ ~ ~ ~ ~
+ + +−
+ + + ++ ′ ′ = ′1 1 11
1 1 1 11 .
Einsetzen der linken Seite in (4.29) liefert schließlich die Gleichung
(4.30) ( )M M M X X M X X Mt t t t t t t t t+ + + +−
+= − ′ + ′ ′1 1 1 11
11~ ~ ~ ~ .
In (4.30) wird die Matrix Mt+1 rekursiv aus Mt ermittelt, ohne daß eine Matrizeninversion er-forderlich wird. Man beachte, daß ( )1 1 1
1+ ′+ +−~ ~X M Xt t t ein Skalar ist. Das Ergebnis (4.30) ist
als Matrix-Inversion-Lemma bekannt (vgl. z.B. Bodewig [1956], Young [1984]). Mit (4.27)und (4.30) erhält man nun den rekursiven KQ-Schätzer für wo im Zeitpunkt t+1:
(4.31a)
( )( )( )~ ~ ~ ~ ~
w M V
M M X X M X X M V X
t t t
t t t t t t t t t t tY
+ + +
+ + +−
+ + +
=
= − ′ + ′ ′ +
1 1 1
1 1 11
1 1 11 .
Hierfür kann nach einigen Umformungen auch äquivalent
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
52 LMS-ALGORITHMUS UND LINEARE NETZWERKE
(4.31b) ( ) ( )~ ~ ~ ~w w K w X X K X M X Mt t t t t t t t t t t tY+ + + + + + + +−= + − ′ = + ′1 1 1 1 1 1 1 1
11mit
oder
(4.31c) ( )~ ~w w M w X Xt t t t t t tY+ + + + += + − ′1 1 1 1 1
geschrieben werden (siehe Young [1984, S.26f]).
Speziell die Gleichung (4.31b) erlaubt einen Vergleich des rekursiven KQ-Schätzers mit demLMS-Schätzer in (4.20). Der KQ-Ansatz macht in jedem Update-Zeitpunkt t+1 Gebrauch vondem gegenwärtig verfügbaren Zufallsvektor, der LMS-Ansatz nutzt hingegen den Vektor derVorperiode. Abweichend von ε t in (4.20) ist die Zufallsvariable e Yt t t t+ + += − ′1 1 1: ~w X in(4.31b) nicht als ein Approximationsresiduum aufzufassen, sondern et+1 ist der Fehler einerlinearen Einschritt-Prognose von Yt+1 durch Xt+1 basierend auf dem KQ-Schätzer im Zeit-punkt t. Der zweite Unterschied ist, daß die skalare Konstante η in (4.20) in (4.31b) durcheinen Zufallsvektor Kt+1 ersetzt wird, der funktional von der Gegenwart und Vergangenheitdes datenerzeugenden Prozesses abhängt; d.h. Kt+ =1: ( )K tX X+1 1,..., .
Der rekursive KQ-Algorithmus erfordert offensichtlich mehr Rechenoperationen und einengrößeren Datenspeicher als der LMS-Algorithmus. Um den Einsatz des KQ-Ansatzes - voneinem praktischen Standpunkt aus betrachtet - rechtfertigen zu können, sollte der größere Auf-wand durch günstige statistische Eigenschaften der Schätzer belohnt werden. Die asymptoti-schen Eigenschaften der KQ-Schätzer untersuchen z.B. White [1984] oder Wooldridge [1994].
Der datenerzeugende Prozeß ( ) Z Xt t tY t T= ′ ′ ∈, sei ein ergodischer streng stationärer Prozeßoder ein gleichförmig bzw. stark mischender stationärer Prozeß erster Ordnung. Um die Exi-stenz des Vektors w X X Xo t t t tE E Y≡ ′ −[ ] [ ]~ ~ ~1 sicherzustellen, ist der Prozeß weiterhin mit denin Kapitel 4.1.1 genannten Eigenschaften ausgestattet; d.h. im besonderen: E Zlt[| | ]2 < ∞ fürjede Komponente Zlt der Zufallsvektoren Zt, E t t[ ]~ ~X X ′ ist eine nichtsinguläre Matrix. Schließ-lich seien die Schreibvereinbarungen A X X: [ ]= ′E t t
~ ~ und C X: [ ]= E t to~ ε mit ε t
ot o tY:= − ′w X~
getroffen. Aus (4.9) ist bekannt, daß C ein Nullvektor ist.
Betrachtet wird jetzt eine Folge , ,...wtKQ
t p p= + +1 2 von KQ-Schätzern (4.26) bzw. (4.31) für denVektor wo. Mit X, Y aus (4.24) und εεεε o o:= −Y Xw können die KQ-Schätzer auch
( ) ( ) ( ) [ ]( )( ) ( )
w X X X Y X X X Xw
w X X X
t o o
o o
KQ t t t t
t t
= ′ ′ = ′ ′ +
= + ′ ′
− − − − − −
− − −
1 1 1 1 1 1
1 1 1
εεεε
εεεε
geschrieben werden. Hierbei ist t t i iit− −=′ = ′∑1 1
1X X X X~ ~ und t o− ′ =1X εεεε t i i
oit−=∑1
1~X ε . Ist der
datenerzeugende Prozeß voraussetzungsgemäß streng stationär und ergodisch (bzw. stationärerster Ordnung und mischend), dann sind auch die Folgen ~ ~
, ,...X Xi i i′ =1 2 und ~, ,...Xi i
oiε =1 2
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
LMS-ALGORITHMUS UND LINEARE NETZWERKE 53
streng stationär und ergodisch (bzw. stationär erster Ordnung und mischend). Es gilt fernerE t t E i ii
t[ ] [ ]− −=′ = ′∑ =1 1
1X X X X A~ ~ und E t o[ ]− ′ =1X εεεε t E i i
oit−=∑ =1
1 [ ]~X Cε . Die arithmetischenMittelwerte der Folgen unterliegen jeweils einem starken Gesetz der großen Zahl
t f s− ′ →1X X A . . , t of s− ′ →1X Cεεεε . . ,
und es folgt
( ) ( )t t of s− − − − −′ ′ → = =1 1 1 1 1X X X A C Aεεεε . . 0 0
bzw.
(4.32) . .w wtf s
oKQ → .
Die KQ-Schätzerfolge konvergiert für t → ∞ fast sicher (mit Wahrscheinlichkeit 1) gegenden MSE-optimalen Gewichtsvektor wo. Man sagt, der KQ-Schätzer ist ein stark konsistenterSchätzer für wo. Einen formalen Beweis liefert White [1984, S.42, 47f].
Unter Gültigkeit milder Regularitätsbedingungen läßt sich ferner eine asymptotische Normal-verteilung der KQ-Schätzer beweisen (siehe White [1984, S.119,125], Wooldridge [1994,S.2655]). Die Verteilungsfunktionen der Zufallsvektoren ( )t t o
KQt p p, ,...w w− = + +1 2 konver-
gieren für t → ∞ gegen die Verteilungsfunktion der multivariaten Normalverteilung mit demMittelwertvektor 0 und der Kovarianzmatrix ΣΣΣΣ KQ ; symbolisch geschrieben:
(4.33) ( )t Nt oi VKQ KQ( ) ,. .w w− → 0 ΣΣΣΣ
(i.V.: konvergiert in Verteilung). Hierbei ist ΣΣΣΣ KQo= − −A B w A1 1( ) , A X X X X= ′ = ′−E t E i i[ ] [ ]1 ~ ~
( )i T∈ und B w X X( ) [ ]o t o oE t= ′ ′→∞−lim 1 εεεε εεεε . Die KQ-Schätzer wt
KQ sind somit asymptotischmultivariat normalverteilt mit dem Mittelwertvektor wo und der Kovarianzmatrix t KQ−1ΣΣΣΣ .
Diese Ergebnisse sind ausschließlich asymptotischer Natur. Es sei angemerkt, daß unter geeig-neten Annahmen schon bei Vorliegen einer Datenbasis von finitem Umfang Güteeigenschaftender KQ-Schätzer konstatiert werden können. Eine übliche Annahme ist beispielsweise, daßdie lineare Beziehung Y Xw= +o oεεεε mit (i) [ ]E oεεεε X = 0 und (ii) ( )( )P rg pX = + =1 1 ge-geben ist. Es kann nun leicht gezeigt werden, daß E t o
KQ[ ]w w= nicht nur asymptotisch,sondern bereits für jedes t > p erfüllt ist (siehe z.B. Frohn [1995, S.142f]). Die Annahme (i) istallerdings in dem hier betrachteten Kontext unrealistisch. Aus [ ]E oεεεε X = 0 folgt sofort
[ ] [ ] [ ] [ ]E E E Eo o o o oY X Xw X Xw X X Xw= + = + =εεεε εεεε .
D.h., der bedingte Erwartungswert von Y für gegebenes X ist eine lineare Funktion. Hier wirdjedoch kein linearer Zusammenhang zwischen den Zielvariablen Yt und den Eingabevariablen
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
54 LMS-ALGORITHMUS UND LINEARE NETZWERKE
Xt unterstellt, sondern lediglich eine lineare Approximation des tatsächlichen (im allgemeinennichtlinearen) Zusammenhangs durch eine einfache Lernmaschine angestrebt.
4.4 Stochastische Approximation
Die stochastische Approximation, auch stochastische Gradientenmethode genannt, ist ein viel-seitig einsetzbares Verfahren zur Lösung von Optimierungsproblemen, die durch 'verrauschteDaten' charakterisiert sind. In ihrer Pionierarbeit zu diesem Gebiet beschäftigten sich Robbins& Monro [1951] mit dem Problem der Bestimmung von Nullstellen verrauschter Funktioneneiner unabhängigen Variablen. In nachfolgenden Arbeiten anderer Autoren wurde der Einsatz-bereich sukzessiv erweitert. Beispielsweise setzten Kiefer & Wolfowitz [1952] die stochasti-sche Approximation als ein Verfahren zur Extremwertbestimmung von Funktionen ein. Blum[1954] erweiterte den Ansatz auf den mehrdimensionalen Fall. Die Ausführungen an dieserStelle folgen Tsypkin [1971].
Gegeben sei ein r-dimensionaler Zufallsvektor Z mit der Verteilungsfunktion ( ) ( )F PZ z Z z= ≤ ,z ∈ IRr , und ein Koeffizientenvektor w ∈ IRq . Ferner sei m IR IR IRr q
: × → eine Borel-meß-bare Funktion und
(4.35) ( ) ( )[ ] ( ) ( )J E m m dFIRrw Z w z w z= = ∫, ,
der Erwartungswert von ( )m Z w, bezüglich der Wahrscheinlichkeitsverteilung von Z. J wirdals eine Funktion von w aufgefaßt. Das Problem besteht in der Bestimmung einer Extremstelle(Minimum- oder Maximumstelle) der Funktion. Notwendige Bedingung für die Existenz einesExtremums ist, daß der Vektor der partiellen Ableitungen von J bezüglich w verschwindet:
(4.36)( ) ( )∂
∂∂
∂J
Emw
wZ ww=
=
,0 .
In (4.36) wird die Permutierbarkeit der Reihenfolge von Differentiation und Integration ange-nommen. Vereinfachend sei ferner eine eindeutige Lösung der Gleichung unterstellt. Die Lö-sung (stationärer Punkt) wird mit wo notiert.
Wäre die Verteilungsfunktion FZ bekannt, dann könnte das Extremierungsproblem analytischgelöst werden. Hier ist FZ jedoch unbekannt. Gegeben sind lediglich beobachtete Realisatio-nen von Z. Es sei Zt (t = 1,2,...) eine Folge von Zufallsvektoren, die stochastisch unabhängigund alle identisch wie Z verteilt sind. Zt repräsentiert die t-te potentielle Beobachtung von Z.Die Grundidee der stochastischen Approximation besteht jetzt darin, den stationären Punkt wovon (4.36) durch eine Rekursion der Form
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
LMS-ALGORITHMUS UND LINEARE NETZWERKE 55
(4.37)( ),
w wZ w
wt t tt tSA SA
SAm+ = + ⋅1 η
∂∂ (t = 1,2,3,...)
zu schätzen, wobei ηt t=1 2, ,... eine Folge von Lernraten ist. Der Anfangswert w1SA kann belie-
big vorgegeben werden. Ist der stationäre Punkt eine Extremstelle von (4.35), dann führt dasVorgehen auf eine Lösung des Extremierungsproblems.
Um eine konsistente Schätzung von wo gewährleisten zu können, ist es notwendig, die Lern-ratensequenz ηt t=1 2, ,... Restriktionen zu unterwerfen. Tsypkin [1971] zeigt, daß (in Verbundmit milden technischen Regularitätsbedingungen) die Restriktionen
(4.38) ηt > 0 , ηtt=
∞
∑ = ∞1
, ηtt
2
1=
∞
∑ < ∞
notwendig und hinreichend für die starke Konsistenz
(4.39) . .w wtf s
oSA →
der Schätzerfolge , ,...wtSA
t=1 2 sind. Die Bedingungen (4.38) sind für Lernraten η κt t∝ − mit
0 1< ≤κ erfüllt, wobei üblicherweise κ = 1 gewählt wird.
Der LMS-Algorithmus ist offensichtlich eng mit der stochastischen Approximationsmethodeverwandt. Setzt man
( ) ( )m Yt t t tZ w w X, ~ := = − ′ε2 2 mit Z Xt t tY= ′ ′( ), , ~ ,X Xt t= ′ ′( )1 ,
dann ist ( ) [ ] ( )J E m Mtw Z w w= =( ), die MSE-Funktion aus (4.6). Mit η ηt const= = . folgtals Spezialfall von (4.37) die Delta-Regel (4.20). In Kapitel 4.2 wurde erläutert, daß die Delta-Regel mit konstanter Lernrate eine konsistente Schätzung der Minimumstelle wo von M(w)verfehlt. Das Ergebnis von Tsypkin bietet eine Lösung der Problematik an. Die Verwendungeiner variablen Rate η κ
t t∝ − führt auf eine stark konsistente LMS-Schätzerfolge , ,...wt t=1 2
mit ~w w Xt t t t t+ = +1 η ε für wo.
Weitergehende Analysen liefert White [1989a]. Bei Verwendung variabler Lernraten weist erdie asymptotische Normalverteilung der LMS-Schätzer nach; d.h.
(4.40) ( ) ( )t Nt oi V LMS,. .w w− → 0 ΣΣΣΣ .
Ein zentrales Ergebnis von White ist, daß die LMS-Schätzer im Vergleich zu den KQ-Schät-zern wt
KQ in (4.26), (4.31) asymptotisch ineffizient sind. Die Differenzmatrix ΣΣΣΣ ΣΣΣΣLMS KQ− mitΣΣΣΣ KQ aus (4.33) ist eine positiv semidefinite Matrix. Daraus folgt, daß die asymptotischen Va-rianzen der LMS-Schätzer größer oder höchstens gleich den Varianzen der KQ-Schätzer sind.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
56 LMS-ALGORITHMUS UND LINEARE NETZWERKE
Die Einfachheit des LMS-Algorithmus fordert den Preis einer größeren asymptotischenVariabilität der Schätzungen.
Diese Ergebnisse beziehen sich auf Folgen von stochastisch unabhängigen und identisch ver-teilten Zufallsvektoren Zt. Die zentralen Aussagen bleiben unter allgemeinen Voraussetzungenauch im allgemeinen Fall stochastisch abhängiger Zufallsvektoren gültig. Die Voraussetzun-gen für die Konsistenz und asymptotische Normalverteilung der LMS-Schätzer diskutierenKuan & White [1989, 1994]5).
4.5 LMS-Algorithmus und zyklisches Lernen
In den bisherigen Ausführungen zum LMS-Algorithmus vollzog sich der (theoretisch unbe-grenzt lange währende) Lernprozeß in einer Echtzeit-Umgebung: Sobald Signale des Um-systems in das einfache lineare Netz eingingen, wurden sie zur Schätzung des MSE-optimalenGewichtsvektors wo in (4.8) genutzt. Eine Speicherung der Daten wurde nicht vorgenommen.Dieses Szenarium unterscheidet sich von der Lernsituation, die üblicherweise in der konnek-tionistischen Literatur diskutiert wird. Zumeist wird eine endliche Daten- oder Trainings-menge als vorgegeben betrachtet. Die Trainingsmenge wird durch eine Instanz der Netzum-welt gespeichert, und ihre Elemente, die Trainingsmuster, werden von dieser Instanz demNetz in einer zyklischen Form immer wieder präsentiert. Mittels der Delta-Lernregel erfolgtdie Adjustierung der Netzgewichte. Aufgrund der vorstehenden Ausführungen ist es klar, daßdie zyklische Präsentation der Daten der Effizienzverbesserung der Schätzungen dienen soll.In der Tat führt die Vorgehensweise (zumindest approximativ) zu einer KQ-Schätzung desVektors wo. Der LMS-Algorithmus wird nicht mehr als ein rekursives Schätzverfahren imengeren Sinne verwendet, sondern ist lediglich eine rekursive Methode zur Ermittlung vonKQ-Schätzungen.
Um möglichen Mißverständnissen vorzubeugen, werden im folgenden Realisationen von Zu-fallsvektoren und nicht mehr die Zufallsvektoren selbst betrachtet. Zur Adjustierung der Netz-gewichte seien N p> beobachtete Werte z xt t ty= ′ ′( ), ( )t N=1,..., eines Ausschnitts desdatenerzeugenden Prozesses Zt t T∈ vorgegeben. Hierbei kann es sich um Zeitreihen- oderQuerschnittsdaten handeln. Gesucht ist ein Gewichtsvektor wN
KQ , der die Zielfunktion
5) White [1989a] und Kuan & White [1989, 1994] untersuchen nicht explizit LMS-Schätzer, sondern Back-
propagation-Schätzer. Die Backpropagation-Schätzer enthalten allerdings die LMS-Schätzers als Spezialfall(vgl. Kapitel 5).
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
LMS-ALGORITHMUS UND LINEARE NETZWERKE 57
(4.41) ( ) ( ) ( )Q y qN t tt
N
tt
Nw w x z w= − ′ =
= =∑ ∑1
22
1 1
~ , mit ( ) ( )q yt t tz w w x, ~= − ′12
2
minimiert. ( )QN w ist das übliche (realisierte) KQ-Kriterium (4.23), multipliziert mit demkonstanten Faktor N/2, und wN
KQ ist der auf den gegebenen Daten basierende KQ-Schätzwertfür wo. Ersetzt man zt durch Zt, dann kennzeichnet dasselbe Symbol wN
KQ den KQ-Schätzer.
Die Minimumstelle kann durch Lösen eines Normalgleichungssystems der Form (4.25) be-stimmt werden. Hier wird eine Bestimmung in einer rekursiven Art und Weise angestrebt.Durch wiederholtes Aneinanderketten der Daten wird eine Trainingssequenz zl l=1 2, ,... ge-bildet; d.h., es gilt z zl t= für l t i N= + ⋅ mit t = 1,...,N und i = 1,2,... . Eine Wiederholungder N Daten innerhalb der Sequenz bezeichnet man als eine Trainingsepoche. Die Adjustie-rung der Gewichte erfolgt durch den Einsatz der Delta-Lernregel gemäß
(4.42) ( )w w w x x w xl l l l l l l l ly+ = + − ′ = +1 η ηε~ ~ ~ (l = 1,2,3,...) .
Es kann leicht gezeigt werden, daß bei einer geeigneten Steuerung der Lernrate η die Ge-wichtsvektorenfolge wl l=1 2, ,... gegen die Minimumstelle der KQ-Zielfunktion (4.41) strebt.
Die Minimumstelle wNKQ läßt sich mit Hilfe der Methode des steilsten Abstiegs auf iterativem
Wege ermitteln:
(4.43)
( )
w ww
ww
z ww
w w x x
k kk
kt k
N
k t k t tt
N
Q q
t
y
N+
=
= − ⋅ = − ⋅=
= + ⋅ − ′
∑
∑
1
1
1η
∂∂
η∂
∂
η
( ) ( ),
~ ~ (k = 1,2,3,...) ,
wobei k ein Iterationsindex ist. Bei einer geeigneten Wahl des Anfangswertes w1 und derSchrittweite η > 0 konvergiert die Folge wk k=1 2, ,... nach endlichen vielen Iterationsschrittengegen die KQ-Schätzwert wN
KQ . Wesentlicher Unterschied zwischen (4.43) und (4.42) ist, daßin (4.43) schrittweise Gewichtsänderungen ∆w w wk kQN∝−∂ ∂( ) vorgenommen werden, dieauf einer Trainingsepoche basieren, während in (4.42) jedes Glied zl der Trainingssequenzunmittelbar eine Gewichtskorrektur ∆w z w w w x xl l l l l l lq y∝ − = − ′∂ ∂( ) ( ), ~ ~ auslöst. DieVektoren ∂ ∂q l l( )z w w, seien über eine Epoche gemäß
∂∂
q
lM l M l
N ( )z ww
+ +
=∑ ,
1
aufsummiert, wobei M ein beliebiges ganzzahliges Vielfaches von N ist. Die Summe ist keinGradient der KQ-Funktion ( )QN w , da die Vektoren wl ( )l M M N= + +1,..., nicht fest sind.Wird ein sehr keines η vorgegeben, sind die Vektoren jedoch approximativ identisch und
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
58 LMS-ALGORITHMUS UND LINEARE NETZWERKE
obige Summe weicht nur geringfügig von einem 'echten' Gradienten ab. D.h. auch, daß dieGesamtgewichtskorrektur, die sich nach einer Epoche ergibt, näherungsweise proportional zueinem Gradienten ist. Wird eine hinreichend kleine Lernrate gewählt, führt somit die Delta-Regel zu einem approximativen Gradientenabstieg in ( )QN w .
In der konnektionistischen Literatur wird üblicherweise die Wahl einer Lernrate 0 1< <<ηempfohlen (siehe z.B. Nauck et al. [1996, S.64f]).). Angemerkt sei, daß die Nutzung einerkonstanten Rate auch beim zyklischen Lernen ein Problem darstellt. Eine geeignete Konstanteermöglicht zwar zunächst einen approximativen Gradientenabstieg, sie kann aber i.d.R. nichtverhindern, daß die Glieder der Folge wl l=1 2, ,... in der Umgebung der Minimumstelle wN
KQ
oszillieren. Um eine Konvergenz gegen den KQ-Schätzwert für wo gewährleisten zu können,ist es erforderlich, die Lernrate η nach Erreichen einer Umgebung von wN
KQ geeignet gegennull abzusenken. Weitere pragmatische Problemlösungsansätze sind die Verwendung einesMomentum-Terms und das Batching. Beide Ansätze werden in einem erweiterten Zusammen-hang in Kapitel 5.4 vorgestellt.
Konvergenz bedeutet hier natürlich nicht Konsistenz der Gewichtsschätzung, da der Datenum-fang N fest vorgegeben ist. Läßt man aber einen wachsenden Datenumfang N zu, dann besitzendie KQ-Schätzer wN
KQ unter geeigneten Voraussetzungen die asymptotischen Güteeigenschaf-ten (4.32) und (4.33). Die 'zyklischen LMS-Schätzer' teilen mit den KQ-Schätzern dieseGüteeigenschaften - zumindest approximativ. Im Fall von Zeitreihendaten schlossen die Vor-aussetzungen einen ergodischen oder mischenden stationären datenerzeugenden Prozeß ein.Im Fall von Querschnittsdaten soll ein i.i.d. Prozeß unterstellt werden. Es ist leicht verifizier-bar, daß ein i.i.d. Prozeß streng stationär und ergodisch ist. Somit muß diese Datensituationnicht gesondert untersucht werden.
Verglichen mit Lösungsalgorithmen für KQ-Minimierungsprobleme, die sich in der statisti-schen Praxis etabliert haben (z.B. die Lösung von KQ-Problemen via orthogonale Transfor-mationen, siehe Thisted [1988, S.68ff]), erscheint der zyklische LMS-Algorithmus als ein imSinne der erforderlichen Rechenzeit ineffizientes Verfahren. Da die Lernrate im Bereich0 1< <<η gewählt werden sollte, wird in aller Regel die Abarbeitung einer sehr großen An-zahl von Trainingsepochen notwendig. Diese Kritik ist immer dann schwerwiegend, wennALC-Einheiten auf herkömmlichen Rechnern simuliert werden. Der LMS-Algorithmus solltehier durch elaboriertere Verfahren ersetzt werden. Der LMS-Algorithmus ist jedoch nichtkonzipiert, um auf herkömmlichen Computern implementiert zu werden, sondern um denAdaptionsprozeß von technisch realisierten ALC-Einheiten zu steuern, die aus einfachen phy-sikalischen Komponenten aufgebaut sind. In diesem Sinne leistet der Ansatz brauchbareDienste.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
LMS-ALGORITHMUS UND LINEARE NETZWERKE 59
4.6 Lineare Multi-Output-Netzwerke
Der LMS-Algorithmus gestattet es einer ALC-Einheit, multiple lineare Regressionsproblemeauf adaptive Art und Weise zu lösen. Koppelt man mehrere parallel arbeitende Einheiten zueiner komplexeren Lernmaschine, dann erhält man ein Multi-Output-Netzwerk, das auch ge-eignet ist, multivariate lineare Regressionsprobleme zu bearbeiten.
Eine solche Lernmaschine zeigt schematisch die Abbildung 4.2. Das Künstliche NeuronaleNetz ist mit p Eingabeeinheiten (Sensoren), einer Biaseinheit und q ALC-Einheiten ausge-stattet. Die Eingabeeinheiten sind in einer Eingabeschicht und die ALC in einer Ausgabe-schicht parallel angeordnet. Die Sensoren empfangen von dem Netzumsystem wieder reell-wertige Signale xi (i = 1,...,p), die zusammen mit dem Bias-Einheitssignal x0 1≡ über (p+1)⋅q gewichtete Verbindungen an alle q ALC-Einheiten weitergeleitet werden. Jeder ALC be-rechnet eine gewogene Summe oj der Eingangssignale. Die Summen oj (j = 1,...,q) werden alsAusgangssignale des Netzes zurück an das Umsystem gesandt. Ferner empfängt jeder ALCeine für ihn spezifische Zielausgabe yj (j = 1,...,q). Vereinfachend sind diese Signaleingängein Abbildung 4.2 nicht dargestellt. Die Eingangs- und Zielsignale können vom Netz in Echt-zeit empfangen oder dem Netz zyklisch in einer Trainingssequenz präsentiert werden.
Die Ausgabefunktion (4.5) einer einzelnen ALC-Einheit wurde als ein linearer Approximatoroder Prediktor einer zufälligen skalaren Zielvariablen Yt durch einen zufälligen EingabevektorXt motiviert. In dem hier interessierenden Kontext ist der datenerzeugende stochastische
x
x
gerichtete, gewichtete
Ausgabeschicht mit
o
o
1
= 4 = 3 ALC-Einheitenp q
x2
3
2
1
Verbindungen
o
Sensoren
x
3
4
1
Eingabeschicht mit
Biaseinheit
Abb. 4.2: Lineares neuronales Netz mit mehreren (drei) parallel geschalteten ALC-Einheiten
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
60 LMS-ALGORITHMUS UND LINEARE NETZWERKE
Prozeß Zt t T∈ eine Familie von (q+p)-dimensionalen Zufallsvektoren Z Y Xt t t= ′ ′ ′( ), mitYt t qtY Y= ( , )1 , ′ und Xt t ptX X= ( , )1 , ′ , wobei Yt ein Vektor von Zielvariablen ist. DieAusgabefunktion eines Multi-Output-Netzwerkes wird jetzt als ein linearer Approximator desZufallsvektors Yt aufgefaßt. Die Netzausgaben lassen sich wie folgt schreiben:
(4.44a) ( )O fjt j t j t j= = ′X w X w, ~ (j = 1,...,q)
oder kompakt
(4.44b) ( ) ( )O X w X wt t q tf I= = ⊗ ′, ~ ,
wobei ( )f j ⋅ ⋅, die Ausgabefunktion der j-ten ALC-Einheit und ( )f ⋅ ⋅, die vektorwertige Aus-gabefunktion des gesamten Netzes ist. Ferner gilt ~ ,X Xt t= ′ ′(1 ) , w j j j pjw w w= ′( )0 1, ,..., ,w w w= ′ ′ ′( )1 ,..., q und Ot t qtO O= ′( )1 ,..., . Iq kennzeichnet die (q,q)-Einheitsmatrix und ⊗das Kronecker-Produkt. Alternativ kann die Netzausgabefunktion (4.44b) auch gemäß
(4.44c) ( )O X W WXt t tf= =, ~
notiert werden, wobei W eine (q , p+1)-Gewichtsmatrix ist mit
W
ww
w
=
′′
′
1
2
q
.
Die Betrachtungen aus den Vorkapiteln können problemlos auf Multi-Output-Netze über-tragen werden. Das Lernziel besteht in der Schätzung eines (p+1)⋅q-dimensionalen Gewichts-vektors wo, der den mittleren quadratischen Fehler
(4.45) ( ) ( )[ ] ( )( )M E f E Y ft t jt j t jj
qw Y X w X w= − = −
=
∑, ,2 2
1
der Approximation des Zielvektors Yt durch die Netzausgabefunktion ( )f tX w, minimiert.Das Symbol kennzeichnet die euklidische Vektornorm. Existiert eine eindeutig bestimmteMinimumstelle wo von M(w), dann ist ( )f t oX w, die beste lineare Approximation von Ytdurch Xt im Sinne des MSE-Kriteriums oder die multivariate lineare Regressionsfunktion vonYt bezüglich Xt. Es sei w w wo o qo≡ ′ ′ ′( )1 ,..., . Aus (4.45) und (4.7) folgt sofort w jo =E E Yt t t tj[ ] [ ]~ ~ ~X X X′ −1 (j = 1,...,q) unter der Bedingung einer nichtsingulären Matrix E t t[ ]~ ~X X ′ .
Da jede ALC-Einheit über ihren eigenen, durch die Delta-Lernregel gesteuerten Adap-tionsmechanismus verfügt, ist auch jede Einheit in der Lage, die Gewichte wj ihrer Eingangs-leitungen selbsttätig zu adjustieren. Man spricht in diesem Zusammenhang auch von einem
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
LMS-ALGORITHMUS UND LINEARE NETZWERKE 61
lokalen Lernprozeß und einer lokalen Lernregel. Liegt beispielsweise ein zyklisches Lern-problem vor, erhält man aus (4.42) die Delta-Lernregel für die j-te Einheit
(4.46) ( )w w w x xj l jl jl jl l ly,~ ~
+ = + − ′1 η (j = 1,...,q ; l = 1,2,3,...) ,
wobei z y xl l l l ql l ply y x x= ′ ′ ′ = ′( ) ( ), ,..., , ,....,1 1 wieder das l-te Glied einer aus N beobachte-ten Trainingsmustern z y xt t t= ′ ′ ′( ), ( )t N=1,..., gebildeten Trainingssequenz zl l=1 2, ,... ist.Der Lernprozeß führt bei eine geeigneten Wahl der Lernrate η zur Minimierung der Fehler-quadratsumme
(4.47) ( ) ( ) ( )( )Q f y fN t tt
N
jt j t jj
q
t
Nw y x w x w= − = −
= ==∑ ∑∑1
22
1
12
2
11, , .
Die für den multiplen Regressionsfall diskutierten asymptotischen Eigenschaften der rekursi-ven und zyklischen LMS-Schätzer können unter den genannten Voraussetzungen direkt aufden multivariaten Fall übertragen werden.
4.7 Das ADALINE
In der konnektionistischen Literatur ist es unüblich, von Regressionsproblemen zu sprechen.Man spricht stattdessen von heteroassoziativen Lernproblemen: Das Künstliche NeuronaleNetz soll anhand von Trainingsbeispielen lernen, Eingabevektoren Xt mit Zielvektoren Yt zuassoziieren, wobei Xt und Yt jeweils verschiedene Objekte oder Zustände der Netzumgebungrepräsentieren. Ein Spezialfall der Heteroassoziation ist die Musterklassifikation oder -diskri-mination. In diesem Fall ist Yt ein Indikatorvektor mit dichotomen Komponenten, der dieKlassenzugehörigkeit eines Eingabevektors Xt indiziert.
Im ursprünglichen Ansatz von Widrow & Hoff [1960] stand die Diskrimination optischerMuster im Vordergrund. Ihre Lernmaschine, das Adaptive Lineare Neuron (ADALINE), istals eine adaptive binäre (bipolare) Schwellenwerteinheit konzipiert, die eine Eingabe durch ihrAusgangssignal einer von zwei möglichen Klassen zuordnet. Das ADALINE (vgl. Abb. 4.3)besteht aus mehreren Sensoren, einem Adaptiven Linearen Kombinierer und einem Quantifi-zierer, der entsprechend einer Signumfunktion
(4.48) ( )sgn uu
u=
+ ≥
− <
1 0
1 0
, falls
, falls
die Ausgaben des Kombinierers in die Menge −1 , +1 abbildet. D.h., das Neuron antwortetauf Eingabemuster mit bipolaren Ausgaben. Die Eingaben und Zielausgaben sind ebenfalls
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
62 LMS-ALGORITHMUS UND LINEARE NETZWERKE
bipolar. Erstere werden über optische Sensoren (Photozellen), die zu einem lichtempfind-lichen Gitter (Retina) angeordnet sind, eingespeist. Letztere indizieren die Klassenzugehörig-keit eines optischen Eingabemusters. Hinsichtlich des Input-Output-Verhaltens entspricht dieEinheit weitgehend einem McCulloch-Pitts-Neuron. Es gilt:
(4.49) ( )f w w xi ii
px w, sgn= +
=∑0
1 .
Die Signumfunktion (4.48) ist die Aktivierungsfunktion des Neurons. Sie ersetzt die Heavi-side-Aktivierungsfunktion im McCulloch-Pitts-Neuron. Das Biasgewicht w0 übernimmt dieFunktion eines Schwellenwertes.
Musterklassifikationsprobleme sind typischerweise mit zyklischem Lernen verbunden. DerLernmaschine werden N Trainingsmuster solange zyklisch präsentiert, bis keine Verbesserungder Lernergebnisse mehr erreicht werden kann. Für die Adjustierung der Gewichte einesADALINE-Neurons ist seine ALC-Komponente verantwortlich. Durch den Einsatz der Delta-Regel wird die Minimierung der Fehlerquadratsumme (4.41) angestrebt. Der Lernerfolg (bzw.Mißerfolg) wird somit durch die quadratischen Abweichungen zwischen den Zielausgabenund den Ausgaben des Kombinierers - und nicht durch die quadratischen Abweichungen zwi-schen den Zielausgaben und den tatsächlichen Ausgaben des Neurons - gemessen. JedeNichtübereinstimmung einer Zielausgabe und der korrespondierenden ALC-Ausgabe führt zueiner Korrektur der Gewichte. Diese Vorgehensweise ermöglicht es dem ADALINE, auchdann zu lernen, wenn seine tatsächliche Ausgabe richtig ist. Widrow & Hoff [1960] rechtferti-gen die Vorgehensweise durch das Argument, die Minimierung der Quadratsumme der ALC-
x
.....
w
w
wp p
1
0
Σ
ΣAdaptions-algorithmus
-o
y - oy
o
Ausgangssignal
Zielausgabe
signaleEingangs-
x1
Quantifizierer
sgn (o ). ...
Adaptiver Linearer Kombinierer
1
Abb. 4.3: Adaptives Lineares Neuron (ADALINE)
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
LMS-ALGORITHMUS UND LINEARE NETZWERKE 63
Fehler führe auch zur Minimierung der Quadratsumme der ADALINE-Fehler. Letzteres istäquivalent mit der Minimierung der durchschnittlichen Anzahl von ADALINE-Fehlern, da dieDifferenzen von (bipolaren) Zielausgaben und (bipolaren) Ausgaben des Neurons stets -2, 0oder +2 betragen.
Zwischen dem ADALINE-Ansatz und dem Perzeptron-Modell von Rosenblatt [1958, 1960]existieren offensichtliche Berührungspunkte. Sowohl ADALINE-Neurone als auch die Re-sponse-Einheiten in Perzeptronen wirken wie lineare Diskriminanzfunktionen. Beide Ansätzesind ihrem Wesen nach lineare Diskriminationsverfahren. Auch die Lernverfahren weisenÜbereinstimmungen auf: Die Delta-Regel und die Perzeptron-Regel (3.11) sind beide inkre-mentelle fehlerkorrigierende Lernregeln mit vergleichbarem Aufbau. Da die Perzeptron-Regeleine Gewichtskorrektur nur dann bewirkt, wenn eine falsche Ausgabe erfolgt, die Delta-Regelein Lernen jedoch auch ermöglicht, wenn die Ausgabe des Neurons richtig ist, führt die Delta-Regel im allgemeinen zu einer deutlich Beschleunigung des Lernprozesses. Ferner konver-giert der Perzeptron-Lernalgorithmus dann und nur dann, wenn eine linear trennbare Trai-ningsmenge vorliegt. Ansonsten liefert Perzeptron-Lernen kein eindeutiges Ergebnis. Ein ver-gleichbares Konvergenzproblem entsteht bei Anwendung des LMS-Algorithmus nicht. In derLiteratur wird der LMS-Algorithmus deshalb des öfteren als eine Weiterentwicklung des Per-zeptron-Lernalgorithmus bezeichnet (siehe z.B. Lippmann [1987] oder Nauck et al. [1996,S.15]). Diese Sichtweise vernachlässigt allerdings die völlig unterschiedlichen Grundlagenbeider Verfahren.
Aufgrund der Linearität des Diskriminationsansatzes kann das ADALINE Lernprobleme na-türlich nur dann fehlerfrei lösen, wenn die zu diskriminierenden Muster linear trennbar sind.So ist es beispielsweise nicht in der Lage, das Antivalenz-Problem aus Kapitel 3.4 zu bear-beiten. Historisch interessant ist, daß Widrow auch ein mehrschichtiges Netzwerk, das soge-nannte MADALINE (many adalines), zur Überwindung der Problematik vorschlug (sieheWidrow & Winter [1988], Winter & Widrow [1988]). Das MADALINE verfügt jedoch nurüber eine trainierbare Neuronenschicht, die verbleibenden synaptischen Verbindungen imNetz sind fest. Es weist somit im wesentlichen die gleichen Limitationen auf wie das klassi-sche Perzeptron.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
65
5 BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE
In diesem Abschnitt wird das in den vorangehenden Kapiteln noch offen gebliebene Problem
der Gewichtsadjustierung in Mehrschicht-Netzen weiter verfolgt. Eine Lösung dieses Problems
popularisierten im Jahr 1986 D.E. Rumelhart, G.E. Hinton und R.J. Williams (Rumelhart et
al. [1986a,b]). Sie ersetzten die binären Schwellenwerteinheiten des klassischen Perzeptron-
Modells durch Neurone mit glatter (differenzierbarer) Input-Output-Charakteristik und ent-
wickelten eine verallgemeinerte Version des LMS-Algorithmus, die geeignet ist, alle Verbin-
dungsgewichte in Netzen mit mehreren Neuronenschichten zu trainieren. Den Lernalgorith-
mus bezeichneten sie als Error-Backpropagation oder kurz Backpropagation. Es entstand
eine 'moderne' und sehr flexibel einsetzbare Version des klassischen Perzeptrons, die in der
Literatur zumeist einfach Mehrschicht-Perzeptron (multilayer perceptron, MLP) genannt
wird. Rasch nachfolgende erfolgreiche Anwendungen, wie das in Kapitel 1 erwähnte NETtalk-
Projekt, führten zu einem erheblichen Aufschwung der konnektionistischen Forschung. Back-
propagation ist heute das mit Abstand am häufigsten eingesetzte Lernverfahren für Künstliche
Neuronale Netze. Varianten des Algorithmus erlauben auch das Training anderer Netzwerk-
typen als die hier im Vordergrund stehenden Mehrschicht-Perzeptrone (siehe z.B. Hertz et al.
[1991, S.172ff]). Angemerkt sei, daß die Ideen von Rumelhart et al. nicht neu waren. Das
Lernverfahren wurde zuvor mehrmals unabhängig voneinander von Bryson & Ho [1969],
Werbos [1974] und Parker [1982] entwickelt. Ein eng verwandtes Lernverfahren schlug Le
Cun [1985] vor (vgl. Hertz et al. [1991, S.115]).
Interessant ist, daß Rumelhart et al. Backpropagation zwar explizit als eine Generalisierung
des LMS-Algorithmus entwickelten, der statistische Bezug in ihren Arbeiten aber zugunsten
biologischer und psychologischer Schwerpunkte verloren geht. Die statistischen Zusammen-
hänge wurden erst in nachfolgenden Arbeiten anderer Autoren 'wiederentdeckt'. Einen
wesentlichen Beitrag hierzu lieferte in einer ganzen Reihe von Arbeiten H. White. Dieses
Kapitel beinhaltet auch eine selektive Zusammenfassung dieser Ergebnisse.
In den folgenden Ausführungen stehen statistische Aspekte im Vordergrund. Mehrschicht-
Perzeptrone werden als flexible, nichtlineare Regressionsmodelle motiviert. Zunächst werden
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
66 BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE
die Netzwerkcharakteristika moderner Perzeptrone diskutiert. Anschließend werden Backpro-
pagation sowie einige in der Literatur vorgeschlagene Modifikationen des Algorithmus als
rekursive Verfahren zur Lösung nichtlinearer Kleinste-Quadrate-Probleme vorgestellt. Die
Ausführungen sind in (mindestens) zweierlei Hinsicht selektiv: Backpropagation kann als ein
zyklisches Lernverfahren oder als ein Echtzeit-Lernverfahren genutzt werden. Hier gilt das
Interesse primär dem für datenanalytische Anwendungen bedeutsameren zyklischen Lernen.
Ferner richtet sich das Augenmerk auf die Beziehungen zwischen Backpropagation und der
nichtlinearen Kleinste-Quadrate-Schätzung. Backpropagation-Lernen kann jedoch auch in den
Kontext der allgemeineren Quasi-Maximum-Likelihood-Schätzung gestellt werden. Da die
hieraus resultierenden Erweiterungen eher für diskriminanzanalytische Anwendungen von
Mehrschicht-Perzeptronen denn für die hier im Vordergrund stehenden Regressions- und Pro-
gnoseprobleme bedeutsam sind, soll bezüglich dieses Aspektes auf die Literatur verwiesen
werden (siehe z.B. White [1989b, 1992a]).
5.1 Neurone mit sigmoiden Aktivierungsfunktionen
Ein Charakteristikum moderner Perzeptrone sind Neurone, die mit 'glatten' sigmoiden Akti-
vierungsfunktionen ausgestattet sind. Um dieses Charakteristikum zu motivieren, soll die in
Kapitel 4.7 beschriebene Lernproblematik erneut aufgegriffen werden. Betrachtet wird wieder
eine einfache bipolare Schwellenwerteinheit, das ADALINE, mit der Ausgabefunktion
( ) ( )f w w xi i
i
p
x w w x, sgn ~ sgn= ′ = +
=∑0
1
,
wobei w = ′ ∈ ⊆ +( )w w w W IRo pp, , . . . ,1
1 , x = ′ ∈( )x x IRpp
1 , . . . , , ~ ,x x= ′ ′(1 ) und
sgn ,: IR → − +1 1 mit
( )sgn uu
u=
+ ≥− <
1 0
1 0
, falls
, falls
gilt. Als Lerndaten sind Beobachtungen z xt t ty= ′ ′( ), der (p+1)-dimensionalen Zufallsvek-
toren Z Xt t tY= ′ ′( ), ( )t N= 1,..., mit N p> vorgegeben. Die Zielvariable Yt sei eine bipolare
Indikatorvariable. Gesucht ist die Lösung des Minimierungsproblems
(5.1) ( )( )min ,w
x w∈ =
−∑W
t tt
N
Ny f
1 2
1
.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE 67
Wie in Kapitel 4.7 ausgeführt, setzen Widrow & Hoff [1960] den LMS-Algorithmus oder die
Delta-Lernregel zur Lösung des Ersatzproblems
( )min ~w
w x∈ =
− ′∑W
t tt
N
Ny
1 2
1
ein. Der Grund, warum die Autoren eine Ersatzstrategie wählen, ist offensichtlich: Eine gra-
dientenbasierte Minimierungsmethode kann nicht direkt auf das Ausgangsproblem (5.1) ange-
setzt werden, da die partiellen Ableitungen
( )( ) ( )( ) ( )∂∂
∂∂w
x w w xw
w xy f y− = − − ′ ′, sgn ~ sgn ~22 , y IR∈ ,
entweder verschwinden oder nicht definiert sind.
Es ist eine zweite, sehr naheliegende Ersatzstrategie denkbar. Sie besteht darin, die Signum-
Aktivierungsfunktion des künstlichen Neurons durch eine überall differenzierbare, streng mo-
noton wachsende und beschränkte (sigmoide) Funktion φ zu approximieren, z.B. durch die
hyperbolische Tangensfunktion
(5.2) φ( ) ( )( )
( + )u u
e e
e e
u u
u u= = − −
−tanh ,
deren Wertebereich das offene Intervall ( )− +1 1, ist. Die Ausgabefunktion besitzt jetzt die Form
( ) ( )f x w w x, tanh ~= ′
und das Minimierungsproblem (5.1) kann direkt durch Einsatz einer modifizierten Delta-Lern-
regel über einen approximativen Gradientenabstieg
( )
( )( )
w ww
w x
w w x w x x
l l l l l
l l l l l l l
c y
y
+ = − − ′
= + − ′ − ′
1
2
21
∂∂
η
tanh ~
tanh ~ tanh ~ ~
( )
( ) ( ) (l = 1,2,3,...)
mit η = 2c, c > 0 gelöst werden. Die Trainingsdaten werden dem Neuron wieder zyklisch in
einer Trainingssequenz zl l =1 2, ,... bis zur Konvergenz präsentiert. Das Erreichen einer Kon-
vergenz setzt voraus, daß die Lernrate η nicht konstant gehalten, sondern in der Umgebung
der Minimumstelle geeignet gegen null abgesenkt wird (vgl. Kapitel 4.5, S.58).
Diese einfache Idee bildet die Grundlage für die Entwicklung der modernen Mehrschicht-Per-
zeptrone und des Backpropagation-Algorithmus. Basisbausteine dieser Künstlichen Neurona-
len Netze sind Neurone mit überall differenzierbaren sigmoiden Aktivierungsfunktionen φ,
auch squashing functions genannt. Aus diesen Bausteinen können komplexe mehrschichtige
Netzwerke so aufgebaut werden, daß auch die Ausgabefunktion des gesamten Netzes ein be-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
68 BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE
züglich der synaptischen Gewichte überall differenzierbares Funktional ist. Das Netzwerk-
lernen kann jetzt durch gradientenbasierte Optimierungsverfahren gesteuert werden.
In der Literatur wird die Verwendung einer Anzahl verschiedener Squashing-Funktionen φ als
Aktivierungsfunktion vorgeschlagen. Typische Beispiele sind die hyperbolische Tangens-
funktion (5.2) und die logistische Funktion ( )Λ: IR → 0 1, mit
(5.3) φ( ) ( )u ue u
= =+ −Λ 1
1 .
Die logistische Funktion stellt eine glatte Approximation der Heaviside-Aktivierungsfunktion
(3.4) des McCulloch-Pitts-Neurons aus Abschnitt 3.1 dar. Die beiden Funktionen zeichnen
sich dadurch aus, daß ihre ersten Ableitungen
∂∂u
u utanh tanh( ) ( )= −1 2 ,∂∂u
u u uΛ Λ Λ( ) ( )( ( ))= −1
sehr einfach evaluierbare Funktionale sind. Dies erleichtert die Differentiation der Netzaus-
gabefunktion.
Die Neurone weisen jetzt nicht mehr wie binäre Schwellenwerteinheiten ein Ausgabeverhalten
mit Alles-oder-Nichts-Charakter auf, sondern reagieren auf sich ändernde Signaleingänge mit
kontinuierlich variierenden Aktivitätszuständen, deren Amplitude beschränkt bleibt. Dieses
stetige Verhalten mag aus biologischer Sicht als eine stark idealisierte Modellierung des Auf-
baus stetiger postsynaptischer Summationspotentiale durch biologische Nervenzellen interpre-
tiert werden (vgl. Kapitel 2.2, S.14f). Verantwortlich für die Verwendung von Squashing-
Funktionen sind jedoch maßgeblich mathematische Aspekte.
5.2 Netzwerkarchitekturen von Mehrschicht-Perzeptronen
Neben der Verwendung von Neuronen mit differenzierbaren sigmoiden Aktivierungsfunktio-
nen zeichnen sich Mehrschicht-Perzeptrone durch eine vorwärtsgerichtete Schichtenarchitek-
tur (multilayer feedforward networks) aus. Ein Perzeptron ist aus mehreren hintereinander
geschalteten Schichten von Einheiten aufgebaut. Die erste wird als die Eingabeschicht (input
layer) und die letzte als die Ausgabeschicht (output layer) bezeichnet. Zwischen ihnen ist
mindestens eine verborgene Schicht (hidden layer) angeordnet. Die Eingabeschicht setzt sich
aus mehreren Eingabeeinheiten zusammen, die anderen Schichten beinhalten Verarbeitungs-
einheiten oder Neurone. Die Einheiten zweier aufeinanderfolgender Schichten sind über vor-
wärtsgerichtete und gewichtete Verbindungen miteinander gekoppelt. Es existieren keine
Feedback-Verbindungen oder Verbindungen zwischen Einheiten innerhalb einer Schicht. Si-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE 69
gnale fließen ausschließlich von der Eingabeschicht über die verborgenen Schichten zur Aus-
gabeschicht. Die von Rosenblatt im klassischen Perzeptron-Modell genutzten Bezeichnungen
Retina, Assoziationsschicht oder Responseschicht werden heute nicht mehr verwendet. Die
Informationsverarbeitungsaufgaben des modernen Perzeptrons beziehen sich nicht notwendig
auf Wahrnehmungsprozesse, sondern sie sind völlig unspezifisch angelegt.
In Abbildung 5.1 ist exemplarisch ein Netz mit einer verborgenen Schicht dargestellt. Es setzt
sich aus p Eingabeeinheiten, r verborgenen Einheiten, q Ausgabeeinheiten und deren gerichte-
te, gewichtete Verbindungen zusammen. Ferner ist jede Verarbeitungseinheit mit einer Bias-
einheit gekoppelt. Ein synaptisches Gewicht wird mit γ i j gekennzeichnet, wenn die ihr zuge-
ordnete Leitung die i-te Eingabeeinheit mit der j-ten verborgenen Einheit verbindet, und mit
β j k , wenn eine Koppelung der j-ten verborgenen Einheit mit der k-ten Ausgabeeinheit vor-
liegt. Die Biasgewichte werden durch γ 0 j bzw. β0 k symbolisiert. Das Netz empfängt über
seine Eingabeschicht Signale x = ′ ∈( )x x IRp
p
1, ,L des Umsystems, die von den Verarbei-
tungseinheiten der verborgenen Schicht und der Ausgabeschicht in die Netzausgaben
o = ′ ∈( )o o IRqq
1 , ,L transformiert werden. Formal gilt:
v xj j i j i
i
p
= + ⋅
=∑φ γ γ
1 01
( )j r= 1, . .. , ,
x
x
x
Eingabeschicht mit Verborgene Schicht mit Ausgabeschicht mit
o
o
o
1
2
= 4 Eingabeeinheiten = 5 Verarbeitungseinheiten = 3 Verarbeitungseinheitenp qr
x3
4 3
2
1
gerichtete, gewichtete gerichtete, gewichteteVerbindungen Verbindungen
1 1Biaseinheiten
Abb. 5.1: Mehrschicht-Perzeptron mit einer verborgenen Schicht
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
70 BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE
o vk k j k jj
r
= + ⋅
=∑φ β β2 0
1
( )k q= 1, . . .,
oder kompakt
(5.4) o xk k j k j i j ii
p
j
r
= + ⋅ + ⋅
==∑∑φ β β φ γ γ2 0 1 0
11
( )k q= 1, . . ., .
Die Einheiten einer Schicht arbeiten parallel. Ihre Aktivierungsfunktionen sind in der Regel
identisch, die Funktionen können jedoch von Schicht zu Schicht verschieden sein. Mit φ1 ist
die Aktivierungsfunktion der verborgenen Einheiten und mit φ 2 die Aktivierungsfunktion der
Ausgabeeinheiten gekennzeichnet. Für (5.4) soll abkürzend ( )o x w= f , mit f IR W Op: × → ,
W IR m⊆ , O IR q⊂ geschrieben werden, wobei w = ( )0 1γ γ β β,..., , ,...,p r rq W0 1 ′ ∈ der m-dimen-
sionale Vektor der adjustierbaren Gewichte und W der Gewichts- oder Parameterraum ist mit
( )m p r= + +1 ( )r q+1 . Die vektorwertige Netzausgabefunktion f ist ein nichtlineares, differen-
zierbares und beschränktes Funktional. Ihr Wertebereich O wird durch die in der Ausgabe-
schicht verwendete Squashing-Funktion festgelegt. Im Falle der logistischen Funktion ist bei-
spielsweise der Wertebereich ein offener q-dimensionaler Hyperwürfel ( )O q= 0 1 , .
Die vorgestellte Netzwerkarchitektur kann in mancherlei Hinsicht modifiziert werden. Neben
der Erweiterung des Netzes um zusätzliche verborgene Schichten sollen hier nur zwei Modifi-
kationen genannt werden, die primär pragmatischer Natur sind. Die erste Modifikation besteht
in dem Hinzufügen sogenannter Shortcut-Verbindungen, die direkte Verbindungsleitungen
von den Eingabe- zu den Ausgabeeinheiten darstellen. Aus (5.4) wird jetzt
(5.5) o x xk k i k ii
p
j k j i j ii
p
j
r
= + ⋅ + ⋅ + ⋅
= ==∑ ∑∑φ β α β φ γ γ2 0
11 0
11
( )k q= 1, . . ., ,
wobei mit α ik die Gewichte der direkten Eingabe-Ausgabe-Verbindungen bezeichnet sind.
Durch die direkten Verbindungen wird die Anzahl der adjustierbaren synaptischen Gewichte
im Netzwerk erhöht. Das Netz gewinnt hierdurch an Flexibilität. Die zweite Modifikation be-
steht in der Verwendung der Identitätsfunktion ( )φ 2 u u= als 'Aktivierungsfunktion' der Aus-
gabeeinheiten. Das Netz antwortet jetzt auf ein Eingangssignal x gemäß:
(5.6) o x xk k i k ii
p
j k j i j ii
p
j
r
= + ⋅ + ⋅ + ⋅
= ==∑ ∑∑β α β φ γ γ0
11 0
11
( )k q= 1, . . ., .
Die Netzausgabefunktion sei wieder symbolisch ( )o x w= f , geschrieben, wobei w nun ein
( ) ( )( )p r r q pq+ + + +1 1 -dimensionaler Vektor ist. Sie bleibt weiterhin ein nichtlineares und
differenzierbares Funktional, ist aber nicht mehr beschränkt. Dies kann in praktischen An-
wendungen vorteilhaft sein, speziell dann, wenn das Perzeptron zur Lösung von Regressions-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE 71
problemen eingesetzt werden soll. Im Falle einer beschränkten Ausgabefunktion wird hier
i.d.R. eine Skalierung der Daten notwendig.
Perzeptrone mit einer verbogenen Schicht werden verwirrenderweise in der Literatur sowohl
als dreischichtig (es werden alle Schichten gezählt), zweischichtig (es werden nur die Neuro-
nenschichten gezählt) oder auch einschichtig (es wird nur die verborgene Schicht gezählt) be-
zeichnet. Hier wird im folgenden einfach von MLP(p,r,q)-Netzen gesprochen, wobei p, r und
q die Anzahl der Einheiten in den betreffenden Schichten angeben.
Die Netzausgabefunktion eines MLP(p,r,q)-Netzes mit einer großen Anzahl r verborgener
Verarbeitungseinheiten ist ein flexibles Funktional. In einer ganzen Reihe von Arbeiten wurde
nachgewiesen, daß Funktionen der Form (5.4) - (5.6) als universelle Approximatoren ange-
sehen werden können (siehe neben anderen Cybenko [1989], Funahashi [1989], Hecht-Nielsen
[1989], Hornik et al. [1989] und Stinchcombe & White [1989]). Die Bezeichnung 'universeller
Approximator' meint, daß eine Netzausgabefunktion jede Funktion aus einer großen Funk-
tionsklasse beliebig genau approximieren kann, unter der Voraussetzung, daß die Anzahl r
verborgener Einheit hinreichend groß und der Gewichtsvektor w geeignet adjustiert ist.
Ein typisches Ergebnis für Netze mit einer unbeschränkten (linearen) Ausgabeeinheit geben
Hornik et al. [1989] an: Es sei C eine kompakte Teilmenge des IRp und g C IR: → eine belie-
bige stetige - oder allgemeiner Borel-meßbare - Funktion. Ferner sei φ eine überall differen-
zierbare, streng monoton wachsende und beschränkte Squashing-Funktion. Dann existiert eine
Netzausgabefunktion f C IR: → mit
f xj j i j ii
p
j
r
( ) : x = + ⋅ + ⋅
==∑∑β β φ γ γ0 1 1 0
11
,
r IN∈ und γ γ β β0 1 1,..., ,...,p r r IR, 0 1 ∈ , so daß sup x x x∈ − <C g f ( ) ( ) ε für jedes reelle ε >0
gilt. Die Gewichte werden hier als fest vorgegeben betrachtet. Besitzt die Ausgabeeinheit eine
Squashing-Funktion als Aktivierungsfunktion, dann kann eine vergleichbare Aussage für ge-
eignet beschränkte Borel-meßbare Funktionen g bewiesen werden.
Bei den Ergebnissen von Hornik et al. und anderen Autoren handelt es sich natürlich um reine
Existenzaussagen. Sie liefern jedoch eine theoretische Rechtfertigung für den praktischen
Einsatz von Mehrschicht-Perzeptronen als Funktionsapproximatoren. Eine weitgehend offen
Frage ist, wie viele verborgene Schichten ein Netz zur Lösung einer vorgegebenen Aufgabe
besitzen sollte. Wie angegeben, besitzen bereits Netze mit einer verborgenen Schicht 'univer-
selle Approximator-Eigenschaften'. Ein Perzeptron mit mehreren verborgenen Schichten kann
aber gegebenenfalls die gleiche Approximationsgüte mit einer geringeren Anzahl von Ge-
wichten (freien Parametern) erreichen. Beispiele hierfür sind bekannt (Blum & Li [1991],
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
72 BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE
Kuan & White [1994]). Generelle Ergebnisse stehen nach dem Kenntnisstand des Autors je-
doch noch aus.
5.3 Der Backpropagation-Algorithmus
Der LMS-Algorithmus wurde in Kapitel 4 als ein rekursiver Ansatz zur Lösung linearer Re-
gressionsprobleme vorgestellt. Analog soll der Backpropagation-Algorithmus als ein rekursi-
ves Verfahren zur Lösung nichtlinearer Regressionsprobleme motiviert werden. Um unnötig
komplizierte Darstellungen zu vermeiden, werden hierbei einige Vereinfachungen vorge-
nommen. Betrachtet werden MLP(p,r,q)-Netze mit einer Ausgabeeinheit (q=1). Eine Verall-
gemeinerung der Ergebnisse auf Netze mit q > 1 Ausgabeeinheiten und/oder mehreren ver-
borgenen Schichten ist ohne Probleme möglich. Der Backpropagation-Algorithmus kann als
ein Echtzeit-Lernverfahren oder als ein zyklisches Lernverfahren genutzt werden. Hier wird
zunächst die für praktische Anwendungen bedeutsamere zyklische Lernsituation behandelt.
Echtzeit-Lernen wird an einer späteren Stelle kurz diskutiert.
5.3.1 Mehrschicht-Perzeptrone und nichtlineare Regressionsprobleme
Als Lerndaten seien wieder beobachtete Werte z xt t ty= ′ ′( ), des Ausschnitts Z Xt t tY= ′ ′( ),
(t = 1,...,N) eines datenerzeugenden Prozesses Zt t T∈ gegeben. Der stochastische Prozeß ist
eine Familie : Zt E t TΩ → ∈, von (1+p)-dimensionalen Zufallsvektoren über einem gege-
benen Wahrscheinlichkeitsraum ( )Ω, ,F P mit dem Parameterraum T IN= oder T IZ= . Ver-
einfachend wird unterstellt, daß der Zustandsraum E des Prozesses eine beschränkte Teil-
menge des IRp+1 ist. Konkret wird E I p⊆ +1 gesetzt, wobei ( )I = 0 1, oder ( )I = − +1 1, ist. Die
Annahme stellt sicher, daß der Variationsbereich der Zielvariablen Yt immer in den Werte-
bereich der Ausgabefunktion eines MLP(p,r,1)-Netzes fällt, auch dann, wenn die Ausgabeein-
heit des Netzes eine Squashing-Funktion als Aktivierungsfunktion besitzt. Liegt ein stochasti-
scher Prozeß mit einem umfassenderen, aber beschränkten Zustandsraum vor, dann kann die
Annahme durch eine geeignete Skalierung der Zufallsvektoren erfüllt werden. Be i den Lern-
daten kann es sich um Querschnitts- oder Zeitreihendaten handeln. Im ersten Fall wird wieder
ein datenerzeugender i.i.d. Prozeß unterstellt. Im zweiten Fall wird ein ergodischer streng sta-
tionärer Prozeß oder ein mischender stationärer Prozeß erster Ordnung angenommen.
Das Lernproblem kann jetzt wie folgt beschrieben werden: Die skalaren Zielvariablen Yt sol-
len durch die Eingabevektoren Xt t p t
X X= ( , )1
L, ′ approximiert oder prognostiziert werden.
Als Maß für die Prognosegüte wird das Mean-Square-Error-Kriterium genutzt. Wie bereits in
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE 73
Kapitel 4.1 gezeigt, ist der MSE-optimale Prediktor von Yt durch Xt durch die allgemeine Re-
gressionsfunktion µ( ) [ ]X Xt t tE Y= gegeben. Die Funktion µ : IR IRp → ist unbekannt und
soll ihrerseits durch die Netzausgabefunktion f IR W Op : × → eines MLP(p,r,1)-Netzes ap-
proximiert werden. Gesucht ist ein Gewichtsvektor wo, der das Minimierungsproblem
(5.8) ( ) ( )minw
w X w∈
= −
W
t tM E Y f ( , )2
löst. Der mittlere quadratische Fehler kann analog zu (4.12) in zwei additive Komponenten
zerlegt werden:
(5.9) ( ) ( )E Y f E ft t t t
−
= −
+( , ) ( ) ( , )X w X X w2 2 2µ σ .
Die zweite Komponente σ µ2 2= −E Yt t[( ( )) ]X hängt nicht von w ab. Sie ist der mittlere
quadratische Prognosefehler des MSE-optimale Prediktors und kann als ein Maß für die Pro-
gnostizierbarkeit der Zufallsvariablen Yt durch die Zufallsvektoren Xt aufgefaßt werden. Das
Minimierungsproblem (5.8) ist äquivalent mit der Minimierung der ersten Komponente, dem
mittleren quadratischen Fehler der Approximation von µ( )Xt durch f t( , )X w . Eine exakte
Lösung der Minimierungsaufgabe setzt die Kenntnis der Wahrscheinlichkeitsverteilungen
erster Ordnung der Prozeßvektoren voraus. Sind diese unbekannt, dann muß eine statistische
Lösung gesucht werden. Eine Minimumstelle wo von (5.8) soll hier durch die nichtlineare
Kleinste-Quadrate-(NKQ)-Schätzfunktion
(5.10) ( )$ arg minw ww
N N
NKQ
W
Q=∈
mit ( ) ( )QN
Y fN t t
t
N
w X w= −=∑1 2
1
( , )
geschätzt werden. Man beachte, daß M(w) in aller Regel multiple Minimumstellen besitzt, und
wo somit nicht eindeutig bestimmt ist. Man sagt auch, wo ist nicht global identifiziert. Dies ist
leicht einzusehen, da beispielsweise die Anordnung der verborgenen Einheiten im Netz beliebig
permutierbar ist. Folglich ist auch die Anordnung ihrer Gewichte im Vektor w permutierbar.
In dem vorgestellten Kontext ist ein Mehrschicht-Perzeptron ein spezifischer nichtlinearer Re-
gressionsansatz. Die Lernproblematik ist verwandt mit dem in Kapitel 4.1 betrachteten linea-
ren Regressionsproblem. Es existiert jedoch ein wesentlicher Unterschied. Die Architektur der
primitiven Lernmaschine aus 4.1 war per se vorgegeben. Die Architektur eines MLP(p,r,1)-
Netzes - und damit die Flexibilität ihrer nichtlinearen Netzausgabefunktion - kann hingegen
durch Variation der Anzahl r der verborgenen Einheiten verändert werden. Das vollständige
Regressionsproblem beschränkt sich hier somit nicht auf die Schätzung eines Gewichtsvek-
tors; es gilt auch, eine problemadäquate Netzwerkarchitektur zu spezifizieren, um eine mög-
lichste gute Approximation der unbekannten Regressionsfunktion µ( ) ⋅ erreichen zu können.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
74 BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE
Es können zwei verschiedene gedankliche Rahmen gezogen werden, um ein MLP-Netzwerk
sinnvoll in die statistische Theorie einzubeziehen. Das Netz kann als ein modellfreier Regres-
sionsansatz aufgefaßt werden, denn bei der Festlegung einer Netzwerkarchitektur fließen in
aller Regel keine expliziten Annahmen über die Form des statistischen Zusammenhangs der
Zufallsgrößen Yt und Xt ein. Eine problemadäquate Netzwerkspezifikation stellt eine Kom-
promißlösung dar: Einerseits sollte die Anzahl der verborgenen Einheiten hinreichend groß
sein, um eine gute Approximation der Funktion µ( ) ⋅ ermöglichen zu können; andererseits
darf - relativ zum Umfang N des Lerndatensatzes - der Gewichtsvektors w nicht zu hoch di-
mensioniert sein, da ansonsten mit 'unzuverlässigen' Gewichtsschätzungen gerechnet werden
muß. Läßt man die Netzwerkkomplexität geeignet mit dem Datenumfang N anwachsen, kann
die Approximationsgüte mit größer werdendem Datenumfang verbessert werden. Ein solcher
Regressionsansatz kann sinnvoll in den Bereich der nichtparametrischen Regression einge-
ordnet werden. Die Betrachtungen hierzu werden in Abschnitt 5.6 vertieft.
In den folgenden Ausführungen wird zunächst das Problem der Netzwerkspezifikation ausge-
klammert und ein MLP(p,r,1)-Netz mit einer moderaten Anzahl r verborgener Einheiten als a
priori vorgegeben angenommen. White [1989a] folgend, soll das Netzwerk als ein parametri-
sches Regressionsmodell und seine Netzgewichte als Regressionsparameter, die es auf der
Basis von Lerndaten zu schätzen gilt, interpretiert werden. Da das Netz jedoch nur als ein Ap-
proximator intendiert ist, wird es als ein fehlspezifiziertes Regressionsmodell behandelt. Fehl-
spezifikation meint hier, daß die Ungleichung ( )P ft tµ( ) ( , )X X w= < 1 für alle w ∈W er-
füllt ist. Dieser Interpretationsansatz ist fruchtbar, da er erlaubt, die Theorie der Kleinste-Qua-
drate-Schätzung bei Vorliegen fehlspezifizierter Modelle zur Beurteilung der Schätz- oder
Lernergebnisse heranzuziehen (siehe Abschnitt 5.5).
5.3.2 Backpropagation und zyklisches Lernen
Der Backpropagation-Algorithmus, in der von Rumelhart et al. [1986a,b] vorgestellten Versi-
on, ist eine rekursive Methode zur Berechnung von NKQ-Schätzwerten. Ziel ist es, auf der
Basis beobachteter Trainingsdaten zt ( )t N=1,..., den Gewichtsvektor w in einer endlichen Se-
quenz von Lernschritten so zu adjustieren, daß die realisierte NKQ-Zielfunktion
(5.11a) ( ) ( )Q y fN N t t
t
N
w x w= −=∑1 2
1
( ),
oder äquivalent
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE 75
(5.11b) ( ) ( ) ( )N
t tt
N
tt
N
Q y f qN2
1
2
2
1 1
w x w z w= − == =∑ ∑( ), , mit ( ) ( )q y ft t tz w x w, = −1
2
2( , )
minimiert wird. Die Daten werden wiederholt aneinandergekettet. Es entsteht eine Trainings-
sequenz z l l =1 2, ,... mit dem l-ten Glied z x
l l l l l p ly y x x= ′ ′ = ′( ) ( , . . . , ), ,
1. Beginnend mit
einem Startvektor w1 werden jetzt schrittweise Gewichtskorrekturen
(5.12)
( )
( )
w wz w
w
w x wx w
w
wx w
w
l ll l
l l l ll l
l l ll l
q
y ff
y of
+ = −
= + −
= + −
1η
∂∂
η∂
∂
η∂
∂
( )
( )( )
( )
,
,,
,(l = 1,2,3,...)
mit o fl l l= ( )x w, und η > 0 vorgenommen. Rumelhart et al. bezeichnen die Gleichung
(5.12) als die generalisierte Delta-Lernregel. Wird eine hinreichend kleine Lernrate η vorge-
geben, d.h. in der Regel 0 1< <<η , dann führt das Vorgehen zu einem approximativen Gra-
dientenabstieg, und die Fehlerquadratsumme (5.11) wird im Laufe des Trainingsprozesses
sinken. Die Wahl der Lernrate ist stark kontextabhängig. Aufgrund früherer Erörterungen ist
klar, daß ein Festhalten an einer konstanten Lernrate eine Konvergenz des Trainingsprozesses
behindert. Für große Lernschritte n sollte η geeignet gegen null abgesenkt werden.
Neben der Wahl und Steuerung der Lernrate ist die Festlegung des Startvektors w1 ein sensi-
bler Punkt des Lernverfahrens. Rumelhart et al. [1986b] schlagen vor, Zufallszahlen aus
einem keinen Intervall [ ]− +ε ε, um null als Komponenten des Startvektors vorzugeben.
Würden alle Gewichte mit einem identischen Anfangswert belegt, dann könnte nicht ver-
hindert werden, daß sich die (Teil-)Gewichtsvektoren der verborgenen Einheiten im Laufe des
Trainings gleichförmig entwickeln und auch die Gewichte zwischen den verborgenen Einhei-
ten und der Ausgabeeinheit identisch bleiben. Durch die Vorgabe kleiner Anfangswerte soll
verhindert werden, daß bei Trainingsbeginn die Neurone Ausgangssignale an den Grenzen des
Wertebereichs ihrer sigmoiden Aktivierungsfunktion produzieren. An den Saturationsgrenzen
ist die Ableitung einer sigmoiden Funktion näherungsweise null. Folge wäre, daß die Lern-
regel (5.12) nur verschwindend kleine Gewichtskorrekturen liefert. Die genannten Aspekte
werden bei Betrachtung der folgenden Herleitungen unmittelbar deutlich.
Die in jedem Lernschritt erforderlichen Berechnungen sollen am Beispiel eines MLP(p,r,1)-
Netzes mit direkten Verbindungen zwischen den Eingabeeinheiten und der Ausgabeeinheit
demonstriert werden. Die Netzausgabefunktion von Netzen mit Shortcuts wurde bereits in
(5.5) bzw. (5.6) angegeben. Sie wird hier vereinfachend
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
76 BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE
o f x xi ii
p
j i j ii
p
j
r
= = ⋅ + ⋅ ⋅
= ==∑ ∑∑( )x w, φ α β φ γ2 1
01 1
01
geschrieben, wobei x 0 1≡ das Biassignal ist und α β0 1 0 1: = gesetzt wird. φ1 ist eine vorge-
gebene Squashing-Funktion, und φ2 ist eine Squashing-Funktion oder die Identitätsfunktion.
Ferner bezeichne
e xj i j i
i
p
: = ⋅=∑γ
0
(j = 1,...,r)
die Summe der gewichteten Eingangssignale und
( )v ej j: = φ
1(j = 1,...,r)
die Ausgangssignale der verborgene Einheiten. Der Signaleingang der Ausgabeeinheit sei mit
e x vi ii
p
j jj
r
: = ⋅ + ⋅= =∑ ∑α β1
01
1
abgekürzt. Mit Hilfe der Kettenregel erhält man jetzt die partielle Ableitungen
( )( )
∂∂
∂φ∂
∂∂
φ∂
∂f
w
e
e
e
we
e
wh h h
( )x w,= ⋅ = ′ ⋅2
2 (h = 1,...,m) ,
wobei wh die h-te Komponente des m-dimensionalen Vektors w symbolisiert. Obige Gleichun-
gen gelten unter der Voraussetzung, daß φ2 eine Squashing-Funktion ist. Ist φ2 die Identitäts-
funktion, dann gilt f e( )x w, = und die Ableitungen reduzieren sich auf ∂ ∂f w h( )x w, =∂ ∂e w h . Weiter ist
∂∂α
ex
ii
1
= , ∂
∂βe
vj
j1
= , ∂
∂γβ
∂φ
∂
∂
∂γβ φ
e e
e
ee x
i jj
j
j
j
i jj j i= ⋅ ⋅ = ⋅ ′ ⋅1
1
1 1
( )( ) .
Verwendet man beispielsweise die logistische Funktion Λ( )u mit ′ = −Λ Λ Λ( ) ( )( ( ))u u u1 als
Aktivierungsfunktion der verborgenen Einheiten und der Ausgabeeinheit, dann erhält man für
jede einzelne Komponente von w die generalisierte Delta-Regel:
w wq
wh l h ll l
h, ,
,+ = −1 η
∂∂( )z w
(h = 1,...,m)
mit
( ) ( )∂∂α
qy o o o xl l
il l l l i l
( )z w,,
1
1= − − − ,
( ) ( )∂
∂βq
y o o o vl l
jl l l l j l
( )z w,,
1
1= − − − ,
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE 77
( ) ( ) ( )∂∂γ
βq
y o o o v v xl l
i jl l l l j l j l j l i l
( )z w,, , , ,
= − − − −1 11
und
xl0 ,
: 1= , v xj l i j l i l
i
p
, , , : = ⋅
=∑φ γ
10
.
Man beachte, daß das Produkt ( ) ( )P y o o ol l l l l:= − −1 in allen partiellen Ableitungen als
Faktor enthalten ist. Es muß nur einmal berechnet werden. Setzt man alternativ φ 2 ( )u u= ,
dann reduziert sich der Faktor auf ( )P y ol l l: = − . Die Ableitungen bleiben ansonsten unver-
ändert.
Wie die ursprüngliche Delta-Regel ist die generalisierte Delta-Regel ein sehr einfach imple-
mentierbares inkrementelles fehlerkorrigierendes Lernverfahren. Die erforderlichen arithmeti-
schen Operationen sind elementarer Natur, die Berechnungen weitgehend parallel durchführ-
bar. Jede Verarbeitungseinheit kann mit einem Mechanismus ausgestattet werden, der es ihr
erlaubt, die Gewichte ihrer Eingangsleitungen selbständig zu korrigieren. Die verborgenen
Neurone benötigen hierfür allerdings 'postsynaptische' Information. Die Berechnung der Kor-
rekturen erfolgt in zwei Phasen. In einer Feedforward-Phase empfängt das Netz einen Ein-
gabevektor und berechnet die Netzausgabe. Die Ausgangssignale der verborgenen Einheiten
und die Netzausgabe werden in den jeweiligen Neuronen gespeichert. Die Ausgabeeinheit
empfängt eine Zielausgabe und berechnet den Approximationsfehler. In einer Feedback-Phase
wird ein Fehlersignal über die gewichteten Verbindungsleitungen an die verborgenen Einhei-
ten 'zurückpropagiert'. Im vorliegenden Fall besitzen die gewichteten Fehlersignale die Form
Pl j l⋅β 1, (j = 1,...,r). Es folgt die Berechnung der partiellen Ableitungen und die Gewichts-
korrektur. Von dieser Vorgehensweise rührt die Bezeichnung Error-Backpropagation oder
kurz Backpropagation her (siehe ausführlich Rojas [1993, S.154ff]).
Der Ansatz läßt sich leicht so verallgemeinern, daß ein Training von Netzen mit mehreren
Ausgabeeinheiten und mehreren verborgenen Schichten möglich ist. Aufgrund der Einfach-
heit und Parallelisierbarkeit der Berechnungen ist Backpropagation auch dann einsetzbar,
wenn ein Netz eine enorm große Anzahl von gewichteten Verbindungen besitzt. Diesem
Vorteil stehen offensichtliche Schwachstellen gegenüber. Es gibt keinerlei Gewähr, daß der
Algorithmus die NKQ-Lösung des Minimierungsproblems tatsächlich findet. In Abhängigkeit
von den Lerndaten und der vorgegebenen Netzwerkarchitektur kann die realisierte NKQ-
Funktion QN in (5.11) neben einem globalen Minimum (mit multiplen Minimumstellen) eine
Vielzahl lokaler Minima besitzen. Der Backpropagation-Algorithmus ist in seinem Wesen ein
approximatives, eng mit der Methode des steilsten Abstiegs verwandtes Gradientenabstiegs-
verfahren. Unter geeigneten Voraussetzungen führen Gradientenabstiegsverfahren auf eine
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
78 BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE
lokale Lösung eines Minimierungsproblems; eine globale Lösung können sie nicht garantieren
(vgl. Kapitel 5.4.3). Es besteht somit die Gefahr, daß der Lernprozeß mit einem suboptimalen
Gewichtsvektor endet. Eine zweite Schwachstelle von Backpropagation ist das Konvergenz-
verhalten. In vielen Anwendungen ist die Konvergenzgeschwindigkeit des Algorithmus extrem
langsam (vgl. Kapitel 5.4.1 sowie Rojas [1993, S.168]).
5.4 Backpropagation-Varianten und alternative Algorithmen
In der Literatur findet sich zum Thema Backpropagation-Lernen eine kaum überschaubare
Anzahl von Modifikations- und Alternativvorschlägen, die auf eine Lösung der dem Backpro-
pagation-Algorithmus immanenten Probleme abzielen. Ohne jeden Anspruch auf Vollstän-
digkeit sollen hier einige Vorschläge, zumeist rein pragmatischer Natur, skizziert werden.
5.4.1 Beschleunigung von Backpropagation
Ein praktisches Problem im Zusammenhang mit dem Backpropagation-Algorithmus ist die
Wahl und Steuerung der Lernrate η. Wird die Rate hinreichend klein gewählt, dann führt der
Algorithmus zu einem approximativen Gradientenabstieg. Die resultierenden Gewichtsände-
rungen werden jedoch ebenfalls klein sein. Konsequenz ist, daß die Gewichtsvektorenfolge
wl l =1 2, ,...
nur sehr langsam gegen eine (globale oder lokale) Minimumstelle der Zielfunktion
(5.11) strebt. Durch Vorgabe einer großen Lernrate kann der Lernprozeß i.d.R. nicht be-
schleunigt werden. Die Vorgabe führt häufig zu einer oszillierenden Folge wl l =1 2, ,.... Eine
Konvergenz wird dann ganz verhindert.
Rumelhart et al. [1986b] schlagen zur Beschleunigung des Lernprozesses die Erweiterung der
generalisierten Delta-Regel (5.12) um einen sogenannten Momentum-Term vor. Es bezeichne
∆wl den Vektor der Gewichtskorrekturen in Lernschritt l. Der Vektor ∆wl wird jetzt propor-
tional zum Vektor der partiellen Ableitungen ∂ ∂q l l( )z w w, und dem Korrekturvektor
∆wl −1 des vorangegangenen Lernschritts gewählt. Die Lernregel mit Momentum kann wie
folgt geschrieben werden:
(5.13a) w w wl l l+ = +1 ∆ (l = 1,2,3,...)
mit
(5.13b) ( ) ( )∆w wz w
w
z w
wl ll l l l
lq q= − − = − −
−
− −
=
−
∑α∆ α η∂
∂η α α
∂∂
τ τ τ
τ1
0
1
1 1~ , ~ ,( ) ( )
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE 79
und ∆w0
: = 0 . Hierbei sei ( )η α η:= −1 ~ die Lernrate. Der Effekt vergangener Gewichtskorrek-
turen wird durch einen Momentumparameter α mit 0 1< <α gesteuert. Rumelhart et al. ver-
wenden für α Werte nahe Eins, z.B. α = 0.9. Der jeweils aktuelle Korrekturvektor ∆wl basiert
auf einem gewogenen Durchschnitt der partiellen Ableitungen ∂ ∂τ τq l l( )z w w− −, (τ = 0,1,..
..,l-1). Die Gewichte klingen mit wachsendem τ exponentiell ab. Weisen die partiellen Ablei-
tungen ∂ ∂τ τq l l( )z w w− −, aus vorangegangenen Lernschritten hochfrequente Vorzeichen-
wechsel auf, werden durch die exponentielle Glättung der Korrekturvektoren diese Fluktuatio-
nen gedämpft, und ein Oszillieren der Gewichtsvektorenfolge wl l =1 2, ,...
kann gegebenenfalls
verhindert werden. Sind die Vorzeichen der partiellen Ableitungen über mehrere Lernschritte
konstant, führt das Verfahren temporär zu anwachsenden Gewichtskorrekturen.
Ein zweiter pragmatischer Ansatz ist das Stapel-Lernen (batch learning oder kurz batching).
Beim Batching wird in jedem Lernschritt ein Korrekturvektor ∆wl berechnet, die fällige Ge-
wichtskorrektur erfolgt aber nicht unmittelbar. Die Vektoren ∆wl werden über eine Anzahl
von b Schritten mit 1 < ≤b N aggregiert
∆ ∆ ∆ ∆w w w w : = + + +− − +l l l b1 1. . . ,
erst dann wird ein Update
w w wl l+ = +1 ∆
des Gewichtsvektors durchgeführt. D.h. auch, es gilt w w wl l l b= = =− − +1 1. . . . Wird b gleich
der Anzahl N der Trainingsmuster gesetzt, erfolgt die Korrektur erst nach Abarbeitung einer
vollständigen Trainingsepoche. Der Backpropagation-Algorithmus geht jetzt in ein reines
Gradientenabstiegsverfahren über. Aus (5.12) erhält man die Iterationsgleichungen
(5.14) w wz w
wk kt k
t
N q+
== − ∑1
1
η∂
∂( ),
(k = 1,2,3,...)
mit k als Iterationsindex. Die Gleichungen (5.14) werden auch als die Batch-Version der gene-
ralisierten Delta-Regel bezeichnet.
Ebenso wie das Momentum kann Batching natürlich eine Beschleunigung des Lernprozesses
nicht garantieren. Anwendungsbeobachtungen lassen vermuten, daß die 'On-Line-Variante'
(5.12) zu Beginn der Trainingsphase i.d.R. eine schnellere Reduktion der Zielfunktionswerte
bewirkt (vgl. Smith [1993, S.84]). Batching mildert jedoch die Konvergenzprobleme in der
Umgebung einer (globalen oder lokalen) Minimumstelle der Zielfunktion. Smith [1993]
schlägt daher vor, mit einem kleinen Batch-Umfang b zu beginnen und b im Laufe des Trai-
nings gegen N anwachsen zu lassen. Ferner kann die Batch-Lernregel durch einen Momen-
tum-Term ergänzt werden.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
80 BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE
Die Wahl einer geeigneten Lernrate η ist - auch bei Verwendung eines Momentum-Terms
oder beim Batch-Lernen - stark von der jeweiligen Lernaufgabe abhängig. Zahlreiche Autoren
haben daher vorgeschlagen, im Laufe des Lernprozesses eine automatische Adjustierung der
Lernrate vorzunehmen (siehe z.B. Cater [1987], Jacobs [1988], Tollenaere [1990] oder
Riedmiller & Braun [1993]). Die Grundidee der meisten Verfahren ist denkbar einfach.
Konnte nach einem Korrekturschritt eine Reduktion des Zielfunktionswertes erreicht werden,
bleibt die Rate η konstant oder wird gegebenenfalls erhöht. Stieg der Zielfunktionswert, dann
war die Schrittweite des letzten Korrekturschrittes zu groß, und η wird folglich reduziert. Um
eine Konvergenz des Lernprozesses erreichen zu können, scheint es ratsam, die Lernrate - falls
möglich - um eine kleine Konstante zu erhöhen, oder die Rate - falls notwendig - geometrisch
abzusenken. Dies führt auf ein Adaptionsschema der Form η ηneu alt= + ∆η mit
(5.15) ∆η∆∆=
+ <− ⋅ >
κρ η
falls
falls
sonst
Q
Qalt
0
0
0
,
wobei ∆Q die Änderung des Zielfunktionswertes symbolisiert und κ ρ, geeignete reelle
Konstanten sind (vgl. Hertz et al. [1991, S. 124]). Dieses Grundschema kann in vielerlei Hin-
sicht modifiziert und ausgebaut werden. Beispielsweise empfiehlt es sich, die Entscheidungs-
regel in (5.15) nicht nur von der letzten Zielfunktionswertänderung ∆Q , sondern von einem
exponentiell abklingend gewichteten Durchschnitt vergangener Änderungen abhängig zu
machen. Hierdurch wird ein eratisches Änderungsverhalten der Lernrate vermieden. Dies ist
insbesondere dann sinnvoll, wenn kein Batching vorgenommen wird. Weiter kann für jede
Komponente wh des Gewichtsvektors w eine individuelle Lernrate ηh eingeführt und automa-
tisch adaptiert werden. Ein hierfür typisches Verfahren ist die sogenannte Delta-Bar-Delta-
Regel von Jacobs [1988].
5.4.2 Lokale Minima
Bei einer geeigneten Vorgabe der jeweiligen Lernparameter liefern der Backpropagation-Al-
gorithmus und seine Varianten eine Minimumstelle der NKQ-Zielfunktion in (5.11). Die Stelle
muß jedoch nicht notwendig das globale Minimum lokalisieren.
Um die Gefahr zu begrenzen, daß On-Line-Backpropagation eine suboptimale Lösung des
Minimierungsproblems liefert, wird in der Literatur häufig die Bildung einer zufälligen Trai-
ningssequenz angeraten. Damit ist gemeint, die Lerndaten sollen in zufällig permutierter Rei-
henfolge zu einer Trainingssequenz aneinandergekettet werden, sich mithin nicht streng zy-
klisch wiederholen. Bildlich gesprochen 'durchwandert' die Gewichtsvektorenfolge wl l =1 2, ,...
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE 81
jetzt den Gewichtsraum W auf einem stochastischen Pfad. Hiervon verspricht man sich, daß
die Wahrscheinlichkeit einer suboptimalen Lösung gesenkt wird.
Der stochastische Charakter des Wanderpfades kann durch zusätzliche Rauschterme oder Zu-
fallsschocks verstärkt werden. Ein Vorschlag von Kushner [1987] und White [1989a] führt
auf die Lernregel
(5.16) w wz w
wl ll l
l
q+ = − +
1
η∂
∂ζ
( ),(l = 1,2,3,...) ,
wobei ζ l l =1 2, , . . . eine Folge unabhängiger, identisch normalverteilter Zufallsvektoren ist. Die
Vorgehensweise ist eine Variante der auf Kirkpatrick et al. [1983] zurückgehenden Simulated
Annealing-Methode. Der Effekt von Zufallsschocks ist durch die Wahl der Lernrate η und der
Streuung der Zufallsvektoren beeinflußbar. Hinreichend starke Effekte erlauben es dem Ver-
fahren, den 'Anziehungsbereichen' lokaler Minima zu entkommen. Natürlich besteht auch die
Gefahr eines 'Überspringens' globaler Minimumstellen. Die Vermutung scheint gerechtfertigt,
daß durch geeignete Vorgaben eine globale Minimierung der Zielfunktion erreicht werden
kann. Die notwendigen und hinreichenden Bedingungen sind in dem hier diskutierten Kontext
jedoch unklar. Im Zusammenhang mit Echtzeit-Lernen gibt Kushner [1987] Konvergenzvor-
aussetzungen an. Simulated Annealing und der Momentum-Ansatz verhalten sich offensicht-
lich antagonistisch. Simulated Annealing kann jedoch sinnvoll mit Batch-Lernen kombiniert
werden.
Wird auf Simulated Annealing verzichtet, dann übt die Wahl des Anfangsvektors w1 einen
sehr starken Einfluß auf das Ergebnis von Backpropagation-Lernen aus. Im allgemeinen kann
keine globale Lösung des Minimierungsproblems erreicht werden, wenn der Algorithmus im
Anziehungsbereich einer lokalen Minimumstelle startet. Ein zweiter Ansatz zur Überwindung
des Problems lokaler Minima ist die Multistart-Technik. Hier werden die Gewichte eines
Netzes mehrfach, beginnend mit jeweils verschiedenen, zufällig vorgegebenen Startvektoren,
bis zur Konvergenz adjustiert. Der mit dem kleinsten Zielfunktionswert korrespondierende
Gewichtsvektor wird verwendet. Die Multistart-Technik kann so ausgebaut werden, daß sie
(mit Wahrscheinlichkeit 1) zu einer globalen Minimierung der Zielfunktion führt (siehe
Rinnooy Kan et al. [1985]). Eine solche Vorgehensweise ist jedoch extrem rechenintensiv und
in der Praxis kaum realisierbar. Hier gibt man zumeist eine überschaubare Anzahl von Start-
wiederholungen vor und bricht das Verfahren dann ab. Die Multistart-Technik bietet jetzt
zwar keine Gewähr für die Lösung des Minimierungsproblems, liefert aber i.d.R. zumindest
eine 'gute' suboptimale Lösung.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
82 BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE
5.4.3 Alternative Optimierungsverfahren
Der Backpropagation-Algorithmus wurde als ein Verfahren konzipiert, das eine effiziente
Optimierung des Input-Output-Verhaltens von technisch realisierten Netzwerken ermöglichen
soll. Mit 'Effizienz' ist hier die Fähigkeit gemeint, die spezielle Architektur von Neurocom-
putern, also ihren Aufbau aus einer großen Anzahl einfacher, meist parallel arbeitender Re-
cheneinheiten, zur Beschleunigung von Rechenvorgängen auszunutzen. Die Entwicklung von
Neurocomputern konnte in der Vergangenheit allerdings nicht mit der Entwicklung von
Netzwerkmodellen und Lernalgorithmen Schritt halten. In den meisten heutigen Anwendun-
gen werden Künstliche Neuronale Netze deshalb auf herkömmlichen Computern simuliert. In
Netzwerksimulationen erweist sich der auf der Methode des steilsten Abstiegs basierende
Backpropagation-Algorithmus als ein ineffizientes Optimierungsverfahren. Es ist wohl be-
kannt, daß die Methode des steilsten Abstiegs im allgemeinen wenig überzeugende Konver-
genzeigenschaften besitzt. Da in Simulationen auf herkömmlichen Rechnern keine Notwen-
digkeit besteht, sich spezifisch konnektionistischer Algorithmen zu bedienen, bietet sich hier
der Einsatz elaborierterer Optimierungsverfahren an, die sich in der statistischen Praxis als
Lösungsmethoden für nichtlineare Kleinste-Quadrate-Probleme bewährt haben. Mögliche
Alternativen sind Gradientenabstiegsverfahren vom Newton-Raphson-, Gauß-Newton- oder
Quasi-Newton-Typ. Die genannten Verfahrensklassen sind sehr umfangreich. An dieser Stelle
können nur einige Basisvarianten in ihren Grundzügen vorgestellt werden. Ausführlichere
Darstellungen finden sich beispielsweise in Kennedy & Gentle [1980] oder Fletcher [1987].
Einleitend seien einige Vereinbarungen getroffen. Das Problem besteht weiterhin in der Mini-
mierung der realisierten NKQ-Funktion Q W IRN : → mit
( ) ( )QN
y fN t t
t
N
w x w= −=∑1 2
1
( , )
und w ∈ ⊆W IR m . Die Zielfunktion wird als zweifach stetig differenzierbar vorausgesetzt. Ihre
lokalen und globalen Minimumstellen, sie seien mit w+ gekennzeichnet, werden vereinfachend
als isolierte innere Punkte des Definitionsbereichs W angenommen. Für einen lokalen Mini-
mumpunkt heißt dies, es existiert eine ε-Umgebung U IR Wmε ε( ) < w x x w+ += ∈ − ⊂ mit
ε > 0 , so daß ( )Q QN Nw w> +( ) für alle w w≠ + mit w w∈ +U ε ( ) gilt. Ein globaler Minimum-
punkt w+ erfüllt zusätzlich die Bedingung ( )Q QN Nw w≥ +( ) für alle w ∈W . Jede globale Mi-
nimumstelle ist auch eine lokale Minimumstelle. Die Umkehrung gilt nicht allgemein. Die
Annahme isolierter Minimumstellen setzt eine nicht-redundante Netzwerkarchitektur voraus
(vgl. Kapitel 5.5, S.94). Mit
( )g w
w
w( ): =
∂∂
Q N
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE 83
soll der Spaltenvektor der m partiellen Ableitungen erster Ordnung (Gradient) und mit
( )H w
w
w w( ): =
′∂∂ ∂
2 Q N
soll die symmetrische (m,m)-Matrix der partiellen Ableitungen zweiter Ordnung (Hesse-
Matrix) von QN an einer festen Stelle w ∈W gekennzeichnet werden. Jeder Vektor w+, der
das nichtlineare Gleichungssystem
(5.17) g(w+) = 0
löst, heißt stationärer Punkt von QN. Ein stationärer Punkt kann eine lokale Minimumstelle,
eine lokale Maximumstelle oder ein Sattelpunkt sein. Die Gleichung (5.17) ist eine notwendi-
ge Bedingung für die Existenz einer lokalen Lösung des Minimierungsproblems. Hinreichend
für die Existenz eines lokalen Minimums an der Stelle w+ ist eine positiv definite Hesse-
Matrix H(w+). H(w+) heißt genau dann positiv definit, wenn die Ungleichung ′ >+a H w a( ) 0
für jeden reellen Vektor a = ′( , )a a am1 2 ,..., mit 0≠a erfüllt ist.
Die eingangs genannten Gradientenabstiegsverfahren sind geeignet, eine lokale Minimum-
stelle der Zielfunktion auf iterativem Wege zu ermitteln. Sie besitzen einen gemeinsamen
Grundaufbau (vgl. Kennedy & Gentle [1980, S.426ff]). Beginnend mit einem vorzugebenden
Anfangsvektor w1 erzeugen sie eine Punktfolge wk k =1 2, ,... nach der Iterationsvorschrift
(5.18) w w M g wk k k k k+ = −1 η ( ) (k = 1,2,3,...) .
Hierbei ist ηk ein positiver reeller Skalar, Mk eine (m,m)-Matrix und g(wk) der Gradient der
Zielfunktion an der Stelle wk . Die Zahl ηk heißt Schrittweite und der Vektor d M g wk k k≡ ( )
Suchrichtung des k-ten Iterationsschrittes. Die Wahl der Schrittweite ηk und der Matrix Mk ist
verfahrensspezifisch. Sie erfolgt bei allen Verfahren so, daß unter geeigneten Voraussetzungen
die mit der Punktfolge wk k =1 2, ,... korrespondierende Funktionswertefolge ( )QN kkw =1 2, ,...
streng monoton fällt:
(5.19) Q QN Nk k( ) ( )w w> +1 (k = 1,2,3,...) .
Die Iterationen werden nach dem k-ten Schritt abgebrochen, wenn die aktuelle Lösung wk+1
des Minimierungsproblems und/oder der zugehörige Funktionswert QN(wk+1) ein Konver-
genzkriterium erfüllt. Anderenfalls wird mit dem nächsten Iterationsschritt fortgefahren. Ge-
bräuchliche Konvergenzkriterien sind
(5.20a) w wk k+ − <1 1ε ,
(5.20b) ′ <+d dk k1 2ε und
(5.20c) ( ) ( )Q QN Nk kw w+ − <1 3ε ,
wobei ε1, ε2 und ε3 vorzugebene positive reelle Konstanten symbolisieren.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
84 BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE
Die Schrittweite der Iterationsverfahren ist entweder a priori vorgegeben (d.h. ohne Beschrän-
kung der Allgemeinheit ηk ≡ 1) oder wird in jedem Iterationsschritt durch Lösen eines Mini-
mumunterproblems
(5.21) ( )minη
ηk
NQ k k k w d+
bestimmt. Die Minimumsuche erfolgt auf der durch den Vektor dk festgelegten Richtungs-
achse und wird als lineare Suche (line search) bezeichnet. In praktischen Anwendungen ist oft
eine grobe Näherungslösung des Unterproblems ausreichend. Lösungsmethoden diskutiert
z.B. Fletcher [1987, S.33ff]. Damit ein Funktionswerteabstieg (5.19) erreicht werden kann, ist
- neben einer geeigneten Schrittweitenwahl - eine symmetrische, positiv definite Matrix Mk
erforderlich. Die Funktion QN sei in einer Umgebung von wk gemäß
( )Q QN N k k kw w w w g w≈ + − ′( ) ( ) ( )
durch eine Taylor-Reihenentwicklung bis zum linearen Glied angenähert. Einsetzen von
(5.18) in obige Näherung liefert die für kleines ηk brauchbare Approximation
(5.22) Q QN Nk k k k k k( ) ( ) ( ) ( )w w g w M g w+ ≈ − ′1 η .
Gilt ′ >g w M g w( ) ( )k k k 0 , dann wird Q QN Nk k( ) ( )w w> +1 für hinreichend kleines ηk
erfüllt sein.
Die nachfolgend dargestellten Iterationsverfahren sind so konstruiert, daß sie unter geeigneten
Voraussetzungen eine streng monoton fallende Funktionswertefolge (5.19) gewährleisten und
daß die Punktfolge wk k =1 2, ,... gegen eine Lösung w+ des Gleichungssystems (5.17) konver-
giert. Der Grenzwert wird wegen (5.19) mit hoher Wahrscheinlichkeit eine lokale Minimum-
stelle sein. Die meisten Verfahren können allerdings eine Minimumstelle als Grenzwert nicht
garantieren. In Einzelfällen kann auch ein Sattelpunkt vorliegen. Nach Abbruch der Iteratio-
nen sollte daher die gefundene Näherungslösung des Gleichungssystems (5.17) auf Minimum-
eigenschaften geprüft werden. Unter den erwähnten 'geeigneten Voraussetzungen' ist im
wesentlichen die Vorgabe eines 'hinreichend guten' Startvektors w1 zu verstehen. Die Vorgabe
eines ungünstigen Startvektors verhindert bei vielen Verfahren eine konvergente Folge
wk k =1 2, ,... . Wird eine konvergente Folge verfehlt oder konvergiert die Folge gegen einen
Sattelpunkt, dann müssen die Iterationen mit einem anderen Startvektor wiederholt werden.
Die denkbar einfachste Wahl der Matrix Mk ist Mk = Im, wobei Im die (m,m)-Einheitsmatrix
kennzeichnet. Aus dem allgemeinen Iterationsschema (5.18) erhält man jetzt die Iterations-
gleichungen der bereits mehrfach angesprochenen Methode des steilsten Abstiegs:
(5.23) w w g wk k k k+ = −1 η ( ) (k = 1,2,3,...) .
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE 85
Für hinreichend kleines ηk folgt aus (5.22) eine monoton fallende Funktionswertefolge (5.19).
In früheren Ausführungen zur Methode des steilsten Abstiegs wurde vereinfachend eine kon-
stante Schrittweite ηk c= > 0 angenommen. Diese Annahme ist jedoch nicht unproblema-
tisch. Gibt man eine Konstante c nahe null vor, dann wird die Folge wk k=1 2, ,... in aller Regel
extrem langsam konvergieren. Eine Wahl c >>0 kann eine Konvergenz ganz verhindern. Die
Schrittweite ηk sollte deshalb in jedem Iterationsschritt gemäß (5.21) durch lineare Suche be-
stimmt werden.
Löst die Schrittweite ηk das Minimumunterproblem (5.21), dann verschwindet die Ableitung
∂ η ∂ηQ N k k k k( ( ))w g w+ . Wegen
∂ η∂η
∂ η∂
Q QN Nk k k
k
k k kk k k
( ( )) ( ( ))( ) ( ) ( )
w g w w g w
wg w g w g w
+=
+
′= ′ =+1 0
sind die aktuelle Suchrichtung g(wk) und die Suchrichtung g(wk+1) des nachfolgenden Itera-
tionsschrittes zueinander orthogonal. Bildlich gesprochen steigt die Methode des steilsten Ab-
stiegs jetzt in 'Zickzack-Schritten' ein Funktionsgebirge hinab. Es läßt sich zeigen, daß die
Gradientenfolge ( ) = , , ...g wk k 1 2 unter recht allgemeinen Regularitätsbedingungen gegen einen
Nullvektor strebt (siehe z.B. Dennis & More [1977]). Die Folge wk k =1 2, ,... konvergiert dann
gegen eine Lösung w+ des Gleichungssystems (5.17). Die Wahl des Anfangsvektors w1 er-
weist sich hierbei als relativ unkritisch. Problematisch ist die im allgemeinen geringe Konver-
genzgeschwindigkeit. Die Methode ist höchstens linear konvergent; d.h., für eine Folge hk
mit h w wk k= − + und hk → 0 gilt:
h hk k a+ ≤ <1 1 oder ( )h hk kO+ =1 .
Lineare Konvergenz ist in der Praxis zumeist unbefriedigend, es sei denn, die Rate a ist nahe
null. Die Methode des steilsten Abstiegs zeigt die Tendenz, daß ihre Konvergenzgeschwindig-
keit, nach anfänglich größeren Fortschritten, in der Umgebung eines stationären Punktes deut-
lich sinkt (vgl. Kennedy & Gentle [1980, S.440]).
Die Methode des steilsten Abstiegs berücksichtigt bei der iterativen Bestimmung eines statio-
nären Punktes ausschließlich lokale Steigungscharakteristika der Zielfunktion QN. Die
Newton-Methode, auch Newton-Raphson-Methode genannt, nutzt zusätzlich die lokalen
Krümmungseigenschaften der Funktion, gemessen durch die partiellen Ableitungen zweiter
Ordnung, aus. Die Basisversion der Newton-Raphson-Iterationsgleichungen erhält man aus
dem allgemeinen Iterationsschema (5.18) durch die Wahl ηk = 1 und M H wk k= −1( ) . Die
Hesse-Matrix H(wk) (und damit auch Mk) muß positiv definit sein.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
86 BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE
Die Grundidee der Methode läßt sich wie folgt skizzieren: Im k-ten Iterationsschritt wird QN
in einer Umgebung des Punktes wk durch eine Taylor-Reihenentwicklung bis zum quadrati-
schen Glied angenähert:
( )Q QN N k k k k k kw w w w g w w w H w w w≈ + − ′ + − ′ −( ) ( ) ( ) ( ) ( )( )12
.
Die quadratische Funktion auf der rechten Seite der Näherungsgleichung soll mit ~Q N gekenn-
zeichnet werden. Ist die Matrix ∂ ∂ ∂2 ~Q N k( ) ( )w w w H w′ ≡ positiv definit, dann besitzt
~Q N
an der Stelle wk+1 mit
( )∂∂
~QN kk k k k
ww
g w H w w w++= + − =1
1( ) ( )( ) 0
ein lokales und gleichzeitig globales Minimum. Die Minimumstelle wird jetzt als aktueller
Näherungswert für eine lokale Minimumstelle von QN genutzt. Die Vorgehensweise führt auf
die Iterationsgleichungen
(5.24) w w H w g wk k k k+−= −1
1( ) ( ) (k = 1,2,3,...) .
Die Zielfunktion QN ist in einer hinreichend kleinen Umgebung U ε ( )w+ einer (isolierten) lo-
kalen Minimumstelle w+ streng konvex; d.h., H(w) ist positiv definit für alle w w∈ +U ε ( ) . Ist
wk ein Punkt aus U ε ( )w+ , dann ermöglicht die oben angegebene quadratische Approximation
in aller Regel eine brauchbare lokale Näherung der Zielfunktion, und das Verfahren konver-
giert sehr schnell. Unter allgemeinen Voraussetzungen läßt sich zeigen, daß die Newton-
Raphson-Methode für Startwerte w1 aus einer hinreichend kleinen Umgebung U ε ( )w+ qua-
dratisch konvergent ist; d.h.
h hk k a+ ≤1
2 oder ( )h hk kO+ =1
2 ,
wobei wieder h w wk k= − + ist (siehe Fletcher [1987, S.47]). Die Methode konvergiert nahe
einer lokalen Minimumstelle weit schneller als die Methode des steilsten Abstiegs - allerdings
auf Kosten eines deutlichen Rechenmehraufwands je Iterationsschritt. In jedem Schritt muß
die Matrix H(wk ) evaluiert und das lineare Gleichungssystem H w w w g w( )( ) ( )k k k k+ − = −1
gelöst werden.
Den Vorzügen des Newton-Raphson-Verfahrens stehen gravierende Schwachstellen gegen-
über. Starten die Iterationen mit einem Anfangsvektor w1, der nicht in einer Umgebung eines
lokalen Minimumpunktes lokalisiert ist, dann gibt es keine Gewähr, daß die Hesse-Matrizen
H(wk) in jedem Iterationsschritt positiv definit sind. Liegt keine positiv definite Matrix vor,
dann weist der Vektor d H w g wk k k= −1( ) ( ) in eine falsche Suchrichtung und wk+1 wird sich
von einer Lösung des Minimierungsproblems entfernen. Eine streng monoton fallende Funk-
tionswertefolge (5.19) wird somit verfehlt. Darüber hinaus kann eine streng monoton fallende
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE 87
Funktionswertefolge selbst dann verfehlt werden, wenn eine positiv definite Hesse-Matrix
gegeben ist. Aufgrund der festen Schrittweite ηk ≡ 1 ist es möglich, daß ein Iterationsschritt
'über das Ziel hinausschießt'.
Die letztgenannte Schwachstelle legt die Verwendung eines modifizierten Iterationsschemas
mit variabler Schrittweite ηk nahe:
(5.25a) w w H w g wk k k k k+−= −1
1η ( ) ( ) (k = 1,2,3,...) .
Die Schrittweite ηk ist gemäß (5.21) durch lineare Suche zu bestimmen. Ein Lösungsvor-
schlag für das erste Problem führt auf die Iterationsgleichungen
(5.25b) [ ]w w H w I g wk k k k k m k+−= − +1
1η λ( ) ( ) (k = 1,2,3,...) .
Hierbei ist λk eine nicht-negative reelle Zahl, die es so zu wählen gilt, daß die Matrix
H w I( )k k m+ λ positiv definit wird. Diese Modifikation des Newton-Raphson-Basisverfahrens
wurde von Goldfeld et al. [1966] vorgeschlagen und heißt quadratic hill climbing method.
Die Grundidee geht auf Levenberg [1944] und Marquardt [1963] zurück. Wird λk = 0 gesetzt,
dann liegt ein reines Newton-Raphson-Verfahren vor. Für wachsendes λk gehen die Iteratio-
nen zunehmend in einen einfachen Gradientenabstieg über. Die Vorgehensweise stellt somit
ein Kompromiß zwischen der Newton-Raphson-Methode und der Methode des steilsten Ab-
stiegs dar. Sie erweist sich als vergleichsweise ebenso robust gegenüber ungünstigen Start-
werten wie die Methode des steilsten Abstiegs. Strebt λk in der Umgebung einer lokalen Lö-
sung des Minimierungsproblems gegen null, dann kann quadratische Konvergenz erreicht
werden. Die Wahl von λk und die Konvergenzeigenschaften des Verfahrens diskutieren z.B.
Goldfeld & Quandt [1976, S.5ff]. Da λk üblicherweise in jeden Schritt adjustiert wird, kann
ηk ≡ 1 gesetzt werden.
Die Newton-Raphson-Methode und ihre Varianten sind allgemeine Optimierungsverfahren. Sie
können zur Bestimmung von lokalen Extremstellen auf beliebige Funktionen F IR IRm: →mit geeigneten Differenzierbarkeitseigenschaften angewendet werden. Die eng verwandte
Gauß-Newton-Methode ist speziell zur Lösung von NKQ-Problemen konzipiert. Sie nutzt aus,
daß die Gradienten und Hesse-Matrizen von NKQ-Funktionen eine spezifische Form besitzen.
Es sei J(w) eine (N,m)-Jacobi-Matrix mit den Vektoren ( ( , ) )∂ ∂f tx w w ′ (t = 1,...,N) als Zei-
len und ( )εε w ein N-dimensionaler Spaltenvektor mit den Approximationsresiduen ( )ε t w =y ft t− ( )x w, (t = 1,...,N) als Komponenten. Mit diesen Vereinbarungen lassen sich der Gra-
dient und die Hesse-Matrix der NKQ-Funktion QN an einer Stelle wk schreiben:
(5.26a) g w J w w( ) ( ) ( )k k kN
= − ′2εε ,
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
88 BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE
(5.26b)( ) ( )H w J w J wx w
w ww A w B w( ) ( ) ( ) ( ) ( ) ( )
k k kt k
t kt
N
k kN
f
N= ′
′
≡ −
=∑2 22
1
−−∂
∂ ∂ε
, .
Der Gauß-Newton-Ansatz vernachlässigt die Matrix B(wk) in (5.26b). Die Hesse-Matrix
H(wk) wird gemäß
(5.27) H w A w J w J w( ) ( ) ( ) ( )k k k kN N
≈ = ′2 2
angenähert. Setzt man die Näherung (5.27) in die Newton-Raphson-Gleichungen (5.24) ein,
dann erhält man das Gauß-Newton-Iterationsschema
(5.28) [ ]w w J w J w J w wk k k k k k+−= + ′ ′
11
( ) ( ) ( ) ( )εε (k = 1,2,3,...) .
Die Approximation (5.27) ist äquivalent mit einer lokalen linearen Approximation der Funk-
tion f ( )x w, um den Punkt wk:
f ff
ff
k kk
k kk( ) ( ) ( )
( )( )
( )x w x w w w
x w
wx w d
x w
w, ,
,,
,≈ + − ′ ≡ + ′
∂∂
∂∂
.
In jedem Iterationsschritt wird das nichtlineare Kleinste-Quadrate-Problem durch ein lineares
Kleinste-Quadrate-Problem
min ,,
dx w d
x w
wk Ny f
ft t k k
t k
t
N
( )( )1 2
1
− − ′
=
∑∂
∂
ersetzt. Die Lösung des Ersatzproblems erhält man analog zu (4.23) - (4.26):
[ ]d J w J w J w wk k k k k= ′ ′−( ) ( ) ( ) ( )
1 εε .
Sie ist gerade die Suchrichtung (und wegen ηk ≡ 1 gleichzeitig der Aktualisierungsvektor
ηkdk) des k-ten Gauß-Newton-Schrittes.
Die Güte der Approximation in (5.27) übt einen starken Einfuß aus das Konvergenzverhalten
des Verfahrens aus. Sind die Approximationsfehler vernachlässigbar klein, dann konvergiert
das Verfahren für Startwerte w1 aus einer hinreichend kleinen Umgebung U ε ( )w+ einer lo-
kalen Minimumstelle w+ mindestens linear. Ist B(wk) für alle k eine Nullmatrix, dann sind die
Gauß-Newton-Iterationen mit Newton-Raphson-Iterationen identisch und konvergieren qua-
dratisch. In vielen Anwendungen ist die Approximation (5.27) jedoch nur sehr grob. Ein Indi-
kator für eine geringe Approximationsgüte sind absolut große Residuen ε t k( )w >> 0 (t = 1,..
..,N). Die Matrix B(wk) liefert dann i.d.R. einen substanziellen Beitrag zur Hesse-Matrix
H(wk) (vgl. Gleichung (5.26b)). Die Gauß-Newton-Iterationen werden jetzt nicht schneller als
linear konvergieren oder gar nicht konvergieren. Letzteres kann selbst dann eintreten, wenn
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE 89
ein Anfangsvektor w w1 ≠ + aus einer beliebig kleinen Umgebung einer Minimumstelle w+
vorgegeben wird (siehe Fletcher [1987, S.113]).
Die Konvergenzprobleme können durch die lineare Suche einer variablen Schrittweite ηk ge-
mäß (5.21) gemildert werden. Eine robuste Problemlösung ermöglicht das auf Levenberg
[1944] und Marquardt [1963] zurückgehenden modifizierten Iterationsschema
(5.29) [ ]w w J w J w I J w wk k k k k m k k+−= + ′ ′
11
( ) ( ) + ( ) ( )λ εε (k = 1,2,3,...)
mit λ k ≥ 0 . Durch die Steuerung des Faktors λk ist es möglich, von Gauß-Newton-Iterationen
fließend zu einem einfachen Gradientenabstieg überzugehen und umgekehrt. Das sogenannte
Levenberg-Marquardt-Verfahren löst außerdem Probleme, die aus schlecht konditionierten
Jacobi-Matrizen entstehen. Die Kreuzproduktmatrizen ′J w J w( ) ( )k k sind stets positiv semi-
definit; d.h., für beliebige reelle Vektoren a = ′ ≠( , )a am1 ... , 0 ist ′ ′ ≥a J w J w a( ) ( )k k 0 er-
füllt mit ′ ′ =a J w J w a( ) ( )k k 0 genau dann, wenn ′J w J w( ) ( )k k singulär ist. Die Nicht-
Singularität oder Regularität der Kreuzproduktmatrizen ist nicht a priori sichergestellt. Liegt
eine singuläre oder fast singuläre Matrix vor, dann ist der Gauß-Newton-Schritt (5.28) nicht
eindeutig bzw. es muß mit numerisch unzuverlässigen Berechnungsergebnisse gerechnet
werden. Durch eine geeignete Wahl von λk kann stets eine 'ausreichend' reguläre Matrix
′J w J w I( ) ( ) +k k k mλ erzwungen werden.
Das Levenberg-Marquardt-Verfahren ist ein populäres Iterationsverfahren zur Lösung von
NKQ-Problemen. Da es auf die exakte Berechnung von partiellen Ableitungen zweiter Ord-
nung verzichtet, erfordert ein Iterationsschritt weniger Rechenoperationen als beispielsweise
ein Quadratic-Hill-Climbing-Schritt (5.25b). Bei hochdimensionalen Problemen ist die Re-
duktion des Rechenaufwands beträchtlich. Der zur Evaluierung einer (m,m)-Hesse-Matrix
H(wk) erforderliche Aufwand steigt mit der Dimension m überproportional an. Konkret
müssen [unter Ausnutzung der Symmetrie von H(wk)] m(m+1)/2 partielle Ableitungen zweiter
Ordnung ermittelt werden. Die Einsparungen je Iterationsschritt haben allerdings einen Preis.
Sie werden häufig mit einer größeren Anzahl von Schritten bezahlt. Der Einsatz der
Levenberg-Marquardt-Methode als ein 'Lernverfahren' für Mehrschicht-Perzeptrone erscheint
dennoch attraktiv. Da die Gewichtsvektoren von Künstlichen Neuronalen Netzen typischer-
weise hochdimensional sind, ist die Berechnung von Hesse-Matrizen extrem aufwendig.
Aspekte der Implementierung der Levenberg-Marquardt-Methode als ein Lernverfahren und
Ergebnisse praktischer Anwendungen diskutieren z.B. Hagan & Manhaj [1994].
Eine weitere Klasse von Iterationsverfahren bilden die sogenannten Quasi-Newton-Verfahren.
Ihre Iterationsschemata besitzen einen vergleichbaren Aufbau wie das Iterationsschema
(5.25a) der Newton-Raphson-Methode mit linearer Suche. Der Unterschied besteht darin, daß
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
90 BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE
die inverse Hesse-Matrix H w−1 ( )k in (5.25a) durch eine symmetrische, positiv definite Ma-
trix Mk approximiert wird. Die Approximation erfolgt schrittweise. Die Matrix Mk wird von
Iterationsschritt zu Iterationsschritt durch eine Update-Gleichung korrigiert. Die Berechnung
von partiellen Ableitungen zweiter Ordnung ist hierbei nicht notwendig. Die Quasi-Newton-
Verfahren sind daher auch in Situationen einsetzbar, in denen nur die partiellen Ableitungen
erster Ordnung mit vertretbarem Aufwand ermittelbar sind.
Das Basis-Iterationsschema besitzt die Form
(5.30) w w M g w
M M Ck k k k k
k k k
+
+
= −
= +1
1
η ( ) ,
(k = 1,2,3,...) .
Die Schrittweite ηk ist gemäß (5.21) durch lineare Suche zu bestimmen. Ck ist eine Korrek-
turmatrix für die im k-ten Schritt vorliegende Approximation Mk der inversen Hesse-Matrix.
Als Anfangsmatrix M1 kann theoretisch jede symmetrische, positiv definite (m,m)-Matrix ver-
wendet werden. In Situationen, in denen keine brauchbare Anfangsapproximation für H(w1)
verfügbar ist, wird häufig M1 = Im gesetzt.
Wünschenswert ist es, daß wiederholte Korrekturen eine beliebige Startmatrix M1 in eine
brauchbare Approximation von H w−1 ( )k überführen. Es stellt sich die Frage, welche Eigen-
schaften die Korrekturmatrizen Ck besitzen müssen, damit dieses Ziel erreicht werden kann.
Da Newton-Verfahren auf quadratischen Approximationen basieren, ist es natürlich, die Frage
für quadratische Funktionen zu beantworten. Es sei daher vorübergehend eine quadratische
Zielfunktion QN mit einer (konstanten) positiv definiten Hesse-Matrix H angenommen:
( )Q aN
w w b w Hw= + ′ + ′1
2 .
Für die Funktion gilt
g w b Hw( )k k= + und ( )g w g w H w w( ) ( )k k k k+ +− = −1 1 .
Mit ∆g w g w g w( ): ( ) ( )k k k= −+1 und ∆w w wk k k:= −+1 kann die zweite Gleichung auch
∆ ∆g w H w( )k k= oder H g w w− =1 ∆ ∆( )k k
geschrieben werden. Es gelte nun M Hk ≈ −1 bzw. M g w wk k k∆ ∆( ) ≈ . Die Korrekturmatrix
Ck sollte jetzt so gewählt werden, daß M M Ck k k+ = +1 die sogenannte Quasi-Newton-Bedin-
gung
M g w wk k k+ =1∆ ∆( )
erfüllt. Ferner muß Mk+1, wenn Mk symmetrisch und positiv definit ist, ebenfalls symmetrisch
und positiv definit sein (vgl. Fletcher [1987, S.49ff]).
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE 91
Es gibt viele Ansätze, die diesen Bedingungen genügen. Einer der leistungsfähigsten ist das
Broyden-Fletcher-Goldfarb-Shanno-(BFGS)-Verfahren mit der Korrekturmatrix
(5.31) Cg w M g w
w g w
w w
w g w
w g w M M g w w
w g wkk k k
k k
k k
k k
k k k k k k
k k
= +′
′
′′
−′ + ′
′1
∆ ∆∆ ∆
∆ ∆∆ ∆
∆ ∆ ∆ ∆∆ ∆
( ) ( )
( ) ( )
( ) ( )
( ).
Das BFGS-Verfahren wurde parallel von Broyden [1970], Fletcher [1970], Goldfarb [1970]
und Shanno [1970] entwickelt. Es besitzt eine Reihe günstiger Konvergenzeigenschaften
(Fletcher [1987, S.56]). Ist die Zielfunktion quadratisch, dann führen die Matrixkorrekturen
nach spätestens m Iterationen auf M Hm +−=1
1 . Ist sie nicht quadratisch, dann erhält (5.31)
wenigstens die Symmetrie und positive Definitheit einer Startmatrix M1. In einer hinreichend
kleinen Umgebung U ε ( )w+ einer lokalen Minimumstelle w+ konvergiert das Verfahren unter
recht allgemeinen Bedingungen superlinear gegen w+; d.h.
limk
k
k→∞+ =
h
h1 0 oder ( )h hk ko+ =1
mit h w wk k= − + . Das BFGS-Verfahren erreicht somit keine quadratische Konvergenz. Die
Konvergenzgeschwindigkeit ist in der Nähe einer lokalen Lösung eines Minimierungs-
problems aber deutlich höher als die der Methode des steilsten Abstiegs und in aller Regel
auch höher als die der Gauß-Newton-Verfahren.
In dem hier interessierenden NKQ-Kontext ist es naheliegend, als Startmatrix M1 die Inverse
der Gauß-Newton-Matrix in (5.27) zu wählen; d.h. M J w J w1 [ ( ) ( )]= ′− −2 1 1
1 1N . Fletcher
[1987, S.117] schlägt darüber hinausgehend vor, das Gauß-Newton- und BFGS-Verfahren zu
einer hybriden Methode zu verschmelzen. Ausgehend vom Iterationsschema (5.30) wird in je-
dem Iterationsschritt mit Hilfe eines Entscheidungskriteriums geprüft, ob Mk entweder gemäß
M J w J wk k kN= ′− −[ ( ) ( )]2 1 1 oder gemäß M M Ck k k= +− −1 1 mit Ck aus (5.31) berechnet
werden soll. Die hybride Methode kombiniert die Stärken beider Verfahren.
Für Newton-Raphson-, Gauß-Newton- und Quasi-Newton-Verfahren sind ausgereifte Imple-
mentierungsstrategien verfügbar, die eine effiziente Ausnutzung von Speicherkapazitäten und
numerisch stabile Berechnungen ermöglichen (siehe Kennedy & Gentle [1980]). In Netzwerk-
simulationen führt der Einsatz der Verfahren in aller Regel deutlich schneller zum Lernerfolg
als der Einsatz von Backpropagation-Algorithmen. Performancevergleiche finden sich z.B. in
Hagan & Menhaj [1994] oder Kasparian et al. [1994]. Die Einsatzmöglichkeiten stoßen aller-
dings auf Grenzen, wenn die Dimension des Minimierungsproblems, sprich die Dimension m
des Gewichtsvektors w, sehr groß wird. Grenzen der Newton-Raphson-Varianten wurden be-
reits genannt. Grenzen werden in abgeschwächter Form auch für Gauß-Newton- und Quasi-
Newton-Verfahren wirksam. Beispielsweise erfordert jeder Levenberg-Marquardt-Schritt die
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
92 BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE
Lösung des linearen Gleichungssystems ( )( )′ − = ′+J w J w I w w J w w( ) ( ) + ( ) ( )k k k m k k k kλ 1 εεmit m Gleichungen und m Unbekannten. Für m > 1000 - eine Größenordnung, die in Anwen-
dungen von Mehrschicht-Perzeptronen nicht ungewöhnlich ist, - können die Speicheranforde-
rungen die verfügbare Speicherkapazität überschreiten. Einen Ausweg eröffnen hier die soge-
nannten Konjugierte-Gradienten-Verfahren (siehe Kennedy & Gentle [1980, S460ff]).
Alle genannten Verfahren sind konstruktionsbedingt lokale Optimierungsverfahren. Bei einer
geeigneten Wahl des Startvektors liefern sie eine Näherung an eine lokale Minimumstelle der
Zielfunktion als Ergebnis. Eine globale Lösung des Minimierungsproblems können sie nicht
garantieren. Das Problem kann durch Multistarts abgeschwächt werden.
5.5 Asymptotische Eigenschaften der Backpropagation-Schätzer
Der Backpropagation-Algorithmus wurde in Abschnitt 5.3 als eine rekursive Methode zur
Berechnung von NKQ-Schätzwerten eingeführt. Jetzt sollen die asymptotischen Eigenschaften
der resultierenden Backpropagation-(BP)-Schätzer angegeben werden. Hierbei wird auf Er-
gebnisse aus dem Bereich der NKQ-Schätzung bei Vorliegen fehlspezifizierter Regressions-
modelle zurückgegriffen (siehe z.B. White [1981], Domowitz & White [1982], Gallant &
White [1988] oder auch Wooldridge [1994]) und die Identität von NKQ- und BP-Schätzern
unterstellt. Dies setzt voraus, daß der Backpropagation-Algorithmus (fast sicher) konvergiert
und keine suboptimalen Schätzergebnisse liefert. In der Praxis erweist sich diese Voraus-
setzung natürlich als weniger realistisch. Dieses Problem teilt Backpropagation jedoch mit
allen gängigen gradientenbasierten NKQ-Schätzalgorithmen. Überdies kann das Problem
durch den Einsatz von Simulated Annealing- oder Multistart-Techniken gemildert werden.
Der datenerzeugende Prozeß ( ) Z Xt t tY t T= ′ ′ ∈, sei mit den in Abschnitt 5.3.1 genannten Ei-
genschaften ausgestattet: Sein Zustandsraum ist geeignet beschränkt; der Prozeß ist entweder
(i) i.i.d. oder (ii) streng stationär und ergodisch oder (iii) stationär erster Ordnung und gleich-
förmig bzw. stark mischend. Der Raum W der Gewichte eines MLP-Netzes sei eine kompakte
Teilmenge des IRm und ein Vektor wo, der das Minimierungsproblem (5.8) löst, ein innerer
Punkt von W. Die Menge aller Lösungsvektoren von (5.8) soll mit Wo bezeichnet werden:
W W M M Wo o o
= ∈ ≤ ∈w w w w ( ) ( ) für alle .
Vereinfachend wird zunächst die Mächtigkeit Wo = 1 der Lösungsmenge angenommen; d.h.,
es existiert ein global identifizierter Vektor wo. Schließlich bezeichne $, , . . .wN N
NKQ
=1 2 eine Folge
von NKQ-Schätzern für wo. Das N-te Glied $wNNKQ der Folge erfüllt das Minimumkriterium
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE 93
(5.32) ( ) ( )minw
w X w Z w∈ = =
= − =
∑ ∑W
t tt
N
tt
N
QN
Y fN
qN
( , ) ( , )1 22
1 1
mit q Y ft t t( ) ( ( ))Z w X w, ,= −1
2
2 .
Ist Zt t T∈ i.i.d., dann ist für jedes feste w ∈W die Folge ( )2 1 2q t tZ w, , , . . .= ebenfalls i.i.d..
Analog führt ein streng stationärer ergodischer Prozeß oder ein stationärer mischender Prozeß
(Stationarität erster Ordnung) für jedes feste w ∈W auf eine streng stationäre ergodische oder
stationäre mischende Sequenz ( )2 1 2q t tZ w, , , . . .= . Auf die jeweils zugehörige Folge arithmeti-
scher Mittelwerte ( )Q N Nw =1 2, , . . . wirkt unter allgemeinen Regularitätsbedingungen gleich-
mäßig über W ein starkes Gesetz der großen Zahl:
(5.33) ( ) ( )sup. .
ww w
∈− →
W
f sQ MN 0 ,
und es gilt auch
(5.34) $ . .w wNNKQ f s
o → .
Der NKQ-Schätzer ist ein stark konsistenter Schätzer für wo. Die Regularitätsbedingungen
und die Beweisführung geben White [1981] und Domowitz & White [1982] an. Die Autoren
weisen ferner die asymptotische Normalverteilung der NKQ-Schätzer nach. Unter allgemeinen
Voraussetzungen strebt die Folge ( )N N NNKQ
o$
, , ...w w− =1 2 für N → ∞ in Verteilung gegen
eine multivariate Normalverteilung:
(5.35) ( ) ( )N NNNKQ
NKQo
i V$ ,. .
$w w
w− → 0 ΣΣ ,
ΣΣ$w NKQ = A w B w A w( ) ( ) ( )o o o
− −1 1
mit den (m,m)-Matrizen
A w A w( ) ( )oN
oN=→∞lim und B w B w( ) ( )o
NoN=
→∞lim ,
wobei
A wZ w
w w
X ,w
w
X ,w
w
X w
w wZ w
N ot o
t
N
t o t o t ot o
t
N
N Eq
N Ef f f
( )( )
( ) ( ) ( )( )
=′
=
⋅
−
′⋅
−
−
=
=
∑
∑′
1
1
2
1
2
1
∂∂ ∂
∂∂
∂∂
∂∂ ∂
ε
,
,,
sowie
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
94 BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE
B wZ w
w
Z w
w
Z w
wN ot o
t
Nt o t o
t
N
Var Nq
N Eq q
( )( ) ( ) ( )
=
=
− −
= =∑ ∑
′1 2 1
1 1
/, , ,∂
∂∂
∂∂
∂
=
⋅
⋅
−
=
′∑N E
f ft o t ot o
t
N1 2
1
∂∂
∂∂
ε( ) ( )
( )X ,w
w
X ,w
wZ w, .
mit ε( ) ( )Z w X wt t tY f, ,= − ist. Die Darstellung der Matrix A w( )o läßt sich vereinfachen. Da
die Prozeßvektoren durchgängig als identisch verteilt angenommen werden, ist offensichtlich
A wZ w
w w
Z w
w w
Z w
w wN ot o
t
Nt o t oN E
qN NE
qE
q( )
( ) ( ) ( )=
′
=
′
=
′
− −
=∑1 1
2
1
2 2∂∂ ∂
∂∂ ∂
∂∂ ∂
, , ,
für ein beliebiges t T∈ , und es gilt A w A w( ) ( )o oN≡ . Liegt ein i.i.d. Prozeß Zt t T∈ vor, dann
läßt sich auch B w( )o vereinfachen. Die zufälligen Gradienten ∂ ∂q t o( )Z w w, (t = 1,...,N)
sind jetzt i.i.d. und für die Matrix B wN o( ) gilt
B wZ w
w
Z w
w
Z w
w
Z w
w
N ot o
t
Nt o
t
N
t o t o
N Varq
N Varq
N N Varq
Varq
( )( ) ( )
( ) ( )
=
=
=
=
− −
−
= =∑ ∑1 1
1
1 1
∂∂
∂∂
∂∂
∂∂
, ,
, ,
mit beliebigem t T∈ . In diesem Spezialfall ist B w B w( ) ( )o oN≡ (siehe White [1981]).
Man beachte, daß das Ergebnis (5.35) die asymptotische Verteilungsaussage für den linearen
KQ-Schätzer aus Kapitel 4.3 als Spezialfall einschließt. Setzt man f w Xt i i tip( ) : X w, = ∑ =0 mit
X t01≡ , dann geht ΣΣ
$w NKQ in die asymptotische Kovarianzmatrix des linearen KQ-Schätzers
ΣΣ$w KQ aus (4.33) über. Man beachte ferner, daß das Ergebnis (5.35) nicht die ansonsten in der
Regressionsrechnung üblichen Annahmen einer korrekten Modellspezifikation (d.h. hier
[ ]( )P E Y ft t t oX X w= =( , ) 1 ) und unabhängiger, homoskedastischer Fehler- oder Störterme
ε( ) ( )Z w X wt o t t oY f, ,= − voraussetzt. Im Spezialfall, daß jedoch (i) [ ]E Y ft t t oX X w= ( , )
fast sicher erfüllt ist, daß (ii) die Fehler i.i.d. sind mit dem Mittel [ ]E t oε( )Z w, = 0 und der
Varianz [ ]Var t oε σ( )Z w, = < ∞2 und daß (iii) die Fehler von X t stochastisch unabhängig
sind, gilt B w A wN No o( ) ( )= σ2 und die asymptotische Kovarianzmatrix ΣΣ$w NKQ des NKQ-
Schätzers nimmt die im Fall korrekt spezifizierter Regressionsmodelle übliche Form ΣΣ$w NKQ =
σ2 1A w( )o− an (siehe Domowitz & White [1982]).
Für einen festen, hinreichend großen Umfang N eines Lerndatensatzes kann die tatsächliche
Verteilung des NKQ-Schätzers $wNNKQ brauchbar durch eine ( )N No NKQw
w ,
$−1 ΣΣ -Verteilung
angenähert werden. Speziell die Kenntnis der Kovarianzmatrix ist hilfreich zur Beurteilung
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE 95
der Schätzgenauigkeit. Im Falle eines i.i.d. Prozesses Zt t T∈ ist die Matrix ΣΣ$w NKQ unter all-
gemeinen Voraussetzungen konsistent schätzbar durch
(5.36) $$
ΣΣw NKQ = $ $ $A B AN N N
− −1 1
mit den (m,m)-Matrizen
$$ $ , $
, $AX ,w
w
X ,w
w
X w
w wZ w
N
N N N
NN
f f ft t tt
t
N NKQ NKQ NKQ
NKQ=
⋅
−
′⋅−
=
′∑1
2
1
∂∂
∂∂
∂∂ ∂
ε( ) ( ) ( )
( ) ,
$ , $$ $
B Z wX ,w
w
X ,w
wN N
N NNf f
tt t
t
NNKQ
NKQ NKQ
= ⋅
⋅
−
=
′∑1 2
1
ε∂
∂∂
∂( )
( ) ( ) .
Gilt im Spezialfall ΣΣ$w NKQ = σ2 1A w( )o
− , dann ist ein konsistenter Schätzer durch $$
ΣΣw NKQ =
$ $σ2 1AN−
mit $σ2 = N t NNKQ
tN−=∑1
1ε( ) 2Z w, $ gegeben (White [1981]). Einen konsistenten
Schätzer bei Vorliegen von Zeitreihendaten geben Domowitz & White [1982] an.
Bisher wurde die globale Identifizierbarkeit von wo unterstellt. Die MSE-Funktion M(w) in
(5.8) weist jedoch i.d.R. multiple Minimumstellen auf; d.h. Wo > 1 . Die Bedingung der glo-
balen Identifizierbarkeit läßt sich auf multiple, lokal identifizierbare Minimumstellen ab-
schwächen, ohne daß hierdurch die asymptotischen Eigenschaften (5.34) und (5.35) zerstört
werden (siehe White [1989b]). Man spricht von lokal identifizierbaren Minimumstellen, wenn
die Vektoren wo oW∈ isolierte Punkte im Gewichtsraum W sind. Jedes wo besitzt eine offene
ε-Umgebung U IR Wo om
ε ε( ) < w x x w= ∈ − ⊂ mit ε > 0 , über die wo eine eindeutige
Minimumstelle der Funktion M(w) ist. Ist eine lokale Identifizierbarkeit nicht gegeben, dann
bricht die Konvergenz in Verteilung (5.35) zusammen, und die Schätzer besitzen asympto-
tisch keine multivariate Normalverteilung. Dieser Fall tritt ein, wenn die Eingabevektoren Xt
redundante Variablen enthalten und/oder das Netzwerk redundante verborgene Einheiten be-
sitzt. Redundanz meint hier, daß die Inputs und/oder Einheiten keinen (zusätzlichen) Beitrag
zur Prognose der Zielvariablen Yt liefern und daher ohne Performanceverlust entfernt werden
können. Das Problem kann (zumindest theoretisch) von einem Anwender bereinigt werden,
wenn es ihm gelingt, die Redundanzen zu entfernen.
Es sei angemerkt, daß Konsistenz und asymptotische Normalverteilung von NKQ-Schätzern
$wNNKQ auch dann bewiesen werden kann, wenn die hier im Zeitreihenkontext durchgängig
postulierten Stationaritätsannahmen relaxiert werden. Es liegt dann ein instationärer datener-
zeugender Prozeß Zt t T∈ vor. Die Abhängigkeitsbeziehungen zwischen Yt und Xt sind nicht
mehr notwendig zeitkonstant. Domowitz & White [1982] zeigen, daß unter geeigneten
Mischungs- und Regularitätsbedingungen $wNNKQ jetzt eine konsistente Schätzung des Vektors
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
96 BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE
(5.37) ( )w ww
oW
M N=∈
arg min mit ( ) ( ) ( )MN
Y f dFN tI R t t
t
N
pw X w zZ= −+∫∑
=
1 2
1
1( , ) ,
möglich ist, wobei ( )M N w ein durchschnittlicher mittlerer quadratischer Approximations-
fehler ist. FtZ ist die Verteilungsfunktion des Zufallsvektors Zt zum Zeitpunkt t.
Die genannten statistischen Eigenschaften von NKQ-Schätzern sind lediglich asymptotischer
Natur. Die Bestimmung von Eigenschaften bei Vorliegen endlicher Datenumfänge N erweist
sich als ein analytisch nicht handhabbares Problem. Es stellt sich mithin die Frage, wann N
hinreichend groß genug ist, um eine brauchbare Annäherung eines Vektors wo durch eine
NKQ-Schätzung oder auch eine brauchbare Annäherung der tatsächlichen Verteilung von
$wNNKQ durch die asymptotische Normalverteilung erwarten zu dürfen. Eindeutige Antworten
auf diese Fragen gibt es nicht. Das jeweilige Konvergenzverhalten ist stark kontextabhängig.
Es wird von der zeitlichen Abhängigkeitsstruktur des datenerzeugenden Prozesses ebenso
beeinflußt wie von der Dimension p der Eingabevektoren und der Dimension m des Ge-
wichtsvektors. Je stärker die Abhängigkeitsbeziehungen und je größer die Dimensionen sind,
um so größer sollte N sein. Da in vielen Anwendungen die Eingabe- und Gewichtsvektoren
hochdimensional sind, erweisen sich MLP-Netze in diesem Sinne als 'datenhungrig'.
Der Zusammenhang von NKQ- und BP-Schätzung ist ausschließlich in zyklischen Lernsitua-
tionen gegeben. Ein MLP(p,r,1)-Netz kann aber auch in einen Echtzeit-Datenstrom eingebettet
und der Backpropagation-Algorithmus als ein rekursives Schätzverfahren eingesetzt werden.
In der Echtzeit-Lernsituation ist es möglich, die BP-Schätzer in geschlossener Form zu notie-
ren:
(5.38) ( )$ $ , $, $
w w X wX w
wt t t t tt tY f
f+ = + −
1η
∂∂
( )( )
(t = 1,2,3,...) .
Es wird unterstellt, daß zu jedem Schätzzeitpunkt t eine Beobachtung des Zufallsvektors Zt
verfügbar ist. Die Rekursion wird durch Vorgabe eines Startvektors $w1 mit zufällig gewählten
Komponenten initialisiert. Wie im Fall der rekursiven LMS-Schätzung kann eine konsistente
Schätzerfolge = 1 ,2 ,. ..
$wt t nur dann nachgewiesen werden, wenn die konstante Lernrate η
durch ein variables ηt ersetzt wird, das für t→∞ mit einer geeigneten Rate gegen null strebt.
Die erforderlichen Untersuchungen liefert für stochastisch unabhängige und identisch verteilte
Zufallsvektoren Zt wiederum White [1989a]. Er nutzt hierbei den Zusammenhang zwischen
der rekursiven Schätzgleichung (5.38) und dem stochastischen Approximationsverfahren von
Robbins & Monro [1951] (vgl. die Ausführungen in Kapitel 4.4).
Es bezeichne W+ die Menge aller Lösungen w+ ∈W der Gleichung
( ) ( )∂∂
∂∂
ME Y ft t
w
w wX w+
+= −
=( , ) 2 0 .
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE 97
Hierbei wird die Austauschbarkeit von Differentiation und Erwartungswertbildung vorausge-
setzt. Die stationären Punkte w+ können globale oder lokale Extremstellen oder Wendepunkte
der Funktion M(w) aus (5.8) sein. Wird eine Lernratenfolge = 1 ,2 ,.. .
ηt t
mit η κt t∝ −
( )0 1< ≤κ gewählt, zeigt White [1989a], daß die BP-Schätzer = 1 ,2 ,. ..
$wt t entweder divergieren
oder gegen einen stationären Punkt w+ +∈W konvergieren (jeweils mit Wahrscheinlichkeit
1). Sind die stationären Punkte lokal identifizierbar, dann divergieren die Schätzer oder kon-
vergieren gegen eine lokale, aber nicht notwendig auch globale Minimumstelle (jeweils mit
Wahrscheinlichkeit 1). Darüber hinaus weist White auch die asymptotische Normalverteilung
von t t( )$w w− + nach. Vorausgesetzt werden muß hierbei die fast sichere Konvergenz der
Schätzer gegen eine lokale Minimumstelle und Lernraten ηt t∝ −1 . Die Echtzeit-BP-Schätzer
machen im Vergleich zu NKQ-Schätzern bzw. zyklischen BP-Schätzern offensichtlich keinen
effizienten Gebrauch von den Lerndaten. Ein weiteres Ergebnis von White ist, daß die Echt-
zeit-BP-Schätzer $wt asymptotisch ineffizient sind. Ihre asymptotischen Varianzen sind größer
oder höchstens gleich den asymptotischen Varianzen von NKQ-Schätzern.
White [1989a] setzte bei den Untersuchungen stochastisch unabhängige und identisch verteilte
Zufallsvektoren Zt voraus. Eine Verallgemeinerung der Ergebnisse auf den Fall abhängiger
Vektoren liefern Kuan & White [1989,1994]. Ein weiteres interessantes Ergebnis geht auf
Kushner [1987] zurück. Zur Vermeidung suboptimaler, lokaler Lösungen des Lernproblems,
kann die bereits in Abschnitt 5.4.2 vorgestellte Simulated-Annealing-Methode verwendet wer-
den. Beim Echtzeit-Lernen führt dies auf die Rekursion:
(5.39) ( )$ $ , $, $
w w X wX w
wt t t t t tt t
tY f
f+ = + − +
1
η∂
∂ζ( )
( )(t = 1,2,3,...) ,
wobei ζ t t =1 2, ,... wieder eine Folge unabhängiger, identisch verteilter Zufallsvektoren ist.
Kushner [1987] beweist die fast sichere Konvergenz der Schätzer gegen eine globale Mini-
mumstelle für normalverteilte Zufallsvektoren ζt und Lernraten ( )ηt t∝ −ln 1 .
5.6 Mehrschicht-Perzeptrone und nichtparametrische Regression
5.6.1 Das Bias/Varianz-Dilemma
In der bisherigen Diskussion galt das Augenmerk Verfahren der Gewichtsschätzung und den
asymptotischen Eigenschaften von Schätzfunktionen. Hierbei wurde durchgängig eine fest
vorgegebene Netzwerkarchitektur unterstellt. Der Blickwinkel soll jetzt erweitert werden.
Natürlich ist das Hauptziel von Netzwerklernen nicht in einer konsistenten Schätzung von
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
98 BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE
Netzgewichten zu sehen. Hauptziel ist es, auf der Basis von Lerndaten eine Funktion
f t( )X w, zu bestimmen, die eine (im Sinne des MSE-Kriteriums) möglichst gute Prognose
der Zielvariablen Yt durch zukünftige Beobachtungen des Eingabevektors Xt erlaubt. Die Pro-
gnose- oder 'Generalisierungseigenschaften' eines MLP-Netzes hängen offensichtlich von den
geschätzten Gewichten und der Flexibilität der Netzausgabefunktion - sprich der Anzahl ver-
borgener Einheiten - ab. Die Zielerreichung setzt eine problemadäquate Spezifikation der
Netzwerkarchitektur voraus.
Mehrschicht-Perzeptrone sind universelle Approximatoren. Sofern die Anzahl der verborgenen
Einheiten genügend groß ist, sind sie geeignet, jede Borel-meßbare Funktion mit einem kom-
pakten Definitionsbereich beliebig genau zu approximieren. Die bereits in Abschnitt 5.2 vor-
gestellte Existenzaussage berücksichtigt allerdings nicht, daß die Netzgewichte a priori unbe-
kannt sind und geschätzt werden müssen. Wie Geman et al. [1992] herausarbeiten, müssen die
Approximationseigenschaften von Künstlichen Neuronalen Netzen limitiert sein, wenn als
Datenbasis eine Trainingsmenge mit finitem Umfang N zur Verfügung steht. Die Autoren be-
zeichnen die Limitation als ein Bias/Varianz-Dilemma.
Geman et al. betonen, daß die Netzausgabefunktionen Künstlicher Neuronaler Netze nur
nominell parametrische Funktionen darstellen. Aufgrund ihrer potentiellen Flexibilität sollten
sie den Bereich der nichtparametrischen Regression (quasi-parametrischer Ansatz) zugeordnet
werden. Um diese Sicht zu bekräftigen, wird die bisher verwendete Notation an dieser Stelle
geringfügig modifiziert. Das Lernziel bestehe in der Schätzung einer unbekannten 'wahren'
Regressionsfunktion µ o t t tE Y( ): [ | ]X X= auf der Basis einer Trainingsmenge von finitem
Umfang N. f ( )x w, ist wieder die Netzausgabefunktion eines gegebenen MLP(p,r,1)-Netzes
mit dem m-dimensionalen Gewichtsvektor w ∈W , D N= ,..., Z Z1 ist die (zufällige) Trai-
ningsmenge und $ ,...,w Z ZN N: ( )= ψ 1 kennzeichnet eine auf der Trainingsmenge D basierende
Schätzfunktion (z.B. die NKQ-Schätzfunktion). Die Zufallsgröße f N( )x w, $ wird jetzt
$ , $µ N Nf( ): ( )x x w= geschrieben und als ein Schätzer für den bedingten Erwartungswert
µ o t tE Y( ) [ | ]x X x= = mit x ∈IR p betrachtet. Der Schätzer $µ N ( )x ist als eine Funktion von
x und der Elemente von D aufzufassen.
Zur Beurteilung der Schätzgüte im Punkt x bietet sich der mittlere quadratische Schätzfehler
(5.40) ( ) ( )( )[ ] ( )[ ] ( )( ) ( ) ( )[ ]( )[ ]( ) ( )[ ] ( )[ ]
E E E E
B Var
D N D N D N D N
D N D N
o o
o
$ $ $ $
$ , $
µ µ µ µ µ µ
µ µ µ
x x x x x x
x x x
− = − + −
= +
2 2 2
2
an. Hierbei kennzeichnet ED symbolisch die Erwartung über die Trainingsmenge D; d.h., die
Erwartungswertbildung erfolgt bezüglich der gemeinsamen Wahrscheinlichkeitsverteilung der
Trainingsvektoren Z Z1 ,..., N . Der mittlere quadratische Fehler kann mit Hilfe von Standardar-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE 99
gumenten wieder in zwei additive Komponenten zerlegt werden. Die erste Komponente ist der
quadrierte Bias B D N o[ ( ) ( )]$ ,µ µx x und die zweite Komponente ist die Varianz VarD N[ ( )]$µ x
des Schätzers. Der Begriff 'Bias' meint hier natürlich nicht ein synaptisches Gewicht, sondern
den systematischen Schätzfehler. Die Varianz ist auf die Variabilität des Gewichtsschätzers
zurückzuführen.
Obige Zerlegung ist rein symbolisch. Der Bias und die Varianz des Schätzers sind unbekannt.
Es darf dennoch vermutet werden, daß i.d.R. ein Tradeoff zwischen dem Bias- und Varianzbei-
trag zum mittleren quadratischen Schätzfehler existiert. Ist die Anzahl r der verborgenen Ein-
heiten im Netzwerk niedrig, muß aufgrund der geringen Flexibilität der Netzausgabefunktion
mit einer verzerrten Schätzung gerechnet werden. Es besteht die Gefahr einer Unteranpassung
des Netzwerkes an die Trainingsmenge D. Wird r sukzessive erhöht, dann kann der Biasbei-
trag B D N o[ ( ) ( )]$ ,µ µx x gegebenenfalls vernachlässigbar klein werden. Der Preis für die
wachsende Flexibilität der Netzausgabefunktion ist eine schwindende Präzision der Gewichts-
schätzung. Nähert sich die Anzahl m der adjustierbaren Gewichte dem Trainingsmengenum-
fang N, oder übersteigt m sogar N, dann werden die Varianzen der Gewichtsschätzer und da-
mit auch der Varianzbeitrag VarD N[ ( )]$µ x zum mittleren quadratischen Schätzfehler (5.40)
inflatorisch ansteigen. Man spricht jetzt von einer Überanpassung. Bias und Varianz können
im allgemeinen nicht simultan durch Manipulation der Netzwerkarchitektur abgesenkt wer-
den. Geman et al. [1992] liefern für dieses Bias/Varianz-Dilemma instruktive Beispiele.
In der Praxis dürfen zufriedenstellende Prognoseergebnisse folglich nur dann erwartet werden,
wenn es durch Manipulation der Netzwerkflexibilität gelingt, die Bias- und Varianzkompo-
nente so auszubalancieren, daß der mittlere quadratische Fehler (5.40) möglichst klein wird.
In der Literatur finden sich zahlreiche Vorschläge, wie der Gefahr der Über- oder Unteranpas-
sung eines Netzes an eine Trainingsmenge begegnet werden kann. Einige Vorschläge werden
an späterer Stelle vorgestellt. Es sei hier bereits angemerkt, daß nicht alle Ansätze auf eine ge-
eignete Bestimmung der Anzahl verborgener Einheiten abzielen. Die Flexibilität einer Netz-
ausgabefunktion wurde nur vereinfachend mit der Anzahl von Verarbeitungseinheiten gleich-
gesetzt. Eine geeignete Steuerung der Flexibilität kann beispielsweise auch durch Beschrän-
kungen des Gewichtsraumes W erreicht werden. Diese Strategie wird - zumindest partiell -
bereits in dem folgenden Abschnitt genutzt.
5.6.2 Nichtparametrische Raster-Schätzer
Es stellt sich die interessante Frage, ob das Bias/Varianz-Dilemma überwunden werden kann,
wenn der Trainingsdatenumfang N über alle Grenzen wächst; präziser formuliert: Ist eine kon-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
100 BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE
sistente Schätzung der Regressionsfunktion µ o t( )X möglich? Dieser Frage geht White
[1990] nach. Er zeigt, daß eine konsistente Schätzung erreichbar ist, wenn die Netzwerkflexi-
bilität für N → ∞ mit einer spezifischen Rate anwächst. White verknüpft zu diesem Zweck
Künstliche Neuronale Netze mit dem auf Grenander [1981] zurückgehenden nichtparametri-
schen Ansatz method of sieves, was hier frei als Raster-Methode übersetzt werden soll. Die
grundlegende Idee läßt sich wie folgt skizzieren:
Gegeben sei wieder der datenerzeugende Prozeß Zt t T∈ aus Kapitel 5.3.1. Der Zustandsraum
E des Prozesses wird weiterhin als beschränkt vorausgesetzt. Zur näheren Charakterisierung
sei er als ein offener (p+1)-dimensionale Einheitswürfel E I p= +1 mit ( )I = 0 , 1 angenom-
men. Ferner sei der Prozeß entweder i.i.d. oder streng stationär. Die zu schätzende Funktion
µ o t( )X soll als Element eines Funktionenraumes M aufgefaßt werden. M kennzeichnet den
Raum aller bezüglich der Verteilung von Xt quadratisch integrierbaren Funktionen; d.h. M :=
[ ] µ µ µ: ( ) = ( ) I IR E dFpIt p→ ∫ < ∞X x X
2 2 .
Zur Schätzung der Regressionsfunktion verwendet White MLP(p,rN,1)-Netze mit den Aus-
gabefunktionen
µ β β φ γ γNN N
N
f xr r
j j i j ii
p
j
r
( ): ( )x x w= = + ⋅ + ⋅
==∑∑, 0 1 1 0
11
und x∈IR p , wr
p r r NN
N NW= ( , )0 1 0 1γ γ β β,..., ,...,, ,1
′ ∈ . Die Anzahl rN der verborgenen Ver-
arbeitungseinheiten ist nicht fest vorgegeben, sondern sie wird vom Umfang N der verfügbaren
Trainingsdaten abhängig gemacht. Ebenfalls abhängig von N ist der jeweilige Gewichtsraum
W IR rN
NN
N
N N
Nr m
jj
r
i ji
p
j
r
= w ∈ ≤ ≤
= ==∑ ∑∑β γ1
0 01
∆ ∆,
mit ( )m r pN= + +2 1 und ∆ ∆N NIR,∈ > 0 . Ferner bezeichne ),( NNr ∆M die Menge aller
Ausgabefunktionen M∈⋅=⋅µ )()( NNN
rr ,f w von Netzen mit rN verborgenen Einheiten und
Gewichtsvektoren w rNNW∈ . Jedes Element von ),( NNr ∆M kann als ein Approximator der
unbekannten Funktion µo aufgefaßt werden. Die Menge selbst ist als ein 'Approximatoren-
raster' interpretierbar, das über den Funktionenraum M gelegt wird. Durch die Spezifikation
von Folgen rN N =1 2, , ... , ∆ N N =1 2, ,... kann jetzt eine Sequenz ,...,NNNr 21),( =∆M solcher
Raster konstruiert werden. Streben rN → ∞ und ∆ N → ∞ für N → ∞ , dann werden die
Raster immer feiner. Für gegebene Folgen rN und ∆ N definiert White die neuronalen
Raster-Schätzer $µ N für µo als die Lösungen der Minimierungsprobleme
(5.41) ( )∑ µ−=∆∈µ
N
ttt
rN
NN
YN
min1
2
),()(
1
N
XM
(N = 1,2,3,...) .
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
BACKPROPAGATION UND MEHRSCHICHT-PERZEPTRONE 101
Mit jedem Raster-Schätzer $ , $µ NN Nf
r r( ) ( ) ⋅ = ⋅ w ist ein Gewichtsschätzer $w rN assoziiert.
Der Schätzer ist definiert als die Lösung des (restringierten) NKQ-Problems
(5.42) ( ) ( , )minw
X wr
N
N N
N Wt
rt
r
t
N
NY f
∈ =−∑1 2
1
(N = 1,2,3,...) .
Erfolgt eine geeignete Steuerung der Folgen rN
und ∆N
, dann kann unter allgemeinen
Regularitätsbedingungen eine (schwach) konsistente Raster-Schätzung von µo erreicht
werden; d.h. hier
(5.43) ( )lim $N
oP N→∞− =µ µ
20 oder symbolisch $µ µ
N o
P− →2
0
mit [ ] ( )µ µ2
2 1 2= E tX/
. White untersucht i.i.d. sowie gleichförmig bzw. stark mischende
streng stationäre Prozesse Zt t T∈ . Im Falle unabhängiger Prozeßvektoren ist Konsistenz ge-
währleistet, falls rN und ∆N für N → ∞ über alle Grenzen wachsen mit ∆ N o N= ( )1 4/ und
r r o NN N N N∆ ∆4 log ( ) = ( ) . Für mischende, abhängige Prozesse erlaubt ∆ N o N= ( )1 4/ und
r r o NN N N N∆ ∆2 1 2log /( ) = ( ) eine konsistente Schätzung. Wählt man beispielsweise ∆ N N∝log ,
folgt aus den Bedingungen r NN ∝ −1 δ bei Unabhängigkeit und ( )r NN ∝ −1 2δ (0 < δ < 1) bei
Abhängigkeit.
Das Ergebnis ist primär von theoretischem Interesse. Es zeigt, daß unter geeigneten Bedin-
gungen asymptotisch eine beliebig genaue Approximation einer unbekannten Regressions-
funktion durch Netzwerklernen möglich ist. Der praktische Wert des Ergebnisses ist aller-
dings limitiert. Obige Wachstumsraten sagen nichts darüber aus, wie die Netzflexibilität in
einer spezifischen Anwendung mit einer vorgegebenen Trainingsmenge vom festen Umfang
N festgelegt werden sollte.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
103
6 MODELLIERUNG UND PROGNOSE NICHTLINEARER
ZEITREIHEN
Im Vorkapitel wurden Mehrschicht-Perzeptrone als 'Lernmaschinen' zur Lösung allgemein
formulierter Regressionsprobleme eingeführt. In den folgenden Ausführungen steht eine spezi-
fische Anwendung Künstlicher Neuronaler Netze im Vordergrund: Die Prognose nichtlinearer
univariater Zeitreihen. Der Abschnitt 6.1 führt zunächst in die Prognoseproblematik ein und
motiviert Mehrschicht-Perzeptrone als eine spezifische Klasse nichtlinearer autoregressiver
Modelle. Liegen Zeitreihen mit dominanten linearen Abhängigkeitsstrukturen vor, dann ist der
oft mit erheblichem Aufwand verbundene Prognoseeinsatz der Netzwerke verzichtbar. Dieser
Aspekt wird in Abschnitt 6.2 erörtert, und es werden Testverfahren zur Diskrimination linea-
rer und nichtlinearer Zeitreihen vorgestellt. Das Problem der Spezifikation eines prognose-
tauglichen Netzwerkes wird in Abschnitt 6.3 diskutiert. Weitere Aspekte des Prognoseein-
satzes Künstlicher Neuronaler Netze werden in den nachfolgenden Kapiteln untersucht. Das
Problem der Ermittlung von Mehrschritt-Punktprognosen wird in Kapitel 7 diskutiert. Die
Punktprognose zukünftiger Zeitreihenwerte kann in Abhängigkeit von den probabilistischen
Eigenschaften des datenerzeugenden Prozesses mit einer geringen oder einer hohen Prognose-
unsicherheit verbunden sein. Zur Einschätzung der Prognoseunsicherheit ist es sinnvoll, Inter-
vall- bzw. Regionprognosen zu ermitteln. Vorschläge hierzu werden in Kapitel 8 gegeben.
6.1 Prognose und nichtlineare Autoregression
Zur Einführung in die Prognoseproblematik wird angenommen, daß als interessierende Zeit-
reihe ein in den Zeitpunkten t n= 1,..., beobachteter Pfad yt t IZ∈ des univariaten, reellwer-
tigen stochastischen Prozesses Yt t IZ∈ vorliegt. Hierbei symbolisiert t n= den Gegenwarts-
zeitpunkt. Ohne Beschränkung der Allgemeinheit wird ferner unterstellt, daß der Prozeß eine
Familie stetiger Zufallsvariablen ist. Unter einer Prognose (genauer: einer univariaten Punkt-
prognose) wird im folgenden eine auf den Beobachtungen basierende Punktschätzung $ ,hyn
eines zukünftigen Wertes yn h+ des Pfades yt t IZ∈ verstanden (h = 1,2,3,...). Der Schätzwert
$ ,yn h := ( )$ ,...,,Y y yn h n 1 heißt h-Schritt-Prognose von yn h+ im Prognoseursprung t n= . Die
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
104 MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN
zugehörige Schätzfunktion ( )$ ,...,,Y Y Yn h n 1 wird als h-Schritt-Prognosefunktion oder h-Schritt-
Prediktor von Yn h+ bezeichnet.
Unter diesen Annahmen besteht das Prognoseproblem in einer geeigneten Wahl der h-Schritt-
Prognosefunktion $,hYn . Die Wahl sollte so erfolgen, daß - über alle Pfade des Prozesses be-
trachtet - die h-Schritt-Prognosen die Werte der Prozeßvariablen Yn h+ 'möglichst gut' annä-
hern. Die Lösung des Problems setzt die Verwendung eines Abstandsmaßes voraus. Im Rah-
men der statistischen Prediktionstheorie wird dem Kleinste-Quadrate-Ansatz eine zentrale Be-
deutung beigemessen. Er nutzt als Abstandsmaß den mittleren quadratischen Fehler (MSE)
(6.1) [ ] ( )[ ] [ ]MSE Y E Y Y E en n h n n$ $
,h ,h ,h= − =+2 2 .
Die Differenz e Y Yn h n h n h, ,$
:= −+ heißt h-Schritt-Prognosefehler. Die Kleinste-Quadrate-(KQ)-
Prognosefunktion $,Yn h
KQ ist so zu bestimmen, daß der mittlere quadratische h-Schritt-Prognose-
fehler (6.1) minimiert wird. Unter der Bedingung E Yt[| | ]2 < ∞ , für alle t IZ∈ , besitzt das
Minimumproblem die Lösung:
(6.2) ( ) [ ]$ ,..., ,...,,hY Y Y E Y Y Yn n n h nKQ
1 1= + .
Die im Sinne des MSE-Kriteriums optimale Prognosefunktion $,Yn h
KQ für Yn h+ ist der bedingte
Erwartungswert von Yn h+ gegeben Y Yn ,... , 1 (vgl. Kapitel 4.1.1, S.37f). Die Bedingung qua-
dratisch integrierbarer Prozeßvariablen sichert die Existenz des Erwartungswertes. Für die
konkrete h-Schritt-KQ-Prognose
( ) [ ]$ $ ,... , ,...,,h ,hy Y y y E Y Y y Y yn n n n h n nKQ KQ= = = =+1 1 1
gilt
(6.3) [ ] ( )E Y Y y Y y y f y y y dyn h n n n h Y Y Y n h n n hn h n+ + + +−∞
∞
= = = ⋅+∫ ,..., ,...,,...,1 1 11
mit
( )( )( )f y y y
f y y y
f y yY Y Y n h nY Y Y n h n
Y Y nn h n
n h n
n+
++
+=,...,
, ,...,
,...,,...,
, ,...,
,...,1
1
1
11
1
,
wobei ( )fY Y Yn h n+⋅, ,..., 1
die gemeinsame Dichte der Prozeßvariablen Y Y Yn h n+ , ,... , 1 und
( )fY Yn ,..., 1⋅ die n-variate Randdichte von Y Yn ,..., 1 ist. Es wird ( )fY Yn ,..., 1
0⋅ > unterstellt. Mit
f y yY Y Y nn h n+⋅,..., ,...,
1 1( ) ist die bedingte Dichtefunktion der Zufallsvariablen Yn h+ gege-
ben Y y Y yn n= =,..., 1 1 gekennzeichnet. Die bedingte Dichte wird im folgenden auch als h-
Schritt-Prognosedichte bezeichnet.
Der KQ-Prognoseansatz läßt sich intuitiv eingängig interpretieren (vgl. Priestley [1981,
S.728]). Zwei verschiedene Pfade oder Realisationen des Prozesses Yt t IZ∈ werden i.d.R. nur
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN 105
in wenigen Zeitpunkten identische Werte aufweisen. Betrachtet man das gesamte Ensemble
aller möglichen Realisationen des Prozesses, dann existiert jedoch eine Teilmenge von Reali-
sationen, die in den Beobachtungszeitpunkten t n= 1,..., identisch sind und auch mit der be-
obachteten Zeitreihe übereinstimmen. Außerhalb des Beobachtungszeitraumes werden sie
wieder verschiedene Werte aufweisen (vgl. Abb. 6.1). Zwei verschiedene Realisationen aus
der Teilmenge können somit zu verschiedenen Werten der zukünftigen Prozeßvariable Yn h+führen. Da unbekannt ist, auf welchem Pfad sich der Prozeß entwickeln wird, ist es nahelie-
gend, den Mittelwert aller Realisationen dieser Teilmenge im Zeitpunkt t n h= + als Progno-
se für Yn h+ zu verwenden. Dies ist gerade der bedingte Erwartungswert (6.3).
Es kann leicht gezeigt werden, daß KQ-Prediktoren unverzerrte Prognosefunktionen sind. Bil-
det man bezüglich der Randverteilung von Y Yn ,..., 1 den Erwartungswert des KQ-Prediktors$
,Yn hKQ , erhält man
(6.4) ( )[ ] [ ][ ]E Y Y Y E E Y Y Yn n n h nKQ$ ,..., ,... ,,h 1 1= +
( ) ( )= ⋅ ⋅−∞
∞
+ + +−∞
∞
∫ ∫ +L y f y y y f y y dy dy dyn h Y Y Y n h n Y Y n n h nn h n n,..., ,...,,..., ,..., ...
1 11 1 1
( )= ⋅−∞
∞
+ + +−∞
∞
∫ ∫ +L y f y y y dy dy dyn h Y Y Y n h n n h nn h n, ,..., , ,... , ...
1 1 1 [ ]= +E Yn h ,
und hieraus folgt weiter
(6.5) [ ] [ ]E e E Y Yn n h nKQ
,h ,h$= − =+ 0 .
Zeit
Yt
t=1 t=n t=n+h
Abb. 6.1: Realisationen des Prozesses Yt t IZ∈
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
106 MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN
Der (unbedingte) Erwartungswert des h-Schritt Prognosefehlers ist null. Ferner ist der mittlere
quadratische h-Schritt-Prognosefehler E en[ ],h2 in (6.1) gleich der Varianz Var en[ ],h des h-
Schritt-Prognosefehlers. Der KQ-Ansatz führt somit zu unverzerrten Prediktoren mit minima-
ler Fehlervarianz. Diese Eigenschaft ist i.d.R. wünschenswert. Der KQ-Ansatz kann jedoch
auch zu unbrauchbaren Prognosen führen, und zwar dann, wenn die Prognosedichte von Yn h+multimodal ist. Dieser Aspekt wird in Kapitel 7.3.1.1 (S. 142ff) näher erörtert.
Die exakte Berechnung eines bedingten Erwartungswertes der Form (6.3) setzt die Kenntnis
der gemeinsamen Wahrscheinlichkeitsverteilung der Prozeßvariablen Y Y Yn h n+ , ,..., 1 voraus.
In der Praxis sind die Wahrscheinlichkeitsverteilungen allerdings a priori unbekannt. Die be-
dingten Erwartungswerte müssen auf der Basis beobachteter Zeitreihenwerte geschätzt wer-
den. Im Vorkapitel wurden Mehrschicht-Perzeptrone als flexible nichtlineare Schätzer für be-
dingte Erwartungswerte motiviert. Es ist naheliegend, sie auch in dem hier skizzierten Zusam-
menhang einzusetzen. Unglücklicherweise erweist sich die Schätzung einer unbekannten
Funktion von n Variablen auf der Informationsbasis von n Zeitreihenwerten als äußerst
schwierig. Zufriedenstellende Schätzergebnisse dürfen nur dann erwartet werden, wenn die
probabilistischen Eigenschaften des datenerzeugenden stochastischen Prozesses restriktiven
Bedingungen genügen.
Das Prognoseproblem erfährt eine substanzielle Vereinfachung, wenn als datenerzeugender
Prozeß Yt t IZ∈ ein streng stationärer Prozeß vom Markov-Typ vorliegt. Ein streng stationärer
Prozeß besitzt vollständig zeitinvariante probabilistische Eigenschaften (vgl. Kapitel 4.1.2).
Die KQ-Prognosefunktion ( )$ ,...,,Y Y Yn h nKQ
1 in (6.2) ist jetzt eine gegenüber Verschiebungen der
Zeitkoordinaten t n=1,..., auf der Zeitachse invariante Funktion. Ein stochastischer Prozeß
Yt t IZ∈ besitzt die sogenannte Markov-Eigenschaft p-ter Ordnung ( p IN p∈ < ∞, ), wenn für
alle ganzzahligen t die bedingten Wahrscheinlichkeitsverteilungen der Variablen Yt+h für ge-
gebene Werte der finiten oder infiniten Prozeßvergangenheit Y Yt t, ,−1 Yt−2 ,... nur von den
jeweiligen Werten der Prozeßvariablen Y Yt t p,... , − +1 abhängen. Zu einem beliebigen Zeit-
punkt t ist bei bekannten Werten von Y Yt t p,... , − +1 die zukünftige Entwicklung des Prozesses
nach t von der Entwicklung des Prozesses vor t p− +1 unabhängig. Für Familien stetiger Zu-
fallsvariablen läßt sich die Eigenschaft mit Hilfe der bedingten Dichtefunktionen darstellen:
(6.7) ( ) ( )f y y y y f y y yY Y Y Y t h t t t Y Y Y t h t t pt h t t t t h t t p+ − − + − ++ − − + − +=, , ,... ,...,
, , ,.. ,...,1 2 1
1 2 1
für alle t und alle reellen y y y yt h t t t+ − −, , , ,...1 2 (siehe z.B. Papoulis [1965, S.528ff]). Für den
bedingten Erwartungswert von Yt+h folgt:
(6.8) [ ] [ ]E Y Y Y Y E Y Y Yt h t t t t h t t p+ − − + − += , , ,... ,... ,1 2 1 .
Ist p n< erfüllt, dann kann die KQ-Prognosefunktion ( )$ ,...,,Y Y Yn h nKQ
1 in (6.2) durch eine
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN 107
Funktion niedrigerer Dimensionalität $ ,...,,Y Y Yn h n n pKQ ( )− +1 ersetzt werden. Im Spezialfall p = 1
liegt eine Funktion einer skalaren Variablen Yn vor. Im folgenden wird 1 ≤ <<p n unterstellt.
Die zu Prognosezwecken relevanten probabilistischen Eigenschaften des datenerzeugenden
Prozesses Yt t IZ∈ lassen sich jetzt wie folgt modellieren:
(6.9) ( )Yt t t= +−µ εX 1 , ε σεt iid~ ,( )0 2 .
Hierbei ist µ: IR IRp → eine reelle Funktion, X t t t pY Y− − −= ′1 1( ),..., ein p-dimensionaler
Vektor zeitverzögerter Prozeßvariablen und ε t t IZ∈ eine Sequenz stochastisch unabhängiger
und identisch verteilter (i.i.d.) Zufallsvariablen - sogenanntes striktes White Noise - mit dem
Mittelwert E t[ ]ε = 0 und der Varianz Var t[ ]ε σε= < ∞2 . Die Zufallsgrößen εt werden als
unabhängig von vergangenen Prozeßvariablen Ys, s < t, angenommen. Es folgt dann unmittel-
bar [ ] ( )E Yt t X x x− = =1 µ für beliebige t IZ∈ und x ∈IR p . Die Funktion µ modelliert so-
mit die Einschritt-KQ-Prognosefunktionen $,Yt
KQ−11 und die 'Störungen' oder 'Innovationen' εt
entsprechen den korrespondierenden Einschritt-Prognosefehlern et-1,1. Die Funktion µ ist im
allgemeinen ein nichtlineares Funktional. Der Prozeß Yt t IZ∈ heißt dann nichtlinear im be-
dingten Mittel, das Modell (6.9) wird in der Literatur üblicherweise als allgemeiner nicht-
linearer autoregressiver Prozeß der Ordnung p, kurz NLAR(p)-Prozeß, bezeichnet. Liegt im
Spezialfall eine lineare Funktion 11)( −− ′=µ tt~XX αα mit αα ∈ +IR p 1 und )1( ′′= tt ,
~XX vor,
so spricht man von einem im bedingten Mittel linearen Prozeß Yt t IZ∈ und (6.9) heißt
(linearer) autoregressiver Prozeß der Ordnung p, kurz AR(p)-Prozeß.
Obige Modellannahmen bilden den theoretischen Rahmen, der es gestattet, Mehrschicht-Per-
zeptrone sinnvoll als Prognosewerkzeuge einzusetzen. Das Prognoseproblem kann jetzt als
Spezialfall der in Kapitel 5 diskutierten Regressionsproblematik betrachtet werden. Auch die
dort eingeführte bivalente Interpretation von Netzwerken als nichtparametrische Approxima-
toren bedingter Erwartungswerte oder als parametrische Regressionsmodelle ist in dem jetzt
interessierenden Kontext fruchtbar; beide Sichtweisen werden – je nach Zweckmäßigkeit –
weiter genutzt. An dieser Stelle soll die parametrische Sicht vertieft werden. Im Mittelpunkt
des Interesses stehen hierbei Ausgabefunktionen von MLP(p,r,1)-Netzen mit Shortcut-Ver-
bindungen und einer unbeschränkten Ausgabeeinheit der Form (5.6), die hier kompakter
=)( wx,f ( )∑=
′φβ+′r
uuu
~~
1
xx γγαα
geschrieben werden. Es gilt ( )'',~ xx 1= mit dem Eingabevektor pIR∈x . Der Vektor der Netz-
gewichte w = ′ ′ ′ ′ ′( )αα ββ γγ γγ, , ,...,1 r setzt sich aus den Teilvektoren αα= ′∈ +( )α α α0 11, ,..., p IR p ,
rIR,..., r ∈′ββ= )( 1ββ und 1)( 10+∈′γγγ= pIR,...,, puuuuγγ (u = 1,...,r) zusammen. Die Akti-
vierungsfunktion φ ist wieder eine überall differenzierbare, streng monoton wachsende und
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
108 MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN
beschränkte Squashing-Funktion, z.B. die logistische Funktion oder die hyperbolische
Tangensfunktion. Existiert für einen NLAR(p)-Prozeß Yt t IZ∈ eine Netzausgabefunktion
IRWIRf p →× : , so daß )()( 11 wXX ,f tt −− =µ für alle t IZ∈ mit Wahrscheinlichkeit 1 er-
füllt ist, dann läßt sich die stochastische Differenzengleichung (6.9) gemäß
(6.10) ttt å,fY += − )( 1 wX
( ) t
r
utuut
~~ ε+′φβ+′= ∑=
−−1
11 XX γγαα , ε σεt iid~ ,( )0 2 ,
darstellen. Das allgemeine NLAR(p)-Modell geht in ein spezifisches parametrisches nicht-
lineares autoregressives Modell über, das hier als Multilayer-Perceptron-Autoregressiver-
Prozeß der Ordnung p, kurz MLPAR(p)-Prozeß, bezeichnet wird. Das Modell (6.10) setzt sich
aus einem linearen AR-Teil und einem nichtlinearen Teil zusammen. Der durch die Shortcut-
Verbindungen gebildete lineare AR-Term modelliert serielle korrelative (lineare) Abhängig-
keitsbeziehungen der Prozeßvariablen. Er verhindert, daß lineare Prozeßstrukturen durch nicht-
lineare verborgene Einheiten erfaßt werden müssen, was i.d.R. zu Modellen mit einer (vermeid-
bar) hohen Gewichts- bzw. Parameteranzahl führen würde. Bei Abwesenheit serieller korre-
lativer Abhängigkeitsbeziehungen sind Shortcut-Verbindungen verzichtbar und vereinfachte
MLPAR(p)-Prozesse mit )00( 0 ′α≡ ,...,,αα , also
( ) t
r
utuut
~Y ε+′φβ+α= ∑=
−1
10 Xγγ , ε σεt iid~ ,( )0 2 ,
adäquate Modellformulierungen.
Obige Interpretation der MLP(p,r,1)-Netze als spezifische nichtlineare autoregressive Zeit-
reihenmodelle erlaubt eine tiefere Analyse ihrer probablistischen Eigenschaften als Prognose-
instrumente. Die folgenden Ergebnisse geben Trapletti et al. [1998] sowie Leisch et al. [1999]
an.
Yt t IZ∈ sei ein MLPAR(p)-Prozeß der Form (6.10), dessen Störungen εt stetige Zufallsvaria-
blen mit einer auf IR überall positiven Dichtefunktion sind, und es gelte ∞<ε |)(| tE . Liegen
die Nullstellen der mit den Shortcut-Verbindungen assoziierten charakteristischen Gleichung
(6.11) 01 221 =α−−α−α− p
p z...zz , ICz ∈ ,
alle außerhalb des Einheitskreises 0=z , dann ist Yt t IZ∈ ein ergodischer und streng statio-
närer stochastischer Prozeß. Unter der zusätzlichen Regularitätsvoraussetzung quadratisch
integrierbarer Störungen, also ∞<ε )|(| 2tE , ist die Existenz des zeitinvarianten Mittelwerts
)( tYE sowie der zeitinvarianten (Auto-)Kovarianzen )( τ+tt Y,YCov mit ,...,, 210 ±±=τ der
Prozeßvariablen garantiert, und Yt t IZ∈ ist ebenfalls ein schwach stationärer Prozeß.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN 109
Die Bedingung (6.11) bezieht sich ausschließlich auf die Gewichte p,...,αα1 der Shortcut-
Verbindungen eines Netzes und damit auf den linearen AR-Term eines MLPAR(p)-Prozesses.
Sie ist identisch mit der Stationaritätbedingung für AR(p)-Prozesse (vgl. Kapitel 7.1.1,
S.xxx). Liegen Nullstellen der charakteristischen Gleichung innerhalb des Einheitskreises, so
generiert die Modellgleichung (6.10) einen „explodierenden“ Prozeß mit inflationierenden
Varianzen der Prozeßvariablen. Da lediglich die Shortcut-Verbindungen die Stationaritäts-
eigenschaften von MLPAR(p)-Prozessen kontrollieren, sind folglich Prozesse ohne Shortcuts
unter milden Regularitätsbedingungen stets stationär. Diese bemerkenswerte Eigenschaft läßt
sich auf die Beschränktheit der Squashing-Funktionen verborgener Einheiten zurückführen.
Des weiteren zeigen Trapletti et al. [1998], daß ein ergodischer, streng stationärer MLPAR(p)-
Prozeß auch stark mischend ist. Die Mischkoeffizienten (4.18d) seien hier durch ( )τa gekenn-
zeichnet. Unter den genannten Voraussetzungen gilt ( ) τκρ≤τa für ein ∞<κ und ( )1 , 0∈ρ ;
die Koeffizienten ( )τa streben für ∞→τ exponentiell gegen Null. Der Prozeß besitzt somit
ein kurzes Gedächtnis, das mit wachsendem zeitlichen Abstand τ exponentiell erlischt.
Betrachtungen zu MLPAR-Prozessen sind aus mehreren Gründen hilfreich. Zum einen kon-
kretisieren obige Ergebnisse die in Kapitel 5.5 zur Begründung der asymptotischen Eigen-
schaften von Backpropagation-Gewichtsschätzern unterstellten Voraussetzungen bezüglich
des jetzt interessierenden Zeitreihenkontext. Ferner sind stationäre MLPAR(p)-Prozesse nütz-
liche Instrumente zur Herleitung von Testverfahren auf Nichtlinearität stochastischer Prozesse
sowie von Spezifikationstests, die die Auswahl prognosetauglicher Netzwerkarchitekturen
unterstützen. Dieser Aspekt wird in den nachfolgenden Abschnitten diskutiert. Schließlich
wird deutlich, daß die zunächst lediglich zur Vereinfachung des Prognoseproblems geforderte
Stationaritätsvoraussetzung aufgrund der Eigenschaften Künstlicher Neuronaler Netze zwin-
gend geboten ist. Mehrschicht-Perzeptrone sind aufgrund der beschränkten Ausgangssignale
ihrer verborgenen Einheiten nur bei Vorliegen stationärer datenerzeugender Prozesse mit kur-
zem Gedächtnis geeignete Prognosewerkzeuge.
Stationarität ist natürlich eine mathematische Idealisierung, die in vielen realen Prognosesitua-
tionen nicht erfüllt ist. Beispielsweise sind trendbehaftete Zeitreihen oder Reihen mit starrer,
nicht-stochastischer periodischer Variation (z.B. einer konstanten Saisonfigur) mit der Statio-
naritätsvoraussetzung inkompatibel. Beide Instationaritätsphänomene können häufig bei nie-
derfrequenten Zeitreihen ökonomischer Variablen (z.B. Monats- oder Quartalsreihen) beob-
achtet werden. Durch geeignete Datentransformationen ist es jedoch möglich, zumindest eine
Annäherung an die Stationaritätsvoraussetzung zu erreichen. So können Trendeffekte durch
den Übergang zu den d-fachen Differenzen ( INd ∈ ) der Zeitreihenwerte bzw. der Prozeß-
variablen reduziert werden:
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
110 MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN
td
t YY ∆=(
mit
11 : −−=∆=∆ tttt YYYY
und
111: −
−− ∆−∆=∆ td
td
td YYY für d > 1.
Häufig erreicht man bereits mit 1=d eine hinreichende Trendbereinigung. Ist der transfor-
mierte Prozeß IZttY ∈(
ein streng stationärer MLPAR(p)-Prozeß, so kann Yt t IZ∈ , der übli-
chen Terminologie in der parametrischen Zeitreihenanalyse folgend, als integrieter Multilayer-
Perceptron-Autoregressiver-Prozeß der Ordnung p und d oder kurz als MLPARI(p,d)-Prozeß
bezeichnet werden.
In manchen Anwendungen besteht die Gefahr, daß obige Form der Differenzenbildung we-
sentliche Information bezüglich der Langfristverhaltens eines Prozesses zerstört. Eine mög-
liche Lösung des Problems ist der Übergang zu einem fraktionell differenzierten Prozeß
td
t YY ∆=(
mit nicht-ganzzahliger Ordnung 150 << d. an. Ist IZttY ∈(
ein streng stationärer
MLPAR(p)-Prozeß, dann ist Yt t IZ∈ ein fraktionell integrieter Multilayer-Perceptron-Auto-
regressiver-Prozeß der Ordnung p und d oder MLPARFI(p,d)-Prozeß mit langem Gedächtnis.
Der fraktionelle Differenzenoperator ist für alle ( )11+−∈ ,d durch die Reihenentwicklung
( )( ) ( )∑
∞
=ττ−⋅
−Γ+τΓ−τΓ=∆
0 1: tt
d Yd
dY
mit
( ) ∫∞
−−=Γ0
1 dvevx vx für 0>x sowie ( ) ( ) xxx 1+Γ=Γ für 01 <<− x
definiert. Bei der praktischen Differenzenbildung wird obige Reihenentwicklung nach
nm <<=τ Gliedern abgeschnitten.
Eine geeignete Transformation zur Elimination konstanter Saisonfiguren ist die Bildung sai-
sonaler Differenzen
( ) tt YY s∆=(
mit ( ) sttt YYYs −−=∆ : ,
wobei s die Periode der Saisonfigur symbolisiert (z.B. s = 12 im Falle von Monatsdaten).
Liegen hochfrequente Zeitreihen vor, beispielsweise Reihen täglich erfaßter Wertpapierpreise,
dann ist i.d.R. durch den Übergang zu den täglichen relativen Preisänderungen (Renditen)
eine hinreichende Ausschaltung der Instationaritäten erreichbar. Eine ausführliche Diskussion
der Problematik findet sich z.B. in Schlittgen & Streitberg [1994].
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN 111
6.2 Neuronale-Netzwerk-Tests auf Nichtlinearität des datenerzeugendenProzesses
Der Einsatz von Mehrschicht-Perzeptronen zu Prognosezwecken ist mit einem erheblichen
Rechenaufwand verbunden. Aus forschungsökonomischen Gründen ist es ratsam, vor dem
Einsatz zu prüfen, ob ein derartiger Aufwand durch den potentiellen Nutzen gerechtfertigt
erscheint. Aufgrund ihrer Flexibilität und Nichtlinearität sind die Netzwerke offensichtlich
dann potentiell nützliche Prognosewerkzeuge, wenn eine Zeitreihe durch einen ausgeprägt
nichtlinearen stochastischen Prozeß (nichtlinear im bedingten Mittel) erzeugt wurde. Liegt
den Daten hingegen ein linearer Prozeß zugrunde, dann ist der Einsatz Künstlicher Neuronaler
Netze nicht nur verzichtbar, sondern auch geboten: Es besteht die Gefahr einer Überanpassung
der flexiblen Netze an die Trainingsdaten, was im allgemeinen ungünstige Prognoseergeb-
nisse zur Folge hat. In einem ersten Analyseschritt sollte deshalb geprüft werden, ob die inter-
essierende Zeitreihe durch einen stochastischen Prozeß ohne oder mit ausgeprägten Nicht-
linearitäten im bedingten Mittel generiert wurde. Im ersten Fall kann auf etablierte lineare
Prognosemethoden – basierend auf AR-Modellen oder Autoregressiven-Moving-Average-
(ARMA)-Modellen – zurückgegriffen werden, die befriedigende Lösungen des Prognose-
problems mit vergleichsweise geringem Aufwand ermöglichen.
Die Nichtlinearität stochastischer Prozesse kann mit Hilfe einer Vielzahl verschiedener Test-
verfahren geprüft werden. Einen Überblick geben z.B. Schuhr [1991] oder Granger & Teräs-
virta [1993]. An dieser Stelle werden zwei spezifische Tests diskutiert, die explizit konnektio-
nistische Konzepte nutzen. Der erste Test wurde von Lee, White & Granger [1993], basierend
auf einem Ansatz von White [1989c], vorgeschlagen, der zweite Test ist von Teräsvirta, Lin &
Granger [1993]. Beide Testverfahren sollen den Anwender vor dem Training eines Mehr-
schicht-Perzeptrons darüber informieren, ob mit Hilfe eines Perzeptrons eine gegenüber linea-
ren Zeitreihenmodellen signifikant verbesserte Approximation bedingter Erwartungswerte er-
reicht werden kann oder nicht.
Es sei angenommen, daß einer interessierenden Zeitreihe ein streng stationärer stochastischer
Prozeß Yt t IZ∈ mit der Markov-Eigenschaft p-ter Ordnung zugrunde liegt. Die Hypothesen
eines Tests auf Nichtlinearität im bedingten Mittel des datenerzeugenden Prozesses lassen
sich dann in allgemeiner Form schreiben:
(6.12a) [ ]( )P E Yt t tX X− −= ′ =1 1 1αα ~für ein αα ∈ +IR p 1
versus
(6.12b) [ ]( )P E Yt t tX X− −= ′ <1 1 1αα ~für alle αα ∈ +IR p 1
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
112 MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN
mit X t t t pY Y− − −= ′1 1( ),..., und ~ ,X Xt t− −= ′ ′1 11( ) . Unter Gültigkeit der Nullhypothese (6.12a)
ist die bedingte Erwartungswertfunktion [ ]E Yt t X −1 eine Linearkombination der Komponen-
ten von X t−1, und die für das Testproblem relevanten statistischen Eigenschaften des daten-
erzeugenden Prozesses können durch ein lineares AR(p)-Modell
(6.13) Yt t t= ′ +−αα ~X 1 ε , ε σεt iid~ ,( )0 2 ,
geeignet modelliert werden. Ist die Alternative (6.12b) wahr, dann ist der Prozeß nichtlinear.
Das AR(p)-Modell 'vernachlässigt' jetzt diese Nichtlinearität und ist inadäquat.
Die Alternativhypothese (6.12b) beinhaltet keine Aussage zur Form der Nichtlinearität von
Yt t IZ∈ und ist für die hier verfolgten Ziele noch zu unscharf formuliert. Da im Vordergrund
die Frage steht, ob ein MLP-Netz die bedingte Erwartungswertfunktion [ ]E Yt t X −1 besser zu
approximieren vermag als eine lineare Funktion, sollte die Alternative in diesem Sinne präzi-
siert werden. Lee, White & Granger [1993] schlagen einen speziellen Nichtlinearitätstest vom
Lagrange-Multiplier-(LM)-Typ vor, den sie als Neuronalen-Netzwerk-Test auf vernachlässigte
Nichtlinearität bezeichnen. Die Anwendung des LM-Testprinzips (Silvey [1959]) auf obiges
Testproblem erfordert die explizite Formulierung einer Alternativhypothese in Form eines
nichtlinearen parametrischen Modells, welches das lineare Nullmodell (6.13) als Spezialfall
einschließt. Naheliegenderweise unterstellen Lee et al. als Alternative den MLPAR(p)-Prozeß
(6.14) ( ) t
r
utuutt
~~Y ε+′φβ+′= ∑=
−−1
11 XX γγαα , ε σεt iid~ ,( )0 2 ,
mit den Netzgewichten w = ′ ′ ′ ′ ′( )αα ββ γγ γγ, , ,...,1 r , αα= ′∈ +( )α α α0 11, ,..., p IR p , ββ= ′∈( )β β1 ,..., r IR r
und γγ u u u pu IR p= ′∈ +( )γ γ γ0 11, ,..., (u = 1,...,r) sowie einer Squashing-Funktion φ als Aktivie-
rungsfunktion.
Ist der Teilgewichtsvektor ββ des MLPAR(p)-Prozesses ein Nullvektor, dann geht der nicht-
lineare Prozeß in den linearen AR(p)-Prozeß (6.13) über. Die Hypothesen
(6.15) H0: ββ = 0 versus H1: ββ ≠ 0
stellen einen geeigneten Ausgangspunkt zur Konstruktion eines LM-Tests auf Nichtlinearität
des datenerzeugenden Prozesses dar. Hierbei tritt allerdings ein Problem auf, das zuvor einer
Lösung bedarf: Die Gewichtsvektoren uγγ (u = 1,...,r) der verborgenen Verarbeitungseinheiten
sind unter Gültigkeit der Nullhypothese nicht identifiziert; sie können beliebige Werte anneh-
men. Ihre Komponenten erweisen sich als 'störende' Parameter und verhindern die Anwen-
dung des LM-Testprinzips in der Standardform. Lee et al. schlagen ein pragmatisches Vorge-
hen zur Überwindung der Identifikationsproblematik vor. Sie behandeln die γγ u nicht als freie
Parametervektoren, sondern die Vektoren werden a priori, also unabhängig von dem stocha-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN 113
stischen Prozeß Yt t IZ∈ , vorgegeben. Die Vorgabe der Vektorwerte erfolgt durch zufälliges
Ziehen aus einer geeigneten Verteilung. Die Autoren nutzen eine stetige Gleichverteilung.
Aus den verborgenen Verarbeitungseinheiten des Netzes werden - in der Terminiologie von
Lee et al. - verborgene 'Phantomeinheiten'. Ihre Aktivierungszustände ( )φ ′ −γγ u t~X 1 sind unab-
hängig davon, ob H0 oder H1 wahr ist, eindeutig berechenbar.
Der resultierende LM-Test der Hypothesen (6.15) kann mit Hilfe herkömmlicher Kleinste-
Quadrate-Techniken implementiert werden. Als Datenbasis seien beobachtete Werte der Pro-
zeßvariablen Yt (t = 1,...,n) angenommen. Die Testprozedur beinhaltet die folgenden Schritte:
(i) Schätze mit Hilfe der KQ-Methode den Koeffizientenvektor αα des linearen AR(p)-Null-
modells (6.13). Berechne die Residuen $ $ ~εt t tY= − ′ −αα X 1 ( t p n= +1,..., ) und die Residual-
quadratsumme RSS tnt p0
21= ∑ = + $ε der geschätzten linearen Autoregression.
(ii) Schätze mit Hilfe der KQ-Methode den Koeffizientenvektor ϑϑ ∈ + +IR p r 1 der linearen
Hilfsregression
$ε νt t t= ′ +−ϑϑ Z 1 ( )t p n= + 1,... , ,
wobei Z Xt t t− − −= ′ ′ ′1 1 1( , )~ φφ mit φφ γγ γγt t r t− − −= ′ ′ ′1 1 1( ( ) ( ))1φ φ~ ,..., ~X X ein ( )p r+ +1 -dimensiona-
ler Vektor von Regressorvariablen und νt eine Störvariable ist. Der Vektor φφt−1 enthält
die Aktivierungen der verborgenen Phantomeinheiten. Berechne die Residuen
$ $ $ν εt t t= − ′ −ϑϑ Z 1 ( )t p n= +1,..., und die Residualquadratsumme RSS tnt p1
21=∑ = + $ν der ge-
schätzten Regression.
(iii) Berechne den Wert der Testfunktion
( )LM n p R12= − ⋅ mit ( )R RSS RSS RSS2
0 1 0= − .
R2 ist das unzentrierte Bestimmtheitsmaß der linearen Hilfsregression aus Schritt (ii).
Unter Gültigkeit der Nullhypothese H0 ist die Statistik LM1 asymptotisch χ 2 -verteilt mit r
Freiheitsgraden. Übersteigt der realisierte Testfunktionswert den ( )100 1 − α -Prozentpunkt der
Grenzverteilung, dann wird H0 zum (nominalen) Testniveau α verworfen (0 1< <α ).
Die statistischen Hintergründe von LM-Testverfahren diskutieren z.B. Harvey [1990, S.169ff]
oder Schuhr [1991, S.79ff]. Heuristisch läßt sich obige Testprozedur wie folgt motivieren:
Das in Schritt (i) geschätzte AR(p)-Modell ist als ein linearer Filter interpretierbar, der den
datenerzeugenden Prozeß in eine unkorrelierte, also um lineare Abhängigkeitsstrukturen be-
reinigte Sequenz $εt transformiert. Mögliche Einflüsse der Parameterschätzung auf die sta-
tistischen Eigenschaften der Residuen seien hierbei vereinfachend vernachlässigt. Unter Gül-
tigkeit der Nullhypothese weist die linear gefilterte Sequenz keine nichtlinearen seriellen Ab-
hängigkeitsbeziehungen auf. Unter der Alternative vernachlässigt die lineare Autoregression
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
114 MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN
den nichtlinearen Term β φu u tur ( )′∑ −= γγ ~X 11 in (6.14). Die nichtlinearen seriellen Abhängig-
keitsbeziehungen der Prozeßvariablen werden in die Residuensequenz $εt transformiert. Bei
einer günstigen Zufallsvorgabe der Vektoren γγ u (u = 1,...,r) sind die verborgenen Phantom-
einheiten in der Lage, Struktur aus den Residuen zu extrahieren. Bestehen signifikante korre-
lative Beziehungen zwischen den Residuen und den Aktivierungen der Phantomeinheiten,
dann nimmt die Testfunktion LM1 einen kritisch großen Wert an, und H0 wird verworfen.
In praktischen Anwendungen des Tests ist die Ordnung p des AR(p)-Nullmodells zumeist
a priori unbekannt und muß auf Basis der beobachteten Zeitreihendaten identifiziert werden.
Die Identifikation der Modellordnung kann durch den Einsatz von Modellselektionskriterien
automatisiert werden (vgl. Kapitel 6.3.2). Lee et al. verwenden das SIC-Kriterium von
Schwarz [1978]. Es gewährleistet unter Regularitätsbedingungen eine stark konsistente
Schätzung der Ordnung linearer autoregressiver Modelle (siehe Hannan [1980]).
Lee et al. weisen auf ein weiteres praktisches Problem hin. Die Komponenten des Vektors
φφt−1 können (a) untereinander und (b) mit den Komponenten von X t−1 hoch korreliert sein.
Ausgeprägte korrelative Beziehungen zwischen den Variablen führen in Schritt (ii) der Test-
prozedur zu unzuverlässigen Ergebnissen bei der KQ-Schätzung der Hilfsregression oder ver-
hindern im Grenzfall perfekter linearer Abhängigkeit sogar die Schätzung gänzlich (Multi-
kollinearitätsproblem). Die Autoren schlagen deshalb vor, bei der Testdurchführung den r-
Vektor φφt−1 durch r r* < Hauptkomponenten von φφt−1 , die nicht kollinear mit X t−1 sind, zu
ersetzen. Die Statistik LM1 ist dann asymptotisch χ 2 -verteilt mit r* Freiheitsgraden. Die
Anzahl r verborgener Phantomeinheiten und die Anzahl r* der Hauptkomponenten ist je-
weils vom Anwender festzulegen. Den in Lee et al. [1993] ausgewiesen Ergebnissen von Si-
mulationsexperimenten ist zu entnehmen, daß die Wahl r =10 und r* =2 in sehr unterschied-
lichen Anwendungssituationen zu brauchbaren Testergebnissen führt. Nähere Implementie-
rungshinweise finden sich in der genannten Literaturquelle.
Lee et al. vergleichen in einer Simulationsstudie den Neuronalen-Netzwerk-Test mit anderen
Testverfahren auf Nichtlinearität stochastischer Prozesse und können experimentell durchaus
überzeugende Machteigenschaften des Tests demonstrieren. Die pragmatische Lösung des
Identifikationsproblems mittels Zufallsvorgabe der Vektoren γγ u (u = 1,...,r) führt jedoch un-
zweifelhaft zu Machteinbußen des Tests, die durch Einsatz verfeinerter Lösungstechniken ver-
meidbar erscheinen. Ferner ist der Test nicht konsistent (siehe White [1989c]). Diese Schwach-
stelle motivierte Teräsvirta, Lin & Granger [1993] zur Entwicklung eines alternativen Neurona-
len-Netzwerk-Tests. Der Test ist ebenfalls vom LM-Typ. Die Identifikationsproblematik wird
im Rahmen dieses Ansatzes durch eine duale Vo lterra-Reihen-Approximation des datenerzeu-
genden Prozesses gelöst.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN 115
Teräsvirta et al. [1993] betrachten das Testproblem aus einem anderen Blickwinkel als Lee et
al. [1993]. Ausgangspunkt ihrer Überlegungen ist wieder der MLPAR(p)-Prozeß (6.14). Als
Aktivierungsfunktion φ der verborgenen Verarbeitungseinheiten unterstellen sie die auf das
Intervall ( )− +1 2 1 2, beschränkte logistische Funktion
(6.16) ( ) ( ) φ x x= + − −−1 1 21exp .
Die Subtraktion der Konstanten 1 2 erfolgt aus technischen Gründen. Sie stellt unter anderem
sicher, daß ( )φ 0 0= ist. Gilt γγ γγ1 = =... r = 0 , dann empfangen die verborgenen Verarbei-
tungseinheiten des Netzes keinen Input und sind inaktiv. Der MLPAR(p)-Prozeß geht jetzt in
den linearen AR(p)-Prozeß (6.13) über. Die Nichtlinearität des datenerzeugenden Prozesses
kann somit auch durch einen Test der Hypothesen
(6.17) ′ ∀ =Hu
u0 : γγ 0 versus ′ ∃ ≠Hu
u1 : γγ 0 ( )u r= 1, .. . ,
geeignet geprüft werden. Bei diesem alternativen Testproblem tritt natürlich wiederum ein
Identifikationsproblem auf. Unter Gültigkeit der Nullhypothese ′H0 ist der Vektor ββ nicht
identifizierbar und seine Komponenten sind störende Parameter.
Teräsvirta et al. greifen einen Vorschlag von Luukkonen et al. [1988] zur Lösung der Iden-
tifikationsprobleme in LM-Tests auf und versuchen, die Problematik durch eine geeignete
Approximationen der Funktionen φ( )′ −γγ u t~X 1 (u = 1,...,r) in (6.14) zu überwinden. Die Funk-
tionen werden in der Umgebung des Punktes γγ u = 0 durch eine Taylor-Reihenentwicklung
bis zur 3. Ordnung angenähert:
(6.18) ( ) ( ) ( ) ( )
( )
φ φ ∂φ∂γ
γ ∂ φ∂γ ∂γ
γ γ
∂ φ∂γ ∂γ ∂γ
γ γ γ
′ ≈ + +
+
−= ==
===
∑ ∑∑
∑∑∑
γγ u tiu
iui
p
iu juj
p
i
p
iu ju
iu ju kuk
p
j
p
i
p
iu ju ku
~X 10
2
00
3
000
00 1
20
16
0
(u = 1,...,r) .
Zur Vereinfachung der Darstellung sei ~ , ,..., ~ ,~ ,..., ~
, , ,X t t t p t t p tY Y X X X− − − − − −= ′ ≡ ′1 1 0 1 1 1 11( ) ( ) ge-
setzt. Mit φ gemäß (6.16) gilt
( )( )
∂φ∂γ
( )′=
− ′
+ − ′− − −
−
γγ γγ
γγu t
iu
u t i t
u t
X~ exp ~ ~
exp ~,X X
X1 1 1
12
1 ,
∂ φ∂γ ∂γ
21( )′
=−γγ u t
iu ju
~X ( ) ( ) ( )
−− ′ − − ′
+ − ′− − − −
−
exp ~ exp ~ ~ ~
exp ~, ,γγ γγ
γγu t u t i t j t
u t
X XX X
X
1 1 1 1
13
2
1
und
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
116 MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN
∂ φ∂γ ∂γ ∂γ
31( )′
=−γγ u t
iu ju ku
~X ( ) ( ) ( ) ( )
exp ~ exp ~ exp ~ ~ ~ ~
exp ~, , ,− ′ − − ′ − − ′
+ − ′− − − − − −
−
γγ γγ γγ
γγu t u t u t i t j t k t
u t
X X XX X X
X
1 1 1 1 1 1
14
2 1 2
1
für alle u r= 1, . .. , und i j k p, , , , .. . ,= 0 1 . Hieraus folgt an der Stelle γγ u = 0 :
( )∂φ∂γ
0 14 1
iui tX= −
~, ,
( )∂ φ∂γ ∂γ
2 00
iu ju
= , ( )∂ φ
∂γ ∂γ ∂γ
3
1 1 10 1
16iu ju kui t j t k tX X X= − − −
~ ~ ~, , , .
Eine Taylor-Reihen-Approximation niedrigerer Ordnung erweist sich als nicht zweckmäßig.
Eine Approximation 1. Ordnung ist linear in ~X t−1. Jegliche Information über Nichtlinearitä-
ten geht verloren. Eine Approximation 2. Ordnung ist nicht sinnvoll, da ( )′′ =φ 0 0 gilt.
Ersetzt man nun die Funktionen φ( )′ −γγ u t~X 1 (u r= 1,... , ) in der Definitionsgleichung (6.14)
des MLPAR(p)-Modells durch ihre jeweiligen Näherungen aus (6.18), dann erhält man nach
einigen Umformungen
(6.19) Y Y Y Y Y Yt t ij t i t jj i
p
i
p
ijk t i t j t kk j
p
j i
p
i
p
t= ′ + + +− − −==
− − −===
∑∑ ∑∑∑ππ ~X 11 1
δ δ η
mit
δ β γ γ γij ij u iu ju uu
r
d==∑ 0
1
und δ β γ γ γijk ijk u iu ju kuu
r
d==∑
1
,
wobei dij = 1 36 für i j= und dij = 1 18 sonst sowie dijk = 1 36 für i j k= = , dijk = 1 18
für i j= , i k= oder j k= und dijk = 1 6 sonst gilt. Die Koeffizienten δ ij und δ ijk ( i p=1,..., ;
;j i p k j p= =,..., ,..., ) seien in dem Vektor δδ = ′( )δ δ δ δ11 111,..., , ,...,pp ppp zusammengefaßt. Der
lineare Term ′ −ππ ~X t 1 mit ππ ∈ +IR p 1 erfaßt neben der linearen Komponente ′ −αα ~X t 1 des Aus-
gangsmodells (6.14) auch die linearen Anteile der Taylor-Reihen-Approximationen (6.18).
Die Störungen ηt setzen sich aus den Störungen εt des Ausgangsmodells und den Approxima-
tionsfehlern zusammen. Die Gleichung (6.19) kann als eine 'duale' Volterra-Reihenentwick-
lung dritter Ordnung des nichtlinearen Modells im Sinne von Priestley [1980] aufgefaßt wer-
den. Sie liefert 'in der Umgebung' der Linearitätshypothese ′H 0 eine brauchbare Approxima-
tion von (6.14). Unter Gültigkeit von ′H 0 verschwinden die Koeffizienten der quadratischen
und kubischen Terme der Reihenentwicklung. Es gilt δδ ≡ 0 , ππ αα≡ , η εt t≡ und die Glei-
chung (6.19) geht in das lineare AR(p)-Nullmodell (6.13) über.
Die Hypothesen (6.17) des Ausgangsproblems korrespondieren mit dem Hypothesenpaar
(6.20) ′′ =H0 : δδ 0 versus ′′ ≠H1: δδ 0 .
Das Problem störender Parameter tritt bei diesem Ersatztestproblem nicht auf. Das LM-Prinzip
kann in Standardform auf (6.20) angewendet werden. Als Datenbasis seien wieder beobachte-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN 117
te Werte der Prozeßvariablen Yt (t = 1,...,n) gegeben. Die LM-Testprozedur beinhaltet die fol-
genden Schritte:
(i) Schätze mit Hilfe der KQ-Methode den Koeffizientenvektor αα des linearen AR(p)-Null-
modells (6.13). Berechne die Residuen $ $ ~εt t tY= − ′ −αα X 1 ( t p n= +1,..., ) und die Residual-
quadratsumme RSS tnt p0
21= ∑ = + $ε der geschätzten linearen Autoregression.
(ii) Schätze mit Hilfe der KQ-Methode den Koeffizientenvektor ϑϑ der linearen Hilfsregres-
sion
$ε νt t t= ′ +−ϑϑ Z 1 ( )t p n= + 1,... , ,
wobei νt eine Fehlervariable und Z t −1 ein Vektor der Regressorvariablen mit den Kom-
ponenten
1 , , ,Y Y Y Y Y Yt i t i t j t i t j t k− − − − − − ( i p=1,..., ; ;j i p k j p= =,..., ,..., )
ist. Berechne die Residuen $ $ $ν εt t t= − ′ −ϑϑ Z 1 ( )t p n= +1,..., und die Residualquadratsumme
RSS tnt p1
21=∑ = + $ν der geschätzten Regression.
(iii) Berechne den Wert der Testfunktion
( )LM n p R22= − ⋅ mit ( )R RSS RSS RSS2
0 1 0= − .
R2 ist das unzentrierte Bestimmtheitsmaß der linearen Hilfsregression aus Schritt (ii).
Besitzt der datenerzeugende Prozeß Yt t IZ∈ eine duale Volterra-Reihen-Darstellung der Form
(6.19) mit Koeffizienten δ ij ≠ 0 und δ ijk ≠ 0 , dann werden die Residuen $εt des in Schritt (i)
geschätzten AR(p)-Nullmodells mit den quadratischen Termen Y Yt i t j− − bzw. den kubischen
Termen Y Y Yt i t j t k− − − der Prozeßvariablen korreliert sein. Die Hilfsregression in Schritt (ii)
dient der Analyse der korrelativen Beziehungen. Ein großer Wert des Bestimmtheitsmaßes
R2 verweist auf starke Korrelationen und damit auf die Nichtlinearität des datenerzeugenden
Prozesses. Die Statistik ( )LM n p R22= − ⋅ ist unter Gültigkeit von ′′H0 asymptotisch χ 2 -ver-
teilt mit ( )p p p3 26 5 6+ + Freiheitsgraden. Die Anzahl der Freiheitsgrade entspricht der Di-
mension des Vektors δδ . Übersteigt der realisierte Testfunktionswert den ( )100 1 − α -Prozent-
punkt der asymptotischen Verteilung ( 0 1< <α ), dann wird ′′H0 zum (nominalen) Testniveau
α verworfen.
Bemerkenswert ist, daß die Testprozedur keine explizite Festlegung der Anzahl r verborgener
Einheiten in der MLPAR(p)-Alternative (6.14) erfordert. Die oben beschriebene approxima-
tive Vorgehensweise führt für jedes MLPAR(p)-Modell mit r ≥ 1 zu einer dualen Volterra-
Reihenentwicklung der Form (6.19). Die Testprozedur bleibt folglich unverändert, wenn die
Anzahl verborgener Einheiten variiert. Teräsvirta et al. merken ferner an, daß der Test nicht
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
118 MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN
entscheidend von der Annahme einer logistischen Aktivierungsfunktion φ der Form (6.16)
abhängt. Derselbe Test läßt sich auch unter den folgenden abgeschwächten Annahmen bezüg-
lich φ herleiten:
• φ ist eine ungerade, beschränkte und streng monoton wachsende Funktion mit finiten Ab-
leitungen 3. Ordnung in der Umgebung des Ursprungs; und
• ( )φ 0 0= , ( )′ ≠φ 0 0 sowie ( )′′′ ≠φ 0 0 .
Der Test wird somit nicht nur gegen eine spezifische MLPAR(p)-Alternative mit logistischer
Aktivierungsfunktion trennscharf sein, sondern Macht gegenüber einer ganzen Familie
MLPAR(p)-Alternativen mit unterschiedlichen Aktivierungsfunktionen besitzen.
Eine komplizierte Rolle spielen bei diesem Test die Biasgewichte (Absolutglieder) γ 0 u der
verborgenen Verarbeitungseinheiten des Mehrschicht-Perzeptrons. Besitzt das 'wahre'
MLPAR(p)-Modell (6.14) Biasgewichte γ 0 0u = ( u r= 1, . .. , ), dann sind, wie aus (6.19) er-
sichtlich wird, die Koeffizienten δ i j der quadratischen Terme in der dualen Volterra-Rei-
henentwicklung gleich null - unabhängig davon, ob die Linearitätshypothese wahr ist oder
nicht. Die Hypothesen (6.20) beschreiben in dieser Situation das Testproblem nicht adäquat,
und es muß mit Machteinbußen des Tests gerechnet werden. Teräsvirta et al. schlagen deshalb
auch eine modifizierte Testprozedur vor, die auf einer dualen kubischen Volterra-Reihenent-
wicklung ohne quadratische Terme basiert. Die Produkte Y Yt i t j− − ( i p=1,..., ; j i p= ,..., ) sind
hier in Testschritt (ii) aus der Hilfsregression zu entfernen. Die Anzahl der Freiheitsgrade der
asymptotischen χ2 -Verteilung von LM2 verringert sich entsprechend um ( )p p + 1 2 . In der
Praxis dürfte jedoch nur in Ausnahmefällen a priori bekannt sein, ob Biasgewichte im
MLPAR(p)-Modell benötigt werden oder verzichtbar sind. Es ist somit schwer zu entscheiden,
welche der beiden Testvarianten eingesetzt werden sollte. Die Autoren verglichen die Macht-
eigenschaften beider Varianten in einer Simulationsstudie. Die Ergebnisse weisen im Fall
γ 0 0u = den modifizierten Test als geringfügig machtvoller aus. Er ist jedoch im Fall
γ 0 0u ≠ dem Test mit quadratischen Termen deutlich unterlegen. Die Ergebnisse legen nahe,
bei Unkenntnis der Bedeutung der Biasgewichte den Test mit quadratischen Termen zu ver-
wenden.
In derselben Simulationstudie verglichen Teräsvirta et al. ihren Testansatz auch mit dem Neu-
ronalen-Netzwerk-Test von Lee et al. Wie vermutet, führte die Zufallsvorgabe der Vektoren
γγ u (u = 1,...,r) beim Test von Lee et al. zu Machtverlusten. Die auf dualen Volterra-Reihen-
Approximationen basierenden Tests (mit und ohne quadratischen Komponenten) erwiesen
sich in den Experimenten als trennschärfer. Die Performanceunterschiede waren z.T. be-
trächtlich. Im Lichte dieser Ergebnisse scheint der Testansatz von Teräsvirta et al. überlegene
Eigenschaften zu besitzen.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN 119
6.3 Netzwerkspezifikation
Wurde aufgrund erster Analysen der Zeitreihendaten eine Entscheidung zugunsten des Pro-
gnoseeinsatzes von Mehrschicht-Perzeptronen getroffen, dann gilt es anschließend ein pro-
gnosetaugliches Netzwerk zu spezifizieren. Konkret ist auf Basis der verfügbaren Daten eine
Netzausgabefunktion ( )f x w, auszuwählen, die die unbekannte bedingte Erwartungswert-
funktion ( ) [ ]µ x X x= =−E Yt t 1 des datenerzeugenden NLAR(p)-Prozesses (6.9) möglichst
gut im Sinne des MSE-Kriteriums approximiert. Wie in Kapitel 5.6.1 ausgeführt, erfordert die
Lösung dieser Aufgabe neben der Schätzung der Netzgewichte auch die Steuerung der Netz-
werkflexibilität- oder komplexität, um die Bias- und die Varianzkomponente des mittleren
quadratischen Approximationsfehlers (5.39) geeignet auszubalancieren (Bias/Varianz-Dilem-
ma). Als eine weitere Teilaufgabe kommt die Spezifikation der a priori unbekannten Ordnung
p des NLAR(p)-Prozesses hinzu.
In der Literatur finden sich zahlreiche Vorschläge zur Lösung der Spezifikationsaufgabe, die
z.T. auf statistischen und z.T. auf ad hoc Argumenten basieren. Es können zwei Grundansätze
unterschieden werden: Regularisierung und Modellselektion (vgl. Sarle [1995]). Regularisie-
rungsverfahren liegt die Vorstellung zugrunde, daß ein hoch flexibles Mehrschicht-Perzep-
tron mit einer Vielzahl Eingabeeinheiten und verborgenen Verarbeitungseinheiten als eine
problemunabhängige 'Lernmaschine' vorgegeben ist. Die Auswahl eines prognosetauglichen
Netzes bedeutet hier die Vermeidung einer Überanpassung an die Lerndaten. Durch eine
Steuerung des Lernprozesses oder eine Beschränkung des Gewichts- bzw. Parameterraums
soll die Anpassung einer hinreichend 'glatten' Ausgabefunktion erzwungen werden. Populäre
Regularisierungstechniken für KNN sind das Stopp-Training und die Weight-Decay-Techni-
ken. Alternativ können Mehrschicht-Perzeptrone als spezifische NLAR-Modelle aufgefaßt
und die Selektion eines möglichst einfachen oder 'sparsam' parametrisierten (parsimonious)
Modells mit adäquaten Prognoseeigenschaften angestrebt werden. Das Modellselektionspro-
blem besteht darin, die Ordnung p der Eingabeschicht, die Anzahl r der verborgenen
Einheiten und gegebenenfalls die Anzahl der von null verschiedenen Parameter im Netz
geeignet zu spezifizieren. Zur Modellselektion können statistische Ansätze wie die
Kreuzvalidierung, Informationskriterien oder Spezifikationstests eingesetzt werden.
Obwohl Spezifikationswerkzeuge gegeben sind, ist die Festlegung einer problemadäquaten
Netzausgabefunktion eher eine Kunst denn eine Routineaufgabe. Das heute verfügbare Instru-
mentarium erlaubt aus den unterschiedlichsten Gründen (noch ?) keine weitgehende Automa-
tisierung des Spezifikationsprozesses. In der Regel wird die subjektive Urteilsfähigkeit eines
erfahrenen Anwenders benötigt. Die Anforderungen an den Anwender erhöhen sich dabei
regelmäßig, wenn nur kurze Zeitreihen (relativ zur Komplexität des datenerzeugenden Prozes-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
120 MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN
ses) als Datenbasis gegeben sind. Im folgenden werden einige Spezifikationsinstrumente de-
taillierter diskutiert. Um hierbei die Ordnung der Eingabeschicht eines Netzwerkes von der
'wahren' Ordnung des datenerzeugenden NLAR-Prozesses symbolisch unterscheiden zu kön-
nen, wird erstere weiterhin durch p und letztere durch po gekennzeichnet.
6.3.1 Regularisierung
Stopp-Training oder Stopp-Lernen ist in der konnektionistischen Praxis wohl das gebräuch-
lichste Regularisierungsverfahren für KNN. Der pragmatisch geprägte Ansatz is t eher zur
Modellierung von Querschnittsdaten geeignet. Da Stopp-Training jedoch auch häufig als eine
Prozedur zur Zeitreihenmodellierung empfohlen wird (siehe z.B. Miller [1994] oder
Zimmermann [1994, S.60ff]), soll es hier ebenfalls angesprochen werden.
Als Prognoseinstrument sei ein MLP( p r, ,1)-Netz mit einer großen Anzahl r verborgener Ein-
heiten und einer hinreichend hohen Ordnung p der Eingabeschicht vorgegeben. Ferner seien
als Lerndaten beobachtete Werte des Ausschnitts Yt ( )t n=1,..., mit n p>> eines datener-
zeugenden Prozesses Yt t IZ∈ verfügbar. Aus der Sequenz können N n p= − Lernmuster
Z t = ( )Yt t, ′ ′−X 1 ( t p n= +1,..., ) mit X t t t pY Y− − −= ′1 1( ),..., gebildet und zum Netzwerktrai-
ning, z.B. mittels zyklischem Backpropagation-Lernen, genutzt werden. Aufgrund der hohen
Flexibilität der Lernmaschine wird der Lernprozeß in aller Regel zu einer Überanpassung an
die Daten und damit zu einer geschätzten Netzausgabefunktion ( )f ⋅ , $w mit ungünstigen
Prognoseeigenschaften führen. Ein natürliches Maß für die Prognoseperformance ist - Akaike
[1969, 1970] folgend - der erwartete quadratische Prognosefehler
(6.20) ( ) ( )[ ]PE E Y ft t$ , $w X w= − −( (
( )12
mit ( ( (X t t t pY Y− − −= ′1 1( ),..., . Hierbei ist
(Yt t IZ∈ ein zweiter stochastischer Prozeß mit identi-
schen probabilistischen Eigenschaften wie Yt t IZ∈ , die Prozeßvariablen (Yt und Yt sind je-
doch stochastisch unabhängig voneinander. Folge einer Überanpassung des Netzes wird ein
großer Wert des Fehlermaßes sein.
Eine mögliche Strategie zur Vermeidung einer schlechten Prognoseperformance besteht darin,
den Lernprozeß nicht bis zur Konvergenz des Lernalgorithmus auszuführen, sondern ihn vor-
zeitig in dem Zeitpunkt abzubrechen, in dem die Funktion ( )PE $w ein Minimum annimmt.
Der erwartete quadratische Prognosefehler ist in praktischen Anwendungen natürlich unbe-
kannt und muß geschätzt werden. Zu diesem Zweck wird beim Stopp-Training, in Analogie
zur Kreuzvalidierung (siehe Abschnitt 6.3.2), die Menge D p n= + Z Z1 ,..., der N verfügbaren
Lernmuster zufällig in zwei disjunkte Teilmengen D1 und D2 vom Umfang N1 bzw. N2 zer-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN 121
legt ( N N N1 2+ = ). Das i-te Element der Menge Dj sei vereinfachend mit Z Xij ij ijY= ′ ′( , )
bezeichnet (i N jj= =1 1 2,..., , ; ). Nur die Elemente Z i1 der Menge D1 (= Trainingsmenge
i.e.S.) werden weiterhin zur Adjustierung der Netzgewichte genutzt. Die Elemente Z i2 der
Menge D2 (= Validierungsmenge) dienen jetzt der Prüfung der Prognoseeigenschaften des
Netzes. Während des Lernprozesses wird ( )PE $w wiederholt (z.B. nach jeder abgeschlossenen
Trainingsepoche) durch den mittleren quadratischen Prognosefehler in der Validierungsmenge
(6.21) ( ) ( )STN
Y fi ii
N
$ $w X w= −=∑1
22 2
1
22
( , )
geschätzt. Der Lernprozeß wird abgebrochen, wenn die Fehlerfunktion ( )ST $w nach anfäng-
lichem Sinken zu wachsen beginnt.
Vorteilhaft an der Stopp-Training-Prozedur erscheint ihre Einfachheit und der geringe Re-
chenaufwand. Wird ein hinreichend großes Netzwerk vorgegeben, dann führt der Trainings-
prozeß i.d.R. sehr schnell zu einer Minimumstelle der Fehlerfunktion (6.21). Vom Anwender
wird lediglich die Festlegung der Umfänge N N1 2, der Trainings- und Validierungsmenge
verlangt. Ein praktisches Problem ist, daß der Trainingsprozeß eine globale Minimumstelle
der Fehlerfunktion ( )ST $w verfehlen und in einer lokalen Minimumstelle enden kann. Diese
Gefahr kann durch den Einsatz der Multistart-Technik gemildert werden.
Neben dem genannten praktischen Problem weist die Prozedur aus statistischer Sicht weitere,
zum Teil gravierende Schwachstellen auf:
(i) Die stochastischen Eigenschaften der Gewichtsschätzer sind unbekannt und können auch
nicht mit dem üblichen statistischen Instrumentarium analysiert werden.
(ii) Die Zerlegung der Datenmenge in eine Trainings- und eine Validierungsmenge ist ineffi-
zient, da sowohl dem Gewichtstraining als auch der Prognosevalidierung Daten 'vorent-
halten' werden. Notwendige Voraussetzung für das Erreichen guter Prognoseergebnisse
dürfte i.d.R. das Vorliegen einer sehr umfangreichen Datenmenge sein, so daß für das
Training und die Validierung jeweils eine hinreichende Anzahl Muster verfügbar ist.
(iii) Die größte Schwäche des Verfahrens resultiert aus der seriellen Abhängigkeitsstruktur
des datenerzeugenden Prozesses. Um eine realistische Schätzung des Fehlermaßes (6.20)
erwarten zu dürfen, sollten die Trainingsmuster und die Validierungsmuster Beobachtun-
gen stochastisch unabhängiger Zufallsgrößen sein. In Zeitreihenanwendungen bestehen
jedoch ausgeprägte Abhängigkeitsbeziehungen. Konsequenz ist, daß mit hoher Wahr-
scheinlichkeit ( )ST $w den erwarteten quadratischen Prognosefehler ( )PE $w unterschätzt
und der Lernprozeß erst dann gestoppt wird, wenn eine Überanpassung an die Trainings-
daten bereits erfolgt ist.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
122 MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN
Überraschenderweise wird dem letztgenannten Kritikpunkt in vielen konnektionistischen Ver-
öffentlichungen keine oder nur geringe Aufmerksamkeit geschenkt (siehe z.B. Miller [1994]).
Pragmatische Lösungen des Problems sind denkbar. Beispielsweise könnten die Elemente der
Trainings- und der Validierungsmenge wie folgt bestimmt werden: Der Menge D werden
mehrere Blöcke, jeweils bestehend aus 2k+1 zeitlich geordneten Mustervektoren Z Zt k t− ,..., ,
...,Zt k+ , entnommen, wobei die Zahl k so zu wählen ist, daß die Muster Z t k− −1, Z t und
Z t k+ +1 approximativ unabhängig voneinander sind. Die 'mittleren' Muster Z t der Blöcke
bilden die Validierungsmenge D2, während die 'Randmuster' Z Z Z Zt k t t t k− − + +,..., , ,...,1 1 weder
zur Gewichtsschätzung noch zur Validierung genutzt werden. Die in D verbliebenen Ele-
mente bilden die Trainingsmenge D1. Natürlich gilt der Kritikpunkt (ii) für diese modifizierte
Vorgehensweise im verstärktem Maße.
Ein weiterer populärer Regularisierungsansatz für KNN ist der sogenannte Weight-Decay
(Gewichtszerfall, siehe Hinton [1986]). Charakteristikum der Weight-Decay-Technik ist, daß
die Schätzung einer hinreichend glatten Netzausgabefunktion durch 'Bestrafung' absolut
großer Netzgewichte erzwungen werden soll. Es seien wieder ein groß dimensioniertes
MLP( p r, ,1)-Netz und N n p= − Lernmuster Z t = ( )Yt t, ′ ′−X 1 ( t p n= +1,..., ) gegeben. Ziel
des Netzwerktrainings ist jetzt die Minimierung einer erweiterten NKQ-Zielfunktion
(6.22) ( ) ( ) ( )WDN
Y f Ct tt p
n
w X w w= − +
−
= +∑1
11
2( , ) λ ,
wobei λ ein frei wählbarer, nicht-negativer Regularisierungsparameter und ( )C w w w= ′ eine
quadratische Straf- oder Komplexitätsfunktion ist. Die quadratische Funktion erzwingt
tendenziell kleine Absolutbeträge aller Netzgewichte. Der Ansatz ist eng mit der Ridge-
Schätzung von Parametern in linearen Regressionsmodellen verwandt (siehe Hoerl &
Kennrad [1970a,b]). Im (trivialen) Spezialfall einer linearen Netzausgabefunktion sind
Weight-Decay und Ridge-Regression äquivalent.
Weigend [1991] schlägt als Alternative zur unbeschränkten quadratischen Straffunktion
( )C w w w= ′ das beschränkte Funktional
(6.23) ( )( )
( )C
w
wi
ii
m
w =+=
∑τ
τ
2
211
vor, wobei wi die i-te Komponente des m-dimensionalen Vektors w kennzeichnet und τ ein
positiver Skalierungsparameter ist. Die Funktion (6.23) nimmt Werte im Intervall [ )0 ,m an.
Gewichte mit wi >> τ liefern einen 'Strafbeitrag' nahe Eins und Gewichte mit wi << τ einen
Beitrag nahe null. Weigend wählt den Skalierungsparameter τ in Abhängigkeit vom Wertebe-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN 123
reich der Aktivierungsfunktionen φ im Netzwerk. Variieren die Aktivierungen im Intervall
( )0 1 , , dann empfiehlt er den Parameterwert τ=1 . Bei geeigneter Vorgabe des Regularisie-
rungsparameters erzwingt die Straffunktion Gewichtsvektoren mit einigen Gewichten mode-
rater Größenordnung und vielen Gewichten nahe null. Weigend bezeichnet diese Variante des
Weight-Decay deshalb auch als Weight-Elimination. Man beachte, daß beide genannten Straf-
funktionen so gewählt sind, daß nur geringfügige Modifikationen des Standard-Backpropaga-
tion-Algorithmus notwendig sind, um Backpropagation auch zur Minimierung der erweiterten
Zielfunktion (6.22) einsetzen zu können.
Ob mit Hilfe von Weight-Decay eine geeignete Regularisierung des Netzwerkes gelingt, hängt
entscheidend von der Wahl des Parameters λ ab. Im Idealfall sollte λ so festgelegt werden,
daß der erwartete quadratische Prognosefehler (6.20) minimal ist. In der konnektionistischen
Literatur finden sich zahlreiche Vorschläge zur 'On-Line-Optimierung' von λ, womit eine
simultane Optimierung des Regularisierungsparameters und der Netzgewichte im Laufe des
Lernprozesses gemeint ist. So greift beispielsweise Zimmermann [1994, S.63] die Grundidee
des Stopp-Trainings auf: Die Datenmenge D wird wieder in eine Trainingsmenge D1 und eine
Validierungsmenge D2 zerlegt; während des Lernprozesses ist λ so einzustellen, daß die
mittleren quadratischen Fehler in beiden Mengen möglichst gleichförmig sinken. Ebenso wie
Stopp-Training ist diese Prozedur jedoch eher für Querschnittsdaten denn für Zeitreihendaten
geeignet. Desweiteren macht sie keinen Gebrauch von einem potentiellen Vorteil des Weight-
Decay, nämlich der Nutzung der kompletten Datenmenge D zur Parameteradjustierung. Eine
simultane Optimierung des Regularisierungsparameters und der Netzgewichte auf Basis aller
verfügbaren Lerndaten streben die On-Line-Ansätze von MacKay [1995] und Weigend
[1991] an. Der erste Ansatz ist ein Bayes'sches Verfahren, der zweite Ansatz ein einfaches
heuristisches Verfahren zur Kontrolle von λ. Der Vorschlag von Weigend wird im Rahmen
eines empirischen Anwendungsbeispiels in Kapitel 9.2 detailliert diskutiert.
Problematisch an den vorgestellten Vorgehensweisen ist die a priori Vorgabe einer Ordnung p
der Netzeingabeschicht. Um sicherzustellen, daß p die wahre Ordnung po des datenerzeugen-
den NLAR-Prozesses nicht unterschreitet und damit möglicherweise der Netzeingabevektor
X t t t pY Y− − −= ′1 1( ),..., für die Prognose bedeutsame zeitverzögerte Variablen Yt l− ( )1< ≤l ponicht enthält, erscheint zunächst die Vorgabe einer hohen Ordnung p ratsam. Diese Strategie
ist natürlich unbefriedigend: Gilt p po>> , dann ist die Netzwerkkomplexität unnötig hoch
und die Anzahl N der verfügbaren Lernmuster wird unnötig reduziert.
Im Rahmen der schnellen Stopp-Training-Prozedur, bietet sich an, mit verschiedenen Ordnun-
gen p p1 2, ,... zu experimentieren, ehe eine endgültige Wahl getroffen wird. Selektiert wird
die Ordnung, die einen minimalen Wert der Fehlerfunktion (6.21) ermöglicht. Die prinzipiel-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
124 MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN
len Bedenken bezüglich der Validität von Stopp-Trainingsergebnissen bleiben allerdings be-
stehen. Weight-Decay bietet keine verfahrensimmanente Problemlösung an. Hier ist der Ein-
satz ergänzender Analyseverfahren notwendig. In der konnektionistischen Praxis wird daher
Weight-Decay auch mit Modellselektionstechniken kombiniert. Das Modellspezifikationspro-
blem besteht nun darin, simultan eine Netzwerkarchitektur und einen Regularisierungspara-
meterwert adäquat zu bestimmen.
6.3.2 Modellselektion mittels Kreuzvalidierung und Informationskriterien
Modellselektionsverfahren verfolgen die Strategie, aus einer präspezifizierten Menge M an
Modellen das im Sinne der Aufgabenstellung 'beste' Modell auszuwählen. Zur Konkretisie-
rung sei zunächst angenommen, die Modellmenge enthalte NM MLP-Netze mit den Ausgabe-
funktionen
(6.24) ( ) ( ) ( ) ( ) ( )( )
( ) ( ) ( )( )( )
f x xu u u u u
u
u u u
uu
i i
i
p
j j ij i
i
p
j
r
( )x w, = + ⋅ + ⋅ + ⋅
= ==
∑ ∑∑α α β φ γ γ0
1
0
11
( )u N M= 1,..., .
Die Netze unterscheiden sich hinsichtlich der Ordnung ( )p u der Eingabeschicht und/oder der
Anzahl ( )r u der verborgenen Verarbeitungseinheiten. So können beispie lsweise Höchstwerte
p max , r max für ( )p u , ( )r u aufgrund heuristischer Überlegungen festgelegt und alle
MLP( ( ) ( )p ru u, ,1 )-Netze der Ordnung ( )p pu = 1,..., max , ( )r ru = 1,..., max in die Menge M auf-
genommen werden. Um eine Entscheidung für ein Element von M herbeiführen zu können,
bedarf es eines geeigneten Entscheidungskriteriums. Es bietet sich an, die erwarteten quadrati-
schen Prognosefehler der konkurrierenden Netze zu schätzen und das Netz mit dem kleinsten
Schätzwert auszuwählen. Die Schätzung kann hierbei direkt mit Hilfe der Kreuzvalidierungs-
methode oder indirekt durch Adjustierung der Residualvarianz angepaßter Netze erfolgen.
Der Basisansatz der Kreuzvalidierung (Stone [1974], Geisser [1975]) wurde bereits im Rah-
men der Stopp-Training-Prozedur vorgestellt: Die Schätzung der Netzgewichte und die Vali-
dierung der Prognoseeigenschaften eines Netzes erfolgen getrennt auf Basis zweier disjunkter
Teilmengen des verfügbaren Datensatzes. Im hier interessierenden Kontext ist der Einsatz
verfeinerter Techniken möglich, die einen effizienteren Gebrauch von den verfügbaren Daten
machen. Mit diesen Techniken ist allerdings ein deutlich erhöhter Rechenaufwand verbunden.
Eine effiziente Datennutzung ermöglicht die sogenannte 'leave-one-out cross-validation'.
Mit ( )( )
( ) ( )D uu
u u
p n= + Z Z1,..., sei die für das Training und die Validierung des Approximators
( )f u ( )⋅ ⋅, verfügbare Mustermenge gekennzeichnet. Die Menge enthält die Werte der( ) ( )N n pu u= − Vektoren ( ) ( )Z Xt
u uYt t= ′−( ), '1 mit ( )
( )X t t t pu
uY Y− − −= ′1 1( ),..., als Elemente. Ferner
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN 125
sei ( )$w u eine auf ( )D u basierende NKQ-Schätzung für ( )w u . Leave-one-out Kreuzvalidierung
schätzt jetzt den erwarteten quadratischen Prognosefehler des angepaßten Netzes( ) ( )f u u( ) ⋅ , $w durch den kreuzvalidierten mittleren Prognosefehler
(6.25) ( )( )
( ) ( ) ( )( )( )
CV fN
Y fuu
u u u
ut t t
t p
n
0 1 0
2
1
1( ) ( )= − −
= +∑ X w, $ , ( )u N M= 1,..., ,
wobei ( )$ ,w0 tu eine auf der Teilmenge ( ) ( )D u u
t\ z von ( )D u basierende NKQ-Schätzung für( )w u ist:
(6.26) ( ) ( ) ( ) ( )( )( )
$ arg min ,, ,w X w0 1
2
1t j j t j
j p
nu u u u
u
Y f= −
−
= +∑ ( ) ω ( )( )t p nu= +1,..., .
In (6.26) ist ( ) ωt j p t j nu, ,+ ≤ ≤1 eine Menge reeller Gewichte mit
( )( )ωt j
j t
N u, ==
−
0
1 1 sonst.
Die leave-one-out Kreuzvalidierung ist für Anwendungen konzipiert, in denen Realisationen
stochastisch unabhängiger Zufallsvektoren als Lernmuster gegeben sind. In Zeitreihenanwen-
dungen ist dies nicht erfüllt, und (6.25) wird mit hoher Wahrscheinlichkeit zu einer ungerecht-
fertigt optimistischen Schätzung der Prognoseperformance des Netzes führen. Die verzerren-
den Effekte seriell abhängiger Daten können durch die im Vorkapitel skizzierte Block-
Technik abgeschwächt werden. Im Rahmen der k-Block-Kreuzvalidierung (siehe z.B. Burman
et al. [1994]) wird bei der Ermittlung des t-ten NKQ-Schätzung anstelle eines einzelnen
Musters ( )Z tu ein Block von (höchstens) 2k+1 Muster ( ) ( ) ( )Z Z Zt k t t k
u u u− +,..., ,..., aus der Menge
( )D u entfernt. Am historischen und aktuellen Rand der Zeitreihe können asymmetrische
Blöcke gebildet und entfernt werden. Der k-Block-NKQ-Schätzer für ( )w u sei mit bezeichnet( )$ ,wk tu . Es gilt:
(6.27) ( ) ( ) ( ) ( )( )( )
$ arg min ,, ,w X wk t j j t jj p
nu u u u
u
Y f= −
−
= +∑ ( )1
2
1
ω ( )( )t p nu= +1,...,
mit den Gewichten
( )
( ) ( )( )ωt j
p j t k
N k t p
u
u u, =< ≤ +
− − +
0
1 sonst
für ( ) ( )p t p ku u+ ≤ ≤ +1 ,
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
126 MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN
( )( )ωt j
t k j t k
N ku, =− ≤ ≤ +
− −
0
1 2 1 sonst
für ( )p k t n ku + < ≤ − und
( )( )ωt j
t k j n
t k p u, =− ≤ ≤
− − −
0
1 1 sonst
für n k t n− < ≤ . Der kreuzvalidierte mittlere Prognosefehler des u-ten Netzes ist analog zu
(6.25) durch
(6.28) ( )( )
( ) ( ) ( )( )( )
CV fN
Y fk t t k tt p
nu
uu u u
u
( ) ( )= − −= +
∑11
2
1
X w, $ , ( )u N M= 1,..., ,
gegeben. Für k = 0 geht (6.28) in (6.25) über. Aus der Menge M der konkurrierenden Netze
wird jetzt dasjenige selektiert, für das ( )CV fku( ) den kleinsten Wert annimmt.
Es bleibt die Frage zu diskutieren, wie der Blockparameter k festzulegen ist. Durch die Block-
bildung sollen näherungsweise unabhängige Trainings- und Validierungsmengen erzeugt
werden. Mit welchem Blockparameterwert dies zu erreichen ist, hängt von der 'Gedächtnis-
länge' des datenerzeugenden Prozesses ab. Erkenntnisse über den Zeitraum, in dem die seri-
ellen Abhängigkeitsbeziehungen zwischen den Prozeßvariablen wirksam sind, können durch
Analyse empirischer zentraler Momentfunktionen zweiter Ordnung (Autokovarianzfunktion)
und höherer Ordnung der beobachteten Zeitreihe gewonnen werden. Die Wahl von k ist un-
problematisch, wenn eine relativ zum Prozeßgedächtnis lange Zeitreihe als Datenbasis ver-
fügbar ist. Hier kann einerseits ein hinreichend großes k gesetzt werden, um näherungsweise
Unabhängigkeit zwischen Trainings- und Validierungsmengen zu erreichen. Andererseits ver-
bleiben in den Trainingsmengen hinreichend viele Daten, um zuverlässige Schätzungen der
Netzgewichte zu gewährleisten. Ist die Zeitreihe jedoch relativ zum Prozeßgedächtnis kurz,
dann besteht die Gefahr, daß k-Block-Kreuzvalidierung zu unrealistischen Schätzungen der
erwarteten quadratischen Prognosefehler führt. Ein kleines k (relativ zu ( )N u ) führt tenden-
ziell zur Unterschätzung der Prognosefehler. Ein großes k (relativ zu ( )N u ) führt zu ineffizi-
enten Gewichtsschätzungen und - als Folge - tendenziell zur Überschätzung der Prognose-
fehler.
Um das geschilderte Problem zu mildern, schlagen Burman et al. [1994] einen heuristisch
motivierten Korrekturterm für die k-Block-Kreuzvalidierungsschätzung ( )CV fku( ) des
Prognosefehlers vor. Die Autoren zeigen im Rahmen einer Simulationsstudie, daß für lineare
AR(p)-Modelle und kurze Zeitreihen die korrigierte k-Block-Kreuzvalidierung gegenüber der
unkorrigierten Technik zu deutlich zuverlässigeren Schätzergebnissen führt. Insbesondere
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN 127
reagiert das Verfahren weniger sensibel auf die Wahl des Blockparameters. In dem hier
diskutierten Kontext besitzt die korrigierte Schätzung die Form:
(6.29) ( )
( )( ) ( ) ( )( ) ( )
( ) ( ) ( )( )
( )( ) ( ) ( )( ) ( )
CCV fN
Y fN
Y f
NY f u N
k t t k tt
t t k jtj
t tt
uu
u u u
u
u u u
uu u u
M
( ) ( ) ( )
( )
= − − −
+ − =
− −
−
∑ ∑∑
∑
1 1
1 1
12
1
2
12
2X w X w
X w
, $ , $
, $ ,..., .
, ,
Die experimentellen Ergebnisse von Burman et al. basieren allerdings ausschließlich auf Simu-
lationen von Prozessen mit vergleichsweise kurzem Gedächtnis. Liegt ein datenerzeugender
Prozeß mit langem Gedächtnis vor, dann ist auch beim Einsatz der korrigierten Technik Vor-
sicht geboten.
Ein weiterer Schwachpunkt der k-Block-Kreuzvalidierung ist der mit ihr verbundene enorme
Rechenaufwand. Die Ermittlung von ( )CV fku( ) bzw. ( )CCV fk
u( ) erfordert für jedes u die( )N u -fache NKQ-Schätzung des Gewichtsvektors
( )w u . Ein pragmatischer Weg, den Auf-
wand zu reduzieren, wäre eine Kombination der k-Block-Technik mit der 'K-fold cross-vali-
dation' (siehe z.B. Geisser [1975]). Eine weitergehende Reduktion ermöglicht der Einsatz von
Informationskriterien.
Mit ( )$w u sei wieder eine auf der Datenmenge ( )D u basierende NKQ-Schätzung des Ge-
wichtsvektors eines MLP( ( ) ( )p ru u, ,1 )-Netzes ( ) ( )f u u( ) ⋅ ,w gegeben. Ein übliches Maß für
die Güte der Anpassung des Netzwerkes an die Daten ( )D u ist die mittlere Residual-
quadratsumme
(6.30) ( )( )
( )
( )
$ $σ εuu
u
uN tt p
n2 2
1
1== +
∑
mit ( ) ( ) ( ) ( )$ , $ε t t tu u u uY f= − −( )X w1 , ( ) ( ) ( )Z Xt t t
u u uY D= ′ ∈−( ), '1 . Unter den Annahmen, daß ein da-
tenerzeugender NLAR( ( )p u )-Prozeß der Form (6.9) vorliegt und ( ) ( ) ( )f u u u( )x w, $ die beding-
te Erwartungswertfunktion ( ) ( ) ( )µ( ) [ ] x X xu u uE Yt t= =−1 des Prozesses für alle ( ) ( )x u u
IR p∈hinreichend gut approximiert, ist ( )$σ u 2
auch ein geeignetes Maß für die Prognoseperformance
des Netzes. ( )$σ u 2 ermöglicht jetzt eine adäquate Schätzung der Varianz Var t[ ]ε = σε
2 der
Störungen ε µt t tY= − −( )X 1 des Prozesses, die mit den Prognosefehlern des MSE-optimalen
Einschritt-Prediktors für Yt im Prognoseursprung t−1 identisch sind. Liegt hingegen ein
NLAR( po )-Prozeß mit ( )p pou< vor, und/oder wurde ein MLP( ( ) ( )p ru u, ,1 )-Netz mit einer
unnötig großen Anzahl ( )r u verborgener Einheiten gewählt, dann wird ( )$σ u 2 die Prognose-
fehlervarianz σε2 systematisch unterschätzen und ist als Prognoseperformance-Maß ungeeig-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
128 MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN
net. In der Tat wird für einen Datensatz finiten Umfanges ( )$σ u 2 für wachsendes ( )p u und ( )r u
monoton gegen null streben.
Eine realistischere Einschätzung der 'out-of-sample' Prognoseeigenschaften von Modellen er-
möglichen Kriterien, die die Anpassungsgüte komplexer Modelle durch einen Komplexitäts-
term adäquat 'bestrafen'. In der statistischen Literatur finden sich zahlreiche Vorschläge für
Modellselektionskriterien, die diese Strategie verfolgen. Die populärsten Ansätze sind das
Akaike Information Criterion (AIC) (Akaike [1974]), das Schwarz Information Criterion
(SIC) (Schwarz [1978]) und das Hannan-Quinn Information Criterion (HQIC) (Hannan &
Quinn [1979]). Die auf der Maximum-Likelihood-Methode basierenden Informationskriterien
finden in den unterschiedlichsten Bereichen statistischer Modellierung Anwendung. Im hier
interessierenden Kontext können sie wie folgt notiert werden:
(6.31) ( ) ( )( )
( )AIC f mN
u uu
u( ) = + ⋅ln $σ 2 2
,
(6.32) ( ) ( )( ) ( )
( )SIC f m NN
u uu u
u( ) = + ⋅ln $ lnσ 2
,
(6.33) ( ) ( )( ) ( )
( )HQIC fm c N
Nu u
u u
u( )
( )= + ⋅ ⋅ln $ ln lnσ
2 ,c ≥ 2 ,
wobei ( )m u die Anzahl der geschätzten Netzgewichte ist. Der erste Term ( )ln $σ u 2 auf den
rechten Seiten in (6.31) - (6.33) mißt jeweils die Anpassungsgüte, die zweiten Terme
bestrafen die durch die Parameteranzahl indizierte Komplexität eines Modells. Ein Modell ist
im Sinne des jeweiligen Kriteriums optimal, wenn die Summe der beiden Terme minimal ist.
Beim Einsatz von Informationskriterien entfällt gegenüber der k-Block-Kreuzvalidierung das
kritische Problem der Wahl eines adäquaten Blockparameters. Andererseits erfordert ihre
theoretische Rechtfertigung im Gegensatz zur datengetriebenen Kreuzvalidierung restriktive
Annahmen. Eine Basisannahme ist, daß das wahre datenerzeugende Modell Element der
vorgegebenen Modellmenge M ist. D.h. hier, es existiert eine Funktion ( )f Mu ∈ so, daß( ) ( ) ( ) ( )P ft t ou u u( )( ) ( )uµ X X w− −= =1 1 1, für ein ( ) ( )w IRo
mu u∈ gilt. Eine weitere Annahme ist, daß
die Prozeßstörungen εt unabhängig und identisch N ( )0 2,σε -verteilt sind. Unter diesen Vor-
aussetzungen ist ( )ln $σ u 2 proportional zum Maximum der Loglikelihoodfunktion des Modells
( ) ( )f uo( )
u⋅ ,w (siehe z.B. Tong [1990, S.281ff] für eine ausführliche Diskussion). Diese Vor-
aussetzungen werden in vielen Anwendungen nicht oder nur näherungsweise erfüllt sein. Den-
noch können die Kriterien als sinnvolle heuristische Selektionskriterien angesehen werden,
die eine Ausbalancierung von Anpassungsgüte und Modellkomplexität anstreben.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN 129
Das SIC und das HQIC bestrafen die Parameteranzahl stärker als das AIC und führen daher
i.d.R. zur Auswahl konservativerer (weniger komplexer) Modelle. Es ist bekannt, daß das SIC
und das HQIC, eingesetzt als Selektionskriterien für lineare AR(p)- und ARMA(p,q)-Modelle,
unter Regularitätsbedingungen eine konsistente Schätzung der 'wahren' Modellkomplexität
ermöglichen, während das AIC (auch) bei Vorliegen infinit langer Zeitreihen zur Auswahl
überparametrisierter Modelle tendiert (siehe Hannan [1980]). Aus diesem Grund werden das
SIC und das HQIC in der linearen Zeitreihenanalyse bevorzugt eingesetzt. Ob SIC und HQIC
dem AIC auch als Selektionskriterien für MLP-Netze vorzuziehen sind, kann an dieser Stelle
nicht beantwortet werden. Nach eigenen Erfahrungen tendiert das SIC bei Vorliegen von Zeit-
reihen moderater Länge zur Auswahl übermäßig konservativer Netzwerke. Ein Beispiel wird
in Kapitel 9.2 diskutiert.
Bei praktischen Anwendungen der k-Block-Kreuzvalidierung und der Informationskriterien
treten, neben den bereits genannten Problemen, weitere Schwierigkeiten auf. Zum einen hängt
die Validität der Selektionsergebnisse entscheidend davon ab, daß die Gewichtsschätzungen
tatsächlich mit globalen Minimumstellen der jeweiligen NKQ-Zielfunktionen identisch sind.
Da die Zielfunktionen eine Vielzahl suboptimaler, lokaler Minima besitzen können, ist eine
sorgfältige Kontrolle der Schätzergebnisse (gegebenenfalls durch Multistart-Technik) not-
wendig. Zum anderen dürften beide Verfahren unter den bisher getroffenen Vereinbarungen
i.d.R. nur bei Verfügbarkeit sehr langer Zeitreihen zu befriedigenden Selektionsergebnissen
führen. Im Falle kurzer Reihen mit n < 100 Beobachtungen können bereits Netzwerke mit
mehr als einer verborgenen Verarbeitungseinheit zu einer Überanpassung führen. Dies gilt
selbst für längere Reihen ( n > 100 ), wenn eine hohe Ordnung der Eingabeschicht erforderlich
ist. Folge ist, daß das Potential der Mehrschicht-Perzeptrone mit mehreren verborgenen Ein-
heiten nicht genutzt werden kann (siehe hierzu auch Kapitel 9).
Eine denkbare Lösung des letztgenannten Problems besteht in einer Erweiterung der Modell-
selektionsaufgabe. Bisher wurden als konkurrierende Modelle ausschließlich 'volle'
MLP( ( ) ( )p ru u, ,1)-Netze unterschiedlicher Ordnung ( )p u und/oder ( )r u betrachtet. Es können
jedoch auch 'Subset-Netze', die sich dadurch auszeichnen, daß einige Netzgewichte ( )αiu und/
oder ( )γ iju a priori gleich null gesetzt sind, in den Selektionsprozeß mit einbezogen werden.
Das Vorgehen erlaubt es, Netzwerke hoher Ordnung ( )p u , ( )r u zu konstruieren, die dennoch
nur eine moderate Anzahl frei adjustierbarer Parameter enthalten. Diese in der Zeitreihenana-
lyse übliche Praxis ist speziell dann sinnvoll, wenn eine Zeitreihe zyklische Schwankungen
aufweist. Hier wird häufig nur eine Teilmenge der Komponenten des Eingabevektors ( )X tu−1
zur adäquaten Modellierung benötigt (siehe z.B. Birkenfeld & Schuhr [1985]). Der Umsetz-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
130 MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN
barkeit dieser Strategie sind in der Praxis jedoch enge Grenzen gesetzt, da aus der kombinato-
rischen Vielfalt von Subset-Netzen ein kaum handhabbar hoher Rechenaufwand resultiert.
Eine häufig praktikablere Problemlösungsstrategie ist die Kombination eines Modellselekti-
onsverfahrens mit der Standard-Weight-Decay-Technik. Vorgegeben wird eine Menge von
MLP(p,r,1)-Netzwerkarchitekturen mit einer festen, hinreichend groß gewählten Anzahl r
verborgener Einheiten und variabler Ordnung p der Eingabeschicht. Das Netzwerktraining
erfolgt durch Minimierung einer erweiterten NKQ-Zielfunktion der Form (6.22) mit quadrati-
scher Straffunktion und verschiedenen, vorgegebenen Werten des Regularisierungsparameters
λ. Jedes verschiedene Wertepaar von p und λ definiert ein anderes Modell ( )f u ( )⋅ ⋅, . Gesucht
wird jetzt das optimale Wertepaar.
Eine Kombination von k-Block-Kreuzvalidierung und Weight-Decay ist einfach implemen-
tierbar. Die Gleichung (6.27) ist durch
(6.34) ( ) ( ) ( ) ( ) ( ) ( )( )( )
$ argmin ,, ,w X w wk t j j t j
j p
nu u u u u u
u
Y f C= − +
−
= +
∑ ( ) ( )1
2
1
λ ω ( )( )t p nu= +1,...,
zu ersetzen, wobei ( )p u für die Ordnung der Eingabeschicht und ( )λ u für den Regularisie-
rungsparameter des u-ten Netzes steht. Ein praktisches Problem kann daraus resultieren, daß
für festes t gegebenenfalls multiple Minimumstellen ( )$ ,wk tu mit unterschiedlicher Vektornorm
existieren. Zur Vermeidung nicht-valider Ergebnisse sollten deshalb normierte Gewichte in
die Straffunktion eingesetzt werden; z.B. ( ) ( )C u u( )w w , wobei L die euklidische Norm
kennzeichnet. Durch geeignete heuristische Strategien der Regularisierungsparametervorgabe
kann der erforderliche Rechenaufwand in Grenzen gehalten werden. So bietet es sich bei-
spielsweise an, Regularisierungsparameterwerte, die bei einfachen Netzen keine hinreichende
Glättung der Ausgabefunktion ermöglichten, bei komplexeren Netzwerken nicht mehr ins
Kalkül zu ziehen.
Eine Kombination von Weight-Decay und Modellselektion mittels AIC, SIC und HQIC ist
nicht möglich, da im Falle künstlich 'gedämpfter' Netzparameter ihre Anzahl kein tauglicher
Indikator für die Netzwerkkomplexität ist. Murata et al. [1991] schlagen ein generalisiertes
AIC, das Network Information Criterion (NIC), vor, das auch die Diskrimination regularisier-
ter Netze erlaubt. Ein eng verwandter Ansatz ist der Generalized Prediction Error (GPE) von
Moody [1992]. Bezüglich der näheren Hintergründe sei auf die angegebene Literatur verwie-
sen.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN 131
6.3.3 Diagnose der Anzahl verborgener Verarbeitungseinheiten
Unabhängig davon, welche Spezifikationswerkzeuge eingesetzt werden, sollte ein spezifi-
ziertes Netzwerk vor dem Prognoseeinsatz einer kritischen Diagnose unterworfen werden. Es
ist zu prüfen, ob das Mehrschicht-Perzeptron die prognoserelevanten Eigenschaften des da-
tenerzeugenden Prozesses adäquat erfaßt oder nicht. Hält es der Prüfung nicht stand, dann ist
das Netz als inadäquat zu verwerfen, und es gilt, ein modifiziertes Netz zu spezifizieren.
Eine mögliche Diagnosestrategie ist die Residuenanalyse. Mit $ , $ε t t tY f= − −( )X w1 seien
wieder die Residuen eines angepaßten Netzes bezeichnet. Ermöglicht die Netzausgabefunktion
eine adäquate Approximation der bedingten Erwartungswertfunktion des datenerzeugenden
NLAR-Prozesses, dann entsprechen die statistischen Eigenschaften der Residuen $εt denen
der Prozeßstörungen εt näherungsweise; speziell sind die Residuen approximativ unabhängig
voneinander. Umgekehrt verweisen ausgeprägte serielle Abhängigkeitsbeziehungen in der
Residualreihe auf eine Misspezifikation des Netzes. Zur Analyse serieller Abhängigkeits-
beziehungen in Residualreihen steht ein umfangreiches statistisches Instrumentarium zur Ver-
fügung. Eine detaillierte Darstellung der Verfahren geben z.B. Schuhr [1991] oder Granger &
Teräsvirta [1993].
Eine andere Diagnosestrategie verfolgt der sogenannte Overfitting-Ansatz (vgl. Box & Jenkins
[1970, S.286]). Hier wird geprüft, ob durch den Übergang von einem gegebenen Modell zu
einem erweiterten Modell eine verbesserte Erfassung der Strukturen des datenerzeugenden
Prozesses erreicht werden kann. Diese Strategie ist natürlich nur dann sinnvoll, wenn zuvor
die Spezifikation eines möglichst einfachen Modells angestrebt wurde, so daß eine Über-
anpassung des spezifizierten Modells auszuschließen ist. Geeignete Instrumente zur prakti-
schen Umsetzung des Overfitting-Ansatzes sind Lagrange-Multiplier-Testverfahren.
Teräsvirta & Lin [1993] schlagen eine erweiterte Version des in Abschnitt 6.2 vorgestellten
Lagrange-Multiplier-Tests auf Nichtlinearität stochastischer Prozesse von Teräsvirta, Lin &
Granger [1993] vor, der in dem genannten Sinne als ein diagnostischer Spezifikationstest für
Mehrschicht-Perzeptrone einsetzbar ist. Der LM-Test ermöglicht die Diagnose der Anzahl
verborgener Verarbeitungseinheiten eines Netzes.
Als datenerzeugender Prozeß sei ein streng stationärer NLAR(p)-Prozeß unterstellt, dessen
bedingte Erwartungswertfunktion fast sicher durch ein MLP(p,r+1,1)-Netz mit Shortcut-Ver-
bindungen und einer logistischen Aktivierungsfunktion ( ) ( )φ x x= + − −− 1 1 12
exp der verbor-
genen Einheiten fehlerfrei approximiert werden kann. Der datenerzeugende Prozeß ist also ein
streng stationärer MLPAR(p)-Prozeß der Form
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
132 MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN
(6.35) ( )Yt t u u tu
r
t= ′ + ′ +− −=
+
∑αα γγ~ ~X X1 11
1
β φ ε , ε σεt iid~ ,( )0 2 ,
mit αα = ′ ∈ +( )α α α0 11, ,..., p IR p , ββ = ′ ∈+
+( )β β1 11,..., r IR r und γγ u u u pu IR p= ′ ∈ +( )γ γ γ0 1
1, ,...,
(u = 1,...,r+1). Ferner sei das zu prüfende Mehrschicht-Perzeptron ein MLP(p,r,1)-Netz mit
analogem Aufbau. Unter diesen Vereinbarungen erlaubt ein MLP(p,r,1)-Netzwerk nur dann
eine adäquate Approximation des datenerzeugenden Prozesses, wenn genau eine der verbor-
genen Verarbeitungseinheiten in (6.35) inaktiv ist; anderenfalls besteht Raum zur Verbesse-
rung. Durch einen Test der Hypothesen
(6.36) H r0 1: γγ + = 0 versus H r1 1: γγ + ≠ 0
kann jetzt geprüft werden, ob die Anzahl r verborgener Einheiten hinreichend groß ist.
Auch bei diesem Test entsteht ein Identifikationsproblem: Unter Gültigkeit der Nullhypothese
H0 ist das Gewicht βr++1 in (6.35) nicht identifiziert und erweist sich als ein störender Para-
meter. Teräsvirta & Lin [1993] lösen das Identifikationsproblem durch eine Taylor-Reihen-
Approximation dritter Ordnung der Funktion ( )φ ′ + −γγ r t1 1~X in der Umgebung des Punktes
γγ r+ =1 0 [vgl. die Gleichungen (6.18) und (6.19)]. Das Ausgangsmodell (6.35) wird durch die
Approximation
(6.37) ( )Y
Y Y Y Y Y
t t u u tu
r
ij t i t jj i
p
i
p
ij t i t j t kk j
p
j i
p
i
p
t
= ′ + ′
+ + +
− −=
− −==
− − −===
∑
∑∑ ∑∑∑
ππ γγ~ ~X X1 11
1 1
β φ
δ δ η
mit ππ ∈ +IR p 1 ersetzt, und an die Stelle des Ausgangstestproblems (6.36) tritt das Ersatzpro-
blem
(6.38) ′ =H0 : δδ 0 versus ′ ≠H1: δδ 0
mit dem ( )p p p3 26 5 6+ + -dimensionalen Parametervektor δδ = ′( )δ δ δ δ11 111,..., , ,...,pp ppp .
Die resultierende LM-Testprozedur besteht wieder aus drei Schritten. Als Datenbasis seien
die Lernmuster Z t = ( )Yt t, ′ ′−X 1 ( t p n= +1,..., ) mit X t t t pY Y− − −= ′1 1( ),..., gegeben:
(i) Schätze den Parametervektor w = ′ ′ ′ ′( )αα γγ γγ, ,..., , ,...,β β1 1r r des MLP(p,r,1)-Netzwerks
mit Hilfe der NKQ-Methode (oder einer asymptotisch äquivalenten Methode). Berechne
die Residuen $ , $εt t tY f= − −( )X w1 ( t p n= +1,... , ) und die Residualquadratsumme
RSS tnt p0
21= ∑ = + $ε des geschätzten Netzwerk-Modells.
(ii) Schätze mit Hilfe der KQ-Methode die Koeffizienten der linearen Hilfsregression
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN 133
( )
( ) ( )
$ $ ~
$ ~ $ ~
ε κ κ λ φ
θ φ θ φ
t i t ii
p
i i ti
r
i i ti
r
ij i t t jj
p
i
r
Y
Y
= + + ′
+ ′ ′ + ′ ′
−=
−=
−=
− −==
∑ ∑
∑ ∑∑
01
11
0 11
111
γγ
γγ γγ
X
X X
+ + +− −==
− − −===
∑∑ ∑∑∑ϑ ϑ νij t i t jj i
p
i
p
ijk t i t j t kk j
p
j i
p
i
p
tY Y Y Y Y1 1
( )t p n= +1,...,
wobei ( )′ ⋅φ die erste Ableitung der Aktivierungsfunktion und νt eine Fehlervariable ist.
Berechne die Residuen $νt ( )t p n= +1,..., und die Residualquadratsumme RSS tnt p1
21=∑ = + $ν
der geschätzten Regression.
(iii) Berechne den Wert der Testfunktion
( )LM n p R32= − ⋅ mit ( )R RSS RSS RSS2
0 1 0= − .
R2 ist das unzentrierte Bestimmtheitsmaß der linearen Hilfsregression aus Schritt (ii).
Die Statistik LM3 ist unter Gültigkeit von ′H0 asymptotisch χ 2 -verteilt mit ( )p p p3 26 5 6+ +Freiheitsgraden. Übersteigt der realisierte Testfunktionswert den ( )100 1 − α -Prozentpunkt der
asymptotischen Verteilung ( 0 1< <α ), dann wird ′H0 zum (nominalen) Testniveau α verwor-
fen und das MLP(p,r,1)-Netz ist als inadäquat zurückzuweisen.
Wie der Nichtlinearitätstest aus Abschnitt 6.2 erzwingt auch dieser Test nicht notwendig eine
logistische Aktivierungsfunktion. Sie kann durch jede Funktion ersetzt werden, welche die
auf Seite 118 angegebenen Bedingungen erfüllt. Ferner führt die Lösung des Identifikations-
problems mittels Taylor-Reihen-Approximation auch bei dem Vergleich eines MLP(p,r,1)-
Netzes mit einer MLP(p,r+q,1)-Alternative für q > 1 wieder auf obige Testprozedur. Der Test
kann somit trennscharf gegen eine ganze Familie MLP(p,r+q,1)-Alternativen sein.
Problematisch ist die i.d.R. große Regressorvariablenanzahl der Hilfsregression in Schritt (ii).
Ist die Anzahl relativ zum gegebenen Datenumfang groß, dann sind unzuverlässige Ergeb-
nisse der KQ-Schätzung der Regressionsparameter zu befürchten, oder das KQ-Problem be-
sitzt sogar keine eindeutige Lösung. In einem solchen kritischen Fall schlagen Teräsvirta &
Lin vor, die quadratischen und kubischen Terme Y Yt i t j− − bzw. Y Y Yt i t j t k− − − mit Ausnahme
der dritten Potenzen Yt i−3 (i = 1,...,p) aus der Hilfsregression zu entfernen. Die Nullhypothese
des Ersatztestproblems lautet dann:
(6.39) ′′ =H iii0 0: δ (i = 1,...,p) .
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
134 MODELLIERUNG UND PROGNOSE NICHTLINEARER ZEITREIHEN
Die Freiheitsgrade der asymptotischen Verteilung der Teststatistik LM3 reduzieren sich auf
p. Verbunden ist diese Vorgehensweise mit einem moderaten Machtverlust des Tests.
Enthält das zu prüfende MLP(p,r,1)-Netz keine Shortcut-Verbindungen, d.h. 01 =α==α p... ,
dann ist eine stärker vereinfachte Vorgehensweise möglich. In diesem Fall ist bereits eine
Taylor-Reihen-Approximationen erster Ordnung der Funktion ( )φ ′ + −γγ r t1 1~X um den Punkt
γγ r+ =1 0 zielführend:
( ) ( ) ( ) ( ) ( )( )φ φ φ φ γ φ′ ≈ + ′ ′ ≡ ′ + ′ ′+ − + − + + −γγ γγ γγr t r t r r t1 1 1 1 0 1 1 10 0 0 0~ ~
,X X X
mit ( )φ 0 0= und γγ r r p r+ + += ′1 1 1 1( )γ γ, ,,..., . Das Ausgangsmodell (6.35) wird jetzt durch die
Approximation
(6.40) ( )Yt u u tu
r
t t= + ′ + ′ +−=
−∑π β φ η0 11
1γγ ϕϕ~X X
mit ( )π α β φ γ0 0 1 0 10= + ′+ +r r, und dem p-dimensionalen Vektor ( )ϕϕ γγ= ′+ +β φr r1 10 ersetzt,
und an die Stelle des Testproblems (6.36) tritt das neue Ersatzproblem
(6.41) ′′′ =H0 : ϕϕ 0 versus ′′′ ≠H1 : ϕϕ 0 .
Die resultierende Hilfsregression in Testschritt (ii) besitzt die Form
( ) ( )
( )
$ $ ~ $ ~
$ ~
ε λ λ φ θ φ
θ φ ϑ ν
t i i ti
r
i i ti
r
ij i t t jj
p
i
r
i t ii
p
tY Y
= + ′ + ′ ′
+ ′ ′ + +
−=
−=
− −==
−=
∑ ∑
∑∑ ∑
0 11
0 11
111 1
γγ γγ
γγ
X X
X ( )t p n= +1,..., .
Die Statistik LM3 dieses LM-Tests 'erster Ordnung' ist unter Gültigkeit von ′′′H0 asympto-
tisch χ 2 -verteilt mit p Freiheitsgraden.
Leider ist der Testansatz nicht derartig erweiterbar, daß auch eine Überprüfung der Ordnung p
der Netzeingabeschicht möglich wäre. Der mit Hilfe von Standardsoftware für lineare Regres-
sionsprobleme einfach implementierbare Test ist dennoch ein nützliches Instrument der Mo-
delldiagnose. Der in Abschnitt 6.2 vorgestellte Neuronale-Netzwerk-Test auf vernachlässigte
Nichtlinearität von Lee et al. [1993] kann auf analoge Weise zu einem Diagnoseinstrument
ausgebaut werden (siehe hierzu White [1989c]). Da aufgrund der Verwendung verborgener
'Phantomeinheiten' auch bei diagnostischen Testproblemen mit Machteinbußen des Tests ge-
rechnet werden muß, wird hier auf eine Darstellung verzichtet.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
135
7 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN
NEURONALEN NETZEN
Nachdem Mehrschicht-Perzeptrone als nichtlineare autoregressive Zeitreihenmodelle eingeführt und
Aspekte der Modellkonstruktion diskutiert wurden, stellt sich jetzt die Frage, wie Netzwerke zu
Prognosezwecken genutzt werden können. In diesem Kapitel wird das Problem der nichtlinearen
Mehrschritt-Punktprognose erörtert. Dieser Problematik wurde in der Literatur bisher eine
vergleichsweise geringe Aufmerksamkeit geschenkt. Die in veröffentlichten Fallstudien übliche Praxis
besteht darin, durch Iteration der Netzausgabefunktion deterministische Mehrschritt-Prognosen zu
ermitteln. Die Vorgehensweise erscheint attraktiv, da sie einfach implementierbar und wenig
rechenintensiv ist. Sie hat aber den Nachteil, daß sie im allgemeinen zu suboptimalen Prognosen im
Sinne des MSE-Kriteriums führt. Im folgenden werden verschiedene, typischerweise rechenintensive
Techniken zur Schätzung MSE-optimaler Prognosen diskutiert. Da aus der Literatur nur wenige
Erkenntnisse darüber vorliegen, inwieweit mit ihrer Hilfe ein Gewinn an Prognosegenauigkeit
realisiert werden kann, wird auf diese Frage näher eingegangen. Die Eigenschaften der
Prognosetechniken werden im Rahmen einer Simulationsstudie untersucht und verglichen.
7.1 Rekursive Kleinste-Quadrate-Prognose autoregressiver Prozesse
Es sei wieder angenommen, daß der datenerzeugende Prozesses Yt t IZ∈ streng stationär und mit
der Markov-Eigenschaft p-ter Ordnung ausgestattet ist. Der Prozeß ist entsprechend (6.9) in der
autoregressiven Form
(7.1) ( )Yt t t= +−µ εX 1
darstellbar, wobei X t t t pY Y− − −= ′1 1( ),..., , ( ) [ ]µ x X x= =−E Yt t 1 für beliebige x ∈IR p und
ε σεt iid~ ,( )0 2 gilt. In Abschnitt 6.1 wurden Mehrschicht-Perzeptrone als Approximatoren einer
unbekannten, im allgemeinen nichtlinearen bedingten Erwartungswertfunktion µ( )x des
autoregressiven Prozesses motiviert. Um in das Mehrschritt-Prognoseproblem einzuführen, wird an
dieser Stelle die Funktion zunächst als bekannt vorausgesetzt.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
136 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
Unter obiger Annahme ist die MSE-optimale (Kleinste-Quadrate-) Einschritt-Prognosefunktion $,Yn
KQ
1
für die Prozeßvariable Yn+1 im Prognoseursprung t n= sofort gefunden. Es gilt:
(7.2) [ ]$,
Y E Yn n n nKQ
1 1= =+ X Xµ ( ) .
Der Einschritt-Prognosefehler e Y Yn n n nKQ
, ,$
1 1 1 1= − ≡+ +ε ist striktes White Noise. Die Mehrschritt-
KQ-Prognosefunktionen $,Yn h
KQ für Yn h+ (h = 2,3,4,...) ergeben sich wieder als bedingte
Erwartungswerte der Form
(7.3) [ ]$,
Y E Yn h n h nKQ = + X .
Die Ermittlung der Prognosefunktionen (7.3) erweist sich allerdings in der Regel auch bei Kenntnis
von µ( )x als ein nicht-triviales Problem.
Eine Ausnahme liegt vor, wenn der datenerzeugende Prozeß linear ist. Die bedingten Erwar-
tungswerte können hier ohne nähere Kenntnis der bedingten Wahrscheinlichkeitsverteilungen auf eine
einfache rekursive Weise berechnet werden. Der lineare Spezialfall soll zunächst kurz durchleuchtet
werden.
7.1.1 Lineare Autoregression
Gilt ( )µ α α αx = + + +0 1 1x xp p... mit x = ′( )x x p1 ,. .., und den reellen Konstanten αi( )i p= 01, ,.. ., , dann entsteht aus dem allgemeinen Modell (7.1) der lineare AR(p)-Prozeß
(7.4) Y Yt i t ii
p
t= + +−=∑α α ε0
1
, ε σεt iid~ ,( )0 2 .
Aufgrund der Linearität des Erwartungswertoperators folgt aus (7.3) und (7.4) sofort:
(7.5) [ ] [ ] [ ]$,hY E Y E Y En n h n i n h i n
i
p
n h nKQ = = + ++ + −
=+∑X X Xα α ε0
1
.
Da stochastisch unabhängige Störungen εt mit dem Mittelwert Null vorausgesetzt wurden, ist
[ ] [ ]E En h n n hε ε+ += =X 0 . Ferner ist [ ]E Y Yn h i n n h i+ − + −=X für h i− ≤ 0 . Die h-Schritt-KQ-
Prediktoren können somit für h = 1,2,3,... nach dem einfachen rekursiven Schema
(7.6)
$ ...
$ $ ...
$ $ $ ...
,
, ,
, , ,
Y Y Y Y
Y Y Y Y
Y Y Y Y
n n n p n p
n n n p n p
n n n p n p
KQ
KQ KQ
KQ KQ KQ
1 0 1 2 1 1
2 0 1 1 2 2
3 0 1 2 2 1 3
= + + + +
= + + + +
= + + + +
− − +
− +
− +
α α α α
α α α α
α α α α
M
ermittelt werden.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 137
Die Eigenschaften von KQ-Prognosefunktionen für stationäre AR(p)-Prozesse sind wohl erforscht
(siehe z.B. Box & Jenkins [1970, S.126ff]). Es sei vorausgesetzt, daß alle Nullstellen des
charakteristischen Polynoms
1 01 22− − − − =α α αz z zp
p...
der Modellgleichung (7.4) außerhalb des Einheitskreises z = 1 liegen. Dann ist Yt gemäß
(7.7) Yt u t uu
Y= + −=
∞
∑µ β ε0
mit µ α αY ii
p
= −=∑0
1
1/ ( ) und β0 1=
darstellbar. Die Darstellung wird als Moving-Average-Prozeß infiniter Ordnung, kurz MA(∞)-
Prozeß, bezeichnet. Die Koeffizientenfolge βu läßt sich mittels Koeffizientenvergleich über die
Identität
( ) ( )1 11 22
0
− − − − ⋅ ≡=
∞
∑α α α βB B B Bpp
uu
u
...
entwickeln, wobei das Symbol B den üblichen Backshift-Operator mit B Y Yt tτ
τ= − (τ = 0,1,...)
bezeichnet. Obige Bedingung bezüglich der Nullstellen des charakteristischen Polynoms garantiert,
daß βu eine absolut summierbare Koeffizientenfolge ist, d.h.
βuu=
∞
∑ < ∞0
,
und die rechte Seite von Gleichung (7.7) im quadratischen Mittel gegen eine wohl definierte
Zufallsvariable konvergiert. Sie impliziert im besonderen, daß der Prozeß stationär mit dem
(unbedingten) Prozeßmittel
(7.8) [ ]E Yt Y= =µ const. für alle t IZ∈
und der Varianz
(7.9) [ ]Var Yt uu
Y= = ⋅ ==
∞
∑σ σ βε2 2 2
0
const . für alle t IZ∈
ist (vgl. Fahrmeir et al. [1981, S.214ff]).
Für t n h= + gilt nun
Yn h u n h uu
Y+ + −=
∞= + ∑µ β ε
0
,
und wegen [ ]E n h u n n h uε ε+ − + −=X für h u− ≤ 0 bzw. [ ]E n h u nε + − =X 0 für h u− > 0 folgt
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
138 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
(7.10) [ ] [ ]$,hY E Y En n h n u n h u n
uu n h u
u h
KQ
Y Y= = + = ++ + −
=
∞
+ −=
∞
∑ ∑X Xµ β ε µ β ε0
.
Der Fehler en ,h der h-Schritt-Prognosefunktion $,hYn
KQ läßt sich schließlich schreiben:
(7.11) e Y Yn n h n u n h uu
hKQ
,h ,h$= − =+ + −
=
−
∑β ε0
1
.
D.h., für festes h und variables n folgen die h-Schritt-Prognosefehler einem Moving-Average-
Prozeß finiter Ordnung h-1. Wegen β0 1= gilt speziell für h=1:
e Y Yn n n nKQ
, ,$
1 1 1 1= − =+ +ε .
In Abschnitt 6.1 wurde bereits gezeigt, daß der KQ-Ansatz generell unverzerrte Prognosefunktionen
liefert; d.h. hier [ ] [ ]E e E en h n n h, ,X = = 0 . Aus obigen Ergebnissen lassen sich für den vorliegenden
Spezialfall einige weitere interessante Aussagen ableiten.
Natürliche Maße für die (Un-)Genauigkeit der h-Schritt-Prediktoren $,hYn
KQ sind die bedingten und
unbedingten Fehlervarianzen [ ] [ ]Var e E en h n n h n, ,X X= 2 bzw. [ ] [ ]Var e E en h n h, ,= 2 . Die
unbedingte Varianz des h-Schritt-Prognosefehlers en ,h erhält man unmittelbar aus (7.11):
[ ]Var en uu
h
,h = ⋅=
−
∑σ βε2 2
0
1
.
Für festes n und wachsenden Prognosehorizont h wachsen die Fehlervarianzen monoton und streben
für h → ∞ gegen die in (7.9) angegebene Prozeßvarianz [ ]Var Yt Y= σ2 . Aus (7.10) ist ferner
ersichtlich, daß die bedingten Erwartungswerte $,hYn
KQ für h → ∞ gegen das unbedingte Prozeßmittel
[ ]E Yt Y= µ streben.
Die unbedingte Varianz mißt die durchschnittliche Prognosegenauigkeit eines Prediktors über alle
Realisierungen des Zufallsvektors Xn. Im allgemeinen ist die bedingte Varianz [ ]Var en h n, X ein
informativeres Maß, da sie explizit den Zustand des datenerzeugenden Prozesses im Pro-
gnoseursprung berücksichtigt. Im Falle eines linearen Prozesses hat der Prozeßzustand interes-
santerweise keinen Einfluß auf die Prognosegenauigkeit; die bedingten und unbedingten Varianzen
sind identisch. Die h-Schritt-Prognosefehler en ,h sind Linearkombinationen unabhängiger 'zukünfti-
ger' Störungen ε εn n h+ +1,..., . Damit sind die Fehler en ,h und die Komponenten des Vektors Xn
stochastisch unabhängig voneinander. Insbesondere sind auch en ,h und die KQ-Prognosefunktionen$
,hYnKQ unabhängig.
Die genannten Eigenschaften stützen die intuitive Vermutung, daß mit wachsendem Prognosehorizont
die Zuverlässigkeit von Prognosen, gemessen durch die (bedingte) Fehlervarianz, monoton abnimmt.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 139
Später wird gezeigt, daß diese Vermutung tatsächlich nur für lineare KQ-Prognosefunktionen
uneingeschränkt zutreffend ist. Im Zusammenhang mit nichtlinearen Funktionen kann sie irreführend
sein.
Aus Gleichung (7.11) lassen sich ferner Aussagen über die Kovarianzstruktur der Fehler ableiten. Die
Kovarianzen der h-Schritt-Prognosefehler e n h, und en h+τ , ( )τ = 0 1 2, , ,... sind durch
[ ] [ ]Cov e e E e e h
hn n n n
u uu
h
,h ,h ,h ,h, , , ,...,
,+ +
+=
− −
= ⋅ = ⋅ = −
> −
∑
τ τε τ
τσ β β τ
τ
2
0
1
0 1 1
1
0
gegeben. Die Fehler von Mehrschritt-Prognosen in verschiedenen Prognoseursprüngen sind somit
typischerweise korreliert. Für die Fehler von h-Schritt- und (h+τ)-Schritt-Prognosen
( )τ = 0 1 2, , ,... , die vom selben Ursprung ausgehen, gilt:
[ ] [ ]Cov e e E e en n n n u uu
h
,h ,h ,h ,h, + + +=
−= ⋅ = ⋅ ∑τ τ ε τσ β β2
0
1
( )τ = 01, ,... .
Auch sie sind typischerweise korreliert.
7.1.2 Nichtlineare Autoregression
Während im linearen Spezialfall die Ermittlung von Mehrschritt-KQ-Prognosen keine Mühe bereitet,
gestaltet sich die Aufgabe bei Vorliegen eines nichtlinearen autoregressiven Prozesses deutlich
aufwendiger. Einen rekursiven Ansatz, der den Aufwand für moderat große Prognoseschritte h
handhabbar macht, haben unabhängig voneinander Pemberton [1987], Tong & Moeanaddin [1988]
und Al-Qassem & Lane [1989] entwickelt. Die folgenden Ausführungen stützen sich auf Tong &
Moeanaddin [1988].
Zur Vereinfachung der Schreibweise seien die in Abschnitt 6.1 eingeführten bedingten Dichte-
funktionen der Prozeßvariablen Yn h+ gegeben X xn n= (h-Schritt-Prognosedichten, h = 1,2,...) im
folgenden kurz durch f yh n h n( )+ x gekennzeichnet. Hierbei ist xn n n py y= ′− +( ),..., 1 wieder
eine Realisation des p-dimensionalen Zufallsvektors Xn n n pY Y= ′− +( ),..., 1 . Gesucht sind die h-
Schritt-KQ-Prognosen im Ursprung t n= :
(7.12) ( ) [ ] ( )$,hY E Y y f y dyn n n h n n n h h n h n n h
KQ x X x x= = = ⋅+ + + +−∞
∞
∫ (h = 2,3,...) .
Der rekursive Ansatz von Tong & Moeanaddin nutzt bei der Berechnung der Punktprognosen die
Markov-Eigenschaft der NLAR(p)-Prozesse aus. Durch Anwendung der aus dem Studium der
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
140 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
Markov-Ketten wohl bekannten Chapman-Kolmogorov-Gleichung (siehe z.B. Papoulis [1965,
S.528ff]) können die h-Schritt-Prognosedichten für h = 2,3,... gemäß
(7.13)
[ ]
f y f y f y dy
f y g y dy
h n h n h n h n n n n
h n h n n n n
( ) ( ) ( )
( ) ( )
+ − + + + +−∞
∞
− + + + +−∞
∞
= ⋅
= ⋅ −
∫
∫
x x x
x x
1 1 1 1 1
1 1 1 1µ
entwickelt werden, wobei xn n n n py y y+ + − += ′1 1 2( ), ,..., und [ ]f y g yn n n n1 1 1( ) ( )+ += −x xµist. Mit ( )g ⋅ ist die Dichtefunktion der Störungen ε µt t tY= − −( )X 1 des NLAR-Prozesses be-
zeichnet. Aus (7.12) und (7.13) erhält man jetzt unmittelbar
(7.14) ( ) ( ) [ ]$ $,h ,hY Y g y dyn n n n n n n
KQ KQx x x= ⋅ −− + + +−∞
∞
∫ 1 1 1 1µ( ) (h = 2,3,...)
mit $,Yn n n
KQ
1 ( ) ( )x x= µ . Sind die Funktionen ( )µ ⋅ und ( )g ⋅ bekannt, dann können mittels Gleichung
(7.14) die h-Schritt-KQ-Prognosen in einer rekursiven Form ermittelt werden.
Analoge Rekursionen lassen sich für weitere interessierende Momente der bedingten Wahrschein-
lichkeitsverteilungen des datenerzeugenden Prozesses herleiten. Es sei k IR IR: → eine reelle (Borel-
meßbare) Funktion und k Yn h( )+ eine wohl definierte Zufallsvariable. Kn n,h ( )X bezeichne den
bedingten Erwartungswert [ ]E k Yn h n( )+ X . Dann folgt ebenfalls:
(7.15) ( ) ( ) ( )[ ]K K g y dyn n n n n n n,h ,hx x x= ⋅ −− + + +−∞
∞
∫ 1 1 1 1µ (h = 2,3,...) .
Mit ( )k x x= 2 erhält man beispielsweise K E Yn n n h n,h ( ) [ ]X X= +2 , und wegen
[ ] ( )[ ] [ ] ( )Var e E Y Y E Y Yn n n h n n n h n nKQ KQ
,h ,h ,h$ $X X X= − = −+ +
22
2
sind auch die bedingten Fehlervarianzen für h = 2 3, ,... in rekursiver Form berechenbar. Für h =1
gilt Var e Varn n n n[ ] [ ],1 12X X= =+ε σε .
Problematisch ist, daß für die Gleichungen (7.14) und (7.15) nur in wenigen Spezialfällen des
Modells (7.1) (z.B. dem linearen Fall) einfach analytische Lösungen gefunden werden können. In der
Regel müssen die Integrale numerisch berechnet werden, was bei einem großen Prognosehorizont h
mit einem erheblichen Rechenaufwand und der Gefahr einer Akkumulation von Approximations- und
Rundungsfehlern verbunden ist. Man beachte, daß sich hinter den Rekursionsgleichungen (7.14) und
(7.15) für jedes h > 1 ( )h − 1 -fache Integrale verbergen.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 141
Ohne nähere Spezifikation der Funktion ( )µ x lassen sich bezüglich der Eigenschaften nichtlinearer
KQ-Prognosefunktionen nur allgemeine Aussagen treffen. Liegt einer Zeitreihe ein streng stationärer,
ergodischer NLAR(p)-Prozeß Yt t IZ∈ zugrunde, dann konvergieren für h→∞ und beliebige
zulässige xn die h-Schritt-Prognosedichten f yh n( )x gegen die stationäre univariate Randdichte
( )f yYt der Prozeßvariablen Yt . Es gilt ( )limh Yt
f y f yh n→∞ =( )x an allen Stetigkeitsstellen y
von fYt (vgl. Tong [1990, S.139ff]). Hinreichende Bedingungen für die Ergodizität von NLAR-
Prozessen diskutieren z.B. Tong [1990, S.126ff] oder Tjøstheim [1990]. Die Konvergenz der
bedingten Dichten impliziert eine Konvergenz der bedingten Erwartungswerte
[ ]$,Y E Yn h n n h n n
KQ ( )x X x= =+ gegen das unbedingte Prozeßmittel E Yt Y[ ]= µ und der bedingten
Fehlervarianzen [ ]Var en h n n, X x= gegen die unbedingte Prozeßvarianz Var Yt Y[ ]= σ2 . Die
Fehlervarianzen bleiben durch die Prozeßvarianz beschränkt. Diese allgemeinen Eigenschaften von
KQ-Prediktoren wurden bereits für lineare AR(p)-Prozesse beobachtet. Ansonsten können die
Eigenschaften linearer und nichtlinearer KQ-Prediktoren jedoch bemerkenswerte Unterschiede auf-
weisen. Einige interessante Aspekte werden in Kapitel 7.3.1.1 am Beispiel von Spezialfällen des
allgemeinen NLAR(p)-Prozesses diskutiert.
7.2 Alternative Prognosetechniken
In der Prognosepraxis ist die Modellgleichung (7.1) natürlich nicht a priori gegeben. Die Funktion
( )µ x ist unbekannt und muß auf der Basis eines beobachteten Ausschnitts yt ( )t n=1,..., des
datenerzeugenden Prozesses Yt t IZ∈ geschätzt werden. Die Funktion ( )µ x wird im folgenden als
nichtlinear unterstellt. Desweiteren wird angenommen, daß ein adäquat gewähltes MLP(p,r,1)-Netz,
dessen Ausgabefunktion ( )f x w, $ geeignet ist, ( )µ x für Prognosezwecke hinreichend gut zu ap-
proximieren, bereits an die Zeitreihendaten angepaßt wurde. Eine Einschritt-Prognose zum Zeitpunkt
t n= für den zukünftigen Zeitreihenwert yn+1 erhält man dann gemäß ( )$ , $,y fn n1 = x w mit
xn n n py y= ′− +( ),... , 1 . Bei der Ermittlung von Mehrschritt-Prognosen ist die Verfolgung
verschiedener Strategien und der Einsatz verschiedener Techniken denkbar. Hierbei fließen neben
theoretischen auch pragmatische Überlegungen mit ein. Das Augenmerk richtet sich im folgenden auf
vier alternative Ansätze, die als (i) iterativer oder deterministischer Ansatz, (ii) rekursiver KQ-
Ansatz, (iii) residuenbasierter- oder Bootstrap-Ansatz und (iv) direkter Ansatz bezeichnet werden
sollen.
(i) Iterative Prognosen
Der einfachste Weg Mehrschritt-Prognosen zu berechnen, ist die (deterministische) Iteration der
Ausgabefunktion des Künstlichen Neuronalen Netzes:
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
142 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
(7.16) ( ) ( )$ $ ~ , $, , ,
y Y fn h n h n n hI I: = =x x w (h = 1,2,...)
mit ~ ~ ,...,~, , ,xn h n h n h py y= ′− −( )1 , wobei ~,y yn h u n h u− + −= für h u− ≤ 0 und ~ $, ,y yn h u n h u
I− −= für
h u− > 0 ist. In der Praxis wird diese Vorgehensweise weithin genutzt, aus theoretischer Sicht ist
der Ansatz jedoch weniger befriedigend. Bei Vorliegen nichtlinearer Zeitreihen führt obiges
Iterations- oder Rekursionsschema zu suboptimalen Prognosen im Sinne des MSE-Kriteriums. Dies
gilt auch im nur theoretisch denkbaren Fall einer perfekten Approximation von ( )µ x durch
( )f x w, $ . Suboptimalität bedeutet nicht, daß iterative Prognosen generell unzuverlässig sind. Es
besteht jedoch die Gefahr, daß mit steigendem Prognoseschritt h die Prediktoren ( )$,Yn h n
I X einen
substantiellen Bias aufweisen und die mittleren quadratischen Prognosefehler
[ ]E Y Yn h n h nI( ( ))+ − $, X 2 inflationär anwachsen. Inwieweit diese Gefahr wirksam wird, hängt
wesentlich von den Eigenschaften des datenerzeugenden Prozesses ab.
(ii) Rekursive KQ-Prognosen
Der zweite Ansatz nutzt das Rekursionsschema (7.14) von Tong & Moeanaddin [1988] zur
approximativen Ermittlung von KQ-Prognosen. Die h-Schritt-Prognosen werden gemäß
(7.17) ( ) ( ) [ ]$ $ $, ,Y Y g y f dyn h n n h n n n n
R Rx x x w= ⋅ −− + + +−∞
∞
∫ 1 1 1 1( , ) (h = 2,3,...)
mit $ $,Y fn n nR
1 ( ) ( , )x x w= rekursiv berechnet, wobei die Integrale auf numerischem Wege zu lösen
sind. Eine Vielzahl verschiedener numerischer Integrationsmethoden, wie z.B. Gauß'sche Quadratur-
oder Monte-Carlo-Verfahren, stehen für die Implementierung der Prognosetechnik zur Verfügung.
Ein problematischer Aspekt des Ansatzes wurde bereits erwähnt: Mit wachsendem Prognoseschritt
h steigt der Rechenaufwand enorm an und die Präzision der numerischen Ergebnisse sinkt. Aufwand
und Präzision können durch die Wahl der Integrationsmethode beeinflußt werden. In der Regel muß
allerdings eine vergleichsweise hohe Präzision der numerischen Lösungen durch einen erhöhten
Implementierungs- und/oder Rechenaufwand erkauft werden. Jeder Entscheidung für eine bestimmte
Integrationsmethode liegt somit ein Kompromiß zugrunde. Ein weiteres Problem ist, daß die
Verteilung der Störungen εt des datenerzeugenden NLAR(p)-Prozesses - und damit auch die
Dichtefunktion ( )g ⋅ - in der Praxis zumeist unbekannt ist. Das Problem kann pragmatisch durch eine
a priori Annahme, z.B. der Annahme der Normalverteilung, bezüglich der Störverteilung umgangen
werden. Dies birgt allerdings die Gefahr, daß die Prognosen auf falschen Voraussetzungen fußen. In
praktischen Anwendungen ist es ratsam, Verteilungsannahmen auf Basis der Netzresiduen
$ $ε t t ty f= − −( , )x w1 ( )t p n= +1,..., zu testen.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 143
(iii) Bootstrap-Prognosen
Der Bootstrap- oder residuenbasierte Ansatz ist eng mit dem rekursiven KQ-Ansatz mittels Monte-
Carlo-Integration verwandt. Die Monte-Carlo-Lösungen der Integrale (7.17) basieren auf zufalls-
zahlengetriebenen Simulationen der Netzausgabefunktion. Die (Pseudo-) Zufallszahlen werden aus
der Verteilung der Störungen εt gewählt (siehe Abschnitt 7.3.1.4). Beim Bootstrap-Ansatz treten an
ihre Stelle die Netzresiduen $ $ε t t ty f= − −( , )x w1 ( )t p n= +1,..., . Die Wahrscheinlichkeits-
verteilung der Störungen wird somit durch die Häufigkeitsverteilung der Residuen approximiert. Ein
offensichtlicher Vorteil des residuenbasierten Ansatzes ist, daß Verteilungsannahmen unnötig sind.
Eine Beeinträchtigung der Prognosequalität aufgrund einer Misspezifikation der Störverteilung ist
nicht zu befürchten. Andererseits kann natürlich die Approximation der Störverteilung durch
Häufigkeitsverteilung der Residuen sehr grob sein und sich negativ auf die Prognosegüte auswirken.
(iv) Direkte Prognosen
Die bisher vorgestellten Ansätze ermitteln Mehrschritt-Prognosen auf rekursive Weisen. Die Güte
der Prognosen wird natürlich durch die Qualität des Approximators ( )f x w, $ beeinflußt. Rekursive
Methoden sind mit dem Risiko behaftet, daß sich Approximationsfehler mit wachsendem
Prognoseschritt verstärken und die Prognosegüte beeinträchtigen. Eine Alternative bietet die direkte
Prognose. Der direkte Ansatz läßt sich als eine spezifische Methode zur Schätzung von KQ-
Prognosen motivieren: Analog zu (7.1) sind die Prozeßvariablen Yt h+ für alle t und h = 2 3, ,...
gemäß
(7.18) ( ) ( ) ( )Yt h t t hh h
+ += +µ εX
mit ( ) ( ) [ ]µ h E Yt h tx X x= =+ und ( ) ( ) ( )ε µt h t h th hY+ += − X formal darstellbar. Auf der Informa-
tionsbasis einer beobachteten Zeitreihe yt ( )t n=1,..., gilt es jetzt, für jeden Prognoseschritt h ein
MLP(p,r,1)-Netz so zu spezifizieren und zu trainieren, daß die zugehörige Ausgabefunktion, sie sei mit( ) ( )( )f h hx w, $ gekennzeichnet, die unbekannte Funktion ( ) ( )µ h x möglichst gut approximiert. Die
direkten Mehrschritt-Prognosen im Prognoseursprung t n= sind dann durch
(7.19) ( ) ( ) ( )( )$ , $,
Y fn h n nD h hx x w= (h = 2,3,...)
gegeben. Die Flexibilität der 'neuronalen' Funktionsapproximatoren kann als Rechtfertigung für die
Vorgehensweise dienen.
Wie die erstgenannten Verfahren weist auch der direkte Ansatz Nachteile auf. Da für jeden
Prognoseschritt ein spezifisches Netz benötigt wird, ist der hohe Rechenaufwand offensichtlich.
Technische Probleme resultieren aus den statistischen Eigenschaften der Störungen ( )ε t hh+ in
Gleichung (7.18). Die Störungen sind mit den Fehlern et h, von h-Schritt-KQ-Prognosen identisch.
Für h >1 sind die Fehler i.d.R. stochastisch abhängig. Im Spezialfall eines linearen AR(p)-Prozesses
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
144 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
konnte beispielsweise gezeigt werden, daß sie dem korrelierten MA(h-1)-Prozeß (7.11) folgen. Die
Abhängigkeit erschwert zum einen die Spezifikation geeigneter Netzwerkarchitekturen:
Spezifikationstests wie der LM-Test von Teräsvirta & Lin [1993] oder Selektionskriterien wie das
AIC, SIC und HQIC fußen auf der Annahme unabhängiger Störungen. Sie können im Falle
abhängiger Störungen inadäquate Spezifikationsergebnisse liefern. Zum anderen wird im Fall
korrelierter Fehler die Wirksamkeit der Gewichts- oder Parameterschätzung beeinträchtigt:
Verglichen mit unkorrelierten führen korrelierte Fehler zu vergrößerten Varianzen der
Backpropagation- bzw. Nichtlinearen-Kleinste-Quadrate-Schätzer (vgl. das asymptotische Ergebnis
(5.34) in Kapitel 5.5).
Die vier Prognoseansätze besitzen jeweils spezifische Vor- und Nachteile. In der Praxis ist es
schwierig zu entscheiden, welcher Ansatz verfolgt und wie er implementiert werden sollte. Un-
glücklicherweise liegen nur wenige Erkenntnisse, die als Entscheidungshilfen dienen könnten, darüber
vor, wie sich die skizzierten Spezifika der Techniken auf die jeweilige Prognosegüte auswirken. Die
Analyse der Auswirkungen gestaltet sich sehr aufwendig, da neben den Techniken selbst auch die
Approximationseigenschaften der KNN und die Eigenschaften des datenerzeugenden Prozesses die
Prognoseergebnisse beeinflussen. Im Kontext nichtlinearer dynamischer ökonometrischer
Mehrgleichungssysteme sind analytische Ergebnisse für iterative, rekursive KQ- und residuenbasierte
Prediktoren verfügbar. Brown & Mariano [1989], Mariano & Brown [1989] untersuchen die
asymptotischen Eigenschaften der Prediktoren unter den Annahmen, daß (a) das datenerzeugende
dynamische System mit Ausnahme einer endlichen Anzahl von Parametern bekannt ist und (b)
konsistente Schätzer für die Parameter verfügbar sind. In dem hier interessierenden Kontext ist erste
Annahme allerdings unrealistisch, so daß die asymptotischen Betrachtungen nur einen begrenzten
Wert besitzen können. Lin & Granger [1994] untersuchen verschiedene Prognosetechniken für
KNN im Rahmen einer Simulationsstudie und vergleichen die Ergebnisse mit Prognosen
parametrischer und nichtparametrischer Modelle. Ermittelt wurden Zweischritt-Prognosen für
Realisationen zweier NLAR-Prozesse. Die Ergebnisse geben interessante Einblicke, sie erlauben
jedoch nur eine sehr grobe Einschätzung der verwendeten Prognosetechniken.
Die Eigenschaften der alternativen Prognosetechniken sollen im folgenden in einer Simulationsstudie
detaillierter analysiert werden. Im Vordergrund steht hierbei die Frage, inwieweit der Einsatz
rechenintensiver Techniken überhaupt lohnend ist. Am Beispiel simulierter Zeitreihen wird untersucht,
welcher Gewinn an Prognosegenauigkeit mit approximativen KQ-Verfahren gegenüber einfach
ermittelbaren iterativen Prognosen realisiert werden kann. Desweiteren werden die
Prognoseeigenschaften der approximativen KQ-Verfahren untereinander verglichen und nach
möglichen substanziellen Unterschieden gefahndet.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 145
7.3 Experimenteller Vergleich der Prognosetechniken
7.3.1 Design der Simulationsstudie
Das Design der Simulationsstudie ist notwendigerweise durch Kompromisse gekennzeichnet.
Angestrebt wurde die Gewinnung hinreichend verallgemeinerungsfähiger und hinreichend präziser
experimenteller Ergebnisse. Im Hinblick auf den enormen Rechenaufwand, der mit der Durchführung
einer Simulationsstudie verbunden sein kann, stellen die beiden Ziele Gegensätze dar.
'Verallgemeinerungsfähigkeit' erfordert den Vergleich der Prognosetechniken unter möglichst
unterschiedlichen Versuchsbedingungen. 'Präzision' hingegen kann nur durch häufige Wiederholung
des Experimentes unter gleichartigen Versuchsbedingungen erreicht werden (vgl. Birkenfeld [1977,
S.62ff]).
Die benötigten Zeitreihen wurden durch Simulation fünf verschiedener nichtlinearer stochastischer
Prozesse Yt t IZ∈
erzeugt. Die Auswahl der Prozesse erfolgte unter Beachtung zweier (zumindest
partiell) konfliktärer Auswahlkriterien. Einerseits sollten die Prozesse möglichst vielfältige nichtlineare
Charakteristika und Prognoseeigenschaften aufweisen, um eine hinreichende Verallgemeine-
rungsfähigkeit der Simulationsergebnisse zu gewährleisten. Andererseits sollten ihre generierenden
Modelle möglichst einfach aufgebaut sein, um sicherzustellen, daß die prognoserelevanten Strukturen
der Prozesse durch ebenfalls einfach aufgebaute KNN hinreichend gut approximiert werden können.
Der mit dem Training der Netze verbundene Rechenaufwand wird hierdurch in vertretbaren
Schranken gehalten. Ausgewählt wurden vier spezielle NLAR(1)-Prozesse sowie ein Prozeß vom
bilinearen Typ. Sie werden in Abschnitt 7.3.1.1 vorgestellt, und ihre Eigenschaften werden
ausführlich diskutiert.
Für jeden Prozeß wurden W = 100 voneinander unabhängige Realisationen yt (t=1,2,...,T) der
Länge T = 400 generiert. Die Simulationstechnik ist in Abschnitt 7.3.1.2 dargelegt. Die ersten
N = 300 Werte yt (t=1,2,...,N) einer Zeitreihe dienten als Trainingsmenge für Künstliche Neu-
ronale Netze. Die folgenden H = 100 Werte yt (t=301,302,...,T) verblieben zur Evaluierung der
Prognosetechniken. Verwendet wurden ausschließlich zweischichtige MLP-Netzwerke. Die
Spezifikation ihrer Neuronenzahl erfolgte mit Hilfe des LM-Tests von Teräsvirta & Lin [1993].
Durch den Einsatz des Tests sollten im Rahmen der Studie praktische Modellbildungsprozesse
nachgeahmt werden. Diese Vorgehensweise erschien sinnvoll, weil sie die Nutzung von a priori
Information bezüglich des Datenmaterials (weitgehend) unnötig machte. Ein starker Eingang von a
priori Information in die Spezifikationsergebnisse hätte den 'ex-ante'-Charakter der Prognosen
eingeschränkt. Detaillierte Angaben zum Netzwerktraining und zur Netzwerkspezifikation liefert der
Abschnitt 7.3.1.3.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
146 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
Für jeden Prozeß wurden mittels alternativer Techniken ( )W H h⋅ + −1 h-Schritt-Prognosen
berechnet. Der Prognosehorizont h variierte in der Menge 1 2 3 5 10, , , , . Zur vergleichenden
Beurteilung der Prognosegüte wurden der Bias, der mittlere quadratische Fehler und der mittlere
absolute Fehler der Prognosen ermittelt (siehe Abschnitt 7.3.1.5). Technische Aspekte der
Implementierung der alternativen Prognoseverfahren werden in Abschnitt 7.3.1.4 diskutiert.
Darstellung und Diskussion der Simulationsergebnisse folgen in den Kapiteln 7.3.2 und 7.3.3.
7.3.1.1 Auswahl der stochastischen Prozesse
Die zur Durchführung der Simulationsstudie benötigten Zeitreihen wurden durch Simulation der
folgenden fünf stationären nichtlinearen stochastischen Prozesse generiert:
(P1) Y e Yt
Y
t tt= − − ⋅
⋅ +−
−−0 5 3 0 12
1. . ε , ( )εt ind~ ,0 1 ;
(P2) Y e Yt
Y
t tt= − + ⋅
⋅ +−
−−0 5 3 5 12
1. . ε , ( )εt ind~ , .0 0 04 ;
(P3) YY Y
Y Ytt t t
t t t
=− ⋅ + ≤
− − ⋅ + >
− −
− −
15 0 9 0
0 4 0 6 0
1 1
1 1
. .
. .
ε
ε
falls
falls , ( )εt ind~ ,0 1 ;
(P4) YY Y
Y Ytt t t
t t t
=− ⋅ + ≤
+ ⋅ + >
− −
− −
15 0 7 3
1 0 0 8 3
1 1
1 1
. .
. .
ε
ε
falls
falls , ( )εt ind~ ,0 4 ;
(P5) Y Y Yt t t t t= − +− − −0 5 0 31 1 1. . ε ε , ( )εt ind~ ,0 1 .
Hierbei kennzeichnet ε σεt ind~ ,( )0 2 abkürzend stochastisch unabhängige, identisch normalverteilte
Störungen mit dem Erwartungswert E t[ ]ε = 0 und der Varianz Var t[ ]ε σε= 2 .
Die nichtlinearen Charakteristika und die Prognoseeigenschaften der Prozesse werden im folgenden
näher untersucht.
Exponentiell-Autoregressive-Prozesse
Die Prozesse (P1) und (P2) sind Spezialfälle eines Exponentiell-Autoregressiven-Prozesses erster
Ordnung, kurz EXPAR(1)-Prozeß (siehe Haggan & Ozaki [1981]). Das datenerzeugende Modell
läßt sich in allgemeiner Form schreiben gemäß:
(7.20) ( )[ ]Y Y Yt t t t= + ⋅ − ⋅ +− −α β γ εexp 1 12 , ( )ε σεt iid~ ,0 2 .
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 147
0 50 100 150 200 250 300
-5
-3
-1
1
3
5
Abb. 7.1: Realisation des EXPAR(1)-Prozesses (P1)
0 50 100 150 200 250 300
-2
-1
0
1
2
Abb. 7.2: Realisation des EXPAR(1)-Prozesses (P2)
Die Modellgleichung (7.20) beinhaltet vier reellwertige Parameter α, β , γ und σε2 mit γ > 0 und
0 2< < ∞σ ε . Der Skalierungsparameter γ ist in (P1) und (P2) gleich eins gesetzt. Hinreichend für
die Existenz eines ergodischen und streng stationären Prozesses Yt , der (7.20) erfüllt, ist, daß der
Parameter α betragsmäßig kleiner 1 ist. Die Bedingung folgt aus einem Ergebnis für eine
allgemeinere Klasse Exponentiell-Autoregressiver-Modelle von Tong [1990, S.129f]. In (P1) und
(P2) genügt α der Ungleichung α < 1 .
Obwohl sehr einfach aufgebaut, können EXPAR(1)-Modelle vielfältige nichtlineare Verhaltensmuster
generieren. Zur Illustration zeigen die Abbildungen 7.1 und 7.2 jeweils eine typische Realisation yt
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
148 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
(t=1,...,300) der Prozesse (P1) und (P2). Die erste Zeitreihe weist zyklische Schwankungen um den
Wert 0 mit der Periode 2 auf. Die zweite Reihe zeigt ebenfalls ein zyklisches Verhalten. Das Niveau,
um das die Zeitreihenwerte oszillieren, kann sich hier jedoch sprungartig verschieben.
Unterdrückt man den stochastischen Störterm in einem nichtlinearen autoregressiven Modell (z.B.
durch Setzen von ε t = 0 für alle t t> 0 ), dann geht es in eine deterministische nichtlineare
Differenzengleichung über. Tong [1990, S.98] bezeichnet diese als das Skelett (skeleton) des Mo-
dells. Die Lösung der Differenzengleichung erlaubt interessante Einblicke in das dynamische
Verhalten des zugrundeliegenden stochastischen Modells.
Das Skelett des EXPAR(1)-Modells (7.20) soll hier vereinfachend durch y yt t
= −λ( )1
mit
λ: IR IR→ und t = 0 1 2, , , . .. gekennzeichnet werden. Ferner sei
y y y y0 0 0 0, .. .λ λ λ( 1 ) ( 2 ) ( 3 )( ), ( ), ( ),
eine Trajektorie des deterministischen dynamischen Systems mit dem Anfangswert y0, und
( )( )λ λ λ λ( ) ( ) ( )
m a l
t y y y
t
t0 0= =L
1 244 344
bezeichne die t-te Iteration der Abbildung λ, wobei λ λ( 1 ) ( ) ( )y y0 0≡ ist. Die Trajektorien eines
stabilen Systems konvergieren, wenn t → ∞ strebt. Sie können entweder durch stabile Fixpunkte
oder durch stabile Grenzzyklen angezogen werden. Eine reelle Zahl y* heißt lokal stabiler Fixpunkt,
wenn eine Umgebung U IR⊂ von y* so existiert, daß
lim *t
t y y→ ∞
=λ( ) ( )0
für alle y U0
∈ gilt. Ist U, der sogenannte Anziehungsbereich von y*, mit dem Definitionsbereich
von λ identisch, spricht man von einem global stabilen Fixpunkt. Fixpunkte gehen offensichtlich unter
der Wirkung der Abbildung in sich selbst über; d.h., es gilt y y* *= λ( ) . Eine reelle Zahl z1 heißt
lokal stabiler periodischer Punkt mit der Periode k, wenn eine natürliche Zahl k >1 und eine
Umgebung U IR⊂ von z1 so existieren, daß
limj
j k y z→∞
⋅ =λ ( ) ( )0 1
für alle y U0
∈ gilt. Hierbei ist k die kleinste natürliche Zahl, für die die Konvergenz erfüllt ist. Mit
z1 existieren weitere lokal stabile periodische Punkte z z2 1
= λ (1) ( ) , z z3 1
= λ (2) ( ) ,...,
z zk
k= −λ ( 1) ( )1
. Der k-dimensionale Vektor z = ′( )z z zk1 2, ,..., heißt lokal stabiler Grenz-
zyklus der Periode k. Ist U mit den Definitionsbereich von λ identisch, spricht man wieder von
einem global stabilen Grenzzyklus. Für k = 1 entartet der Grenzzyklus zu einem Fixpunkt (vgl. Ozaki
[1982], Tong [1983, S.71ff]).
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 149
In den letzten Jahren wurden in der Fachliteratur ausführlich nichtlineare Differenzen- und Diffe-
rentialgleichungssysteme mit chaotischer Dynamik diskutiert. Als 'chaotisch' wird ein System
bezeichnet, wenn seine Trajektorien ein unregelmäßiges, nicht-periodisches Verhalten aufweisen und
eine sensitive Abhängigkeit des Trajektorienverlaufs von den Startbedingungen vorliegt (siehe z.B.
Schuster [1989]). Die Frage, ob EXPAR-Modelle Chaos generieren können, ist noch offen.
Für das EXPAR(1)-Modell (7.20) lassen sich Bedingungen für das Auftreten grenzzyklischen
Verhaltens angeben (vgl. Haggan & Ozaki [1981]). Notwendige Bedingung ist, daß die Un-
gleichungen
(7.21) α < 1 , α β+ ≥ 1
beide erfüllt sind. Eine hinreichende Bedingung ist:
(7.22) 1 0− <αβ
oder 1 1− >αβ
mit β ≠ 0 .
Die Koeffizienten α = −0 5. und β = −3 0. in (P1) genügen (7.21) und (7.22). Das Skelett besitzt
einen global stabilen Grenzzyklus ( )z = − ′1339. , + 1.339 der Periode k = 2 . Die periodischen
Punkte z1 und z2 erhält man durch Lösen des Gleichungssystems
( )[ ]( )[ ]
α β
α β
+ − =
+ − =
exp
exp
z z z
z z z
2 2 1
1 1 2
2
2 .
Wegen α β+ > 1 weist die Differenzengleichung für yt− ≈1 0 ein tendenziell explodierendes
Verhalten auf, während für | |yt− >>1 0 das System gedämpft wird, da α <1 gilt.
Die Koeffizienten α = −0 5. und β = 3 5. in (P2) erfüllen die notwendige Bedingung (7.21), aber nicht
die hinreichende Bedingung (7.22). Dennoch weist das Modell grenzzyklisches Verhalten auf. Sein
Skelett besitzt zwei lokal stabile Grenzzyklen ( )z1 0 644 1167 0 463 1 077= ′. , . , . , . und z z2 1= − der
Periode k = 4 .
Die Dynamik der Differenzengleichungen verdeutlicht die Abbildung 7.3. Sie zeigt weitere, durch
Simulation erzeugte Realisationen der beiden EXPAR-Prozesse. Die Störprozesse εt wurden
jeweils zum Zeitpunkt t0 25= abgeschnitten; d.h., der Input ε t der Modellgleichungen (P1) und
(P2) wurde für alle t t> 0 gleich null gesetzt. Die Outputsequenzen yt konvergieren rasch gegen
die jeweiligen Grenzzyklen. Im Fall (P1) streben die Outputs unabhängig vom Startzustand zum
Zeitpunkt t0 gegen den global stabilen 2er Zyklus. Im Fall (P2) konvergieren die Sequenzen in
Abhängigkeit der Anfangswerte gegen einen der beiden lokal stabilen 4er Zyklen z1 oder z2.
Angemerkt sei, daß die Outputwerte yt für t t> 0 auch als iterative ( )t t− 0 -Schritt-Prognosen der
Zeitreihen im Prognoseursprung t0 interpretiert werden können.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
150 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
0 20 40 60 80 100
-3.5
-2.5
-1.5
-0.5
0.5
1.5
2.5
3.5
(a)
0 20 40 60 80 100
-2
-1
0
1
2
(b)
Abb. 7.3: Global stabiler Grenzzyklus des EXPAR(1)-Modells (P1) (Abb. 7.3a) und lokal stabileGrenzzyklen des EXPAR(1)-Modells (P2) (Abb. 7.3b)
-6 -4 -2 0 2 4 6
y
0
0.05
0.1
0.15
0.2
0.25
fY
( ).
(a)
-3 -2 -1 0 1 2 3
y
0
0.1
0.2
0.3
0.4
0.5
0.6
(b)
fY
( ).
Abb. 7.4: Univariate Randdichten der EXPAR(1)-Prozesse (P1) (Abb.7.4a) und (P2) (Abb.7.4b)
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 151
Das asymptotische Verhalten des Skeletts λ wirkt natürlich auf die Wahrscheinlichkeitsverteilungen
des zugeordneten stochastischen Prozesses Yt und beeinflußt damit auch die Eigenschaften von
KQ-Prognosefunktionen. Generiert λ einen global stabilen Grenzzyklus z = ′( )z z z k1 2, ,..., der
Periode k, dann kann, Stationarität des Prozesses vorausgesetzt, die Dichte der univariaten
Randverteilung der Prozeßvariablen Yt formal als Mischung
[ ]f y z f y z f y z kk k1 1 2 2
( ) + ( )+...+ ( )− − −
von Dichtefunktionen fi (i = 1,2,...,k) dargestellt werden (vgl. Tong [1990, S.349]). Sie kann somit
mehrgipflig sein. Die univariate Randdichte fY ( )⋅ des EXPAR(1)-Prozesses (P1) zeigt die
Abbildung 7.4a. Sie ist bimodal. Die Modi der Randverteilung sind mit den periodischen Punkten z1
= −1.339 und z2 = +1.339 des global stabilen 2er-Grenzzyklus identisch. Ferner gilt E Yt[ ] = 0 und
Var Yt[ ] 2.74≅ . Das grenzzyklische Verhalten des EXPAR(1)-Prozesses (P2) führt ebenfalls zu
einer bimodalen Randdichte (Abbildung 7.4b). Hier ist E Yt[ ] = 0 und Var Yt[ ] 0.74≅ .
Die bedingten Verteilungen von Yn h+ gegeben Y yn n= der streng stationären, ergodischen
Prozesse (P1) und (P2) konvergieren für h → ∞ gegen die jeweilige univariate Randverteilung der
Prozeßvariablen. Damit weisen ihre Prognosedichten mit wachsendem Prognosehorizont h eine
zunehmend bimodale Form auf. Die Konvergenzgeschwindigkeit hängt dabei ganz wesentlich von
dem Zustand ab, in dem sich der Prozeß zum Zeitpunkt t = n befindet. Die Abbildung 7.5 zeigt für
verschiedene h die bedingten Dichten f y yh n h n( )+ des Prozesses (P1) mit (a) yn = 0 und (b) yn =
1.339. An der Stelle yn = 0, dem Prozeßmittel, sind die Dichten für h ≥ 2 bimodal. Offensichtlich
können KQ-Prognosen, also die Erwartungswerte der bedingten Verteilungen, in dieser Situation
bereits für kleines h zu wenig brauchbaren Prognoseergebnissen führen. Fern des Prozeßmittels
vollzieht sich die Konvergenz wesentlich langsamer (Abbildung 7.5a). KQ-Prognosen sind hier
aussagekräftiger. Der Prozeß (P2) besitzt vergleichbare Eigenschaften (vgl. Abbildung 7.6).1)
Man beachte, daß hier bimodale Dichten auftreten, obwohl die Störungen εt der Prozesse uni-
modale Verteilungen (Normalverteilungen) besitzen. Dieses Phänomen ist im Zusammenhang mit
linearen datenerzeugenden Prozessen unbekannt. Im Falle eines stationären AR(p)-Prozesses (7.4)
mit ε σεt ind~ ,( )0 2 sind beispielsweise die univariaten Randverteilungen und die h-Schritt-
Prognoseverteilungen des Prozesses ebenfalls Normalverteilungen. Da Linearkombi-
1) Die angegebenen Rand- und Prognosedichten sowie die Prozeßvarianzen wurden unter Ausnutzung der Re-
kursionsgleichungen (7.13)-(7.15) durch numerische Integration (Gauß-Hermite-Quadratur, siehe Abschnitt
7.3.1.4) bestimmt. Die später folgenden Ergebnisse für die Prozesse (P3)-(P5) wurden ebenfalls numerisch
ermittelt.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
152 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
-6 -4 -2 0 2 4 6
y
0
0.1
0.2
0.3
0.4
(a)
fh
( | ). .h=1
h=2
h=3
-6 -4 -2 0 2 4 6
y
0
0.1
0.2
0.3
0.4
(b)
fh
( | ). .
h=1
h=3
h=10
h=2
h=4
Abb. 7.5: Bedingte Dichtefunktionen f y yh n h n( )+ des EXPAR(1)-Prozesses (P1) mit yn = 0.0
(Abb. 7.5a) und yn = 1.339 (Abb. 7.5b)
-3 -2 -1 0 1 2 3
y
0
0.4
0.8
1.2
1.6
2
(a)
fh
( | ). .h=1
h=2
h=3
h=4
-3 -2 -1 0 1 2 3
y
0
0.4
0.8
1.2
1.6
2
(b)
fh
( | ). .
h=1
h=2
h=3
h=10
Abb. 7.6: Bedingte Dichtefunktionen f y yh n h n( )+ des EXPAR(1)-Prozesses (P2) mit yn = 0.0
(Abb. 7.6a) und yn = 1.167 (Abb. 7.6b)
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 153
nationen normalverteilter Zufallsgrößen ebenfalls normalverteilt sind, folgt dies unmittelbar aus den
Gleichungen (7.7) und (7.11).
Threshold-Autoregressive-Prozesse
Die nichtlinearen Prozesse (P3) und (P4) sind vom threshold-autoregressiven Typ (siehe Tong
[1983]). Sie sind Spezialfälle eines Self-Exciting-Threshold-Autoregressiven-Prozesses der Ordnung
2,1,1, kurz SETAR(2,1,1)-Prozeß:
(7.23) YY Y r
Y Y rt
t t t
t t t
=+ + ≤
+ + >
− −
− −
α α ε
α α ε
0 1 1 1
0 1 1 1
(1) (1)
(2) (2)
falls
falls , ( )ε σεt iid~ ,0 2 .
Die Modellgleichung (7.23) ist aus 2 linearen Autoregressionen 1.Ordnung aufgebaut. Zu einem
Zeitpunkt t wird die Prozeßvariable Yt durch die erste lineare Autoregression generiert, falls in der
Vorperiode der realisierte Wert von Yt −1 einen festen, reellen Schwellenwertparameter r nicht
übersteigt. Anderenfalls wird die zweite lineare Autoregression aktiviert. Das Modell zeichnet sich
somit durch abrupte, zustandsabhängige Änderungen des dynamischen Verhaltens aus.
Ausnahmefälle liegen natürlich für α α0 0(1) (2)= und α α1 1
(1) (2)= bzw. für r → ∞ vor. Die Gleichung
(7.23) geht dann in ein einfaches lineares AR(1)-Modell über.
Eine notwendige und hinreichende Bedingung für die Existenz eines streng stationären, ergodischen
Prozesses Yt , der durch das SETAR(2,1,1)-Modell erzeugt wird, geben Petruccelli & Woolford
[1984] und Chan & Tong [1986] an. Ein solcher Prozeß existiert genau dann, wenn die
Ungleichungen
(7.24) α1 1(1) < , α1 1(2) < und α α1 1 1(1) (2)⋅ <
erfüllt sind. Die Parameter α α1 1(1) (2) , in (P3) und (P4) wurden so gewählt, daß sie deutlich innerhalb
der durch (7.24) beschriebenen Stationaritätsregion liegen.
Typische Realisationen yt (t=1,...,300) der beiden ausgewählten Prozesse zeigen die Abbildungen
7.7 und 7.8. Die erste Zeitreihe weist ein ausgeprägt zyklisches Verhalten mit der Periode 2 auf. Die
Amplitude der zyklischen Schwankungen variiert im Zeitablauf. Die Modellparameter in (P3) sind so
festgelegt, daß der Prozeß abwechselnd Werte in den beiden Schwellenwertregimen ( ]−∞, r und
( )r ,+∞ mit r = 0 annimmt. Vergleichbar mit dem EXPAR(1)-Modell (P1) besitzt das Skelett λ von
(P3) einen global stabilen Grenzzyklus ( )z = − ′2 8261 4 0435. , . der Periode k = 2 . Die
periodischen Punkte z1 und z2 erhält man durch Lösen des linearen Gleichungssystems
α α
α α0 1 2 1
0 1 1 2
(1) (1)
(2) (2) .
+ =
+ =
z z
z z
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
154 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
0 50 100 150 200 250 300
-9
-6
-3
0
3
6
9
Abb. 7.7: Realisation des SETAR(2,1,1)-Prozesses (P3)
0 50 100 150 200 250 300
-6
-2
2
6
10
14
18
Abb. 7.8: Realisation des SETAR(2,1,1)-Prozesses (P4)
Die zweite Zeitreihe zeigt kein grenzzyklisches Verhalten. Das Skelett λ des datengenerierenden
Modells (P4) besitzt zwei lokal stabile Fixpunkte
y10
110 8824* .=
−=
α
α
(1)
(1) und y2
0
115 0* .=
−=
α
α
(2)
(2) .
In Abbildung 7.8 ist eine deutliche Änderung des Verhaltensmusters der Daten erkennbar, wenn der
Schwellenwert r = 3 über- bzw. unterschritten wird. Im Schwellenwertregime ( ]−∞, r tendiert die
Reihe zu einem alternierenden Verhalten mit geringer Variabilität. Im zweiten Regime ( )r ,+∞ steigt
die Streuung der Reihe. Alternierende Muster sind hier nicht zu beobachten.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 155
Die Berechnung von KQ-Prognosen für SETAR(2,1,1)-Prozesse (7.23) mit unabhängigen, identisch
N ( )0 2,σε -verteilten Störungen εt
diskutiert Moeanaddin [1991] (zitiert nach de Gooijer &
Kumar [1992]). Die MSE-optimale Einschritt-Prognose im Ursprung t=n ist natürlich:
(7.25) ( ) [ ]$,Y y E Y y
y y r
y y rn n n n
n n
n n
KQ1 1
0 1
0 1
= =+ ≤
+ >
+
α α
α α
(1) (1)
(2) (2)
falls
falls .
Gilt y rn ≤ , dann ist die bedingte Wahrscheinlichkeitsverteilung von Yn+1 gegeben Y yn n= eine
N yn( )(1) (1) α α σε0 1
2+ , -Verteilung. Für y rn > liegt eine N yn( )(2) (2) α α σε0 1
2+ , -Verteilung vor.
Aus (7.23) und (7.25) folgt für die Zweischritt-Prognose:
[ ][ ]( ) ( )
[ ]( ) ( )
( ) ( ) ( )
$
$ $
,
, ,
Y y E Y y
E Y y P Y r y
E Y y P Y r y
Y y p Y y p
n n n n
n n n n
n n n n
n n n n
KQ
KQ KQ
2 2
0 1 1 1
0 1 1 1
0 1 1 1 0 1 1 11
( )
( ) ( )
(1) (1)
(2) (2)
(1) (1) (2) (2)
=
= + ⋅ ⋅ ≤
+ + ⋅ ⋅ >
= + ⋅ ⋅ + + ⋅ ⋅ −
+
+ +
+ +
α α
α α
α α α α
mit ( ) ( )p P Y r y r Y yn n n n nKQ
1 1 1 1= ≤ = −+ Φ $ $, ,( ) σ .
Dabei bezeichnet ( )Φ ⋅ die Verteilungsfunktion der Standardnormalverteilung, und $ ,σ σεn 12 2= ist die
bedingte Varianz des Einschritt-Prognosefehlers. Für den allgemeinen h-Schritt-Fall gilt:
(7.26) ( ) ( ) ( )$ $ $,h ,h ,hY y Y y p Y y pn n n n h n n h
KQ KQ KQ( ) ( ) ( )(1) (1) (2) (2)= + ⋅ ⋅ + + ⋅ ⋅ −− − − −α α α α0 1 1 1 0 1 1 11
mit ( ) ( )p P Y r y r Y yh n h n n n nKQ
− + − − −= ≤ = −1 1 1 1Φ $ $,h ,h( ) σ
und $ ,hσn −12 = [ ] [ ] ( )Var e y E Y y Y yn n n h n n n
KQ,h ,h
$− + − −= −1 1 1
22
( ) .
Die bedingte Varianz $ ,σn h−12
des (h-1)-Schritt-Prognosefehlers kann für h > 2 nicht analytisch
bestimmt werden, sondern muß mittels numerischer Integrationstechniken berechnet werden. Die
bedingte Verteilung von Yn h+ bei gegebenem Y yn n= ist für h ≥ 2 keine Normalverteilung mehr.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
156 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
-10 -8 -6 -4 -2 0 2 4 6 8 10 12
y
0
0.03
0.06
0.09
0.12
0.15
fY
( ).
(a)
-10 -5 0 5 10 15 20
y
0
0.04
0.08
0.12
0.16
0.2
(b)
fY
( ).
Abb. 7.9: Univariate Randdichten der SETAR(2,1,1)-Prozesse (P3) (Abb. 7.9a) und (P4) (Abb. 7.9b)
Die bedingten Verteilungen des Prozesses (P3) wurden bereits eingehend von Tong & Moeanaddin
[1988] und Moeanaddin & Tong [1990] untersucht.2) Aufgrund des grenzzyklischen Verhaltens ist
die Dichte der univariaten Randverteilung der Prozeßvariablen ausgeprägt bimodal (Abbildung 7.9a).
Die Modi der Randverteilung sind mit den periodischen Punkten z1 = −2.8261 und z2 = 4.0435 des
Grenzzyklus identisch. Erwartungswert und Varianz der Randverteilung sind E Yt[ ] ≅ 0 61. bzw.
Var Yt[ ] ≅ 14 16. . Für wachsendes h konvergieren die bedingten Verteilungen von Yn h+ gegeben
Y yn n= gegen die Randverteilung und ihre Dichten werden ebenfalls bimodal. An der Stelle yn =
0.61, dem Prozeßmittel, vollzieht sich die Konvergenz besonders schnell. Die bedingten Dichten
f y yh n h n( )+ sind für h ≥ 3 bimodal (Abbildung 7.10a). Wie bereits am Beispiel der EXPAR(1)-
Prozesse (P1) und (P2) diskutiert, können KQ-Prognosen auch hier bei wachsendem
Prognosehorizont h irreführende Ergebnisse liefern. Dieser Sachverhalt sollte allerdings nicht
überbewertet werden. Aufgrund der Bimodalität der Randverteilung ist die Wahrscheinlichkeit, daß
sich der Prozeß in der Nähe seines Erwartungswertes realisiert, gering. Für Werte yn, die deutlich
vom Prozeßmittel ver-
2) Moeanaddin & Tong [1990] geben graphisch bedingte Dichten des SETAR-Prozesses (P3) an. Ihre Ergebnis se
weichen von den hier vorgestellten Dichten ab. Die Standardabweichung der Störungen des Prozesses beträgt
bei Moeanaddin & Tong nicht wie angegeben σ ε =1 , sondern ist σ ε =2 .
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 157
-10 -8 -6 -4 -2 0 2 4 6 8 10 12
y
0
0.1
0.2
0.3
0.4
(a)
fh
( | ). .
h=1
h=3 h=2
h=4
-10 -8 -6 -4 -2 0 2 4 6 8 10 12
y
0
0.1
0.2
0.3
0.4
(b)
fh
( | ). .
h=1
h=3
h=5h=2
h=4
Abb. 7.10: Bedingte Dichtefunktionen f y yh n h n( )+ des SETAR(2,1,1)-Prozesses (P3) mit yn = 0.61
(Abb. 7.10a) und yn = 4.0435 (Abb. 7.10b)
-10 -5 0 5 10 15 20
y
0
0.04
0.08
0.12
0.16
0.2
fh
( | ). .
h=2
h=1
h=4
h=3
Abb. 7.11: Bedingte Dichtefunktionen f y yh n h n( )+ des SETAR(2,1,1)-Prozesses (P4) mit yn = 4.36
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
158 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
schieden sind, bleiben die bedingten Dichten für moderate Prognoseschritte h unimodal und der
KQ-Ansatz liefert sinnvolle Prognosen. Dies verdeutlicht die Abbildung 7.10b. Sie zeigt die
bedingten Dichten f y yh n h n( )+ mit yn = 4.0435 und h = 1,2,...,5.
Bei einer genaueren Betrachtung der Graphik 7.10b wird ein interessantes Charakteristikum des
Prozesses (P3) sichtbar, das von Tong & Moeanaddin [1988] gefunden wurde. Die Varianzen $ ,hσn2
der bedingten Verteilungen streben für h → ∞ gegen die Prozeßvarianz Var Yt Y[ ] = σ2 . Das
Wachstum ist an der Stelle yn = 4.0435 jedoch nicht monoton. Es gilt
$ $ $ ... , $ $ $ ..., , , , , ,σ σ σ σ σ σ σ σn n n n n nY Y1 3 5 2 4 62 2 2 2 2 2 2 2< < < ≤ < < < ≤ ,
aber
$ $, ,σ στ τn n2 2 12 2> + ( )τ = 1 2, ,... .
Konkret erhält man für h = 1,2,...,5:
$ .,σ n 12 1 0= , $ .,σ n 2
2 1 8417= , $ .,σ n 32 1 7098= , $ .,σ n 4
2 2 5944= und $ .,σ n 52 2 2079= .
Konsequenz ist, daß h-Schritt-Prognosen zuverlässiger als (h-1)-Schritt-Prognosen sein können,
wobei die 'Zuverlässigkeit' durch die bedingte Fehlervarianz gemessen wird. Vergleichbare
Phänomene können bei linearen Prozessen nicht festgestellt werden. Die Fehlervarianzen bilden dort
immer eine mit dem Prognosehorizont h monoton wachsende Folge.
Die Abbildung 7.11 zeigt schließlich Prognosedichten des SETAR-Prozesses (P4). Dargestellt sind
die bedingten Dichtefunktionen f y yh n h n( )+ mit yn = 4.36 und h = 1,2,3,4. Sie sind unimodal und
für h ≥ 2 linksschief. Im Gegensatz zu den Prozessen (P1) - (P3) treten hier auch für großes h keine
bimodalen Funktionen auf. Die univariate Randdichte fY ( )⋅ der Prozeßvariablen ist unimodal (vgl.
Abbildung 7.9b). Der Modus der Randverteilung ist mit dem lokal stabilen Fixpunkt y 2 5 0* .=identisch. Ferner gilt E Yt[ ] 4.36≅ und Var Yt[ ] 12.94≅ .
Bilinear-Autoregressiver-Prozeß
Der letzte simulierte Prozeß (P5) ist ein Spezialfall des Bilinear-Autoregressiven-Prozesses der
Ordnung 1,1,1, kurz BAR(1,1,1)-Prozeß:
(7.27) Y Y Yt t t t t= + +− − −α β ε ε1 1 1 , ( )ε σεt iid~ ,0 2
(siehe Granger & Andersen [1978]). Die Modellparameter α, β und σε2 sind reellwertige Kon-
stanten mit 0 2< < ∞σε . Die Gleichung (7.27) läßt sich alternativ auch in der Form
(7.28) Y t Yt t t= +−Α( ) 1 ε mit Α( )t t= + −α βε 1
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 159
schreiben und kann formal als ein lineares AR(1)-Modell interpretiert werden, allerdings mit sto-
chastischen Koeffizienten Α( )t . Die Koeffizientenfolge ( )Α t ist i.i.d. mit [ ]E tΑ( ) = α und
[ ]Var tΑ( ) = β σε2 2 . Man beachte, daß im Gegensatz zu den NLAR(1)-Modellen (P1) - (P4) hier zu
einem Zeitpunkt t nicht die gesamte für die Zukunft des Prozesses Yt relevante Information in der
aktuellen Prozeßvariable Yt enthalten ist.
Eine hinreichende Bedingung für die Existenz eines streng stationären Prozesses Yt , der (7.27)
erfüllt, ist durch die Ungleichung
(7.29) α β σε2 2 2 1+ <
gegeben (Bhaskara Rao et al. [1983]). Mit α = 0 5. , β = −0 3. und σε2 1= genügt (P5) dieser Be-
dingung. Die Momentfunktionen erster und zweiter Ordnung stationärer BAR(1,1,1)-Prozesse
können analytisch bestimmt werden. Es gilt (Sesay & Subba Rao [1988]):
(7.30) [ ]E Yt = =−
µβσ
αε2
1 ,
(7.31) [ ]E Yt2
2 2
2 2 22
2
1 2 4
1= =
+ +
− −⋅µ
β σ αβµ
α β σσε
εε
und
(7.32) [ ]Var Yt = = −γ µ µ0 22 ,
[ ]Cov Y Yt t, + = = +1 1 02γ αγ βµσ ε ,
[ ]Cov Y Yt t, + −= =τ τ τγ αγ 1 für τ ≥ 2 .
Für den Spezialfall (P5) erhält man
[ ]E Yt
= −0 6. , [ ]Var Yt
=1 9733. und [ ]Cov Y Yt t, .+ =
11 6667 .
Eine Realisation des Prozesses ist in der Abbildung 7.12 dargestellt. Erkennbar ist ein Charakte-
ristikum bilinearer Reihen. Der Zeitreihenplot weist plötzlich auftretende Ausschläge (z.B. zu den
Zeitpunkten t = 165 oder t = 268 ) auf. Angemerkt sei, daß der bilineare Term in (P5) mit β = −0 3.
ein moderates Gewicht besitzt. Wird dem Koeffizienten β des bilinearen Terms ein absolut großer
Wert ( β >> 0 ) zugeordnet, erzeugt das Modell (7.27) Reihen mit explosionsartigen Ausschlägen,
deren Amplituden weit größer sein können als die Amplituden der Ausschläge in Abbildung 7.12.
Dieser Aspekt wird in Abschnitt 7.3.2 weiter erörtert. Ferner sei angemerkt, daß das bilineare
Modell (7.27) kein grenzzyklisches Verhalten generieren kann. Aus (7.28) ist ersichtlich, daß das
Skelett eine homogene lineare Differenzengleichung der Form y yt t= −α 1 ist, die unter der Gültigkeit
der Stabilitätsbedingung α <1 lediglich den trivialen global stabilen Fixpunkt y* = 0 besitzt.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
160 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
0 50 100 150 200 250 300
-6
-4
-2
0
2
4
Abb. 7.12: Realisation des BAR(1,1,1)-Prozesses (P5)
DieMSE-optimalen h-Schritt-Prognosefunktionen können für einen BAR(1,1,1)-Prozeß in
geschlossener Form angegeben werden. Der bedingte Erwartungswert E Y Y Yn h n n[ ]+ −, ,...1 sei
vereinfachend mit E Yc n h[ ]+ bezeichnet. Für den Einschritt-KQ-Prediktor im Prognoseursprung
t n= gilt:
(7.33) [ ] [ ][ ] [ ] [ ]
$,Y E Y E Y Y
E Y E Y E
Y Y
n c n c n n n n
c n c n n c n
n n n
KQ1 1 1
1
= = + +
= + +
= +
+ +
+
α β ε ε
α β ε ε
α β ε .
Hierbei ist Ec n[ ] = 0ε +1 , weil ε n+1 unabhängig von Y t nt ( )≤ ist. Für h = 2 folgt
(7.34) [ ] [ ][ ] [ ] [ ]
$
$
,
,
Y E Y E Y Y
E Y E Y E
Y
n c n c n n n n
c n c n n c n
n
KQ
KQ
2 2 1 1 1 2
1 1 1 2
12
= = + +
= + +
= +
+ + + + +
+ + + +
α β ε ε
α β ε ε
α βσε ,
da aufgrund der Unabhängigkeit der Störungen von Y t nt ( )≤ Ec n[ ] = 0ε +2 und
[ ] ( )[ ]
[ ] [ ]E Y E Y Y
E E
c n n c n n n n n
c n n
+ + + +
+ +
= + + ⋅
= = =
1 1 1 1
12
12 2
ε α β ε ε ε
ε ε σε
gilt. Für den allgemeinen h-Schritt-Fall erhält man durch analoge Argumentation:
(7.35) $ $,h ,hY Yn n
KQ KQ= +−α βσε12 ( h ≥ 2 ) .
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 161
Aus (7.33) ist ersichtlich, daß die KQ-Prognose die Invertierbarkeit des bilinearen Modells (7.27)
voraussetzt. Die Störung ε n in (7.33) ist nicht beobachtbar und muß daher geschätzt werden. Die
Invertierbarkeit des BAR(1,1,1)-Modells kann wie folgt definiert werden (vgl. Hallin [1980]): Es
bezeichne
$ $ε α β εv v v v vY Y Y= − −− − −1 1 1 ( )v u u t t= + −, ,..., ,1 1
eine Folge von 'Schätzern' der unbeobachtbaren Störungen ε v mit einem beliebigen Startwert
$ε εu u= . Das Modell (7.27) heißt invertierbar, wenn für alle εu
[ ]lim $u t tE
→−∞− =( )2ε ε 0
gilt. Hinreichend für die Invertierbarkeit von (7.27) ist, daß
(7.36) [ ]β2 2 1⋅ <E Yt
erfüllt ist (Subba Rao [1981, S.249]).
Mit β2 2 0 21E Yt[ ] = . genügt der Spezialfall (P5) der Invertierbarkeitsbedingung (7.36). Zur
Charakterisierung der Prognoseeigenschaften des Prozesses Yt zeigt Abbildung 7.13 die
Dichtefunktion seiner univariaten Randverteilung und die Dichten der bedingten Verteilungen von
Yn h+ (h=1,2,3,4) bei gegebenen Werten yn = −0 6. , ε n = 0 5. . Die Dichtefunktionen sind
eingipflig und mit Ausnahme der Gauß'schen Einschritt-Prognosedichte linksschief. Bemerkenswert
ist die schnelle Konvergenz der bedingten Verteilungen gegen die Randverteilung. Hier liefern
bedingte Erwartungswerte nur für sehr kleines h ( h ≤ 3 ) deutlich zuverlässigere Prognoseergebnisse
als das unbedingte Prozeßmittel.
Einen für die Prognose bilinearer Prozesse interessanten Aspekt diskutieren Granger & Andersen
[1978, S.49ff]. Die Autoren zeigen, daß die Momentfunktionen bis zur 2. Ordnung (7.30) -(7.32)
eines stationären BAR(1,1,1)-Prozesses denen eines linearen ARMA(1,1)-Prozesses der Form
(7.37) Y a a Y bt t t t= + + +− −0 1 1 1η η , η σηt sown~ ,( )0 2 ,
entsprechen, wobei a02= βσε , a1 = α gilt, und der Koeffizient b die Gleichung
( )( )γγ
1
0
1 1
12
1
1 2=
+ +
+ +
a b a b
a b b
erfüllt. In (7.37) ist ηt eine Folge unkorrelierter, identisch verteilter Zufallsvariablen (second
order white noise oder kurz sown) mit Erwartungswert Null und Varianz
[ ] [ ]Var Var Ya
a b bt tη ση= = ⋅−
+ +2 1
1 212
12
.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
162 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
Dieses Ergebnis ermöglicht es, analytisch den Verlust an Prognosegenauigkeit zu quantifizieren, der
durch eine Beschränkung auf lineare KQ-Prognosen mittels des ARMA(1,1)-Modells (7.37)
entsteht. Für Einschritt-Prognosen beträgt der relative Verlust
Var
Var
Var Y
Var
a
a b bt
t
t
t
[ ]
[ ]
[ ]
[ ]
ηε ε
= ⋅−
+ +
1
1 212
12
,
da die linearen Prognosen die (unbedingte) Fehlervarianz Var t[ ]η aufweisen. Für den hier in-
teressierenden Spezialfall (P5) erhält man:
a0 0 3= − . , a1 0 5= . , b = 014123. und ση2 127457= . .
Die Fehlervarianz linearer Einschritt-Prognosen ist somit um 27.457% größer als die Fehlervarianz
bilinearer Einschritt-Prognosen. Dieser Aspekt wird in Abschnitt 7.3.2 weiter untersucht.
7.3.1.2 Simulation der stochastischen Prozesse
Von den Prozessen (P1) - (P5) wurden jeweils W = 100 unabhängige Realisationen der Länge T =
400 für die Durchführung der Studie benötigt. Die Zeitreihen wurden durch Einsatz folgender
Simulationstechnik generiert:
-10 -6 -2 2 6
y
0
0.1
0.2
0.3
0.4
(a)
fY
( ).
-10 -6 -2 2 6
y
0
0.1
0.2
0.3
0.4
fh
( | ). .
h=1
h=2
h=3
h=4
(b)
Abb. 7.13: Univariate Randdichte f Y ( )⋅ (Abb. 7.13a) und bedingte Dichten f y yh n h n n( , )+ ε mit
yn = −0.6, εn = 0.5 und h = 1,2,3,4 (Abb. 7.13b) des BAR(1,1,1)-Prozesses (P5)
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 163
Mittels der jeweiligen Modellgleichung wurde eine Sequenz von ( )E W T A+ ⋅ + = 100000 Werten
y0, y1, y2, .... rekursiv erzeugt. Als Startwert y0
diente das Prozeßmittel E Yt Y[ ]= µ . Während der
Simulation erreicht ein stationärer Prozeß nicht sofort auch einen stationären Zustand. Er benötigt
hierfür eine Einschwingphase, deren Länge prozeßabhängig ist. Um Initialisierungsfehler in den
Zeitreihen vernachlässigbar klein zu halten, wurden die ersten E = 2500 Werte der erzeugten
Sequenz nicht genutzt. Aus der Restsequenz wurden dann immer abwechselnd T = 400
aufeinanderfolgende Werte als Zeitreihe verwendet und A = 575 Werte entfernt. Dadurch wird
erreicht, daß zwischen den letzten Werten einer Zeitreihe und den ersten Werten der folgenden Reihe
keine Abhängigkeitsbeziehungen bestehen. Die so generierten W Zeitreihen können als Ergebnisse
wiederholter Durchführungen eines Zufallsexperiments aufgefaßt werden, wobei die einzelnen
Durchführungen sich gegenseitig nicht beeinflussen.
Die Werte der unabhängigen, identisch normalverteilten Störungen εt in (P1) - (P5) wurden mit Hilfe
erprobter Zufallsgeneratoren erzeugt. Genutzt wurden die FORTRAN Function-Unterprogramme
RAN1 und GRAND. Die Funktion RAN1 generiert im Intervall ( )0 , 1 gleichverteilte Pseudo-
zufallszahlen. Den Quellcode geben Press et al. [1988, S.192ff] an. Hier findet sich ebenfalls eine
Diskussion der Eigenschaften des Generators. Die Funktion GRAND erzeugt durch Transformation
von ( )0 , 1 -gleichverteilten Pseudozufallszahlen standardnormalverteilte Größen. Sie nutzt einen von
Brent [1974] entwickelten Algorithmus. Der Quellcode ist über die NETLIB Software-Bibliothek
via INTERNET frei verfügbar (siehe z.B. unter http://www.mirror.ac.uk/sites/netlib.bell-labs.com/
master/readme.html).
7.3.1.3 Spezifikation und Training Künstlicher Neuronaler Netze
Als Approximatoren der nichtlinearen Modellgleichungen in (P1) - (P5) wurden MLP(p,r,1)-Netze
mit Ausgabefunktionen der Form
(7.38) ( )f x xi ii
p
j j i j ii
p
j
r
x w, tanh= + + ⋅ +
= ==∑ ∑∑α α β γ γ0
10
11
genutzt, wobei x = ′( )x x p1 ,..., und w = ′( )α α α β β γ γ γ0 1 1 01 02, ,..., , ,..., , , ,...,p r pr sind.
Die KNN wurden an die ersten N = 300 Werte der simulierten Zeitreihen angepaßt. Als Lern-
verfahren kam nicht der Backpropagation-Algorithmus, sondern ein herkömmlicher nichtlinearer
KQ-Ansatz zum Einsatz. Die Adjustierung der Netzgewichte w erfolgte mit Hilfe des Levenberg-
Marquardt-Algorithmus (siehe Kapitel 5.4.3). Hierdurch konnte eine deutliche Einsparung an
benötigter Rechenzeit realisiert werden. Wie bereits an früherer Stelle festgestellt, ist die
Performance des Backpropagation-Lernens bei Simulationen von KNN auf herkömmlichen
Rechnern in aller Regel unbefriedigend.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
164 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
Initialisiert wurden die Levenberg-Marquardt-Iterationen durch Vorgabe eines Startvektors w0 mit
( )− +0 2 0 2. , . -gleichverteilten Pseudozufallszahlen als Komponenten. Die Iterationen brachen nach k
Schritten ab, wenn der Abstand der aktuellen Residualquadratsumme Q k( )w vom Vorgänger
Q k( )w −1 den Toleranzwert eps = −10 5 nicht mehr überschritt. Um die Gefahr zu mildern, daß der
Lernprozeß eine lokale Minimumstelle der KQ-Zielfunktion als Ergebnis liefert, wurden die
Levenberg-Marquardt-Iterationen 10mal bis 15mal mit verschiedenen Startvektoren wiederholt. Die
Anzahl der Wiederholungen stieg mit der Neuronenzahl des jeweiligen Netzes. Nur der
Gewichtsvektor mit dem kleinsten zugehörigen Zielfunktionswert wurde gespeichert. Die Multistart-
Technik kann natürlich nicht das Auffinden eines globalen Minimums garantieren, sie liefert aber
zumindest eine gute lokale Lösung des Minimierungsproblems.
Die Spezifikation der Anzahl r verborgener Einheiten eines MLP-Netzes erfolgte mit Hilfe des
Lagrange-Multiplier-Tests von Teräsvirta & Lin [1993] (siehe Abschnitt 6.3.3). Es wurde ein
MLP(p,1,1)-Netz mit festem, vorgegebenem p trainiert und gegen eine MLP(p,2,1)-Alternative zum
Signifikanzniveau α = 0 05. getestet. Führte der Test zur Ablehnung des Nullmodells, folgte das
Training und das Testen eines MLP(p,2,1)-Netzes, usw. Die Prozedur stoppte nach der erstmaligen
Akzeptanz des Nullmodells. Lagen Realisationen der NLAR(1)-Prozesse (P1) - (P4) als Zeitreihen
vor, wurde die Ordnung der Eingabeschicht mit p = 1 vorgegeben. Für Realisationen des bilinearen
Prozesses (P5) wurde p = 2 festgelegt. Auskunft über die erzielten Spezifikationsergebnisse gibt
das Kapitel 7.3.2.
7.3.1.4 Implementierung der alternativen Prognosetechniken
Mit Hilfe der trainierten MLP(p,r,1)-Netze wurden deterministische Prognosen und zahlreiche
Approximationen von Kleinste-Quadrate-Prognosen ermittelt. Im folgenden werden die Im-
plementierungen der alternativen Prognosetechniken vorgestellt. Zur Vereinfachung der Notation
wird hierbei ohne Beschränkung der Allgemeinheit ein Netzwerk mit lediglich p = 1 Eingabeeinheiten
unterstellt.
(i) Iterative (deterministische) Prognosen (MLP-I)
Die Berechnung deterministischer h-Schritt-Prognosen bedarf keiner ausführlichen Erläuterung mehr.
Sie werden durch Iteration des 'Skeletts' ( )f ⋅ , $w eines Netzes ermittelt. Als Startwert dient der im
Prognoseursprung t n= vorliegende Zeitreihenwert yn:
(7.39) ( ) ( )$ $ $ $, , ,
y Y y f yn h n h n n hI I I= = −1
,w (h = 1,2,3,...)
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 165
mit $ ,y yn h nI
− =1 für h− =1 0 . Um eine übersichtliche Darstellung der Simulationsergebnisse zu
ermöglichen, werden die Prognosen im folgenden durch das Kürzel MLP-I gekennzeichnet.
(ii) Rekursive KQ-Prognosen (MLP-GH, MLP-MC)
Die rekursiven KQ-Prognosen werden durch numerisches Lösen der Rekursionsgleichungen
(7.40) [ ]$ $ $ , $, , ,y Y y Y y g y f y dyn h n h n n h n n n nR R R= = ⋅ −− + + +
−∞
∞
∫( ) ( ) ( )1 1 1 1w (h = 2,3,4,...) ,
berechnet, wobei ( )g ⋅ die Dichte der Störverteilung des datenerzeugenden Prozesses (oder einer
Approximation derselben) ist und $ $,Y y f yn n nR
1 ( ) ( , )= w gilt. Bei der Implementierung der
Prognosetechnik kann auf eine Vielzahl elaborierter numerischer Integrationsmethoden
zurückgegriffen werden. Hier wurden zwei verschiedene Implementierungen gewählt: Die erste macht
Gebrauch von einem Gauß'schen Quadraturverfahren, die zweite nutzt eine Monte-Carlo-Technik.
Für h = 2 reduziert sich (7.40) auf
(7.41) [ ]$ , $ , $,
Y y f y g y f y dyn n n n n nR
2 1 1 1( ) ( ) ( )= ⋅ −+ + +
−∞
∞
∫ w w .
Ein geeignetes Verfahren zur numerischen Bestimmung des Einfachintegrals ist die Gauß-Hermite-
Quadratur (siehe z.B. Press et al. [1988, S.121ff] und Kennedy & Gentle [1980, S.80ff]). Es sei
( ) ( )ϑ u f u g u f y un : [ ( )] ( )= ⋅ − ⋅, $ , $ expw w 2 gesetzt. Die Gauß-Hermite-Quadratur liefert eine
Näherungslösung des Berechnungsproblems ( )exp( )−∫−∞+∞ u u du2 ϑ in Form einer Summe
gewogener Funktionswerte von ϑ :
(7.42) exp( ) ( ) ( )
=
− ⋅ ≅ ⋅−∞
∞
∫ ∑u u du v us i ii
S2
1
ϑ ϑ .
Man beachte, daß die rechte Seite von (7.41) und die linke Seite von (7.42) identisch sind. Die
Funktion ( )v u u : ( )= −exp 2 wird als Gewichtsfunktion der Quadraturformel bezeichnet. S ist eine
wählbare natürliche Konstante. Als Argumente oder Stützstellen ui (i=1,2,...,S) für die
Funktionsauswertungen werden die Nullstellen eines im Intervall ( )−∞ +∞, bezüglich v(u)
orthogonalen Hermite'schen Polynoms ( )H uS der Ordnung S gewählt. Ein solches Polynom besitzt
die Darstellung:
( ) ( )H u
Se
d
dueS
S S
Su
S
Su=
⋅ − ⋅ ⋅
−2 1
2
1 22 2
! π
/
.
Die Gewichte vi ( )i S=1,..., sind durch die Gleichungen
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
166 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
vn
H u H ui
S
S i S i=
⋅ ⋅⋅
+
+
2 1
1
!
( ) ( )
π'
gegeben. Diese Wahl der Stützstellen und Gewichte ermöglicht es, alle Polynome aus der Klasse
P S2 1− der Polynome bis zum Höchstgrad 2 1S − durch die Quadraturformel ohne Approxi-
mationsfehler zu integrieren. D.h., im Falle ϑ ∈ −P S2 1 ist die Gleichung (7.42) exakt erfüllt.
Durch Ausnutzen der Gleichung (7.40) kann dieses numerische Vorgehen technisch sehr einfach auf
den allgemeinen h-Schritt-Fall verallgemeinert werden. Man erhält beispielsweise für
[ ]
[ ] [ ]
$ $ , $
, $ , $ , $
, ,Y y Y y g y f y dy
f y g y f y dy g y f y dy
n n n n n n n
n n n n n n n
R R3 2 1 1 1
2 2 1 2 1 1
( ) ( ) ( )
( ) ( ) ( )
= −
= −
−
+ + +−∞
∞
+ + + +−∞
∞
+ +−∞
∞
∫
∫∫
w
w w w
die Näherung
[ ] [ ]$ , $ , $ , $,Y y v f u g u f u v g u f yn n j j j i
j
S
i
S
i i nR
311
( ) ( ) ( ) ( )≅ ⋅ ⋅ −
⋅ ⋅ −
==∑∑ w w w ,
usw. Die Gewichte und Stützstellen der Quadraturformel sind wie oben angegeben definiert.
Allgemein ist die Berechnung einer (h-1)-fachen Summe von Produkten erforderlich. Dieser
Vorgehensweise sind allerdings Grenzen gesetzt. Mit wachsendem Prognosehorizont h steigt die
Gefahr der Akkumulation von Approximations- und Rundungsfehlern. Es wird daher zunehmend
fraglich, ob die erreichbare Approximationsgenauigkeit noch befriedigend ist. Desweiteren steigt der
Rechenaufwand mit h exponentiell an und ist für großes h nicht mehr handhabbar. Letzteres gilt im
verstärktem Maße für Netzwerke mit Ordnung p >1 . Hier werden (in Abhängigkeit von der
Implementierung des Quadraturverfahrens) bis zu S h−1 Auswertungen der Netzausgabefunktion
notwendig. Im Fall p = 1 ist nur die Berechnung und Speicherung von S Funktionswerten f u i( ), $w
( )i S=1,..., erforderlich.
Bei der Durchführung der Studie wurden h-Schritt-Prognosen durch Gauß-Hermite-Quadratur mit
einer Stützstellenanzahl von S = 48 berechnet. Zuvor mußte die Dichtefunktion g des Störterms εtspezifiziert werden. Sie wurde durch die Dichte einer N ( )0 2, $σε -Verteilung approximiert, wobei $σε
2
die geschätzte Residualvarianz des jeweiligen MLP-Netzes ist. Die resultierenden Prognosen sollen
kurz als MLP-GH-Prognosen bezeichnet und durch das Symbol $ $, ,y Y yn h n h n
GH GH= ( ) gekennzeichnet
werden.
Die Berechnung von Stützstellen und Gewichten der Quadraturformel erfolgte mit Hilfe von
Subroutinen aus der IQPACK-FORTRAN-Library (siehe Kautsky & Elhay [1982]). Der Quell-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 167
code ist über die NETLIB Software-Bibliothek via INTERNET zugänglich. Die Programme
erlauben dem Anwender durch Manipulation von 'Skalierungsparametern' steuernd in die Be-
rechnung der Stützstellen einzugreifen. Diese Möglichkeit erwies sich als sehr hilfreich und wurde zur
Optimierung der Approximationsergebnisse genutzt.
Eine alternative Methode zur numerischen Bestimmung des Integrals (7.40) ist die Monte-Carlo-
Integration. Sie basiert auf der wiederholt (S−fach) durchgeführten Simulation der Netzausgabe-
funktion mit den bekannten Zeitreihenwerten als Startwerten:
(7.43) ( (y f y un h i n h i h i+ + −= +
, , ,, $( )
1 w (h = 1,2,3,... ; i =
1,2,...,S) ,
wobei (y yn h i n+ − =1, für alle i und h− =1 0 ist. , ..., u u uh S11 1 2, , , ist eine Menge von Pseudo-
zufallszahlen aus der Störverteilung des datenerzeugenden Prozesses. Ein naheliegender Nähe-
rungswert für den 'Erwartungswert' (7.40) ist das arithmetische Mittel
(7.44) yS
yn h n h ii
S
, ,( )1 1
1
= +=∑ (
(h = 2,3,4,...) .
Im Vergleich zu Gauß'schen Quadraturverfahren ist diese Technik sehr einfach implementierbar. Der
Preis, der hierfür allerdings gezahlt werden muß, ist eine geringere Präzision der Näherung; es sei
denn, die Anzahl S der durchgeführten Simulationen ist sehr groß.
Die Präzision von Monte-Carlo-Berechnungen kann durch Einsatz verschiedener Methoden,
sogenannter Varianzreduktionstechniken, gesteigert werden. Ein Ansatz, der nur geringen Im-
plementierungsaufwand erfordert, nutzt die negativen Werte −uh i, der Pseudozufallszahlen uh i, in
(7.43) als antithetische Größen. Es sei
(7.45) ) )y f y un h i n h i h i+ + −= + −
, , ,, $( ) ( )
1w (h = 1,2,3,... ; i = 1,2,...,S/2)
mit uh i, aus (7.43) sowie )y yn h i n+ − =1, für alle i und h− =1 0 . Einen Näherungswert für (7.40)
liefert jetzt
(7.46) ( )yS
y yn n h i n h ii
S
,h , ,
/( )2 1
1
2
= ++ +=∑ ( )
(h = 2,3,4,...) .
Man beachte, daß die Näherungswerte (7.44) und (7.46) auf der gleichen Anzahl S von Simu-
lationen basieren, wobei S als geradzahlig vorausgesetzt wird. Die simulierten Werte (yn h i+ , und
)yn h i+ , (i=1,2,...) können als Realisationen zweier Zufallsvariablen (Yn h+ und
)Yn h+ aufgefaßt
werden. Ihr arithmetisches Mittel besitzt die Varianz
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
168 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
[ ] ( )Var Y Y Var Y Var Y Cov Y Yn h n h n h n h n h n h1
2
1
42( ) [ ]+ [ ] [ , ]
( ) ( ) ( )+ + + + + ++ = +
mit Var Y Var Yn h n h[ ] [ ]( )
+ +≡ . Durch den antithetischen Gebrauch der Zufallsgrößen in (7.43) und
(7.45) sind die Zufallsvariablen offensichtlich negativ korreliert. Die Varianz des Mittelwertes ist
somit kleiner als die Varianzen der Zufallsvariablen selbst. Hieraus resultiert, daß in wiederholt
durchgeführten Simulationen mit verschiedenen Zufallszahlenmengen die Näherungswerte yn h,( )2 eine
geringere Streuung als die Näherungswerte yn h,( )1 aufweisen sollten (siehe z.B. Kleijnen & van
Groenendaal [1992, S.197ff]). Diese Technik ist natürlich nur dann sinnvoll einsetzbar, wenn (wie in
der Simulationsstudie gegeben) die Störungen εt des datenerzeugenden Prozesses symmetrisch um
den Mittelwert Null verteilt sind. Im Fall einer asymmetrischen Verteilung führt (7.46) zu verzerrten
Ergebnissen.
In Voruntersuchungen konnten durch die Modifikation (7.46) deutliche Präzisionsverbesserungen
gegenüber (7.44) erreicht werden. Präzisionsverbesserung bedeutet hier eine bessere Über-
einstimmung mit Gauß-Hermite-Ergebnissen. In der Studie wurden deshalb Monte-Carlo-Prognosen
gemäß (7.46) ermittelt (MLP-MC-Prognosen, symbolisch $ $, , ,y Y y yn h n h n n h
MC MC= =( ) ( )2 ). Die Zahl S
wurde mit S = 5000 vorgegeben. Die Störverteilung wurde wieder durch eine N ( )0 2, $σε -Verteilung
approximiert. Die Erzeugung der Pseudozufallszahlen erfolgte auch hier durch Einsatz der Gene-
ratoren RAN1 und GRAND (vgl. Abschnitt 7.3.1.2).
(iii) Bootstrap-Prognosen (MLP-B1, MLP-B2)
Bootstrap-Prognosen können analog zu (7.44) oder (7.46) berechnet werden. Der einzige Un-
terschied ist, daß hier die Verteilung der Störungen εt durch die empirische Häufigkeitsverteilung der
Residuen
$ $ε t t ty f y= − −( , )1 w ( t N= 2 3, ,..., )
eines an die Zeitreihe yt ( t N= 1,..., ) angepaßten MLP-Netzes approximiert wird. Ersetzt man in
(7.43) und (7.45) die Zufallszahlen uh i, durch zufällig aus der Menge , ..., $ $ $ε ε ε2 3 N mit
Zurücklegen gezogene Residuen, dann erhält man die h-Schritt-Bootstrap-Prognosen
(7.47) ( )$ $,h ,h ,y Y y
Syn n n n h i
i
SB B1 1 1
1
= = +=∑ (
(h = 2,3,4,...) ,
(7.48) ( ) ( )$ $,h ,h , ,
/
y Y yS
y yn n n n h i n h ii
SB B2 2 1
1
2
= = ++ +=∑ ( )
(h = 2,3,4,...) .
Zur Vermeidung unnötiger Approximationsfehler ist es sinnvoll, die Residuen zuvor zu zentrieren. Die
Prognosen sollen als MLP-B1- bzw. MLP-B2-Prognosen bezeichnet werden. Für beide Typen
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 169
werden in Abschnitt 7.3.2 Simulationsergebnisse ausgewiesen (mit S = 5000 ). Abweichend von den
Monte-Carlo-Ergebnissen wurden hier durch die antithetische Version nicht durchgängig verbesserte
Approximationen des Integrals (7.40) erreicht. Diese Beobachtung korrespondiert mit analytischen
Ergebnissen von Mariano & Brown [1989]. Für ein vergleichbares Paar residuenbasierter
Prediktoren konnten die Autoren keine eindeutige asymptotische Dominanz eines der Prediktoren
(im Sinne des MSE-Kriteriums) feststellen.
(iv) Direkte Prognosen (MLP-D)
Die Ermittlung direkter Mehrschritt-KQ-Prognosen erfolgte gemäß (7.18) und (7.19). Als
Approximatoren der bedingten Erwartungswertfunktionen ( ) ( ) [ ]µ h E Yt h tx X x= =+ (h = 2,
3,4,...) wurden erneut MLP(p,r,1)-Netze der Form (7.38) verwendet. Sie werden im folgenden als
h-Schritt-MLP(p,r,1)-Netze bezeichnet. Ihre Ausgabefunktionen seien gemäß
(7.49) ( ) ( )( ) ( ) ( ) ( ) ( ) ( )f x xh h h h h h hi i
i
p
j j i j ii
p
j
r
x w, tanh= + + ⋅ +
= ==∑ ∑∑α α β γ γ
01
011
notiert. Im Prognoseursprung t n= liefert ein trainiertes h-Schritt-Netz mit dem Gewichtsvektor( )$w h die Prognose (MLP-D-Prognose)
(7.50) ( ) ( ) ( )( )$ $ , $, ,
y Y fn h n h n nD D h h= =x x w (h = 2,3,4,...) .
Als Datenbasis für das Netzwerktraining dienten wieder die ersten N = 300 Werte yt ( t N=1,..., ) der
simulierten Zeitreihen. Die Gewichtsadjustierung erfolgte durch Minimierung der modifizierten KQ-
Zielfunktionen
( ) ( ) ( ) ( )( )QN h p
y fh h h ht h t
t p
N h
( ) ( )w x w=− − +
−+=
−
∑1
1
2, (h = 2,3,4,...)
via Levenberg-Marquardt-Iterationen (vgl. Abschnitt 7.3.1.3). Problematisch war die Spezifikation
der Ordnungszahlen p und r der KNN. Für h>1 sind die Residuen ( )$εt hh
+ =:( ) ( )y ft h th h
+ − ( , )x w$ eines h-Schritt-Netzes keine Realisationen stochastisch unabhängiger Zu-
fallsgrößen; dies gilt auch dann nicht, wenn ( ) ( )f h ht( , )x w$ die Funktion ( ) ( )µ h x fehlerfrei ap-
proximiert. Hieraus resultiert, daß der Lagrange-Multiplier-Test von Teräsvirta & Lin [1993] oder
Selektionskriterien wie das SIC von Schwarz [1978] nicht sinnvoll als Spezifikationswerkzeuge
eingesetzt werden konnten. Die Spezifikation der Netzordnung erfolgte deshalb durch Versuch und
Irrtum. An jede Zeitreihe wurden für festes h verschiedene h-Schritt-MLP(p,r,1)-Netze (7.49)
angepaßt und mit ihrer Hilfe Prognosewerte ermittelt. In Kapitel 7.3.2 werden ausschließlich die im
Sinne des MSE-Kriteriums besten Prognoseergebnisse ausgewiesen.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
170 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
7.3.1.5 Kriterien für den Vergleich der Prognosetechniken
Zur vergleichenden Beurteilung der alternativen Prediktoren $,hYn
I , $,hYn
GH , $,hYn
MC , $,hYn
B1 , $,hYn
B2 und$
,hYnD wurden der Prognosebias E Y Yn h n[ ]+ − $
,h , der mittlere quadratische Prognosefehler
E Y Yn h n[( ) ]+ − $,h
2 und der mittlere absolute Prognosefehler E Y Yn h n[| | ]+ − $,h (mean absolute
error, kurz MAE) von h-Schritt-Prognosen als Kriterien gewählt und geschätzt.
Von den stochastischen Prozessen (P1) - (P5) lagen jeweils W =100 unabhängige Realisationen der
Länge T = 400 vor. Die i-te Realisation ( i W= 1,..., ) eines Prozesses soll hier mit yti( ) ( t T= 1,..., )
bezeichnet werden. Ferner sei $ ,hyti( ) eine h-Schritt-Prognose des Zeitreihenwertes yt h
i+
( ) im
Prognoseursprung t . Während die ersten N = 300 Zeitreihenwerte dem Netzwerktraining
vorbehalten waren, wurden für die folgenden H =100 Werte nun mittels der alternativen Techniken
h-Schritt-Prognosen $ ,yt hi( ) im Ursprung t N N T h= + −, ,...,1 ermittelt. Über alle 100 Realisationen
des Prozesses ergibt dies eine Anzahl von ( )100 101⋅ − h h-Schritt-Prognosen je Prognosetechnik.
Als Schätzwerte für die Vergleichskriterien dienten der mittlere empirische Prognosefehler
(empirischer Prognosebias)
(7.51) ( )( )
( ) ( )( )B hW H h
y yt h tt N
T h
i
Wi i=
+ −−+
=
−
=∑∑1
1 1
$ ,h ,
der mittlere quadratische empirische Prognosefehler
(7.52) ( )( )
( ) ( )( )MSE hW H h
y yt h tt N
T h
i
Wi i=
+ −−+
=
−
=∑∑1
1
2
1
$ ,h
und der mittlere absolute empirische Prognosefehler
(7.53) ( )( )
( ) ( )MAE hW H h
y yt h tt N
T h
i
Wi i=
+ −−+
=
−
=∑∑1
1 1
$ ,h
der h-Schritt-Prognosen.
Der Prognosehorizont h wurde aus der Menge 1,2,3,5,10 entnommen. Zwei erwähnenswerte
Spezialfälle sind:
• Für den bilinearen Prozeß (P5) liefern 5-Schritt- oder gar 10-Schritt-Prognosefunktionen keine
sinnvoll verwertbaren Prognoseergebnisse. Der Höchstwert von h betrug hier deshalb h=3.
• Um den Rechenaufwand zu begrenzen, wurde generell auf die Berechnung von 10-Schritt-MLP-
GH- und MLP-D-Prognosen verzichtet. Die Aussagekraft der Simulationsergebnisse wird
hierdurch nur im geringen Maße reduziert.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 171
Die Bedeutung des MSE-Kriteriums wurde bereits in Kapitel 6 erörtert. Zur Beurteilung der
Prognoseergebnisse ist es sinnvoll, dem MSE-Kriterium das MAE-Kriterium an die Seite zu stellen.
Beim quadratischen MSE-Kriterium werden Abweichungen ( ) ( )y yn h n hi i+ − <$ , 1 vermindert und
Abweichungen ( ) ( )y yn h n hi i+ − >$ , 1 verstärkt berücksichtigt. Das MAE-Kriterium bewertet hingegen
alle (absoluten) Prognosefehler mit einem identischen Gewicht. Um beide Kriterien einfach
interpretieren und vergleichen zu können, wurde auch die Quadratwurzel von (7.52)
(7.54) ( ) ( )RMSE h MSE h=
ermittelt (root mean square error, kurz RMSE). Das Wurzel-MSE-Kriterium und das MAE-
Kriterium besitzen identische Dimensionen.
Die Kennzahlen (7.52) - (7.54) ermöglichen eine Beurteilung der relativen Güte alternativer Pro-
gnosefunktionen. Sie liefern aber keinen absoluten Maßstab. Eine Objektivierung des Vergleichs
kann erreicht werden, wenn Referenzprognosen mit in den Vergleich einbezogen werden. Zu diesem
Zweck wurden zusätzlich KQ-Prognosen ermittelt, die von der Kenntnis der datengenerierenden
Modelle (P1) - (P5) Gebrauch machen (Px-KQ-Prognosen mit x = 1 5,..., ). Im bilinearen Fall (P5)
erfolgte die Berechnung gemäß (7.33) - (7.35). Für die NLAR(1)-Prozesse (P1) - (P4) kam wieder
der rekursiven Ansatz von Tong & Moeanaddin [1988] zum Einsatz. Die Integrale wurden mittels
Gauß-Hermite-Quadratur ( h ≤ 5 ) bzw. Monte-Carlo-Integration ( h = 10 ) numerisch bestimmt.
Ferner wurden für (P1) - (P4) deterministische Mehrschritt-Prognosen durch Iteration des 'wahren'
Skeletts des jeweiligen Prozesses ermittelt (Px-I-Prognosen mit x = 1 4,..., ). Sie dienen speziell der
vertieften Beurteilung von MLP-I-Prognosen.
7.3.2 Ergebnisse der Simulationsstudie
Die Ergebnisse der Studie sind in den Tabellen 7.1 bis 7.6 zusammengestellt. Die Tabelle 7.1
informiert über die zur Prognoseberechnung verwendeten KNN. Angegeben sind die Häufig-
keitsverteilungen der mit Hilfe des Lagrange-Multiplier-Tests für die Prozesse (P1) - (P5) aus-
gewählten MLP(p,r,1)-Netze vom Typ (7.38). Die folgenden Tabellen weisen die erzielten
Prognoseergebnisse aus. Die Spalten 3-6 enthalten jeweils für alle Prognosetechniken die Werte der
Vergleichsgrößen (7.51), (7.52), (7.54) und (7.53). Die 7. Spalte gibt die relative Effizienz (EFF)
der Prognosen an. Damit ist hier die prozentuale Abweichung des mittleren quadratischen
empirischen Prognosefehlers (7.52) eines Prediktors von der Kennzahl des jeweiligen MSE-
optimalen Prediktors gemeint (vgl. auch Lin & Granger [1994]).
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
172 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
Exponentiell-Autoregressive-Prozesse
In Abschnitt 7.3.1.1 wurde gezeigt, daß die EXPAR(1)-Prozesse (P1) und (P2) verschiedene
nichtlineare Charakteristika besitzen. Dennoch weisen ihre Prognosedichten Gemeinsamkeiten auf. Es
überrascht daher nicht, daß die Simulationen der beiden Prozesse Prognoseergebnisse lieferten, in
denen ebenfalls Parallelen erkennbar sind (siehe Tabelle 7.2 und Tabelle 7.3). In beiden Fällen
ermöglichen MLP-Netze sehr gute Approximationen der datengenerierenden Modelle. Die MSE-
und MAE-Werte der neuronalen Einschritt-Prognosen, sie sind in den Tabellen als MLP-Prognosen
bezeichnet, weichen nur geringfügig von den Kenngrößen der MSE-optimalen P1-KQ- bzw. P2-
KQ-Prognosen ab. Der Verlust an Prognosegenauigkeit, gemessen durch den mittleren
quadratischen Fehler, beträgt lediglich 2.95% für (P1) und 3.5% für (P2). Hierbei ist zu beachten,
daß die größere Streuung der Fehler von MLP-Prognosen zum Teil durch Effekte der
Parameterschätzung bedingt ist.
Die Mehrschritt-Prognoseergebnisse der Simulationen erlauben ein 'Ranking' der alternativen
Prognosetechniken. Die approximativen KQ-Verfahren mittels Gauß-Hermite-Quadratur, Monte-
Carlo-Simulation und Bootstraping lieferten im Sinne des MSE- und des MAE-Kriteriums die
deutlich zuverlässigsten neuronalen h-Schritt-Prognosen (h=2,3,5,10). Die antithetischen Bootstrap-
Prognosen MLP-B2 erwiesen sich hier gegenüber den MLP-B1-Prognosen als geringfügig
effizienter. Ansonsten unterscheiden sich die Werte der Vergleichsgrößen nur marginal. Interessant
ist, daß der gegenüber den MSE-optimalen KQ-Prognosen entstandene Verlust an
Prognosegenauigkeit noch kleiner ist als im Einschritt-Fall. Dieses Phänomen kann zumindest partiell
durch die generellen Eigenschaften von KQ-Prognosen erklärt werden. Mit dem Prognosehorizont h
ProzeßNetzwerk
EXPAR(1)(P1)
EXPAR(1)(P2)
SETAR(2,1,1)(P3)
SETAR(2,1,1)(P4)
BAR(1,1,1)(P5)
MLP(1,1,1)MLP(1,2,1)MLP(1,3,1)MLP(2,1,1)MLP(2,2,1)MLP(2,3,1)MLP(2,4,1)
22717
71263
50473
4879
749377
Summe 100 100 100 100 100
Tabelle 7.1: Ergebnisse der Netzwerkspezifikation; Anzahl der mit Hilfe des Lagrange-Multiplier-Tests von Teräsvirta & Lin [1993] für jeweils 100 Realisationen der stochastischenProzesse (P1)-(P5) ausgewählten MLP(p,r,1)-Netze (7.38).
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 173
Prognose-Schritt
Prognose-Typ
Bias MSE RMSE MAE EFF
1 P1-KQMLP
-0.002880.00851
1.008351.03807
1.004171.01886
0.805690.81609
-2.95
2 P1-IP1-KQMLP-IMLP-GHMLP-MCMLP-B1MLP-B2MLP-D
-0.00725-0.004570.014620.001890.001510.003880.001900.00328
1.821301.630781.826901.642441.641661.643161.641591.67776
1.349551.277021.351631.281581.281271.281861.281241.29528
1.034660.996861.036241.001671.001211.001341.000561.01037
11.68-
12.030.710.670.760.662.88
3 P1-IP1-KQMLP-IMLP-GHMLP-MCMLP-B1MLP-B2MLP-D
0.00163-0.002840.023320.005890.006620.006790.006830.00920
2.322082.016462.358572.038552.039352.040322.039442.07639
1.523841.420021.535761.427781.428061.428401.428091.44097
1.160071.118321.169301.125041.125551.124771.124371.13417
15.16-
16.971.101.141.181.142.97
5 P1-IP1-KQMLP-IMLP-GHMLP-MCMLP-B1MLP-B2MLP-D
0.00162-0.003270.025250.005120.005640.008140.005800.00636
3.045902.407013.106452.426812.425672.428292.427732.45910
1.745251.551461.762511.557821.557461.558301.558121.56815
1.351121.266291.365431.274111.273251.272371.272151.27805
26.54-
29.060.820.780.880.862.16
10 P1-IP1-KQMLP-IMLP-MCMLP-B2
-0.01060-0.007320.015170.003690.00575
4.002082.694304.082062.713042.71692
2.000521.641432.020411.647131.64831
1.597791.377931.613281.381721.38256
48.54-
51.510.700.84
Tabelle 7.2: Ergebnisse der Simulationen des EXPAR(1)-Prozesses (P1)
wächst die Streuung der Prognosefehler. Da für ergodische, streng stationäre Prozesse die
Fehlervarianzen aber auch für h→∞ durch die Prozeßvarianz beschränkt bleiben, sollten
Unterschiede zwischen exakten KQ-Prognosen und KQ-Approximationen klein werden; es sei
denn, die Approximationen sind unbrauchbar.
Auch die vierte approximative KQ-Technik lieferte verwertbare Prognosen. Die relative Effizienz der
MLP-D-Prognosen beträgt für (P1) maximal 2.97% und für (P2) maximal 6.09%, wobei der Ge-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
174 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
Prognose-Schritt
Prognose-Typ
Bias MSE RMSE MAE EFF
1 P2-KQMLP
-.00058.00202
.04033
.04174.20083.20430
.16114
.16397-
3.502 P2-I
P2-KQMLP-IMLP-GHMLP-MCMLP-B1MLP-B2MLP-D
.00068 -.00064
.00364
.00241
.00242
.00235
.00238-.00454
.15706
.15075
.16383
.15435
.15437
.15445
.15442
.15993
.39630
.38826
.40476
.39287
.39290
.39301
.39296
.39991
.30605
.30357
.31123
.30572
.30574
.30570
.30569
.31198
4.19-
8.682.392.402.452.436.09
3 P2-IP2-KQMLP-IMLP-GHMLP-MCMLP-B1MLP-B2MLP-D
.00659 .00069 .00783.00309.00315.00299.00312.02609
.40100
.29404
.40331
.29577
.29571
.29591
.29560
.31162
.63325
.54225
.63507
.54385
.54379
.54398
.54369
.55823
.45672
.42370
.45695
.42307
.42245
.42321
.42243
.43775
36.38-
37.160.590.570.640.535.98
5 P2-IP2-KQMLP-IMLP-GHMLP-MCMLP-B1MLP-B2MLP-D
.00780
.00073
.00822
.00224
.00218
.00278
.00225
.02136
.66611
.44612
.66587
.45177
.45158
.45182
.45176
.46945
.81615
.66793
.81601
.67214
.67200
.67217
.67213
.68517
.59354
.52505
.59260
.52752
.52751
.52680
.52677
.54428
49.31-
49.261.271.221.281.265.23
10 P2-IP2-KQMLP-IMLP-MCMLP-B2
.00062-.00165.00561
-.00833-.00590
.96493
.62994
.97623
.63669
.63705
.98231
.79369 .98804.79793.79815
.74742
.67181
.75078
.66900
.66838
53.18-
54.971.071.13
Tabelle 7.3: Ergebnisse der Simulationen des EXPAR(1)-Prozesses (P2)
nauigkeitsverlust gegenüber den MSE-optimalen KQ-Prognosen wiederum für großes h (hier: h=5)
am geringsten ist. Verglichen mit den Ergebnissen der drei erstgenannten Verfahren fällt die
Performance der direkten Technik jedoch erkennbar ab. Die MSE- und die MAE-Werte sind zum
Teil um mehrere Prozentpunkte größer.
Die Berechnung der direkten h-Schritt-Prognosen erforderte die Anpassung von spezifischen
h-Schritt-MLP(p,r,1)-Netzen (7.49) an die simulierten Zeitreihen. Trainiert wurden Netze mit
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 175
p=1 Eingabestellen und r=1, r=2 oder r=3 verborgenen Verarbeitungseinheiten. Die MLP-D-
Prognosen in Tabelle 7.2 basieren auf h-Schritt-MLP(1,1,1)-Netzen, in Tabelle 7.3 sind die
Prognoseergebnisse von h-Schritt-MLP(1,3,1)-Netzen ausgewiesen. Diese Netze ermöglichten von
allen getesteten Netzwerkarchitekturen jeweils die im MSE-Sinne besten Prognosen. Vergleicht man
die Ordnungen r der Netze mit den in Tabelle 7.1 angegebenen Spezifikationen der Einschritt-
MLP's, ist das zweite Ergebnis einigermaßen überraschend. Für die 100 Realisationen des
Prozesses (P2) wurden in 97 Fällen Einschritt-Netze mit r≤2 verborgenen Einheiten als adäquat
spezifiziert. Die h-Schritt-Netze besaßen hingegen mit r=3 die besten Prognoseeigenschaften. Ruft
man sich in Erinnerung, daß sie h-Schritt-KQ-Prognosefunktionen auf eine direkte Art und Weise
approximieren, erscheint dies wenig plausibel. Da der Prozeß ergodisch und streng stationär ist,
konvergieren KQ-Prediktoren für h→∞ stochastisch gegen das unbedingte Prozeßmittel µ Y . Die
Prognosefunktionen weisen somit für wachsendes h einen zunehmend 'glatteren' Verlauf auf und
sollten daher durch ein eher einfach aufgebautes KNN gut approximierbar sein. Die Behauptung
korrespondiert mit den für (P1) erzielten Ergebnissen und weiteren Resultaten, die auf den folgenden
Seiten vorgestellt werden. Ein Grund, warum im Falle des EXPAR(1)-Prozesses (P2) das Gegenteil
beobachtet wurde, kann in der hochgradig nichtlinearen Dynamik des Prozesses vermutet werden.
Weniger überraschend ist, daß die Eigenschaften der iterativen Prognosen für beide EXPAR(1)-
Prozesse relativ unbefriedigend sind. Ein Vergleich der Kenngrößen von MLP-I-Prognosen und
P1-I- bzw.- P2-I-Prognosen zeigt, daß das Ergebnis nicht durch mangelhafte Approximations-
eigenschaften der KNN oder durch starke Effekte der Parameterschätzung erklärt werden kann. Die
geringe Prognosezuverlässigkeit ist maßgeblich durch die deterministische Prognosetechnik selbst
bedingt. Hervorzuheben sind insbesondere die Eigenschaften der iterativen 10-Schritt-Prognosen.
Ihre mittleren quadratischen Fehler sind nicht durch die Varianzen Var Yt[ ] ≅ 2 74. bzw.
Var Yt[ ] ≅ 0 74. der beiden EXPAR(1)-Prozesse beschränkt. Sie überschreiten die Prozeßvarian-
zen deutlich. Hier sollte selbst die Verwendung des arithmetischen Zeitreihenmittels als Prediktor
'bessere' Prognoseergebnisse liefern. Die 10-Schritt-Prognosen sind demnach vollständig untauglich.
Für den Prozeß (P1) gilt gleiches bereits für die iterativen 5-Schritt-Prognosen.
Threshold-Autoregressive-Prozesse
Der SETAR(2,1,1)-Prozeß (P3) weist ebenso wie die EXPAR(1)-Prozesse (P1) und (P2) ein
grenzzyklisches Verhalten auf. Wie bei den Vorgängern resultiert hieraus, daß die Prognosedichten
für wachsendes h eine zunehmend bimodale Form besitzen. Bezüglich der Prognoseeigenschaften
kann dennoch ein bemerkenswerter Unterschied festgestellt werden. Aus der Sicht des Praktikers
sind für die exponentiell-autoregressiven Reihen lediglich h-Schritt-Prognosen mit h≤3 oder
höchstens h≤5 verwertbar. Die 10-Schritt-Prognosen, auch die MSE-optimalen Prognosen, liefern
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
176 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
kaum mehr Information über die Zukunft als das jeweilige Prozeßmittel. Im threshold-autoregressi-
ven Fall (P3) können hingegen auch für großes h sinnvoll verwertbare Prognosen ermittelt werden.
Die Zeitreihen besitzen ein stark ausgeprägtes - und damit gut prognostizierbares - zyklisches
Muster.
Die Einschritt-MLP-Netze (7.38) ermöglichten wieder sehr gute Approximationen des daten-
generierenden Modells. Die neuronalen Einschritt-Prognosen sind lediglich um 4.91% ineffizienter als
die MSE-optimalen P3-KQ-Prognosen (siehe Tabelle 7.4). Betrachtet man ausschließlich das
MSE-Kriterium, dann dominieren im Mehrschritt-Fall die MLP-GH-, MLP-MC- und MLP-B2-
Prognosen die mit ihnen konkurrierenden Prognosetechniken. Ihre MSE-Werte unterscheiden sich
kaum voneinander. Der Verlust an Prognosegenauigkeit gegenüber den MSE-optimalen Prognosen
ist gering. Abweichend von den bisher betrachteten Simulationsergebnissen ist die Dominanz der
Techniken gegenüber den MLP-I- und MLP-D-Prediktoren allerdings nicht stark ausgeprägt.
Schließt man in den Vergleich die MAE-Werte mit ein, ist zumindest für h≤3 ein eindeutiges Ranking
kaum mehr möglich. Hervorzuheben sind insbesondere die für h=2 und h=3 ermittelten guten
Prognoseeigenschaften der deterministischen MLP-I-Prognosen. Ihre Zuverlässigkeit ist mit der
Zuverlässigkeit von MLP-GH-, MLP-MC- und MLP-B2-Prognosen vergleichbar und geringfügig
größer als die von MLP-D-Prognosen. Der Grund hierfür wurde bereits erwähnt. Die Zeitreihen
weisen ausgeprägte zyklische Schwankungen auf, die kurzfristig gut deterministisch extrapolierbar
sind. Mit wachsendem Prognosehorizont steigen die mittleren quadratischen und mittleren absoluten
Prognosefehler allerdings deutlich. Angemerkt sei, daß hier die MLP-D-Prognosen mit Hilfe von h-
Schritt-MLP(1,1,1)-Netzen (h=2,3,5) ermittelt wurden.
Ein auf den ersten Blick überraschendes Ergebnis der Simulationsexperimente wurde bisher noch
nicht erwähnt. Nach Brown & Mariano [1989] führt die Verwendung von deterministischen
Prediktoren bei parametrischen dynamischen Modellen im allgemeinen zu verzerrten Mehrschritt-
Prognosen. Der Bias verschwindet auch dann nicht, wenn für die Schätzung der Modellparameter
infinit große Datensätze zur Verfügung stünden. Betrachtet man in den Tabellen 7.2 - 7.4 die
mittleren empirischen Prognosefehler der MLP-I-Prognosen genauer, fällt auf, daß der Ansatz hier
nicht deutlich verzerrte Prognosen liefert. Für die beiden EXPAR(1)-Prozesse (P1) und (P2) scheint
der empirische Prognosebias der MLP-I-Prognosen geringfügig größer als der Bias der exakten und
approximativen KQ-Prognosen zu sein, die ermittelten Werte weichen jedoch auch hier nicht
dramatisch vom Wert Null ab. Dieses Phänomen wurde bei der Auswertung der beiden noch
ausstehenden Simulationsexperimente nicht mehr beobachtet.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 177
Prognose-Schritt
Prognose-Typ
Bias MSE RMSE MAE EFF
1 P3-KQMLP
0.026500.02037
0.996131.04505
0.998061.02228
0.789330.81029
-4.91
2 P3-IP3-KQMLP-IMLP-GHMLP-MCMLP-B1MLP-B2MLP-D
-0.010560.00590
-0.01554-0.000620.000160.00006
-0.00022-0.00502
1.726921.721491.757331.752061.752511.754151.752511.76161
1.314121.312051.325641.323651.323821.324441.323821.32726
1.024881.025571.036431.036821.036971.037331.037001.03429
0.32-
2.081.781.801.901.802.33
3 P3-IP3-KQMLP-IMLP-GHMLP-MCMLP-B1MLP-B2MLP-D
0.038090.023060.015990.012960.012660.012990.012750.00421
2.225852.203742.254142.238192.238202.238622.237872.28560
1.491931.484501.501381.496061.496061.496201.495951.51182
1.148561.147791.157351.157241.156941.156961.156901.16166
1.00-
2.291.561.561.581.553.71
5 P3-IP3-KQMLP-IMLP-GHMLP-MCMLP-B1MLP-B2MLP-D
0.039960.018880.008240.009170.008330.008610.00836
-0.00491
3.029872.971723.149633.051803.051693.054863.051873.13021
1.740651.723871.774721.746941.746911.747821.746961.76924
1.293061.293001.315211.310931.310511.310961.310181.31681
1.96-
5.992.692.692.802.705.33
10 P3-IP3-KQMLP-IMLP-MCMLP-B2
-0.021720.01212
-0.020800.002470.00285
4.561324.335144.971564.557464.55520
2.135722.082102.229702.134822.13429
1.499071.501671.559891.545451.54372
5.22-
14.685.135.08
Tabelle 7.4: Ergebnisse der Simulationen des SETAR(2,1,1)-Prozesses (P3)
Für den SETAR(2,1,1)-Prozeß (P4) betrug die Effizienz der neuronalen Einschritt-Prognosen 5.4%
(siehe Tabelle 7.5). Der Verlust an Prognosegenauigkeit gegenüber MSE-optimalen KQ-Prognosen
ist hier etwas größer als in den zuvor betrachteten Situationen. Unter den alternativen Mehrschritt-
Prognosetechniken besitzen die Gauß-Hermite-, Monte-Carlo- und Bootstrap-Prediktoren die
günstigsten MSE- und MAE-Eigenschaften, wobei der MLP-B1-Prediktor leicht effizienter als die
antithetische MLP-B2-Version erscheint. Die MLP-D-Prognosen wurden für h=2 mittels 2-Schritt-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
178 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
Prognose-Schritt
Prognose-Typ
Bias MSE RMSE MAE EFF
1 P4-KQMLP
-0.01872-0.01367
3.984544.19982
1.996132.04935
1.593651.63512
-5.40
2 P4-IP4-KQMLP-IMLP-GHMLP-MCMLP-B1MLP-B2MLP-D
0.11295-0.006240.159710.00149
-0.01479-0.00923-0.009110.00202
8.391287.857538.733408.038118.036838.038738.039378.31917
2.896772.803132.955232.835162.834932.835262.835382.88430
2.285602.229972.334572.254532.253922.254672.254502.29672
6.79-
11.152.302.282.312.315.88
3 P4-IP4-KQMLP-IMLP-GHMLP-MCMLP-B1MLP-B2MLP-D
0.23677-0.004050.359410.00155
-0.009040.000910.000080.01151
10.477529.64995
11.042649.810749.814589.810609.81431
10.19435
3.236903.106443.323053.132213.132823.132193.132783.19286
2.570942.486322.639212.505212.507202.506772.506772.55154
8.58-
14.431.671.711.661.705.64
5 P4-IP4-KQMLP-IMLP-GHMLP-MCMLP-B1MLP-B2MLP-D
0.40731-0.020830.57156
-0.00262-0.015340.001490.00001
-0.00689
13.2331411.5605613.9226011.7194711.7138811.7138411.7156312.22115
3.637743.400083.731303.423373.422553.422553.422812.49588
2.915182.752392.993382.765212.764162.763662.764152.82030
14.47-
20.431.371.331.331.345.71
10 P4-IP4-KQMLP-IMLP-MCMLP-B1
0.59624-0.030890.75483
-0.03365-0.00431
15.9394612.8125816.2024112.8515512.85018
3.992433.579474.025233.584913.58471
3.233952.919883.251662.913072.91267
24.40-
26.460.300.29
Tabelle 7.5: Ergebnisse der Simulationen des SETAR(2,1,1)-Prozesses (P4)
MLP(1,2,1)-Netzen und für h=3 und h=5 mittels h-Schritt-MLP(1,1,1)-Netzen der Form (7.49)
ermittelt. Die Werte des MSE- und MAE-Kriteriums sind deutlich größer als die Kennzahlen der
zuvor genannten Techniken. Die eindeutig schlechteste Performance weist allerdings der
deterministische Ansatz auf. Die MSE-und MAE-Werte werden mit wachsendem Prognosehorizont
h extrem groß, wobei erstmals die Bias-Komponente des MSE ein signifikantes Gewicht besitzt.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 179
Man beachte, daß auch die mittleren Prognosefehler der P4-I-Prognosen, die durch Iteration des
'wahren' Skeletts von (P4) ermittelt wurden, mit wachsendem h deutlich steigen.
Eine heuristische Erklärung, warum in diesem Simulationsexperiment der deterministische Prediktor
erstmals einen substanziellen Bias erkennen läßt, ist schnell gefunden. Das Skelett des
SETAR(2,1,1)-Prozesses (P4) besitzt zwei lokal stabile Fixpunkte y1 0 8824* .= und y2 5 0* .= , die
beide vom Prozeßmittel E Yt Y[ ] = ≅µ 4 36. verschieden sind. Approximiert ein KNN das Skelett
hinreichend gut, dann streben in Abhängigkeit vom jeweiligen Startwert yn die MLP-I-Prognosen für
h→∞ gegen einen der beiden Fixpunkte. Asymptotisch sind diese Prognosen offensichtlich nur dann
unverzerrt, wenn die Gleichung
( )y p y p Y1 2 1* * * *⋅ + ⋅ − = µ
erfüllt ist. Hierbei bezeichnet p* die Wahrscheinlichkeit, daß im Prognoseursprung t=n die
Zufallsvariable Yn einen Wert im Anziehungsbereich des Fixpunktes y1* annimmt. Der
Anziehungsbereich des Fixpunktes ist durch das Intervall ( ]−214286 3 0. , . gegeben. Mittels numeri-
scher Integration der univariaten Randdichte des Prozesses (vgl. Abbildung 7.9) erhält man
( )p P Yn* . . .= − < ≤ ≅214286 3 0 0 334 . Die obige Gleichung ist somit nicht erfüllt, und die MLP-
I-Prognosen sollten für hinreichend großes h einen Bias aufweisen.
Die Prozesse (P1) - (P3) sind durch grenzzyklisches Verhalten gekennzeichnet. Beispielsweise
besitzt das Skelett des EXPAR(1)-Prozesses (P1) den global stabilen Grenzzyklus
z = − + ′( )1 339 1 339. , . , dessen periodische Punkte symmetrisch bezüglich E Yt Y[ ]= =µ 0 sind.
Approximiert wieder ein KNN das Skelett des Prozesses hinreichend gut, dann streben die MLP-I-
Prognosen für h→∞ gegen z. Sie sind dann (asymptotisch) erwartungstreu. Analoge Argumente
lassen sich für (P2) und (P3) finden.
Bilinear-Autoregressiver-Prozeß
Mit der Simulation des BAR(1,1,1)-Prozesses (P5) wurden zwei verschiedene Ziele verfolgt.
Zunächst sollten wieder Erkenntnisse über die Eigenschaften der alternativen Mehrschritt-
Prognosetechniken gewonnen werden. Aufgrund der probabilistischen Eigenschaften des Prozesses
ist hier allerdings nur die Berechnung von 2-Schritt- oder höchstens 3-Schritt-Prognosen sinnvoll.
Das Simulationsexperiment kann somit nicht so umfangreich über die relativen Eigenschaften der
Prediktoren informieren, wie die zuvor beschriebenen Experimente. Damit gewinnt die zweite
Zielsetzung an Gewicht. Der bilineare Prozeß (P5) ist nicht wie seine Vorgänger (P1) - (P4) vom
Markov-Typ. Von besonderem Interesse ist hier das Ausmaß der Effizienzverluste neuronaler
Prognosen gegenüber MSE-optimalen Prognosen. Die Simulationsergebnisse können möglicher-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
180 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
weise interessante Erkenntnisse über die Prognoseeigenschaften von MLP-Netzen für stochastische
Prozesse, die nicht mit der Markov-Eigenschaft ausgestattet sind, liefern.
Es wird zunächst auf die erste Fragestellung eingegangen. Die Werte der Vergleichsgrößen in Tabelle
7.6 unterscheiden sich für die approximativen KQ-Mehrschritt-Prognosetechniken mittels Gauß-
Hermite-Quadratur, Monte-Carlo-Simulation und Bootstraping nur geringfügig. Dies gilt abgestuft
auch für die direkten MLP-D-Prognosen, die hier durch Einsatz von h-Schritt-MLP(2,2,1)-Netzen
(h=2,3) berechnet wurden. Die mittleren quadratischen und mittleren absoluten empirischen Fehler
der direkten Prognosen sind nur für h=3 größer als die Kennzahlen der zuvor genannten Prognosen.
Die schlechteste Performance weist erneut der deterministische Ansatz auf. Die mittleren empirischen
Prognosefehler der MLP-I-Prognosen sind für h=2 und h=3 deutlich von null verschieden. Hieraus
resultieren große Werte des MSE- und MAE-Kriteriums.
Obwohl weniger offensichtlich, sind die heuristischen Argumente auf S.175 möglicherweise auch hier
zur Erklärung des Bias der MLP-I-Prognosen geeignet. Das Skelett von (P5) besitzt einen global
stabilen Fixpunkt y*=0, der nicht mit dem Prozeßmittel E Yt Y[ ] = = −µ 0 6. identisch ist. In
zusätzlichen Untersuchungen wurde beobachtet, daß die deterministischen Prognosen für h→ ∞ im
Prognose-Schritt
Prognose-Typ
Bias MSE RMSE MAE EFF
1 P5-KQMLPARMA-KQ
-0.01583-0.00844-0.01167
1.007271.116091.25093
1.003631.056451.11845
0.799860.835120.88219
-10.8024.19
2 P5-KQMLP-IMLP-GHMLP-MCMLP-B1MLP-B2MLP-DARMA-KQ
-0.02135-0.260530.008110.007150.002980.00247
-0.00968-0.01920
1.677381.857371.767221.767481.767971.767961.764761.72172
1.295141.362851.329371.329471.329651.329651.328441.31214
1.005441.044901.027381.027461.027291.027211.026901.01376
-10.735.365.375.405.405.212.64
3 P5-KQMLP-IMLP-GHMLP-MCMLP-B1MLP-B2MLP-DARMA-KQ
-0.02427-0.437180.020540.019690.011810.01219
-0.01344-0.02304
1.831262.103001.893941.894771.894911.894371.946241.84153
1.353241.450171.376211.376511.376561.376361.395081.35703
1.038451.096301.058831.058831.058241.058241.064781.03947
-14.843.423.473.483.456.280.56
Tabelle 7.6: Ergebnisse der Simulationen des BAR(1,1,1)-Prozesses (P5)
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 181
quadratischen Mittel gegen den Wert Null tendieren. Ihr Bias strebt gegen µY = −0 6. . Der mittlere
Prognosefehler von 10-Schritt-Prognosen ist beispielsweise −0.58209 (MSE: 2.27393; MAE:
1.13023).
Im Einschritt-Fall beträgt der gegenüber den MSE-optimalen P5-KQ-Prognosen eingetretene
Verlust an Prognosegenauigkeit, gemessen durch das MSE-Kriterium, 10.8%. Die MAE-Werte
differieren um 5.64%. Die Ineffizienz der MLP-Prognosen ist damit um das zweifache bis 3.6-fache
größer als in den vorangegangenen Experimenten. Die vergleichsweise schlechten
Prognoseergebnisse können nicht auf einen 'lack-of-fit' der in Tabelle 7.1 ausgewiesenen KNN
zurückgeführt werden. Die Güte der Anpassung an die Trainingsbereiche der Zeitreihen erwies sich in
diagnostischen Tests als zufriedenstellend. Im Mehrschritt-Fall ist der relative Genauigkeitsverlust für
die approximativen KQ-Prognosen geringer. Hier muß allerdings berücksichtigt werden, daß die
Fehlervarianzen der 3-Schritt-Prognosen bereits annähernd die Größenordnung der Prozeßvarianz
Var Yt[ ] = 1973. erreicht haben (vgl. die Anmerkungen auf S.168f).
Größere Ineffizienzen der neuronalen Prognosen wurden in diesem Simulationsexperiment erwartet,
ihr tatsächliches Ausmaß ist jedoch enttäuschend. Bereits in Abschnitt 7.3.1.1 wurde darauf
hingewiesen, daß die bilineare Komponente des Prozesses ein relativ geringes Gewicht besitzt. In der
Tat sind bilineare Charakteristika in den simulierten Zeitreihen nur moderat ausgeprägt. In
Voruntersuchungen wurden deshalb auch bilineare Prozesse mit stark gewichteten bilinearen Termen
simuliert. Mittels KNN konnten in allen Fällen befriedigende Anpassungsergebnisse erzielt werden,
die Effizienzverluste der Prognosen gegenüber MSE-optimalen Prognosen fielen aber noch größer
aus, als in diesem Kapitel berichtet.
Um die Kritik zu relativieren, wurden in diesem Simulationsexperiment auch lineare Prognosen
ermittelt. Da lineare Prognoseansätze in der Praxis den Standard bilden, ist es interessant zu
untersuchen, ob die KNN im Vergleich zuverlässigere Prognosen liefern.
In Abschnitt 7.3.1.1 wurde erläutert, daß die statistischen Eigenschaften bis zur zweiten Ordnung des
bilinearen Prozesses (P5) durch das ARMA(1,1)-Modell
Y a a Y bt t t t= + + +− −0 1 1 1η η , η σηt sown~ ,( )0 2
mit a0 0 3= − . , a1 0 5= . , b = 014123. und ση2 1 27457= . exakt erfaßt werden. Das Modell wurde
zur Berechnung von KQ-Prognosen verwendet, die MSE-optimal in der Klasse aller linearen
Prediktoren für (P5) sind (vgl. Granger & Andersen [1978, S.67ff]). Die linearen h-Schritt-
Prognosefunktionen besitzen die Form:
$,Y a a Y bn n n1 0 1= + + η
und
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
182 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
$ $, ,Y a a Yn h n h= + −0 1 1 für h ≥ 2 .
Die linearen Prognosen sind in Tabelle 7.6 als ARMA-KQ-Prognosen gekennzeichnet. Für h=1 sind
ihre mittleren quadratischen und mittleren absoluten empirischen Fehler deutlich größer als die
Kennzahlen der MLP-Prognosen. Für h=2 und h=3 erweisen sich hingegen die linearen Prognosen
als effizienter. Ihre Effizienzverluste gegenüber den P5-KQ-Prognosen sind gering. Letzteres mußte
erwartet werden, da die linearen Prognosefunktionen und die bilinearen Prognosefunktionen (7.33) -
(7.35) nur für h=1 verschieden sind. Der Effekt unterschiedlicher Einschritt-Prognosen verschwindet
bei der rekursiven Ermittlung von Mehrschritt-Prognosen mit wachsendem Prognosehorizont. Aus
praxisorientierter Sicht sind die Unterschiede zwischen neuronalen und linearen Mehrschritt-
Prognosen allerdings eher unbedeutend, da die Prognoseunsicherheit hier insgesamt sehr hoch ist.
Interessanter sind die Ergebnisse im Einschritt-Fall. Hier ermöglichen KNN gegenüber dem linearen
Modell deutlich verbesserte Prognosen.
7.3.3 Diskussion der Ergebnisse
Die Simulationsstudie lieferte einige interessante Ergebnisse. Zunächst ist festzustellen, daß in allen
Experimenten die Performance der einfachen iterativen oder deterministischen Prognosetechnik
gegenüber den konkurrierenden rechenintensiveren Ansätzen abfiel. Das Ausmaß der Unterschiede
variierte jedoch von Prozeß zu Prozeß. Eine wesentliche Determinante der Güte deterministischer
Prognosen ist wesensbedingt der 'Rauschanteil' im datenerzeugenden Prozeß: Bei sinkenden
Varianzen des Störprozesses wird, die Verfügbarkeit eines prognosetauglichen KNN vorausgesetzt,
ihre Zuverlässigkeit steigen. Die Experimente weisen auch die Form der nichtlinearen Prozeßdynamik
als einen wichtigen Faktor aus. Während bei Prozessen mit grenzzyklischen Verhalten keine sub-
stantiellen Verzerrungen beobachtet wurden, trat bei Prozessen mit Fixpunkt-Verhalten ein deutlicher
Prognosebias auf. Die Ergebnisse lassen vermuten, daß die iterative Technik im Falle ausgeprägt
zyklischer Zeitreihen mit moderatem Rauschanteil durchaus zufriedenstellende Prognosen liefert.
Residuenbasierte Prognosetechniken sind in der Praxis einfacher einsetzbar als rekursive KQ-
Techniken, da sie keine Spezifikation der Störverteilung des datenerzeugenden Prozesses erfordern.
Es stellt sich die Frage, welche Einbußen an Prognosegenauigkeit gegenüber rekursiven KQ-
Techniken für diese Vereinfachung in Kauf genommen werden müssen, wenn die KQ-Techniken
von der a priori Kenntnis der Störverteilung Gebrauch machen können. In der vorliegenden Studie
wurden keine nennenswerten Performanceunterschiede zwischen Bootstrap-Prognosen auf der einen
und Gauß-Hermite- bzw. Monte-Carlo-Prognosen auf der anderen Seite festgestellt, wobei letztere
die Kenntnis der Störverteilung ausnutzten. Dieses Ergebnis wurde natürlich durch den (relativ zur
Komplexität der simulierten Prozesse) großen Umfang der verfügbaren Trainingsmengen begünstigt.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN 183
Lange Zeitreihen ermöglichen eine vergleichsweise gute Anpassung von KNN an die Daten und
damit auch eine brauchbare Approximation der Störverteilung durch die Häufigkeitsverteilung der
Netzresiduen. In zukünftigen Untersuchen ist zu klären, inwieweit bei sinkender Reihenlänge relative
Performanceverluste eintreten. Ebenso bleibt offen, wie sich umgekehrt eine Misspezifikation der
Störverteilung auf die Güte der rekursiven KQ-Prognosen auswirkt.
Die direkte Prognosetechnik lieferte in den ersten vier Experimenten unzuverlässigere Prognosen im
Sinne der Vergleichskriterien als die Bootstrap- und die rekursiven KQ-Techniken. Nur im fünften
Experiment wurden vergleichbare Prognosen ermittelt. Dieses Ergebnis ist bemerkenswert, zumal
kein 'fairer' Vergleich zugrunde lag: Die Mehrschritt-MLP-Netze wurden nicht ex-ante sondern ex-
post unter Berücksichtigung ihrer Prognoseeigenschaften ausgewählt. Als ein möglicher Vorteil der
direkten Technik wurde in Kapitel 7.2 der Tatbestand genannt, daß sie nicht wie rekursive
Prognoseansätze mit dem Risiko sich in einem Rekursionsprozeß verstärkender
Approximationsfehler von Netzwerken behaftet ist. In dieser Studie kam der Vorteil, wenn
überhaupt, nur in den Simulationen des bilinearen Prozesses (P5) zum Tragen. Ansonsten wurde er
durch Nachteile der Technik überkompensiert. Die wesentliche Ursache für die vergleichsweise
schlechte Performance direkter Prognosen ist in den seriellen Abhängigkeitsbeziehungen innerhalb
der Residualreihen der h-Schritt-Netze (h >1) zu suchen. In den Simulationen der NLAR(1)-
Prozesse (P1) - (P4) wiesen die Residualreihen typischerweise ausgeprägte Autokorrelationen (bis
zum Lag h−1) auf. Autokorrelationen in den Fehlern führen zu wachsenden Varianzen der NKQ-
Gewichtsschätzer und damit auch zu einem Anstieg der Variabilität der Prognosefehler. Man
beachte, daß dieser Effekt trotz der Verfügbarkeit umfangreicher Lerndatensätze deutlich wirksam
wurde. Das Problem kann durch eine Nichtlineare-Generalisierte-Kleinste-Quadrate-(NGKQ)-
Schätzung (siehe z.B. Seber & Wild [1989, S.271ff]) der Netzgewichte gemildert werden. Die
NGKQ-Schätzung führt allerdings zu einem weiteren Anstieg des ohnehin nicht unerheblichen Auf-
wands der direkten Technik. In vielen praktischen Anwendungen dürfte es fraglich sein, ob der
Zusatzaufwand gegenüber alternativen Techniken wie z.B. der Bootstrap-Prognose durch die
erreichbare Prognosegenauigkeit gerechtfertigt werden kann.
Die NLAR(1)-Prozesse (P1) - (P4) konnten in der Studie bereits durch sehr einfach aufgebaute
(Einschritt-) MLP(1,r,1)-Netze überzeugend modelliert und prognostiziert werden. Weniger günstige
Prognoseeigenschaften besaßen die Netzwerke im nicht-Markov'schen bilinearen Fall (P5). Dieses
Ergebnis wirft die Frage nach den Grenzen der Prognosefähigkeit von KNN auf. Eine abschließende
Antwort auf die Frage kann an dieser Stelle nicht gegeben werden. Um den Aufwand der Studie in
einem vertretbaren Rahmen halten zu können, wurde hier die Strategie der Auswahl und Schätzung
möglichst sparsam parametrisierter Netze verfolgt. Es ist durchaus denkbar, daß andere
Modellierungsstrategien im Falle nicht-Markov'scher Reihen zu verbesserten Prognosen führen. So
setzt z.B. Wu [1995] hochdimensionierte MLP(8,40,40,1)-Netze zur Prognose bilinearer Zeitreihen
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
184 MEHRSCHRITT-PUNKTPROGNOSEN MIT KÜNSTLICHEN NEURONALEN NETZEN
mit z.T. stark ausgeprägter bilinearer Charakteristik ein. Eine Überanpassung der KNN an die Daten
wurde durch Einsatz einer Stopp-Training-Prozedur vermieden. Die Berechnung von Mehrschritt-
Prognosen erfolgte iterativ. Wu berichtet von durchaus zufriedenstellenden Prognoseergebnissen. Die
Studie basiert allerdings auf nur wenigen Zeitreihen, so daß eine endgültige Beurteilung der
Prognoseeigenschaften der hochdimensionierten KNN an dieser Stelle kaum möglich ist.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
185
8 SCHÄTZUNG VON PROGNOSEREGIONEN MIT
KÜNSTLICHEN NEURONALEN NETZEN
In den bisherigen Ausführungen stand die Berechnung von Punktprognosen im Vordergrund. In der
Praxis der Zeitreihenprognose wird allerdings häufig über die Punktprognose hinausgehende
Information bezüglich der bedingten Verteilungen 'zukünftiger' Variablen eines stochastischen
Prozesses benötigt, die es ermöglicht, die Unsicherheit zukünftiger Entwicklungen - und damit implizit
die Zuverlässigkeit von Punktprognosen - abschätzen zu können. Solche Information können
geeignet gewählte Prognoseregionen liefern. Sie beschreiben Teilmengen des Zustandsraumes eines
stochastischen Prozesses, in denen sich der Prozeß in Abhängigkeit von seiner vergangenen
Entwicklung an zukünftigen Zeitpunkten mit einer vorgegebenen Wahrscheinlichkeit realisieren wird.
Die Berechnung von Prognoseregionen setzt die Lösung zweier Teilprobleme voraus. Zunächst gilt es
zu klären, wie bei Kenntnis der Prognoseverteilungen eines stochastischen Prozesses
Prognoseregionen so konstruiert werden können, daß sie möglichst umfassend die Unsicherheit
zukünftiger Entwicklungen beschreiben. Anschließend ist zu untersuchen, wie diese Prognose-
regionen auf der Basis beobachteter Zeitreihenwerte geschätzt werden können. In der Vergangenheit
wurden die beiden Problembereiche zumeist unter der Prämisse untersucht, daß als
datenerzeugender stochastischer Prozeß ein stationärer linearer Prozeß oder, noch restriktiver, ein
stationärer Gaußprozeß vorliegt. Eine umfassende Diskussion der unter diesen Prämissen erzielten
Ergebnisse ist z.B. bei Chatfield [1993] nachlesen. Die Konstruktion von Prognoseregionen für
stationäre nichtlineare Prozesse wird erst in jüngster Zeit in der Fachliteratur erörtert (siehe z.B.
Hyndman [1995], Yao & Tong [1995] und Yao [1996]). Die bisher vorliegenden Ansätze werden
zunächst vorgestellt. Anschließend wird der Einsatz Künstlicher Neuronaler Netze zur Schätzung von
Prognoseregionen diskutiert.
8.1 Konstruktion von Prognoseregionen
Als datenerzeugender Prozeß wird wieder ein streng stationärer NLAR(p)-Prozeß der Form
(8.1) ( )Yt t t= +−µ εX 1
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
186 SCHÄTZUNG VON PROGNOSEREGIONEN MIT KÜNSTLICHEN NEURONALEN NETZEN
mit X t t t pY Y= ′− +( ),..., 1 , ( ) [ ]µ x X x= =−E Yt t 1 für beliebige x ∈ IR p und ε σεt iid~ ,( )0 2
angenommen. Es sei angemerkt, daß die folgenden Definitionen von Prognoseregionen problemlos
auf nicht-autoregressive Prozesse übertragen werden können.
Eine Prognoseregion im Prognoseursprung nt = wird im folgenden als eine Menge reeller Zahlen
R Rh h n, ,α α≡ ( )X aufgefaßt, die für festes ( )α ∈ 01, , h IN∈ und xn IR p∈ die Gleichung
(8.2) ( )P Y Rn h h n n n+ ∈ = =,α α( ) x X x
erfüllt. Rh , α soll als eine h-Schritt-Prognoseregion mit der Überdeckungswahrscheinlichkeit αbezeichnet werden. Ist Rh , α ein Intervall, dann wird entsprechend von einem Prognoseintervall
gesprochen. Da eine Prognoseregion der Beurteilung der Prognoseunsicherheit dient, sollte Rh , α so
gewählt werden, daß Rh , α die relevanten Charakteristika der bedingten Verteilung von Yn h+gegeben X xn n= widerspiegelt.
Im Zusammenhang mit linearen stochastischen Prozessen werden üblicherweise Bedingte-Quantil-
Intervalle (BQI) der Form
(8.3) [ ]ξ ξα αh n h n, . , .,0 5 2 0 5 2− +( ) ( )X X
als h-Schritt-Prognoseregionen genutzt. Hierbei bezeichnet ξh r n, ( )x das r-Quantil der bedingten
Verteilung von Yn h+ gegeben X xn n= mit
( )P Y rn h h r n n n+ ≤ = =ξ , ( ) x X x , ( )r ∈ 0 1 , .
Die Breite eines realisierten Prognoseintervalls spiegelt die Streuung der Prognoseverteilung wider
und informiert so über die Prognoseunsicherheit. Die analytische Bestimmung eines BQI kann im
Einzelfall sehr aufwendig werden. In der Praxis werden daher häufig Prognoseintervalle berechnet,
die einen Gaußprozeß als datenerzeugenden Prozeß voraussetzen. Die Herleitung eines Intervalls
gestaltet sich hier einfach (siehe z.B. Box & Jenkins [1970, S.126ff]).
Liegt ein nichtlinearer datenerzeugender stochastischer Prozeß vor, können BQI nur eingeschränkt
über die Unsicherheit der zukünftigen Prozeßentwicklung informieren. In Kapitel 7.3.1.1 wurden
einige bemerkenswerte Phänomene der nichtlinearen Prediktion diskutiert, die im Zusammenhang mit
linearen Prozessen unbekannt sind:
(i) Die Prognoseunsicherheit, gemessen durch die Varianz der Prognoseverteilung, hängt
wesentlich vom Zustand des Prozesses im Prognoseursprung nt = ab.
(ii) Die Prognoseunsicherheit wächst mit dem Prognosehorizont h. Das Wachstum vollzieht sich
jedoch nicht notwendig monoton.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
SCHÄTZUNG VON PROGNOSEREGIONEN MIT KÜNSTLICHEN NEURONALEN NETZEN 187
(iii) Es können asymmetrische und multimodale Prognoseverteilungen auftreten. Dies gilt selbst
dann, wenn die Störungen εt eines nichtlinearen Prozesses unimodal und symmetrisch
verteilt sind.
Die Breite eines BQI (8.3) variiert mit der Streuung der zugrundeliegenden Prognoseverteilung und
zeigt somit die prognosehorizont- und zustandsabhängige Variation der Prognoseunsicherheit auf.
Der Ansatz ist geeignet, über die beiden erstgenannten Phänomene zu informieren. Liegt jedoch eine
deutlich schiefe oder multimodale Prognoseverteilung vor, ist der Informationsgehalt eines BQI
ungenügend. Dies ist ein gravierender Schwachpunkt des Ansatzes. Speziell die Mehrgipfligkeit einer
Prognoseverteilung ist ein Phänomen, das mit höchster Unsicherheit verbunden ist. Nichtlineare KQ-
Prediktoren können in diesem Fall irreführende Punktprognosen liefern.
Um die mögliche Schiefe und Multimodalität von Prognoseverteilungen besser erfassen zu können,
haben Hyndman [1995] und Yao [1996] alternative Konstruktionsansätze für Prognoseregionen
vorgeschlagen. Die Regionen werden hier als Maximum-Bedingte-Dichte-Region (MBDR) bzw. als
Maximum-Bedingte-Dichte-Intervall (MBDI) bezeichnet. Die h-Schritt-MBDR Rh ,α mit
Überdeckungswahrscheinlichkeit α ist für festes ( )α ∈ 0 1, , h IN∈ und xn IR p∈ definiert als die
Menge
(8.4) ( | ) ( ) y y f y dh n h n< ∞ ∧ ≥x x,α ,
wobei gilt
d d f y dyh n h n
y f y dh n
, maxα α( ) ( | )
( | )
x x
x
= > ≥
≥∫0 .
Wie an früherer Stelle kennzeichnet fh n( | ) ⋅ x die Dichte der bedingten Verteilung von Yn h+gegeben X xn n= . Das h-Schritt-MBDI Rh , α mit Überdeckungswahrscheinlichkeit α ist für festes
( )α ∈ 0 1, , h IN∈ und xn IR p∈ gegeben durch das Intervall
(8.5) [ ]m b m bh n h n h n h n, , , ,α α α α( ) ( ) , ( ) ( )x x x x− + ,
wobei bh n,α ( )x das Minimum und mh n,α ( )x die Minimumstelle der Funktion
b y b f u duh n h n
y b
y b
, minα α( ; ) ( | ) x x= > ≥
−
+
∫0 , y ≤ ∞ ,
ist.
Das MBDI (8.5) besitzt unter allen Prognoseintervallen mit identischer Überdeckungswahrschein-
lichkeit die geringste Breite. Die MBDR (8.4) besitzt unter allen Prognoseregionen mit identischer
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
188 SCHÄTZUNG VON PROGNOSEREGIONEN MIT KÜNSTLICHEN NEURONALEN NETZEN
Überdeckungswahrscheinlichkeit das kleinste Lebesgue-Maß (vgl. Yao [1996]). Ist die bedingte
Dichte fh n( | ) ⋅ x multimodal, kann (in Abhängigkeit von α) eine MBDR aus mehreren unver-
bundenen Intervallen bestehen und so die Multimodalität der Prognoseverteilung widerspiegeln. Ist
fh n( | ) ⋅ x unimodal, dann geht eine MBDR in ein MBDI über. Die Intervallbreite kann bei schie-
fen Verteilungen substanziell kleiner sein als die Intervallbreite eines BQI (8.3). Ist fh n( | ) ⋅ x uni-
modal und symmetrisch, dann fallen MBDR, MBDI und BQI zusammen. Die Größe mh n,α ( )x in
(8.5) ist jetzt mit der Maximumstelle (Modus) von fh n( | ) ⋅ x identisch. Yao bezeichnet das MBDI
(8.3) deshalb auch als ein 'shortest conditional modal interval'.
Die unterschiedlichen Konzepte sollen anhand eines Beispiels verdeutlicht werden. Betrachtet wird
der SETAR (2,1,1)-Prozeß (P3) aus Kapitel 7.3.1.1 :
(8.6) YY Y
Y Yt
t t t
t t t
=− ⋅ + ≤
− − ⋅ + >
− −
− −
1 5 0 9 0
0 4 0 6 0
1 1
1 1
. .
. .
ε
ε
falls
falls , ( )εt ind~ ,0 1 .
Der Prozeß weist hochgradig nichtlineare Eigenschaften auf. Nimmt der Prozeß zum Zeitpunkt nt =
einen Wert yn nahe dem Prozeßmittel an, treten bereits für kleine h bimodale bedingte Dichten
f yh n( | ) ⋅ auf. Die Varianzen $,
σn h2 der bedingten Verteilungen hängen maßgeblich vom Zustand
des Prozesses im Prognoseursprung ab. Letzteres verdeutlicht die Abbildung 8.1. Sie zeigt für
verschiedene Prognoseschritte h die bedingten Standardabweichungen $,
σn h
in Abhängigkeit von
[ ]yn
∈ − +3 5 4 5. , . . Für festes h>1 ist die durch $,
σn h
gemessene Prognoseunsicherheit im ersten
Schwellenwertregime ( ]−∞,0 deutlich geringer als im zweiten Regime ( )0,∞ , wobei $,
σn h
an der
Stelle yn = 0 des Regimewechsels sprunghaft ansteigt. Für festes yn wachsen die
Standardabweichungen nur für Werte yn in der Umgebung des Regimewechsels monoton mit dem
Prognosehorizont h.
Die Tabelle 8.1 weist für yn = 0.61, h = 1,2,3,4 und α = 0.5, 0.75, 0.9 Prognoseregionen aus. Für
h = 1 ist die bedingte Dichte f yn1( | ) ⋅ mit der Dichte der N yn( )$ ,,12σε -Verteilung identisch,
wobei $ .,y n 1 0 766= − die 1-Schritt-KQ-Prognose und σε2 1= die Varianz der Störungen ist. BQI,
MBDI und MBDR fallen zusammen. Die Intervalle sind mit Hilfe einer Tabelle der
Standardnormalverteilung ermittelbar. Für h > 1 ist eine analytische Bestimmung von
Prognoseregionen nicht mehr möglich. Sie wurden hier in zwei Schritten auf numerischem Wege
berechnet. Zunächst wurde die Rekursionsbeziehung (7.13)
f y y f y y f y y dyh n h n h n h n n n n( ) ( ) ( )-
+ − + + + +∞
∞
= ⋅∫ 1 1 1 1 1 (h = 2,3,4,...)
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
SCHÄTZUNG VON PROGNOSEREGIONEN MIT KÜNSTLICHEN NEURONALEN NETZEN 189
-4 -3 -2 -1 0 1 2 3 4 5
1
1.5
2
2.5
3
h=2
h=4
h=3
h=5
h=3
h=2
h=5
h=4
h=1
yn
σn,h
^
Abb. 8.1 : Standardabweichungen $,
σn h
der bedingten Verteilungen von Yn h+ gegeben Y yn n= des
SETAR-Prozesses (8.6) für h=1,...,5 und −3.5 ≤ yn ≤ 4.5
-8 -6 -4 -2 0 2 4 6 8 10
0
0.05
0.1
0.15
0.2
0.25
f 4
( | ). .
y
MBDR
BQI
MBDI
d4,0.75(0.61)
Abb. 8.2: Bedingte Dichtefunktion f yn4 ( | ) ⋅ des SETAR-Prozesses (8.6) an der Stelle yn=0.61
und 4-Schritt-Prognoseregionen mit Überdeckungswahrscheinlichkeit α = 0.75
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
190 SCHÄTZUNG VON PROGNOSEREGIONEN MIT KÜNSTLICHEN NEURONALEN NETZEN
ausgenutzt. Die jeweilige h-Schritt-Prognosedichte wurde an 212 äquidistanten Punkten im Intervall
[−10 , +12] mittels Gauß-Hermite-Quadratur (S = 64 Stützstellen) berechnet. Die Dichten wurden
bereits in Abb. 7.10 auf S.153 graphisch dargestellt. In einem zweiten Schritt folgte die Bestimmung
der Prognoseregionen durch Anwendung der Simpson-Regel (siehe z.B. Press et al. [1988,
S.102ff]). Es sei angemerkt, daß insbesondere die numerische Bestimmung eines MBDI gemäß (8.5)
nicht unproblematisch ist. Da die Prognosedichten nur an diskreten Stützstellen bekannt sind, kann
die Minimierungsaufgabe in (8.5) in aller Regel nicht eindeutig gelöst werden. Um Eindeutigkeit zu
erzwingen, wurden daher die Prognosedichten zwischen den Stützstellen durch lineare Interpolation
angenähert.
Die markantesten Unterschiede weisen die ermittelten Regionen für h=4 auf. Die Abb. 8.2 zeigt zur
Illustration die bedingte Dichte f yn4
( | ) ⋅ und Prognoseregionen mit der Überdeckungswahr-
scheinlichkeit α = 0.75. Die Prognosedichte ist asymmetrisch und bimodal. Beide Charakteristika
werden durch die MBDR aufgezeigt. Sie zerfällt in zwei Intervalle unterschiedlicher Breite.
Einzelne Intervalle können die Bimodalität der Verteilung nicht aufzeigen. Das MBDI berücksichtigt
aber ihre Schiefe. Es lokalisiert ein Intervall, dessen zugehörige Wahrscheinlichkeitsmasse maximal
ist. Aufgrund der Linksschiefe der Verteilung ist es gegenüber dem BQI nach rechts verschoben.
Interessant ist ferner, daß die Breite des MBDI lediglich 92% der Breite des Quantilintervalls be-
trägt. Die Verwendung des MBDR-Ansatzes führt zu einer weiteren Reduktion der Prognoseregion.
Prognose- Typ Überdeckungswahrscheinlichkeitschritt α = 0.5 α = 0.75 α = 0.9
h = 1 alle [−1.441 , −0.092] [−1.916 , 0.384] [−2.411 , 0.879]
h = 2 BQI
MBDI
MBDR
[0.686 , 3.076]
[1.324 , 3.524]
(wie MBDI)
[−0.598 , 3.744]
[ 0.046 , 4.220]
(wie MBDI)
[−1.535 , 4.426]
[−1. 417 , 4.524]
(wie MBDI)
h = 3 BQI
MBDI
MBDR
[−2.503 , −0.151]
[−2.921 , −0.747]
(wie MBDI)
[−3.160 , 1.876]
[−3.905 , 0.339]
(wie MBDI)
[−3.833 , 3.226]
[−4.116 , 2.864]
[−4.185 , 0.907] ∪[1.345 , 3.182]
h = 4 BQI
MBDI
MBDR
[0.788 , 3.954]
[1.903 , 4.585]
(wie MBDI)
[−1.497 , 4.745]
[0.156 , 5.879]
[−2.068 , −1.164] ∪[0.960 , 5.526]
[−2.689 , 5.536]
[−2.526 , 5.678]
[−2.815 , −0.142] ∪[0.396 , 5.839]
Tabelle 8.1: h-Schritt-Prognoseregionen mit Überdeckungswahrscheinlichkeit α für den SETAR-Prozeß (8.6) an der Stelle yn = 0.61
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
SCHÄTZUNG VON PROGNOSEREGIONEN MIT KÜNSTLICHEN NEURONALEN NETZEN 191
-4 -3 -2 -1 0 1 2 3 4 5
-6
-3
0
3
6
9
yn
(a)
yn+3
-4 -3 -2 -1 0 1 2 3 4 5
-6
-3
0
3
6
9
yn
(b)
yn+3
-4 -3 -2 -1 0 1 2 3 4 5
-6
-3
0
3
6
9
yn
(c)
yn+3
Abb. 8.3: 3-Schritt-Prognoseregionen für den SETAR-Prozeß (8.6) mit (a) α = 0.5, (b) α = 0.75
und (c) α=0.9 [Grenzen eines BQI - - - , Grenzen eines MBDI ____ , Grenzen einer
MBDR ....., falls nicht mit MBDI identisch]
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
192 SCHÄTZUNG VON PROGNOSEREGIONEN MIT KÜNSTLICHEN NEURONALEN NETZEN
-4 -3 -2 -1 0 1 2 3 4 5
-6
-3
0
3
6
9
yn
(a)
yn+4
-4 -3 -2 -1 0 1 2 3 4 5
-6
-3
0
3
6
9(b)
yn+4
yn
-4 -3 -2 -1 0 1 2 3 4 5
-6
-3
0
3
6
9(c)
yn+4
yn
Abb. 8.4: 4-Schritt-Prognoseregionen für den SETAR-Prozeß (8.6) mit (a) α = 0.5, (b) α = 0.75
und (c) α=0.9 [Grenzen eines BQI - - - , Grenzen eines MBDI ____ , Grenzen einer
MBDR ....., falls nicht mit MBDI identisch]
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
SCHÄTZUNG VON PROGNOSEREGIONEN MIT KÜNSTLICHEN NEURONALEN NETZEN 193
Für α = 0.9 sind die Ergebnisse in analoger Weise zu interpretieren. Wählt man eine Über-
deckungswahrscheinlichkeit von α = 0.5, dann sind MBDR und MBDI identisch. Aufgrund der
Schiefe der Verteilung zeigt die MBDR jetzt die Bimodalität nicht mehr auf.
Umfassendere Berechnungsergebnisse sind in den Abbildungen 8.3 und 8.4 graphisch dargestellt. Sie
zeigen 3-Schritt- und 4-Schritt-Prognoseregionen (α = 0.5, 0.75, 0.9), wobei der Prozeß zum Zeit-
punkt t=n Werte im Intervall [ ]− +3 5 4 5. , . annimmt. Die Prognosedichten sind für yn ≤ −2 und yn ≥3 unimodal und näherungsweise symmetrisch. Die verschiedenen Prognoseregionen weichen nur
geringfügig voneinander ab. Ihre Intervallbreiten variieren mit dem Zustand des Prozesses im
Prognoseursprung. In der Umgebung von yn = −3.5 sind die 4-Schritt-Intervalle kürzer als die
korrespondierenden 3-Schritt-Intervalle. Dies weist auf das nicht-monotone Anwachsen der Pro-
gnoseunsicherheit bei Mehrschritt-Prognosen hin. Für Werte yn nahe null treten asymmetrische und
bimodale Dichten auf. Die Prognoseregionen dehnen sich stark aus und fallen z.T. deutlich ausein-
ander. Gegenüber den konkurrierenden Ansätzen erweisen sich hier die MDBR als informativer. Bei
einer geeigneten Wahl von α setzen sich die MBDR aus zwei unverbundenen Intervallen zusammen
und reflektieren so die Bimodalität der Prognoseverteilungen. Zu dem können die Regionen substan-
ziell kleiner sein als BQI und MBDI.
8.2 Schätzung von Prognoseregionen
In der Praxis sind die Prognoseregionen und die zugrundeliegenden Prognoseverteilungen eines sto-
chastischen Prozesses a priori unbekannt und müssen auf der Basis beobachteter Zeitreihenwerte
geschätzt werden. Yao [1996] schlägt zwei nichtparametrische Schätzer für Maximum-Bedingte-
Dichte-Intervalle bzw. Maximum-Bedingte-Dichte-Regionen vor, die auf einem Kernschätzer für
bedingte Verteilungsfunktionen basieren. Es ist naheliegend, auch Künstliche Neuronale Netze zur
nichtparametrischen Schätzung einzusetzen. Hierbei sind verschiedene Vorgehensweisen denkbar.
Zum einen kann durch das Training eines KNN die direkte Approximation einer Prognoseregion
oder einer Prognosedichte angestrebt werden. Zum anderen sind indirekte, rekursive Vorgehens-
weisen möglich, die auf Simulationstechniken zurückgreifen. Die indirekten Vorgehensweisen sind
deutlich einfacher implementierbar und mit einem geringeren Rechenaufwand verbunden als direkte
Ansätze. Sie sollen daher hier im Vordergrund stehen.
Es sei yt ( )t n=1,..., eine beobachtete Realisation des NLAR(p)-Prozesses (8.1). Sind die bedingte
Erwartungswertfunktion ( )µ ⋅ und die Dichtefunktion ( )g ⋅ der Störungen εt bekannt, dann können
h-Schritt-Prognoseregionen mittels numerischer Integration berechnet werden. Eine mögliche
Implementierung wurde bereits für den SETAR(2,1,1)-Prozeß (8.6) skizziert. Ist die Funktion ( )µ ⋅
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
194 SCHÄTZUNG VON PROGNOSEREGIONEN MIT KÜNSTLICHEN NEURONALEN NETZEN
unbekannt, erscheint es naheliegend, ein geeignet gewähltes KNN auf Basis der beobachteten
Zeitreihendaten zu trainieren und ( )µ ⋅ durch die Ausgabefunktion des Netzes zu approximieren.
Prognoseregionen können hierauf aufbauend mittels numerischer Integration geschätzt werden.
Hyndman [1995] schlägt für nichtlineare parametrische Zeitreihenmodelle einen alternativen Ansatz
vor, der die für großes h und großes p extrem rechenzeitaufwendige Berechnung von
Prognosedichten mittels numerischer Quadratur vermeidet. Der Ansatz ist auf den hier inter-
essierenden Kontext übertragbar. Mit den letzten beobachteten Zeitreihendaten xn =( ,..., )y y yn n n p, − − + ′1 1 als fest vorgegebenen Startwerten werden durch Monte-Carlo-Simulation
gemäß (7.43) S Pseudorealisierungen (yn h i+ , (i = 1,...,S) der Zufallsvariablen Yn+h erzeugt. Als
Simulationsmodell dient die Netzausgabefunktion, die Störungen εt werden durch Pseudozufalls-
zahlen ersetzt. Die Werte (yn h i+ , (i = 1,...,S) werden anschließend als eine Stichprobe zur
nichtparametrischen Schätzung der Dichte fh n( | ) ⋅ x der bedingten Verteilung von Yn h+ gegeben
X xn n= genutzt. Der Einsatz numerischer Integrationsverfahren ist ausschließlich zur Berechnung
von Prognoseregionen erforderlich. Die Monte-Carlo-Simulation setzt die Kenntnis der
Störverteilung in (8.1) voraus. Ist die Verteilung der Störungen unbekannt, kann eine Schätzung
durch eine residuenbasierte Simulation vermieden werden. An Stelle der Pseudozufallszahlen werden
hier Residuen verwendet, die durch zufälliges Ziehen mit Zurücklegen der Menge der zentrierten
Residuen des KNN entnommen wurden. Diese Ansätze sollen im folgenden als naive Monte-Carlo-
bzw. als naive Bootstrap-Schätzung von Prognoseregionen bezeichnet werden.
Die beiden Schätzansätze sind stark durch pragmatische Überlegungen geprägt. Als Vorzüge sind
die einfache Implementierbarkeit und ein handhabbarer Rechenaufwand zu nennen. Nachteilig ist,
daß die Schätzung Effekte des Netzwerktrainings nicht berücksichtigt. Sie ist in diesem Sinne 'naiv'.
Ihr liegt implizit die Annahme zugrunde, daß das verwendete KNN die bedingte
Erwartungswertfunktion des datenerzeugenden Prozesses exakt approximiert. Die
Prognoseunsicherheit resultiert dann ausschließlich aus dem stochastischen Charakter der Störungen
εt. Eine adäquate Spezifikation der Netzwerkarchitektur ebenso voraussetzend wie die
Verwendung konsistenter Schätzer für die Netzgewichte, kann diese Annahme allerdings nur
gerechtfertigt werden, wenn für das Netzwerktraining hinreichend lange Zeitreihen zur Verfügung
stehen. Andernfalls können Effekte der Gewichtsschätzung invalide Intervall- bzw. Regionprognosen
bewirken. Für parametrische lineare Zeitreihenmodelle ist wohl bekannt, daß die
Nichtberücksichtigung von Schätzeffekten bei kurzen Zeitreihen tendenziell zu ungerechtfertigt
schmalen Prognoseintervallen führt (vgl. Chatfield [1993]).
Für die Klasse der linearen autoregressiven Prozesse konnten verfeinerte Bootstrap-Techniken
entwickelt werden, die Parameterunsicherheit explizit als zusätzliche Quelle der Prognoseunsicherheit
berücksichtigen und verbesserte BQI-Prognosen für kurze Zeitreihen ermöglichen (siehe z.B.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
SCHÄTZUNG VON PROGNOSEREGIONEN MIT KÜNSTLICHEN NEURONALEN NETZEN 195
Thombs & Schucany [1990], Kabaila [1993] und Breidt, Davis & Dunsmuir [1995]). Die Verfahren
nutzen die sogenannte Rückwärts-Darstellung der Prozesse aus. Der Begriff beschreibt das
Phänomen, daß die Umkehrung der zeitlichen Ordnung eines AR(p)-Prozesses unter Erhalt seiner
Korrelationsstruktur möglich ist. Nichtlineare autoregressive Prozesse besitzen keine vergleichbaren
Eigenschaften. Die Berücksichtigung von Schätzeffekten erweist sich hier als ein komplexes Problem,
für das bisher keine befriedigende Lösungen gefunden werden konnten.
Zur Demonstration des potentiellen Nutzens der naiven Bootstrap-Schätzung bei Vorliegen langer
Zeitreihen soll das numerische Beispiel aus dem Vorkapitel weitergeführt werden. Die in den
Abbildungen 8.3 und 8.4 dargestellten 3-Schritt- und 4-Schritt-Prognoseregionen des
SETAR(2,1,1)-Prozesses (8.6) wurden auf der Basis von n=500 simulierten Zeitreihenwerten yt (t
= 1,...,n) geschätzt.
Hierzu erfolgte mit den Methoden aus Kapitel 7.3.1.3 eine nichtlineare KQ-Anpassung eines
einfachen MLP(1,2,1)-Netzes an die Daten. Die Anpassung lieferte als Ergebnis das Netzwerk
(8.7) ( )( )
Y Y Y
Y
t t t
t t
= − ⋅ + ⋅ − − ⋅
− ⋅ − + ⋅ +− −
−
1438 0 603 0 641 2 552 0 702
1214 32 690 448 312
1 1
1
. . . tanh . .
. tanh . . ε
mit einer geschätzten Residualvarianz von $ .σε2 1027= . Das Netz generiert einen global stabilen 2er
Grenzzyklus mit den periodischen Punkten z1 2 8644= − . , z2 4 0608= . und ermöglicht eine
brauchbare Approximation des grenzzyklischen Verhaltens von (8.6).
Die Schätzung der Prognosedichten f yh n( | ) ⋅ mit h = 3, 4 und [ ]yn
∈ − +3 5 4 5. , . basierte für
festes h und yn auf jeweils S = 50000 Pseudorealisierungen (y n h i+ , (i = 1,...,S) der Zufallsvariablen
Yn+h gegeben Y yn n
= , die durch residuenbasierte Simulation erzeugt wurden. Anschließend folgte
eine Kerndichteschätzung
(8.8) $ ,f y yS b
Ky y
bh n
n h i
i
S
( | ) = 1
1⋅
−
+
=∑
(
mit Gaußkern ( ) ( ) ( )K u u= ⋅ −−2 20 5 2π . exp (siehe z.B. Silverman [1986] oder Härdle & Linton
[1994]). Die Dichten wurden über geeignet gewählten Intervallen an 212 äquidistanten Stützstellen
ermittelt. Die Bandbreite b des Kernschätzers wurde mit b S= ⋅ ⋅ −1 06 1 5. $σ festgelegt, wobei $σ die
Standardabweichung der jeweiligen Pseudostichprobe ist. Die abschließende Bestimmung der
Prognoseregionen erfolgte durch numerische Quadratur (Simpson-Regel).
Das in Kapitel 7.3 beschriebene Simulationsexperiment hat gezeigt, daß MLP-Netzwerke in der
Lage sind, die datengenerierenden Mechanismen nichtlinearer autoregressiver Prozesse gut zu
approximieren. Für den SETAR(2,1,1)-Prozeß (P3) bzw. (8.6) wiesen die neuronalen Mehrschritt-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
196 SCHÄTZUNG VON PROGNOSEREGIONEN MIT KÜNSTLICHEN NEURONALEN NETZEN
KQ-Punktprognosen nur geringe Effizienzverluste gegenüber den MSE-optimalen Punktprognosen
auf. Es überrascht somit nicht, daß das MLP-Netz (8.7) auch hier überwiegend brauchbare
Intervall- bzw. Regionprognosen lieferte. Die geschätzten Prognoseregionen sind in den Abbildungen
8.5 und 8.6 graphisch dargestellt.
Für h = 3, |yn | > 1 und h=4, yn < −1, yn > 2 weichen die Schätzungen nur geringfügig von den
tatsächlichen Prognoseregionen ab. Größere Schätzfehler treten für Werte yn in der Umgebung des
Schwellenwertes r = 0 des SETAR-Prozesses auf. Einige ausgewählte Ergebnisse weist die Tabelle
8.2 in numerischer Form aus. Speziell sind für h=4, −0.5 ≤ yn < 0 und α = 0.9 die geschätzten
MBDR einzelne Intervalle, während die tatsächlichen Regionen aus zwei unverbundenen Intervallen
bestehen. Dies läßt darauf schließen, daß die Bimodalität der Prognosedichten unterschätzt wurde.
Die Fehler können maßgeblich auf schlechtere Approximationseigenschaften des MLP(1,2,1) in
dieser Region des Zustandsraumes zurückgeführt werden. Die Schätzgüte wird aber auch durch die
Kerndichteschätzung der Prognosedichten, insbesondere durch die Wahl der Bandbreite b der
Kernschätzers, beeinflußt. Zur Begrenzung des Rechenaufwandes erfolgte die Bandbreitenwahl hier
mittels einer einfachen Faustregel, die sich bei Vorliegen großer Stichproben aus unimodalen
Verteilungen (speziell Normalverteilungen) rechtfertigen läßt (siehe Silverman [1986]). Im Falle
multimodaler Dichten besteht allerdings die Gefahr der 'Überglättung' von Gipfeln und Tälern.
Obwohl diese Gefahr aufgrund des großen Umfanges S der Pseudostichproben eingeschränkt ist,
eröffnet der Einsatz verfeinerter Techniken der Bandbreitenwahl, z.B. Kreuz-Validierung, durchaus
Raum zur Erzielung verbesserter Schätzergebnisse.
Neben der Schätzung von Prognoseregionen via Simulationsmethoden sind weitere Vorgehensweisen
möglich. White [1992b] schlägt beispielsweise die direkte neuronale Raster-Schätzung (vgl.
Abschnitt 5.6.2) bedingter r-Quantile ξh r n, ( )x eines Prozesses mittels einfacher MLP(p,r,1)-
Netze der Form
f xj j i j ii
p
j
r
( )x w, = + ⋅ + ⋅
==∑∑β β φ γ γ0 0
11
mit x = ′( )x x p1,..., , w = ′( ,..., )β β γ γ0 01r pr, ,... , und der Squashing-Funktion φ vor. Er be-
weist, daß unter Gültigkeit allgemeiner Regularitätsbedingungen für stationäre mischende oder statio-
näre ergodische Prozesse Yt t IZ∈ eine konsistente Schätzung bedingter r-Quantile möglich ist. Un-
glücklicherweise können für das Netzwerktraining keine Standardmethoden verwendet werden. Die
Adjustierung der Netzgewichte erfordert die Minimierung der komplizierten, weil nicht differenzier-
baren Zielfunktion
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
SCHÄTZUNG VON PROGNOSEREGIONEN MIT KÜNSTLICHEN NEURONALEN NETZEN 197
-4 -3 -2 -1 0 1 2 3 4 5
-6
-3
0
3
6
9(a)
yn+3
yn
-4 -3 -2 -1 0 1 2 3 4 5
-6
-3
0
3
6
9(b)
yn+3
yn
-4 -3 -2 -1 0 1 2 3 4 5
-6
-3
0
3
6
9(c)
yn+3
yn
Abb. 8.5: Geschätzte 3-Schritt-Prognoseregionen für den SETAR-Prozeß (8.6) mit (a) α = 0.5,
(b) α = 0.75 und (c) α=0.9 [Grenzen eines BQI - - - , Grenzen eines MBDI ____ ,
Grenzen einer MBDR ....., falls nicht mit MBDI identisch]
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
198 SCHÄTZUNG VON PROGNOSEREGIONEN MIT KÜNSTLICHEN NEURONALEN NETZEN
-4 -3 -2 -1 0 1 2 3 4 5
-6
-3
0
3
6
9(a)
yn+4
yn
-4 -3 -2 -1 0 1 2 3 4 5
-6
-3
0
3
6
9(b)
yn+4
yn
-4 -3 -2 -1 0 1 2 3 4 5
-6
-3
0
3
6
9(c)
yn+4
yn
Abb. 8.6: Geschätzte 4-Schritt-Prognoseregionen für den SETAR-Prozeß (8.6) mit (a) α = 0.5,
(b) α = 0.75 und (c) α=0.9 [Grenzen eines BQI - - - , Grenzen eines MBDI ____ ,
Grenzen einer MBDR ....., falls nicht mit MBDI identisch]
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
SCHÄTZUNG VON PROGNOSEREGIONEN MIT KÜNSTLICHEN NEURONALEN NETZEN 199
Prognose-schritt
yn Typ Prognoseregionen Schätzungen
h = 3 -3.5 BQI
MBDI
MBDR
[1.977 , 6.776]
[1.983 , 6.782]
(wie MBDI)
[2.065 , 6.962]
[2.082 , 6.970]
(wie MBDI)
-0.5 BQI
MBDI
MBDR
[-0.944 , 5.328]
[-0.304 , 5.773]
(wie MBDI)
[-0.097 , 5.656]
[0.648 , 6.079]
(wie MBDI)
0.0 BQIMBDIMBDR
[-1.648 , 5.081][-1.352 , 5.324]
(wie MBDI)
[-0.853 , 5.485][0.129 , 6.143]
[-0.820 , -0.710]∪[0.234, 6.115]0.5 BQI
MBDIMBDR
[-3.774 , 3.333][-4.021 , 3.016]
[-4.087 , 0.856]∪[1.182 , 3.236]
[-4.004 , 3.330][-4.259 , 3.001]
[-4.488 , 0.643]∪[1.804 , 3.617]1 BQI
MBDIMBDR
[-3.967 , 2.836][-4.408 , 2.220]
[-4.456 , 0.874]∪[1.763 , 2.935]
[-4.164 , 2.909][-4.473 , 2.127]
[-4.741 , 0.600]∪[2.107 , 3.202]4.5 BQI
MBDIMBDR
[-5.115 , -0.846][-5.117 , -0.855]
(wie MBDI)
[-5.263 , -0.864][-5.295 , -0.915]
(wie MBDI)h = 4 -3.5 BQI
MBDIMBDR
[-5.219 , -0.826][-5.239, -0.847]
(wie MBDI)
[-5.396 , -0.876][-5.412 , -0.907]
(wie MBDI)-0.5 BQI
MBDIMBDR
[-4.335 , 2.374][-5.086 , 0.929]
[-5.056 , 0.816]∪[2.354 , 2.449]
[-4.601 , 1.334][-5.058 , 0.107]
(wie MBDI)0.0 BQI
MBDIMBDR
[-4.208 , 3.220][-4.621 , 2.648]
[-4.732 , 0.665]∪[1.726 , 3.392]
[-4.505 , 2.448][-5.280 , 0.581]
[-5.247 , 0.523]∪[2.656 , 2.702]0.5 BQI
MBDIMBDR
[-2.763 , 5.498][-2.615 , 5.626]
[-2.886 , -0.023]∪[0.466 , 5.769]
[-2.724 , 5.783][-2.525 , 5.952]
[-3.022 , -0.423]∪[0.707 , 6.250]1 BQI
MBDIMBDR
[-2.325 , 5.677][-2.010 , 5.936]
[-2.423 , -0.298]∪[0.362 , 6.082]
[-2.316 , 5.905][-1.880 , 6.259]
[-2.681 , -0.765]∪[0.697 , 6.444]4.5 BQI
MBDIMBDR
[1.583 , 6.710][1.646 , 6.746](wie MBDI)
[1.716 , 6.916][1.796 , 6.973](wie MBDI)
Tabelle 8.2: Ausgewählte 3-Schritt- und 4-Schritt-Prognoseregionen mit Überdeckungswahrschein-
lichkeit α=0.9 für den SETAR- Prozeß (8.6) und ihre Schätzungen
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
200 SCHÄTZUNG VON PROGNOSEREGIONEN MIT KÜNSTLICHEN NEURONALEN NETZEN
( ) [ ]
( ) [ ]
Z n Y f r I Y f
r I Y f
t tt p
n
t t
t t
w X w X w
X w
= − ⋅ ⋅ ≥
+ − ⋅ <
−−
= +−
−
∑11
11
11
( , ) ( , )
( , )
(
)
bezüglich w, wobei [ ]I ⋅ eine Indikatorfunktion für die angegebenen Ereignisse ist. White [1992b]
schlägt eine Heuristik zur approximativen Minimierung der Zielfunktion vor.
Unabhängig von der Schätzproblematik ist der Nutzen des Ansatzes begrenzt. Die Ausführungen in
Abschnitt 8.1 haben deutlich gemacht, daß Bedingte-Quantil-Intervalle wichtige Charakteristika von
Prognosedichten nichtlinearer Prozesse nicht aufzeigen können. Interessante Perspektiven eröffnen in
diesem Zusammenhang Ansätze, die eine nichtparametrische Schätzung von Prognosedichten durch
KNN zum Ziel haben. Sie ermöglichen auch die Schätzung von Maximum-Bedingte-Dichte-
Intervallen und Maximum-Bedingte-Dichte-Regionen. Geeignete Netzwerkarchitekturen diskutieren
beispielsweise Neuneier et al. [1994] oder Weigend & Srivastava [1995]. Ein wesentlicher Nachteil
dieser Ansätze ist allerdings der mit ihrem praktischen Einsatz verbundene hohe Rechenaufwand. Für
jeden Prognoseschritt h wird das Training eines spezifischen Netzwerkes notwendig. Ferner sind die
Methoden 'datenhungrig' und setzen das Vorliegen sehr langer Zeitreihen voraus. Weigend &
Srivastava [1995] demonstrieren ihren Ansatz beispielsweise anhand einer physikalischen Zeitreihe
mit 12000 Beobachtungen und einer simulierten Zeitreihe mit 10000 Werten im jeweiligen An-
passungsbereich. Da bisher nur wenige Anwendungsstudien vorliegen, ist eine vergleichende
Bewertung direkter Schätzansätze und naiver Monte-Carlo- bzw. naiver Bootstrap-Schätzungen
kaum möglich.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
201
9 EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN
SONNENFLECKEN
Die Anwendungen Künstlicher Neuronaler Netze zu prognostischen Zwecken basierten in den
Kapiteln 7 und 8 auf synthetischem Datenmaterial. Die Prognose simulierter Zeitreihen ist eine
nützliche Methode zur Untersuchung alternativer Prognosetechniken. In einer 'künstlich geschaffenen
Welt' herrscht vollständige Kenntnis über die datengenerierenden stochastischen Mechanismen. Sie
ermöglicht daher die objektive Bewertung von Prognoseergebnissen. Allerdings besitzt eine solche
künstliche Welt in aller Regel nicht die Komplexität realer Prognosesituationen. Die
Simulationsergebnisse sollen deshalb an dieser Stelle durch Prognoseergebnisse einer empirischen
Anwendung Künstlicher Neuronaler Netze ergänzt werden. Als empirische Datenbasis wurde die
Wolf'sche Sonnenfleckenreihe ausgewählt.
Die Beobachtung von Sonnenflecken hat in der Astronomie eine sehr lange Tradition. Tong [1990,
S.419] erwähnt, daß erste bekannte chinesische Aufzeichnungen der Sonnenfleckenaktivität auf das
Jahr 28 v. Chr. datiert werden. Lückenlose Aufzeichnungen gibt es seit mehreren hundert Jahren.
Einen wesentlichen Beitrag leistete in der Mitte des 19. Jahrhunderts der Schweizer Astronom
Johann Rudolf Wolf (1816-1893). Er entwickelte in langjähriger Forschungsarbeit Indizes zur
Berechnung der täglichen Sonnenfleckenanzahl sowie deren monatlichen und jährlichen
Durchschnitte. Die Auswertung historischer Aufzeichnungen ermöglichte es ihm und nachfolgenden
Astronomen Jahresdurchschnitte bis zum Jahr 1700 zurückzurechnen. Die Geschichte dieser
Zeitreihe ist ausführlich dokumentiert durch Izenman [1983].
Die Abbildung 9.1 zeigt die Wolf'sche Sonnenfleckenreihe für die Jahre 1700-1988. Die Zeit-
reihenwerte sind Durchschnitte täglich ermittelter Indexzahlen ( )A G F10 + , wobei G die Anzahl
beobachteter Fleckengruppen und F die Anzahl beobachteter isolierter Flecken ist. Der Koeffizient
A charakterisiert den Beobachter, sein Teleskop und die herrschenden Wetterbedingungen. Dem
Zeitreihenplot liegen Zahlenangaben von Tong [1990, S.470] zugrunde. Es ist erkennbar, daß die
Sonnenfleckenaktivität im Zeitverlauf ausgeprägten zyklischen Schwankungen unterworfen ist. Die
Perioden der Zyklen variieren im Bereich von 9 bis 14 Jahren mit einer mittleren Periode von ca. 11
Jahren. Die Amplituden der Zyklen variieren deutlich. Die Amplitude des Zyklus mit der höchsten
Aktivität ist ca. viermal so groß wie die des Zyklus mit der geringsten Aktivität. Bemerkenswert ist
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
202 EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN
die Asymmetrie der Zyklen. Sie besitzen tendenziell kürzere Anstiegsperioden als Abstiegsperioden.
So waren beispielsweise in den Jahren 1700-1920 die Anstiegsperioden durchschnittlich 4.6 Jahre
lang, während die mittlere Abstiegsperiode 6.55 Jahre betrug. Die Tabelle 9.1 weist einige
charakterisierende Kennzahlen der Zeitreihe aus.
Die Ursachen des sogenannten Sonnenzyklus sind bis heute weitgehend ungeklärt und Gegenstand
der Forschung. Da keine Theorie mit prognostischem Wert verfügbar ist, erscheint es naheliegend,
zeitreihenanalytische Methoden zur Prognose zukünftiger Sonnenfleckenaktivitäten einzusetzen. Die
Zeitreihe hat schon sehr früh das Interesse von Statistikern geweckt. Hervorzuheben ist insbesondere
Beobachtungszeitraum 1700 - 1920 1921 - 1955 1921 - 1975
Mittelwert 43.48 53.00 63.05
Varianz 1174.22 1722.96 2375.89
Minimum 0 4.4 4.4
Maximum 154.4 151.6 190.2
mittlere Periode der Zyklen 1) 11.15 10.33 10.60
mittlere Anstiegsperiode 1) 4.60 4.00 3.80
mittlere Abstiegsperiode 1) 6.55 6.33 6.80
Tabelle 9.1: Kenngrößen der Wolf'schen Sonnenfleckenreihe [ 1) Durchschnitte aller Zyklen mitSchwerpunkt im jeweiligen Beobachtungszeitraum]
1700 1750 1800 1850 1900 1950 2000
0
50
100
150
200
250
Abb. 9.1: Durchschnittliche Anzahl von Sonnenflecken in den Jahren 1700 - 1988
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN 203
die Pionierarbeit von Yule (1927). Ein Resultat dieser Arbeit war die erstmalige Einführung linearer
autoregressiver Zeitreihenmodelle. Es folgten, unter vielen anderen, Moran [1954], Schaerf [1964],
Box & Jenkins [1970], Morris [1977], Tong & Lim [1980], Subba Rao & Gabr [1984] und Lewis
& Stevens [1991]. In den jüngeren Arbeiten wurde zunehmend die Asymmetrie der Sonnenzyklen
als ein Indiz für die Nichtlinearität der Zeitreihe angesehen und eine nichtlineare Modellierung und
Prognose angestrebt. Der Zeitreihe wurde jetzt die Bedeutung eines Benchmark-Datensatzes
beigemessen, und sie diente primär als Grundlage für Methodenvergleiche. Inzwischen liegen auch
Ergebnisse konnektionistischer Methoden vor (siehe z.B. de Groot & Würtz [1991] und Weigend
[1991]).
Am Beispiel der Sonnenfleckenreihe wird hier der praktische Einsatz alternativer Techniken zur
Punkt- und Regionprognose demonstriert. Die Zeitreihe wurde aus zwei Gründen ausgewählt. Zum
einen konnte auf die Fülle bereits vorliegender Analyse- und Prognoseergebnisse Bezug genommen
werden. Dies ermöglicht den Vergleich verschiedener Prognoseergebnisse und erleichtert so die
Orientierung. Zum anderen setzen konnektionistische Methoden die Verfügbarkeit umfangreicher
Datensätze voraus. Gemessen an dieser Anforderung erweist sich die Zeitreihe als eher kurz. Der
Prognoseeinsatz von KNN erfolgt somit nicht unter 'idealen' Rahmenbedingungen. Tatsächlich ist das
Beispiel gut geeignet, einige Limitationen konnektionistischer Ansätze aufzuzeigen.
9.1 Zeitreihenmodelle
Für Vergleichszwecke wurden vier grundverschiedene Zeitreihenmodelle ausgewählt, die im
folgenden kurz vorgestellt werden. Die Modelle haben gemein, daß in den zugrundeliegenden
Analysen nur die ersten n = 221 Beobachtungen von Sonnenflecken aus den Jahren 1700-1920 zur
Modellauswahl und Parameterschätzung genutzt wurden. Die folgenden Werte verblieben zur
Evaluierung von Punktprognosen.
Die ersten beiden Zeitreihenmodelle wurden von Subba Rao & Gabr [1984] gefunden. Zur
Modellauswahl setzten sie das AIC-Kriteriums von Akaike [1974]
(9.1) AIC = +ln $σε2 2m
n
als Selektionskriterium ein. In (9.1) bezeichnet $σ ε2 die geschätzte Residualvarianz und m die Anzahl
der Parameter eines angepaßten Modells. Aus der Menge aller möglichen linearen AR(p)-Modelle
mit maximaler Ordnung p=10 selektierten die Autoren ein Teil- oder Subset-AR-Modell der
Ordnung p = 9, kurz SAR(9)-Modell, mit minimalem AIC-Wert. Es wird hier in einer geringfügig
modifizierten Form angegeben:
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
204 EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN
(9.2) Y Y Y Yt t t t t= + − + +− − −6 825 1 249 0 551 0 1501 2 9. . . . ε
mit $ .σε2 202 0= und AIC = 5.35. Das Modell (9.2) berücksichtigt das Datenniveau (y = 4348. )
durch das Absolutglied 6 825. . Subba Rao & Gabr verzichteten auf die Schätzung eines Absolut-
gliedes und paßten ihr Modell an die mittelwertbereinigte Zeitreihe an. Obwohl das SAR(9)-Modell
(9.2) lediglich vier geschätzte Koeffizienten beinhaltet, erfaßt es bereits 82.8% der empirischen
Varianz der Zeitreihe im Anpassungszeitraum (vgl. Tabelle 9.1).
Das zweite Modell von Subba Rao & Gabr [1984] ist das bilineare Subset-AR-Modell der
Ordnung (9,8,6), kurz SBAR(9,8,6)-Modell:
(9.3) Y Y Y Y
Y Y Y Y
Y Y Y
t t t t
t t t t t t t t
t t t t t t t
= + − +
− + − −
+ + + +
− − −
− − − − − − − −
− − − − − −
6 886 1 501 0 767 0 115
0 1458 0 0063 0 0072 0 0060
0 0036 0 0043 0 0018
1 2 9
2 1 8 1 1 3 4 3
1 6 2 4 3 2
. . . .
. . . .
. . .
ε ε ε ε
ε ε ε ε
mit $ .σε2 124 33= und AIC = 4.93. Die geschätzte Residualvarianz ist gegenüber der Residualvarianz
des SAR(9)-Modells um 38.5% reduziert. Die verbesserte Modellanpassung hat allerdings einen
Preis: Das Modell (9.3) beinhaltet 7 zusätzliche Parameter, die geschätzt werden mußten. Da das
AIC-Kriterium Modellkomplexität durch den Komplexitätsterm 2m/n negativ bewertet, wird mit
dieser Kenngröße eine geringere Anpassungsverbesserung von 7.9% gemessen.
Tong & Lim [1980] haben an die Zeitreihe das Threshold-Autoregressive-Modell
(9.4) Y
Y Y Y
Y Y
Y Y Y Y
Y Y Y Y
Y Y Y Y Y
t
t t t
t t t
t t t t
t t t t
t t t t t t
=
+ − +
+ ≤
+ − − +− + + −
+ − + − + >
− − −
− −
− − − −
− − − −
− − − − −
10 544 1 692 1 159 0 237
0 150 36 6
7 804 0 743 0 041 0 202 0 173
0 227 0 019 0 161 0 256
0 320 0 389 0 431 0 04 36 6
1 2 3
4 3
1 2 3 4
5 6 7 8
9 10 11 12 3
. . . .
. .
. . . . .
. . . .
. . . . .
+ falls
falls
(1)
(2)
ε
ε
angepaßt. Das SETAR(2;4,12)-Modell besitzt 19 Parameter. Die geschätzten Residualvarianzen
betragen $ .σε (1)2 254 64= im Schwellenwertregime ( ]−∞, . 36 6 und $ .σ
ε (2)2 66 80= im Schwellen-
wertregime ( )36 6. , + ∞ . Die (gepoolte) Gesamtresidualvarianz ist $ .σε2 15371= . Ferner gilt AIC =
5.0. Es sei angemerkt, daß Tong [1990, S.425] ein Modell mit geringfügigen Modifikationen
vorstellt. Da das ursprüngliche Modell (9.4) in der Literatur jedoch besser dokumentiert ist, wurde
hier auf die Verwendung der Modifikation für Prognosezwecke verzichtet.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN 205
Die Residualvarianz und der AIC-Wert von (9.4) sind größer als die Kenngrößen des bilinearen
Modells (9.3). Das SETAR(2;4,12)-Modell besitzt jedoch eine interessante Zusatzeigenschaft: Das
Skelett des Modells generiert grenzzyklisches Verhalten. Die Periode des Grenzzyklus beträgt 31
Jahre. Er setzt sich aus drei asymmetrischen Subzyklen zusammen, die Anstiegsperioden
(Abstiegsperioden) von 4 (6), 4 (6) und 4 (7) Jahren besitzen. Diese Charakteristika stimmen gut mit
dem zyklischen Verhalten der Zeitreihe überein.
Lewis & Stevens [1991] diskutieren den Einsatz Multivariater-Adaptiver-Regressions-Splines
(Friedman [1991]) für zeitreihenanalytische Zwecke. Die resultierende Methode bezeichnen sie als
ASTAR (adaptive spline threshold autoregression). Für die Sonnenfleckenreihe identifizierten und
schätzten sie das ASTAR-Modell
(9.5)
( ) ( )
( ) ( )
( ) ( ) ( )
Y Y Y Y
Y Y Y Y
Y Y Y Y Y
t t t t
t t t t
t t t t t t
= + + − − −
− − + −
− − + − − +
− − + − +
− − + − − +
− − + − − + − +
2 711 0 960 0 332 47 0 0 257 59 1
0 003 26 0 0 017 44 0
0 032 17 1 0 004 26 0 41 0
1 5 9
1 2 1 3
1 4 1 2 5
. . . . . .
. . . .
. . . . . ε
mit ( )x x+ = für x > 0 und ( )x + = 0 sonst. Das Modell besitzt 14 Parameter. Ferner ist$ .σ ε
2 114 1= und AIC = 4.87. Beide Kenngrößen sind deutlich kleiner als die Kenngrößen der
Vorgängermodelle. Der AIC-Wert wurde hier zu Vergleichzwecken nachträglich berechnet. Lewis
& Stevens betonen in ihrer Studie die Bedeutung grenzzyklischen Verhaltens für die Modellierung
und Prognose der Sonnenfleckenreihe. Das Skelett von (9.5) generiert einen komplexen Grenzzyklus
mit einer Periode von 137 Jahren, der gut die zyklischen Charakteristika der Zeitreihe beschreibt. Er
setzt sich aus 13 asymmetrischen Subzyklen zusammen, deren Perioden zwischen 10 und 11 Jahren
variieren.
9.2 Künstliche Neuronale Netze
Die Anpassung eines prognosetauglichen KNN an die Sonnenfleckenreihe wirft Probleme auf. Soll
das KNN mit den in Abschnitt 9.1 vorgestellten Zeitreihenmodellen vergleichbar sein, dann stehen
für die Auswahl einer geeigneten Netzwerkarchitektur und die Schätzung der Gewichte lediglich
n = 221 Beobachtungen aus den Jahren 1700-1920 zur Verfügung. Aufgrund der geringen
Datenbasis besteht selbst beim Training von Netzwerken mit einer moderaten Anzahl von Gewichten
die Gefahr einer Überanpassung an die Zeitreihe. Die Folge einer solchen Überanpassung wären
ungünstige Prognoseergebnisse.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
206 EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN
In der Praxis wird die Gefahr des 'Overfittings' häufig durch Stopp-Training gemildert. In zeit-
reihenanalytischen Anwendungen ist der Nutzen der Stopp-Training-Prozedur jedoch höchst
zweifelhaft (vgl. Abschnitt 6.3.1). Erfolgversprechendere alternative Strategien zur Vermeidung von
Überanpassung sind (i) der Einsatz statistischer Selektionskriterien zur Auswahl einer möglichst
einfachen Netzwerkarchitektur, die geeignet ist, die Struktur der Reihe adäquat zu erfassen und (ii)
der Einsatz von Weight-Decay- oder Weight-Elimination-Techniken. Beide Ansätze werden hier
weiter verfolgt.
De Groot & Würtz [1991] haben in ihrer Studie die Minimum-AIC-Selektionsstrategie zur Auswahl
einer einfachen Netzwerkarchitektur genutzt. Aus einer vorgegebenen Menge von MLP(p,r,1)-
Netzen der Form
~tanh tanh
~Y Yt j
j
r
j i j t ii
p
t= + ⋅ + ⋅
+
=−
=∑ ∑β β γ γ ε0
10
1
,
( )~Y Yt t= − 100 200 (t = 1700, ... , 1920) ,
selektierten sie ein MLP(4,4,1)-Netz mit der geschätzten Residualvarianz $ .σ ε2 137 0= und dem
gemäß (9.1) berechneten minimalen AIC-Wert 5.15. Die Anzahl der Netzgewichte beträgt m = 25.
Das Selektionsergebnis von de Groot & Würtz ist überraschend. Es werden lediglich die Lags 1, 2,
3 und 4 der Zeitreihenwerte als Inputgrößen des Netzes genutzt. Die Zeitreihenmodelle aus Abschnitt
9.1 berücksichtigen hingegen durchgängig auch Lags höherer Ordnung (mindestens Lag 9). Die
Spezifikationsergebnisse für die Zeitreihenmodelle werden durch zusätzliche nichtparametrische
Analysen der Zeitreihe gestützt. Beispielsweise zeigte Robinson [1983] unter Verwendung eines
Kernregressionsschätzers, daß Lag 9 einen Beitrag zur nichtlinearen Prognose der Reihe liefert.
Tjøstheim & Auestad [1994] setzten ein nichtparametrisches Analogon des Final-Prediction-Error-
Kriteriums von Akaike [1969, 1970] zur Untersuchung der Lagstruktur ein. Als signifikant
selektierten sie die Lags 1, 3, 2, 9, 7 und 5, wobei die Reihenfolge der Lags ihren Beitrag zur
Modellierung der bedingten Erwartungswertfunktion des datengenerierenden Prozesses
widerspiegelt. De Groot & Würtz beschränkten sich in ihrer Studie auf die Analyse von Einschritt-
Prognosen und konnten mit dem MLP(4,4,1)-Netz überzeugende Ergebnisse erzielen. Aufgrund der
vorliegenden statistischen Befunde erscheint es jedoch fraglich, ob ein KNN, das Zeitreihenwerte mit
einem maximalen Lag von 4 als Input verarbeitet, gute Mehrschritt-Prognosen liefern kann. Eigene
Untersuchungen ergaben tatsächlich, daß sich die Prognoseperformance eines trainierten
MLP(4,4,1)-Netzes mit wachsendem Prognosehorizont rapide verschlechterte.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN 207
Die Diskrepanz des Spezifikationsergebnisses von de Groot & Würtz zu den Ergebnissen der
genannten statistischen Analysen kann im wesentlichen darauf zurückgeführt werden, daß die
untersuchten MLP-Netze keine lineare Komponente besitzen und in den Auswahlprozeß keine
'Subset-Netze', also Netze die nur ausgewählte Lags als Input empfangen, eingeschlossen wurden.
Das lediglich vier Parameter beinhaltende lineare SAR(9)-Modell (9.2) erklärt bereits 82.8% der
Streuung der Zeitreihe im Anpassungsbereich. Wird die Auswahl eines einfach aufgebauten Netzes
angestrebt, erscheint es sinnvoll, einen linearen Term zu berücksichtigen. Anderenfalls muß die
lineare Struktur der Reihe durch nichtlineare Verarbeitungseinheiten approximiert werden. Dies führt
tendenziell zur Auswahl von Netzen mit einer größeren Anzahl verborgener Verarbeitungseinheiten
und Netzparameter. Die Verwendung von Subset-Netzen ermöglicht die Berücksichtigung hoher
Lags als Input, ohne daß dies zwangsläufig zu einer großen Parameteranzahl führt.
Zur Auswahl eines sparsam dimensionierten KNN wurde hier eine von de Groot & Würtz [1991]
abweichende Vorgehensweise gewählt. Die Netzauswahl blieb auf sehr einfach aufgebaute Subset-
MLP(lr,1,1)-Netze der Form
(9.6)~ ~Y Y Yt l t l
i
r
l t li
r
ti i i i= + ⋅ + ⋅ + ⋅
+−
=−
=∑ ∑α α β γ γ ε0
10
1
Λ
mit der logistischen Funktion
(9.7) ( ) ( ) ( )Λ Λ: , , IR x x e x→ = + −0 1 1 1a
als Aktivierungsfunktion beschränkt. Durch die Symbole l l l r1 2, , . .. , sind natürliche Zahlen (Lags)
mit der Eigenschaft 1 1 2≤ < < < ≤l l l prL gekennzeichnet, wobei p eine vorgegebene maximale
Ordnung ist. Der Vektor der adjustierbaren Parameter w = (α α0 1, ,...,l α βl r
, ,
γ γ γ0 1, ,... ,l lr
mIR′ ∈) besitzt die Dimension m = 2(lr+1) + 1. Das so definierte Mehrschicht-
Perzeptron (9.6) kann nicht nur als ein sehr einfaches KNN, sondern auch als Spezialfall eines
logistischen Smooth-Transition-Autoregressiven Modells aufgefaßt werden (vgl. z.B. Granger &
Teräsvirta [1993, S.34ff] oder Seber & Wild [1989, S.465ff]). Es besitzt somit den Charme eines
'Zwitterwesens' zwischen einem Künstlichen Neuronalen Netz und einem statistischen Modell.
Mittels Nichtlineare-Kleinste-Quadrate-Schätzung (vgl. Kapitel 7.3.1.3) wurden alle möglichen 2p-1
Subset-Netze der Form (9.6) mit einer maximalen Ordnung von p = 9 geschätzt. Die Anpassung
erfolgte an die transformierten Zeitreihenwerte
( )~y yt t= − 100 200 (t = 1700, ... , 1920) .
Die Datentransformation wurde von de Groot & Würtz übernommen. Hierdurch konnte ein
verbessertes Konvergenzverhalten des iterativen Schätzalgorithmus erreicht werden. Zur Vermeidung
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
208 EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN
suboptimaler Schätzergebnisse wurden Multistarts mit zufällig ausgewählten Startgewichtsvektoren
und 10 bis 25 Startwiederholungen durchgeführt. Die Anzahl der Wiederholungen stieg stufenweise
mit der Anzahl der zu schätzenden Gewichte im Netz. Als Modellselektionskriterium wurde das
AIC-Kriterium (9.1) und, ergänzend, das SIC-Kriterium (Schwarz [1978]) mit
(9.8) SIC = + ⋅ln $
lnσε2 m n
n
verwendet. Das SIC bestraft die Parameteranzahl m eines Modells durch den Komplexitätsterm
( )m n n⋅ ln in einem stärkeren Maße als das AIC und bevorzugt tendenziell Modelle mit geringerer
Komplexität. Die Tabelle 9.2 zeigt ausgewählte Schätzergebnisse. Tabelliert sind Kenngrößen des
'vollen' MLP(9,1,1)-Netzes (Netz 1) mit den Inputlags 1-9 sowie Kenngrößen des Minimum-AIC-
Netzes (Netz 2) und des Minimum-SIC-Netzes (Netz 3).
Das Minimum-AIC-Netz 2 besitzt m = 15 Gewichte und berücksichtigt die Lags 1, 2, 3, 4, 5 und 9
der Zeitreihenwerte als Inputs. Die Lagstruktur entspricht der des ASTAR-Modells (9.5). Trotz
einer geringeren Anzahl von Netzparametern ist die geschätzte Residualvarianz gegenüber der
Residualvarianz des vollen MLP(9,1,1)-Netzes nur geringfügig erhöht. Das deterministische
Verhalten von Netz 2 ist stabil. Im Gegensatz zu den nichtlinearen Threshold-Autoregressiven-
Zeitreihenmodellen (9.4) und (9.5) generiert das Skelett jedoch kein grenzzyklisches Verhalten. Es
besitzt einen global stabilen Fixpunkt y* = 36.52, der interessanterweise mit dem Schwellenwert r =
36.6 des SETAR-Modells (9.4) approximativ identisch ist. Nach dem SIC-Kriterium belegte Netz 2
den dritten Rangplatz. Das Minimum-SIC-Netz 3 weist eine geringere Komplexität auf. Es
berücksichtigt lediglich die Lags 1,2 und 8 bei m = 9 Netzparametern. Die geringe Komplexität führt
allerdings zu einer gegenüber den Netzen 1 und 2 deutlich vergrößerten Residualvarianz. Darüber
hinaus besitzt Netz 3 ein wenig überzeugendes deterministisches Verhalten. Sein Skelett generiert
eratisch schwankende, möglicherweise chaotische Trajektorien. Dies läßt erhebliche Zweifel an der
Netz-nummer
Lagstruktur desMLP(lr,1,1)-Netzes
Anzahl mder Gewichte
Residualvarianz$σ ε
2AIC SIC
MLP(9,1,1)-Netz
1 1 2 3 4 5 6 7 8 9 21 132.44 5.0842 5.4167
Minimum-AIC-Netz
2 1 2 3 4 5 9 15 135.53 5.0507 5.2882
Minimum-SIC-Netz
3 1 2 8 9 155.99 5.1347 5.2772
Tabelle 9.2: Verschiedene MLP(lr,1,1)-Netze und ihre Kenngrößen
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN 209
Prognosefähigkeit des Netzes aufkommen. Das Minimum-AIC-Netz 2 wurde daher hier präferiert
und für Prognosezwecke ausgewählt. Es wird im folgenden einfach als Subset-MLP(9,1,1)-Netz
oder noch kürzer als SMLP(9,1,1) bezeichnet. Die geschätzten Netzgewichte sind:
(9.9)
$ . $ . $ . $ . $ .
$ . $ .
$ .
$ . $ . $ . $ . $ .
$ . $ .
α α α α α
α α
β
γ γ γ γ γ
γ γ
0 1 2 3 4
5 9
0 1 2 3 4
5 9
0102 0 972 0198 0163 0125
0155 0112
0120
9546 4 19064 5 270237 15252 7 11429 2
23649 0 1430 7
= = = − = − =
= − =
= −
= = − = = =
= − =
Die Residuen des SMLP(9,1,1) sollten approximativ striktes White Noise (i.i.d.) sein, also keine
modellierbare Struktur aufweisen. Anderenfalls erfaßt das KNN die Struktur der Zeitreihe nur
unvollständig, und seine Auswahl als Prognosewerkzeug ist nicht zu rechtfertigen. Die Tabelle 9.3 auf
Seite 209 zeigt einige Kenngrößen der Residualreihe. Zur Diagnose der Residualstruktur sind
exemplarisch die Portmanteau-Statistik ( )Q lLB von Ljung & Box [1978] (basierend auf der
Residualautokorrelationsfunktion bis zu Lag l = 40), die Portmanteau-Statistik ( )Q lML von McLeod
& Li [1983] (basierend auf der Autokorrelationsfunktion der quadrierten Residuen bis zu Lag l =
40) und die Kehrpunkt-Statistik TP (siehe z.B. Brockwell & Davies [1991, S.312f]) ausgewiesen.
Ferner sind die ermittelten empirischen Signifikanzniveaus der diagnostischen Tests angegeben. Bei
Anwendung auf die Residuen eines KNN ist die asymptotische Verteilung der Statistik ( )Q lLB
unklar. Sie wurde hier einfach durch eine χ2-Verteilung mit l−p Freiheitsgraden (p=9) approximiert.
Es ist zu vermuten, daß diese Approximation zu einem konservativen Test führt. Die Statistik sollte
daher eher als ein einfaches deskriptives Maß für die Autokorrelationsstruktur der Residuen
interpretiert werden. Dennoch, keine der Statistiken nimmt so verdächtig große Werte an, daß sie
auf eine ausgeprägte Struktur in den Restgrößen und damit auf eine mangelhafte Anpassungsgüte des
KNN hinweisen würden.
Zusammenfassend muß festgestellt werden, daß die Netzwerkauswahl hier unter sehr restriktiven
Randbedingungen erfolgte und zumindest in dreierlei Hinsicht unbefriedigend ist:
• Die maximale Ordnung von (9.6) wurde mit p = 9 restriktiv festgelegt. Lags höherer Ordnung
konnten keine Berücksichtigung finden.
• Der lineare Term und die nichtlineare Komponente in (9.6) besitzen eine identische Lagstruktur.
Eine unabhängige Variation ihrer Lagstrukturen wurde ausgeschlossen.
• Das Netz (9.6) besitzt lediglich eine verborgene Verarbeitungseinheit. Der Ansatz nutzt das
Potential von MLP-Netzen mit mehreren verborgenen Einheiten somit nicht aus.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
210 EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN
Der zuletzt genannte Kritikpunkt ist sicherlich besonders schwerwiegend. Eine Relaxation der
restriktiven Randbedingungen führt allerdings zu einem sprunghaft ansteigenden Rechenaufwand, der
praktisch kaum noch handhabbar ist. Die Restriktionen sind somit weniger statistisch denn
forschungsökonomisch begründet. Ein möglicher Ausweg aus diesem Dilemma ist die Adaption
hinreichend aus der Regressionsanalyse bekannter heuristischer Modellauswahlstrategien wie der
schrittweisen Regression. Hierdurch kann eine deutliche Begrenzung des erforderlichen
Rechenaufwandes erreicht werden. Solche Heuristiken bieten allerdings keine Gewähr dafür, daß
aus einer präspezifizierten Menge von Modellen das im Sinne eines Auswahlkriteriums 'beste' Modell
gefunden wird.
Eine gänzlich andere Methodik wählte Weigend [1991] zur Prognose der Sonnenfleckenreihe (siehe
auch Weigend et al. [1991, 1992]). Er setzte die in Kapitel 6.3.1 vorgestellte Weight-Elimination-
Technik ein. Ein sehr groß dimensioniertes MLP(p,r,1)-Netz
(9.10)~ ~Y Yt j
j
r
j ij t ii
p
t= + ⋅ + ⋅
+
=−
=∑ ∑φ β β γ γ ε0
10
1
Λ
mit p = 12, r = 8 und der logistischen Funktion (9.7) als Aktivierungsfunktion der Verarbei-
tungseinheiten wurde durch iterative Minimierung der Zielfunktion
(9.11) ( )WD tt p
nj
jj
rij
iji
p
j
r
w = + ⋅+
++
= + = ==∑ ∑ ∑∑$ε λ
β
β
γ
γ2
2
2
2
21 0 011 1
bezüglich des Gewichtsvektors w = ′( )β β β γ γ γ0 1 01 11, , , , , ,...,K r pr mittels Backpropagation
trainiert. Mit $εt sind die Netzresiduen bezeichnet. Während der erste Term auf der rechten Seite
von (9.11) die Anpassungsgüte mißt, dient der zweite Term als Komplexitätsstrafterm. Bei einer
geeigneten Wahl des Parameters λ erzwingt der Strafterm, daß im Ablauf des Trainingsprozesses
Gewichte, die nicht durch den Fehlergradienten deutlich gefördert werden, gegen null streben.
Weigend [1991] eliminierte Gewichte mit kleinen Absolutbeträgen aus dem Netz und reduzierte so
das Ausgangsperzeptron (9.10) auf ein MLP(12,3,1)-Netz.
Der Weight-Elimination-Ansatz befreit den Anwender von der Aufgabe, eine auf den jeweiligen
Datensatz speziell zugeschnittene Netzwerkarchitektur spezifizieren zu müssen. Ausgehend von
einem hinreichend groß dimensionierten Anfangsnetzwerk soll im Laufe des Trainingsprozesses eine
adäquate Konfiguration selbständig 'erlernt' werden. Zur Vermeidung einer Überanpassung ist
allerdings eine geeignete Adjustierung des Parameters λ in (9.11) erforderlich. Die Adjustierung von
λ erweist sich dabei als ein schwer lösbares Problem, für das Weigend [1991, S.47ff] nur eine
heuristische Quasilösung anbieten kann:
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN 211
Solange der Trainingsprozeß eine Reduktion der Residualquadratsumme bewirkt, wird, beginnend
mit λ = 0, der Parameter λ nach jeder Iteration (Trainingsepoche) um ein kleines ∆λ vergrößert
(z.B. ∆λ = 10−6). Ist schließlich das Gewicht des Komplexitätsterms in (9.11) so angewachsen, daß
die Residualquadratsumme wieder steigt, wird λ zunächst verkleinert und anschließend wieder in
kleinen Schritten ∆λ erhöht, usw. Ziel ist es, eine langsame und stetige Verbesserung der
Netzanpassung an die Daten zu erreichen. Unterschreitet die Residualquadratsumme im Laufe des
Trainings einen vorgegebenen Zielwert, wird λ weiter schrittweise vergrößert, aber nicht mehr bei
kurzfristiger Verschlechterung der Anpassung verkleinert. Der Zielwert für die
Residualquadratsumme ist vom Anwender festzulegen. Er entscheidet ebenso über den Abbruch des
Netzwerktrainings. Ein objektives Abbruchkriterium ist nicht verfügbar, denn die fortlaufende
Adjustierung von λ verhindert eine Konvergenz der Zielfunktionswerte. Die Existenz eindeutiger
(lokaler oder globaler) Minima der Zielfunktion (9.11) setzt ein festes λ voraus. Damit entscheidet
letztendlich die subjektive Urteilsfähigkeit und Erfahrung des Anwenders, ob eine Überanpassung
verhindert werden kann. Rechtfertigen läßt sich diese Vorgehensweise nur durch die empirische
Beobachtung Weigends, daß selbst grobe Vorgaben durch den Anwender geeignet sind, Netzwerke
mit guten Prognoseeigenschaften zu trainieren.
Trotz der aufgezeigten Schwierigkeiten soll der Ansatz hier aufgegriffen werden. Unter Beachtung
der in Weigend [1991] sowie Weigend et al. [1992] angegebenen Implementierungshinweise für die
Weight-Elimination-Technik wurde ein MLP(12,3,1)-Netz der Form (9.10) mittels Backpropagation
trainiert. Es mußte lediglich eine Modifikation vorgenommen werden. Die Ausgabeeinheit des Netzes
besitzt eine auf das Intervall (0 , 1) beschränkte logistische Aktivierungsfunktion. Die Verwendung
einer Aktivierungsfunktion mit beschränktem Bildbereich macht eine Skalierung der Trainingsdaten
erforderlich. Weigend transformierte die Zeitreihenwerte gemäß ~ .y yt t= 191 2 . Die Skalierung
bewirkte, daß die retransformierten Netzausgaben auf das Intervall [ ]0 1912 , . beschränkt blieben.
Hier wurde die Lineartransformation
( )~y yt t= + 100 400 (t = 1700, ... , 1920)
gewählt. Durch die geänderte Transformationsvorschrift wurde der retransformierte Bildbereich der
Netzausgabefunktion auf das Intervall [ ]−100 300 , erweitert. Die Notwendigkeit dieser
Modifikation resultierte aus unterschiedlichen Zielsetzungen. Weigend [1991] setzte das trainierte
KNN zur Berechnung von Einschritt-Prognosen und iterativen Mehrschritt-Prognosen ein. Hier
wurde zusätzlich die Berechnung von Kleinste-Quadrate-Punktprognosen sowie Regionprognosen
via Monte-Carlo-Simulation und Bootstraping der Residuen angestrebt. Die Prognosetechniken
nutzen das trainierte KNN als ein Simulationsmodell. Die Änderung der Datenskalierung diente dem
Zweck, mögliche verzerrende Einflüsse einer stark beschränkten Netzausgabefunktion auf die
Simulationsergebnisse auszuschalten.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
212 EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN
Zur Steuerung des Netzwerktrainings wurde als Zielvorgabe für die Residualquadratsumme ein
Wert festgelegt, der mit einer angestrebten Residualvarianz von 125.0 korrespondiert. Die
Festlegung orientiert sich rein willkürlich an der Residualvarianz des bilinearen Modells (9.3). Die
Zielvarianz wurde während des Backpropagation-Trainings nach ca. 25000 Trainingsepochen
erstmals erreicht, konnte aber in der Folge nur temporär unterschritten werden. Das Training wurde
schließlich nach 30000 Epochen abgebrochen. Die Gewichte des trainierten Netzes sind:
(9.12) $ .β0 2132= − $ .β1 2 528= + $ .β2 4 658= − $ .β3 4 387= +
(Gewichte der Verbindungen zwischen Ausgabeeinheit und verborgenen Einheiten);
$ .,γ 0 1 0 509= − $ .,γ11 1 259= + $ .,γ 2 1 0 051= − $ .,γ3 1 0 607= − $ .,γ 4 1 0 086= +
$ .,γ5 1 1379= − $ .,γ 6 1 0 312= + $ .,γ 7 1 0 443= + $ .,γ8 1 0 335= + $ .,γ9 1 1 616= +
$ .,γ10 1 1 262= + $ .,γ111 1787= + $ .,γ12 1 0 539= −
$ .,γ 0 2 0 295= + $ .,γ1 2 7 217= − $ .,γ 2 2 0 534= − $ .,γ3 2 1062= − $ .,γ 4 2 0 094= −
$ .,γ5 2 0 792= − $ .,γ 6 2 0 912= + $ .,γ 7 2 0 672= + $ .,γ8 2 1 487= + $ .,γ9 2 1 020= +
$ .,γ10 2 0 206= + $ .,γ11 2 0 369= + $ .,γ12 2 0 597= −
$ .,γ 0 3 0 753= − $ .,γ1 3 0 732= + $ .,γ 2 3 5 096= − $ .,γ3 3 2 920= − $ .,γ 4 3 0 766= −
$ .,γ5 3 1 233= + $ .,γ 6 3 0 426= + $ .,γ 7 3 1325= + $ .,γ8 3 2 248= + $ .,γ9 3 0 044= −
$ .,γ10 3 0 290= − $ .,γ11 3 0 897= $ .,γ12 3 1 249= −
(Gewichte der Verbindungen zwischen verborgenen Einheiten und Eingabestellen).
Die geschätzte Residualvarianz des MLP(12,3,1)-Netzes ist mit $ .σε2 125 35= geringfügig größer als
die Zielvorgabe. Verschiedene durchgeführte Residualanalysen lieferten keine Hinweise auf eine
ausgeprägte Struktur in der Residualreihe (siehe Tabelle 9.3). Das deterministische Verhalten des
Netzes ist stabil. Unabhängig von beliebig vorgegebenen Startwerten konvergieren die Trajektorien
des MLP(12,3,1) gegen den global stabilen Fixpunkt y* = 70.58.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN 213
Kennzahlen der Residuen $ε t SMLP(9,1,1) MLP(12,3,1)
Mittelwert $ε 0.0032 -0.0495
Varianz $σ ε2 135.5266 125.3482
Schiefe g1 0.7668 0.9104
Kurtosis g2 1.0181 2.0356
Portmanteau-Statistik ( )Q LB 40 33.9344 (0.3279) 1) 33.1713 (0.2295) 1)
Portmanteau-Statistik ( )Q M L 40 31.0139 (0.8451) 1) 28.2506 (0.9183) 1)
Kehrpunkt-Statistik TP -0.0274 (0.9781) 1) -0.4119 (0.6804) 1)
Tabelle 9.3: Kennzahlen der Residuen des SMLP(9,1,1) und des MLP(12,3,1)( 1) empirisches Signifikanzniveau des Tests; weitere Erläuterungen siehe Text)
9.3 Punktprognosen
Das SMLP(9,1,1) und das MLP(12,3,1) werden im folgenden zur Punkt- und Regionprognose der
Sonnenfleckenreihe eingesetzt. Zunächst steht die Punktprognose im Vordergrund. Neben der
Analyse und dem Vergleich der Prognoseeigenschaften der beiden KNN ist hierbei der
Performancevergleich alternativer Techniken zur Berechnung von Mehrschritt-Prognosen von
besonderem Interesse.
Zur Berechnung von Mehrschritt-Prognosen wurden drei verschiedene Techniken genutzt. Es
wurden deterministische oder iterative Prognosen (I-Prognosen) sowie approximative Kleinste-
Quadrate-Prognosen via Monte-Carlo-Simulation (MC-Prognosen) und Bootstrapping der
Residuen (B-Prognosen) ermittelt. Die Berechnung von MC- und B-Prognosen erfolgte durch
einfache (arithmetische) Mittelung von S=25000 zufallszahlengetriebenen bzw. residuengetriebenen
Simulationen der KNN. Im Vergleich zu früheren Anwendungen auf künstlich erzeugte Zeitreihen
erforderte der Einsatz der Monte-Carlo-Technik jetzt einen größeren Implementierungsaufwand. In
den früheren Anwendungen konnten die Störverteilungen Künstlicher Neuronaler Netze immer durch
Normalverteilungen geeignet approximiert werden (vgl. Kapitel 7). Zur Berechnung von MC-
Prognosen wurden daher normalverteilte Pseudozufallszahlen erzeugt. Die Analyse der Netzresiduen
zeigte, daß für die Störungen ε t des SMLP(9,1,1) und des MLP(12,3,1) die Normalverteilung kein
adäquates Verteilungsmodell ist.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
214 EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN
-40 -30 -20 -10 0 10 20 30 40 50
.001
.010
.050
.200
.500
.800
.950
.990
.999
(a)
αi
ε(i)^
-40 -30 -20 -10 0 10 20 30 40 50
.001
.010
.050
.200
.500
.800
.950
.990
.999
(b)
αi
ε(i)^
3.2 3.5 3.8 4.1 4.4 4.7
.001
.010
.050
.200
.500
.800
.950
.990
.999
(c)
αi
η(i)^
2.2 2.6 3 3.4 3.8 4.2 4.6
.001
.010
.050
.200
.500
.800
.950
.990
.999
(d)
α
η
i
(i)^
Abb. 9.2: Normal Probability Plots von Residuen [Abb. 9.2a: Residuen des SMLP(9,1,1); Abb. 9.2b:Residuen des MLP(12,3,1); Abb. 9.2c: logarithmisch transformierte Residuen desSMLP(9,1,1); Abb. 9.2d: logarithmisch transformierte Residuen des MLP(12,3,1)]
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN 215
Die Residuen $ε t des angepaßten SMLP(9,1,1) besitzen ebenso wie die Residuen des angepaßten
MLP(12,3,1) eine ausgeprägt asymmetrische Verteilung. Die empirische Schiefe g1 und die
empirische Kurtosis g2 der Residualreihen mit
(9.13) gm
mg
m
m1
3
23 2
4
22
3= = −,
und ( )mn p t
t p
n
ττε ε=
−−
= +∑1
1
$ $ , $ $ε ε=− = +
∑1
1n p tt p
n
(τ = 2, 3, 4)
sind deutlich größer als Null (siehe Tabelle 9.3). Im Falle einer Normalverteilung sollten beide
Statistiken nur geringfügig von Null abweichen. Eine graphische Analyse ermöglichen die in den
Abbildungen 2a,b dargestellten Normal Probability Plots der beiden Residualreihen. In den Plots
sind die Paare ( )( , ( ))$ε αi iΦ −1 , i = 1,...,N, als Punkte in einem Koordinatensystem mit einer
wahrscheinlichkeitsskalierten Ordinate (Wahrscheinlichkeitsnetz) eingetragen. Hierbei ist ( )$ε i das i-
te Glied der geordneten Residuenreihe ( ) ( )$ $ε ε1 2≤ ≤ ( )... $≤ ε N und Φ −1( )α i kennzeichnet das αi-
Quantil der Standardnormalverteilung mit ( )αi i N= − 0 5. (siehe z.B. D'Agostino [1986]). Ferner
ist N n p= − mit p = 9 für das SMLP(9,1,1) und p =12 für das MLP(12,3,1). Entstammen die
Residuen einer Normalverteilung, dann sollten die Punkte des Plots approximativ auf einer Geraden
liegen. Der Plot 2a zeigt jedoch eine konkave Krümmung, die auf eine ausgeprägt rechtsschiefe
Verteilung der Residuen des SMLP(9,1,1) zurückgeführt werden kann. Die Antisymmetrie des Plots
2b (approximativ um das 0.4-Quantil der Daten) weist auf eine rechtsschiefe und möglicherweise
leptokurtotische Verteilung der Residuen des MLP(12,3,1) hin.
Zur Implementierung der Monte-Carlo-Technik wurde eine pragmatische Vorgehensweise gewählt.
Durch eine einfache Logarithmustransformation der Form
(9.14) ( )$ ln $η εt tv= +
mit v = 50.0 konnte für die Residuen des SMLP(9,1,1) eine verbesserte Annäherung an die
Normalverteilung erreicht werden (vgl. Abb.2c). Die empirische Schiefe g1 0 0257= . und die
empirische Kurtosis g2 0 1284= . der transformierten Residuen nahmen jetzt Werte nahe Null an.
Der Kolmogorov-Smirnov-Test auf Normalverteilung der transformierten Restgrößen (siehe z.B.
Stephens [1986]) führte bei allen üblichen Signifikanzniveaus nicht zur Ablehnung der Nullhypothese.
Es wurde ein empirisches Signifikanzniveau des Tests von approximativ 0.87 ermittelt. Aufgrund der
Ergebnisse darf vermutet werden, daß die Störverteilung des SMLP(9,1,1) durch eine 'verschobene'
logarithmische Normalverteilung geeignet approximiert werden kann. Die für die Berechnung von
MC-Prognosen benötigten Pseudozufallszahlen u wurden gemäß u e vz= − erzeugt. Hierbei ist v
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
216 EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN
die konstante Niveauverschiebung, und z kennzeichnet eine N ( )µ σ, 2 -verteilte Pseudozufallszahl.
Die Parameter µ und σ 2 wurden durch das Mittel 3.8864 und die Varianz 0.0527 der
transformierten Restgrößen $ηt geschätzt.
Die Verteilung der Störungen des MLP(12,3,1)-Netzes wurde ebenfalls durch eine verschobene
logarithmische Normalverteilung angenähert. Diese Approximation erwies sich jedoch als nur
eingeschränkt befriedigend. Durch eine Logarithmustransformation (9.14) der Netz-Residuen (mit v
= 40.0) konnte zwar eine weitgehende Symmetrisierung der Restgrößenverteilung erreicht werden,
die empirische Kurtosis g2 3 0238= . der Daten $ηt war jedoch nicht mit einer Normalverteilung
kompatibel. Der große Wert von g2 läßt ebenso wie die Antisymmetrie des Normal Probability
Plots in Abb. 2d vermuten, daß die transformierten Residuen einer Verteilung mit 'heavy tails'
entstammen. Der Plot verdeutlicht aber auch, daß das Ergebnis durch drei extreme Werte stark
beeinflußt wird. Werden die ersten drei Werte ( ) ( ) ( )$ , $ , $η η η1 2 3 der geordneten Residuenreihe aus
dem Datensatz entfernt, erhält man die Kennzahlen g1 0 0914= . und g2 0 3665= . . Die Kennzahlen
können jetzt nicht mehr als starke Indizien gegen die Normalverteilungshypothese gewertet werden.
Die durchgeführten Analysen lieferten keine eindeutige Antwort auf die Frage, ob eine
leptokurtotische Verteilung vorliegt, oder ob die Residuen ( ) ( ) ( )$ , $ , $η η η1 2 3 als 'Ausreißer' aus einer
Normalverteilung betrachtet werden können. Um die Spezifikation der Störverteilung des Netzes
nicht stark von wenigen extremen Werten der Residualreihe abhängig machen zu müssen, wurde hier
letzteres unterstellt. An die logarithmisch transformierten Residuen $ηt wurde eine Normalverteilung
angepaßt mit dem Median 3.6413 der Daten und der Varianz 0.0653 der 'ausreißerbereinigten'
Daten als Schätzwerte für die Parameter µ und σ2. Die Normalverteilungshypothese wurde mittels
Kolmogorov-Smirnov-Test geprüft. Das empirische Signifikanzniveau betrug approximativ 0.62; die
Nullhypothese mußte somit nicht verworfen werden. Die zur Berechnung von MC-Prognosen
erforderlichen Pseudozufallszahlen wurden gemäß ( )u e v cz= − − generiert. Mit z ist wieder eine
N ( )µ σ, 2 -verteilte Pseudozufallszahl kennzeichnet, v ist die Niveauverschiebung und
c v e= − +µ σ 2 2 ist ein kleiner Korrekturterm, der zur Zentrierung der Zufallszahlen u um das Mittel
Null benötigt wurde.
Als Prognosezeitraum diente der historische Beobachtungszeitraum 1921-1975 der Sonnenflecken-
reihe. Für die Sonnenfleckenzahlen im Intervall 1921-1975 wurden mit wanderndem Prognose-
ursprung h-Schritt-Prognosen (h = 1,2,...,12) berechnet und zur Messung der erreichten Prognose-
güte die mittleren quadratischen h-Schritt-Prognosefehler MSE(h) ermittelt. Der maximale Progno-
seschritt h = 12 ist größer gewählt als die durchschnittliche Periode der Sonnenzyklen. Die
Ergebnisse sind der Tabelle 9.4 zu entnehmen. Prognoseergebnisse für die Sonnenfleckenzahlen in
den Jahren 1921-1955 sind dort gesondert ausgewiesen. Im Zeitraum 1921-1975 wurden 5 Sonnen-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN 217
SMLP(9,1,1) - Netz
Prognoseschritt I-Prognosen MC-Prognosen B-Prognosen
1921-1955 1921-1975 1921-1955 1921-1975 1921-1955 1921-1975
1 144.4 267.7 144.4 267.7 144.4 267.7
2 397.7 716.9 368.6 674.8 369.9 676.4
3 869.2 1128.3 684.9 960.2 696.8 966.9
4 1159.4 1392.4 750.7 996.5 759.9 1010.0
5 1387.7 1531.3 671.2 977.3 681.4 983.4
6 1368.8 1331.9 476.4 778.2 478.2 775.8
7 1425.8 1300.9 400.8 775.6 398.2 774.3
8 1461.0 1455.4 399.3 836.9 396.7 832.7
9 1542.3 1533.5 432.3 888.3 432.0 889.8
10 1600.2 1644.4 470.2 888.3 475.0 890.2
11 1681.3 1670.5 612.2 949.1 615.5 948.9
12 1893.4 1878.0 941.9 1284.3 946.8 1289.9
MLP(12,3,1) - Netz
Prognoseschritt I-Prognosen MC-Prognosen B-Prognosen
1921-1955 1921-1975 1921-1955 1921-1975 1921-1955 1921-1975
1 140.1 284.2 140.1 284.2 140.1 284.2
2 331.8 791.6 327.5 783.3 328.0 783.8
3 488.7 1198.3 486.5 1185.8 489.5 1191.3
4 415.6 988.1 488.1 1070.9 490.4 1076.3
5 378.3 951.8 493.8 1086.9 492.5 1088.7
6 364.9 944.4 474.7 1074.2 474.4 1075.4
7 339.4 925.1 444.1 1025.6 446.1 1021.6
8 323.1 813.7 440.9 916.3 445.2 918.9
9 323.0 729.7 455.9 857.3 457.3 859.3
10 347.6 755.0 484.4 910.6 481.5 913.9
11 363.1 851.4 504.4 1027.2 497.2 1023.8
12 420.0 1150.6 565.1 1328.9 561.7 1321.2
Tabelle 9.4: Mittlere quadratische Prognosefehler MSE(h) von h-Schritt-Prognosen für dieSonnenfleckenzahlen in den Jahren 1921-1975
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
218 EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN
zyklen beobachtet. Der 4. Zyklus (1955-1964) weist ein für die Struktur der Reihe deutlich un-
typisches Muster auf. Zum einen ist seine Amplitude wesentlich größer als die durchschnittliche
Amplitude der Vorgängerzyklen. Zum anderen wurde ein ungewöhnlich großer Sprung der Sonnen-
fleckenzahl 38.0 im Jahr 1955 auf 141.7 im Jahr 1956 observiert. Die Prognose der Sonnenflecken-
zahlen im Zeitraum 1956-1975 ist somit eine 'risikoreiche' Aufgabe und fordert von einem ein-
gesetzten Prediktor Robustheit gegenüber plötzlich auftretenden Anomalien. Die Prognoseergebnisse
für den Teilzeitraum 1921-1955 informieren über die Eigenschaften der Prediktoren unter typischen
Bedingungen.
Die Einschritt-Prognosen des SMLP(9,1,1) und des MLP(12,3,1) sind in der Abbildung 9.3
graphisch dargestellt. Über den Zeitraum 1921-1955 unterscheiden sich ihre mittleren quadratischen
Prognosefehler nur geringfügig. Die MSE(1)-Werte bewegen sich in einer mit den Residualvarianzen
der beiden KNN vergleichbaren Größenordnung. Über den gesamten Prognosezeitraum wurden
näherungsweise doppelt so große MSE(1)-Werte ermittelt, wobei der Verlust an
Prognosegenauigkeit für das MLP(12,3,1) deutlicher ausfällt. Bei der Bewertung dieses Ergebnisses
sollte die ab 1956 temporär anwachsende Variabilität der Zeitreihendaten berücksichtigt werden.
Eine einfache Maßzahl für die relative Prognosegüte ist das Bestimmtheitsmaß
(9.15)( )
Ry
2 11
2= − MSE
$σ ,
wobei $σ y2 die empirische Varianz der Daten im Prognosezeitraum bezeichnet. Mit den in Tabelle 9.1
angegeben Varianzen erhält man für das SMLP(9,1,1)
R1921 19552 0 916− = . , R1921 1975
2 0 887− = .
und für das MLP(12,3,1)
R1921 19552 0 919− = . , R1921 1975
2 0 880− = . .
Nach dieser Maßzahl ist die Prognoseperformance der KNN im gesamten Prognosezeitraum um ca.
3% bzw. 4% schlechter als im Teilzeitraum 1921-1955. Maßgeblich verantwortlich für den
Performanceverlust ist das atypische Anstiegsverhalten des 4. Zyklus in 1955-1964.
Bei der Analyse und dem Vergleich der Mehrschritt-Prognosen müssen zwei verschiedene
Einflußfaktoren berücksichtigt werden: Die Prognoseergebnisse hängen sowohl von den Pro-
gnoseeigenschaften der beiden KNN als auch von den eingesetzten Prognosetechniken ab. Einige
interessante Ergebnisse sind:
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN 219
• SMLP(9,1,1)
Für die iterativen h-Schritt-Prognosen des Netzes wurden mit wachsendem Prognosehorizont h
inflationär steigende mittlere quadratische Prognosefehler ermittelt. Die approximativen KQ-
Techniken lieferten deutlich verbesserte Prognosen. Die MC- und B-Prognosewerte
unterscheiden sich nur unwesentlich. Folge ist, daß auch ihre MSE(h)-Werte nur geringe
Unterschiede aufweisen. Bemerkenswert ist ferner, daß die MSE(h)-Werte der h-Schritt-KQ-
Prognosen nicht monoton mit dem Prognosehorizont h wachsen. Die mittleren quadratischen
Prognosefehler sinken im 5., 6. und 7. Prognoseschritt, ehe sie erneut ansteigen.
•• MLP(12,3,1)
Auch im Fall des MLP(12,3,1) lieferten die Monte-Carlo-Technik und der Bootstrap-Ansatz
vergleichbare Prognosen. Die MSE(h)-Werte der MC- und B-Prognosen weichen nur marginal
voneinander ab. Wiederum ist zu beobachten, daß die MSE(h)-Werte nicht monoton mit dem
Prognoseschritt h anwachsen. Gegenüber den deterministischen Prognosen führte der Einsatz
approximativer KQ-Techniken hier allerdings nicht zu verbesserten Ergebnissen. Im Gegenteil,
die mittleren quadratischen Fehler der iterativen h-Schritt-Prognosen sind für h > 3 deutlich
geringer.
•• SMLP(9,1,1) versus MLP(12,3,1)
Vergleicht man die deterministischen Prognosen der beiden KNN, dann ist sofort ersichtlich, daß
das MLP(12,3,1) weit überlegene iterative Mehrschritt-Prognosen generierte. Der Vergleich von
KQ-Prognosen ergibt ein differenziertes Bild. Die relative Prognosegüte der Netze variiert jetzt
mit dem Prognosezeitraum. Über den Teilzeitraum 1921-1955 sind die MSE(h)-Werte der
MLP(12,3,1)-Prognosen z.T. deutlich kleiner als die korrespondierenden mittleren quadratischen
Fehler der SMLP(9,1,1)-Prognosen. Betrachtet man den gesamten Prognosezeitraum 1921-
1975, dann nivellieren sich die Unterschiede. Für kleine Prognoseschritte h liefert jetzt sogar das
SMLP(9,1,1) zuverlässigere Prognosen im Sinne des MSE-Kriteriums. Die Ergebnisse lassen
insgesamt den Schluß zu, daß das MLP(12,3,1) unter 'regulären' Bedingungen deutlich überlegene
Langfrist-Prognoseeigenschaften besitzt. Das sparsam dimensionierte SMLP(9,1,1) erweist sich
jedoch als robuster gegenüber den in 1955-1964 aufgetretenen Anomalien der Sonnenflecken-
aktivität.
In Hinblick auf den hier besonders interessierenden Performancevergleich alternativer Mehrschritt-
Prognosetechniken sind zwei Ergebnisse hervorzuheben. Die Monte-Carlo-Technik und der Boot-
strap-Ansatz lieferten für beide KNN weitgehend vergleichbare Prognosen. Ein eindeutiges
'Ranking' deterministischer Prognosen und approximativer KQ-Prognosen ist in diesem An-
wendungsbeispiel nicht möglich. Im Fall des SMLP(9,1,1) führte der Einsatz von KQ-Techniken zu
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
220 EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN
1920 1930 1940 1950 1960 1970 1980
0
50
100
150
200
250
Ein-Schritt-Prognosen
Zeitreihenwerte
(a) SMLP(9,1,1)
1920 1930 1940 1950 1960 1970 1980
0
50
100
150
200
250
(b)
Ein-Schritt-Prognosen
Zeitreihenwerte
MLP(12,3,1)
Abb. 9.3: Einschritt-Prognosen des SMLP(9,1,1) (Abb.9.3a) und des MLP(12,3,1) (Abb.9.3b) fürdie Sonnenfleckenzahlen in den Jahren 1921-1975
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN 221
1920 1930 1940 1950 1960 1970 1980
0
50
100
150
200
250
(a) SMLP(9,1,1)
I-Prognosen (MSE = 2948.0)
B-Prognosen (MSE = 1320.1)
1920 1930 1940 1950 1960 1970 1980
0
50
100
150
200
250
(b) MLP(12,3,1)
I-Prognosen (MSE = 903.8)
B-Prognosen (MSE = 1014.8)
Abb. 9.4: h-Schritt-Prognosen (h=1,2,...,55) für die Sonnenfleckenzahlen in den Jahren 1921-1975im Prognoseursprung t=1920 [Abb.9.4a: Prognosen des SMLP(9,1,1); Abb.9.4b: Progno-sen des MLP(12,3,1)]
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
222 EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN
verbesserten Ergebnissen. Die iterativen Prognosen des MLP(12,3,1) wiesen hingegen kleinere
mittlere quadratische Prognosefehler auf als ihre KQ-Konkurrenten. Das zweite Ergebnis wirft
natürlich die Frage nach den Ursachen für die uneinheitliche Performance deterministischer
Prognosen und KQ-Prognosen auf. Einigen Aufschluß kann hier die nähere Betrachtung der
deterministischen Verhaltensweisen der beiden KNN geben.
Die Skelette beider Netze erzeugen deterministische Trajektorien, die unabhängig von den jeweiligen
Startwerten gegen einen global stabilen Fixpunkt y* konvergieren (y* = 36.52 bzw. y* = 70.58).
Während die Trajektorien des SMLP(9,1,1) typischerweise sehr schnell gegen ihren Fixpunkt
streben, zeigen die Trajektorien des MLP(12,3,1) jedoch ein pseudozyklisches Muster, das nur sehr
langsam ausklingt. Dies verdeutlicht exemplarisch die Abbildung 9.4. Sie zeigt h-Schritt-Prognosen
der Zeitreihenwerte im Prognoseursprung t = 1920 mit h = 1,2,...,55 (I- und B-Prognosen). Die
deterministische Iteration des SMLP(9,1,1) liefert bereits nach wenigen Iterationsschritten
Prognosewerte, die nicht mehr über die zyklische Struktur der Reihe informieren. Erst die Monte-
Carlo-Simulation oder, wie in Abbildung 9.4 zugrunde gelegt, die residuenbasierte Simulation des
KNN führt zu Prognosen mit langsam abklingendem zyklischen Muster. Die Abbildung zeigt
natürlich ebenfalls, daß die Langfrist-Prognoseeigenschaften des Netzes auch bei Einsatz von KQ-
Techniken limitiert bleiben. Mit wachsendem Prognosehorizont sind die B-Prognosen nicht mehr in
der Lage, die Periodik 'zukünftiger' Sonnenzyklen brauchbar vorherzusagen. Der deterministische
Pfad des MLP(12,3,1) weist über den gesamten Prognosezeitraum zyklische Schwankungen auf.
Der Einsatz von Simulationstechniken führt hier zu einer Glättung der Prognosewerte. Dieser
'Glättungseffekt' verstärkt sich mit wachsendem Prognosehorizont. Bemerkenswert ist, daß die I-
Prognosen die Periodendauer der fünf Zyklen im Prognosezeitraum zuverlässig vorhersagen. Die
Amplituden des 3. und 4. Zyklus werden jedoch deutlich unterschätzt. Eine zusätzliche Glättung der
Prognosewerte führt hier zu vergrößerten Fehlern. Dieses Phänomen konnte in abgeschwächter
Form auch bei den mit wanderendem Prognoseursprung ermittelten kurzfristigen h-Schritt-
Prognosen des Netzes beobachtet werden. Es ist die wesentliche Quelle für die in Tabelle 9.4
ausgewiesenen Performanceunterschiede der I- und KQ-Prognosen des MLP(12,3,1).
Für die weitere Bewertung der erzielten Prognoseergebnisse ist ein objektiver Vergleichsmaßstab
hilfreich. Die Tabelle 9.5 informiert über die Prognoseeigenschaften der Zeitreihenmodelle (9.2) bis
(9.5) aus Abschnitt 9.1. Tabelliert sind wieder die mittleren quadratischen Fehler von h-Schritt-
Prognosen (h = 1,2,...,12). Die Angaben für das bilineare SBAR(9,8,6)-Modell (9.3) und das
ASTAR-Modell (9.5) wurden von Subba Rao & Gabr [1984, S.201] bzw. Lewis & Stevens
[1991, S.875f] übernommen. Der Prognosebereich deckt hier leider nur den Teilzeitraum 1921-
1955 ab. Angemerkt sei, daß die Mehrschritt-Prognosen des ASTAR-Modells iterativ ermittelt
wurden. Ansonsten liegen den Kennzahlen KQ-Prognosen zugrunde. Im Falle des SETAR-Modells
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN 223
(9.4) handelt es sich um Monte-Carlo-Prognosen, die als Mittelwerte von jeweils S = 25000
Simulationen des Modells mit logarithmisch normalverteilten Pseudozufallszahlen berechnet wurden.
Der detaillierte Vergleich der Kennzahlen in den Tabellen 9.4 und 9.5 sei dem Leser selbst
überlassen. Hier sollen lediglich einige interessante Aspekte aufgegriffen werden, die sich aus den
Ergebnissen für den Prognosezeitraum 1921-1955 ergeben.
• Die Modelle SBAR(9,8,6) und SETAR(2;4,12) besitzen gegenüber dem linearen SAR(9)-
Modell überlegene Einschritt-Prognoseeigenschaften. Im Mehrschritt-Fall ist ihre Performance
allerdings nur für kleine Prognoseschritte h überzeugend. Die mittleren quadratischen Fehler ihrer
h-Schritt-KQ-Prognosen wachsen rasch mit dem Prognosehorizont und sind für h > 6 größer als
die MSE(h)-Werte für das SAR(9)-Modell. Die beiden KNN erzeugten im Vergleich zu allen
drei genannten Modellen deutlich verbesserte Mehrschritt-KQ-Prognosen. Im Einschritt-Fall
hingegen konnte nur die Performance des linearen Modells übertroffen werden.
• Unter den konkurrierenden Zeitreihenmodellen besitzt das ASTAR-Modell weit überlegene
Mehrschritt-Prognoseeigenschaften. Man beachte, daß die MSE(h)-Werte für das Modells nicht
monoton mit h wachsen, sondern temporär nach dem Prognoseschritt h = 4 sinken. Dieses
Modell
Prognoseschritt SAR SETAR SBAR ASTAR
1921-1955 1921-1975 1921-1955 1921-1975 1921-1955 1921-1955
1 212.3 295.2 148.2 243.5 123.8 132.5
2 413.5 647.3 377.4 633.0 337.5 314.8
3 643.5 956.0 655.6 1043.2 569.8 467.3
4 691.9 1056.8 753.4 1327.9 659.0 415.1
5 728.9 1091.9 757.8 1464.7 718.9 367.2
6 750.3 1109.2 830.3 1556.5 732.4 408.0
7 768.1 1135.9 939.9 1677.5 781.7 441.2
8 813.1 1150.9 1041.9 1728.7 833.2 455.1
9 851.7 1179.9 1080.9 1756.4 900.6 -
10 886.3 1209.0 1082.3 1765.0 961.9 -
11 984.0 1353.3 1120.1 1851.0 1013.8 -
12 1181.6 1692.7 1227.0 2048.2 1139.2 -
Tabelle 9.5: Prognoseergebnisse der Zeitreihenmodelle (9.2) bis (9.5). Mittlere quadratische Pro-gnosefehler MSE(h) von h-Schritt-Prognosen für die Sonnenfleckenzahlen in denJahren 1921-1975
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
224 EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN
Phänomen wurde bereits für die Prognosen des SMLP(9,1,1) und des MLP(12,3,1) beobachtet.
Für kleine Prognoseschritte h übertreffen die ASTAR-Prognosen die KQ-Prognosen des
SMLP(9,1,1) deutlich. Mit wachsendem Prognosehorizont scheinen sich die Performanceunter-
schiede zu nivellieren. Ein eindeutiges 'Ranking' von ASTAR-Modell und MLP(12,3,1) ist
aufgrund der vorliegenden Ergebnisse nicht möglich. Die mittleren quadratischen Fehler der
ASTAR-Prognosen sind kleiner als die MSE(h)-Werte der KQ-Prognosen und größer als die
MSE(h)-Werte der I-Prognosen des KNN.
Der Performancevergleich KNN versus ASTAR-Modell leidet unter dem Umstand, daß für das
ASTAR-Modell nur Kennzahlen von (iterativen) h-Schritt-Prognosen mit maximalem Horizont h = 8
über den Zeitraum 1921-1955 zur Verfügung standen. Die Ergebnisse lassen jedoch vermuten, daß
das ASTAR-Modell und das MLP(12,3,1)-Netz durchaus vergleichbare Mehrschritt-Prognose-
eigenschaften besitzen und beide eine gegenüber den Konkurrenten verbesserte Prognoseperfor-
mance aufweisen.
9.4 Regionprognosen
Das SMLP(9,1,1) und das MLP(12,3,1) besitzen sehr unterschiedliche Mehrschritt-Prognose-
eigenschaften. Eine interessante Frage ist, wie sich diese Unterschiede auf Regionprognosen beider
Netze auswirken. Zur Untersuchung der Fragestellung wurden Maximum-Bedingte-Dichte-Intervalle
(MBDI) und Maximum-Bedingte-Dichte-Regionen (MBDR) mit einer Überdeckungswahrschein-
lichkeit von α = 0.5 bzw. α = 0.75 geschätzt. Als Prognoseursprung wurde der Zeitpunkt t = 1920
gewählt. Der Prognosehorizont reichte über 24 Jahre bis ins Jahr 1944. Zur Schätzung der h-Schritt-
Prognoseregionen wurde der in Kapitel 8.2 vorgestellte (naive) Bootstrap-Ansatz mit anschließender
Kerndichteschätzung eingesetzt. Für jeden Prognoseschritt h basieren die Schätzungen auf S =
50000 residuengetriebenen Simulationen der beiden KNN. Die Ergebnisse sind graphisch in den
Abbildungen 9.5 und 9.6 dargestellt. Es werden Gemeinsamkeiten aber auch markante Unterschiede
der Regionprognosen sichtbar.
•• MLP(12,3,1)
Die Abbildung 9.5 zeigt die h-Schritt-B-Punktprognosen und die h-Schritt-MBDI (h = 1,..
.., 24) des MLP(12,3,1)-Netzes. Im Prognosezeitraum wurden zwei vollständige Sonnenzyklen
beobachtet. Sie werden recht zuverlässig durch die B-Prognosen des Netzes vorhergesagt. Der
mittlere quadratische Prognosefehler ist mit 127.2 nur marginal größer als die Residualvarianz des
KNN.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN 225
Das Netz erzeugte für alle Schritte h unimodale Prognosedichten. Die abgebildeten MBDI sind
somit zugleich MBDR. Interessant ist, daß die Breite der Prognoseintervalle deutlich mit dem
jeweiligen Prognoseschritt variiert. Während die MBDI in Prognoseabstiegsphasen auch für
großes h eng bleiben, dehnen sie sich in Anstiegsphasen stark aus. Dies reflektiert den
Tatbestand, daß die Amplituden der im Anpassungsbereich der Reihe beobachteten Zyklen stark
schwanken. Die Prognose des Anstiegs eines Sonnenzyklus ist mit großer Unsicherheit
verbunden. Aufgrund der guten Prognoseeigenschaften des Netzes decken die Prognoseintervalle
die tatsächlich ermittelten Sonnenfleckenzahlen zuverlässig ab. Lediglich die Beobachtung für das
Jahr 1930 fällt aus den MBDI mit α = 0.5 und α = 0.75 heraus.
•• SMLP(9,1,1)
Im Vergleich zum MLP(12,3,1)-Konkurrenten lieferte das SMLP(9,1,1) für große Progno-
seschritte h eher vage B-Punktprognosen der Sonnenfleckenzahlen. Der über den Zeitraum
1921-1944 berechnete mittlere quadratische Prognosefehler beträgt 258.6. Er ist approximativ
doppelt so groß ist wie der für das MLP(12,3,1) ermittelte MSE-Wert.
Wie bereits erwähnt, ist die Vorhersage des Anstiegs eines Sonnenzyklus mit erhöhter Un-
sicherheit verbunden. In Prognoseanstiegsphasen erzeugte das KNN bedingte Prognose-
verteilungen mit stark anwachsenden Varianzen. Ferner sind hier die generierten Prognosedichten
ausgeprägt rechtsschief und weisen in der Nähe von 'Prognosegipfeln' eine bimodale Form auf.
Das nicht-monotone Anwachsen der bedingten Varianzen wird durch die Intervallbreiten der in
Abbildung 9.6a dargestellten h-Schritt-MBDI aufgezeigt. Die Intervalle weiten sich in den
1920 1925 1930 1935 1940 1945
-40
0
40
80
120
160ZeitreihenwerteB-Prognosen
Abb. 9.5: h-Schritt-B-Prognosen und h-Schritt-MBDI (h = 1,2,...,24) des MLP(12,3,1) für dieSonnenfleckenzahlen in den Jahren 1921-1944 im Prognoseursprung t = 1920.[starke vertikale Linien: MBDI mit α = 0.5; dünne vertikale Linien: MBDI mit α = 0.75]
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
226 EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN
Anstiegsphasen stark aus, um sich anschließend in den Abstiegsphasen wieder temporär zu
verengen. Die MBDI mit der vorgegebenen Überdeckungswahrscheinlichkeit α = 0.5 sind in den
Anstiegsphasen nicht innerhalb der MBDI mit α = 0.75 zentriert. Dies verweist auf die Schiefe
der Prognosedichten. In der Umgebung von Prognosegipfeln (1926-1928 und 1936-1938) sind
die MBDI und die MBDR verschieden (siehe die Abbildungen 9.6b und 9.6c). Die MBDR
zerfallen hier jeweils in zwei disjunkte Teilintervalle und reflektieren so die Bimodalität der
bedingten Prognosedichten. Ein Vergleich der Abbildungen 9.5 und 9.6 zeigt, daß für große
Prognoseschritte h die Regionen des SMLP(9,1,1) substanziell größer sind als die h-Schritt-
MBDI des MLP(12,3,1).
Die Unterschiede in den Regionprognosen beider KNN sind im wesentlichen auf die limitierten
Langfrist-Prognoseeigenschaften des SMLP(9,1,1)-Netzes zurückzuführen. Es darf vermutet
werden, daß die Regionprognosen des SMLP(9,1,1) die tatsächliche Prognoseunsicherheit
überzeichnen. Speziell das Auftreten bimodaler Prognosedichten kann als Artefakt gewertet werden,
dessen Ursache in den statistischen Eigenschaften des Netzes und nicht in den statistischen
Eigenschaften des datenerzeugenden stochastischen Prozeß zu suchen ist.
Abschließend muß angemerkt werden, daß die Prognoseregionen beider Netze in den 'Prognose-
tälern' deutlich in den Bereich der negativen reellen Zahlen hineinreichen. Da die Zeitreihenwerte stets
nicht-negative reelle Zahlen sind, ist folglich der Aussagegehalt dieser Prognoseregionen stark
eingeschränkt. Eine pragmatische Lösung des Problems kann durch eine geeignete Transformation
der Zeitreihenwerte erreicht werden, z.B. durch eine Quadratwurzeltransformation (vgl. Tong [1990,
S.420ff]). Auf der Basis der transformierten Daten wird ein KNN trainiert und zur Schätzung von h-
Schritt-Prognosedichten eingesetzt. Anschließend werden die geschätzten Dichten auf die Skala der
Originaldaten retransformiert und können jetzt zur Berechnung von Prognoseregionen genutzt
werden. Die Verwendung der Quadratwurzeltransformation erzwingt, daß die resultierenden
Regionen Teilmengen der Menge der nicht-negativen reellen Zahlen sind. Auf eine detaillierte
Darstellung der Vorgehensweise und ihrer Ergebnisse wird hier verzichtet.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
EIN EMPIRISCHES BEISPIEL: DIE WOLF'SCHEN SONNENFLECKEN 227
1920 1925 1930 1935 1940 1945
-40
0
40
80
120
160 Zeitreihenwerte
B-Prognosen
(a)
1920 1925 1930 1935 1940 1945
-40
0
40
80
120
160 Zeitreihenwerte
B-Prognosen
(b)
1920 1925 1930 1935 1940 1945
-40
0
40
80
120
160 Zeitreihenwerte
B-Prognosen
(c)
Abb. 9.6: h-Schritt-B-Prognosen und h-Schritt-Regionprognosen (h=1,2,...,24) des SMLP(9,1,1) fürdie Sonnenfleckenzahlen in den Jahren 1921-1944 im Prognoseursprung t = 1920.[Abb. 9.6a: MBDI mit α = 0.5 (starke vertikale Linien) und α = 0.75 (dünne vertikaleLinien); Abb. 9.6b: MBDR mit α = 0.5; Abb. 9.6c: MBDR mit α = 0.75]
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
229
10 SCHLUSSBEMERKUNGEN
Künstliche Neuronale Netze, speziell die in diesem Buch im Vordergrund stehende Klasse der
Mehrschicht-Perzeptrone, finden seit einigen Jahren große Beachtung als vielseitig verwendbare
datenanalytische Werkzeuge. Mit hervorgerufen wurde das Interesse sicherlich durch die Faszina-
tion, die von der Idee, Erkenntnisse über Organisationsstrukturen und Verarbeitungsmechanismen
biologischer Nervensysteme zur Konstruktion lernfähiger Informationsverarbeitungssysteme zu
nutzen, ausgeht.
Aus einer formalen, statistisch-mathematischen Sicht können Mehrschicht-Perzeptrone als flexible,
quasi-parametrische Funktionsapproximatoren aufgefaßt werden, die aus einfachen, nichtlinearen
Basisfunktionen, den sogenannten verborgenen Verarbeitungseinheiten, aufgebaut sind. Überwachte
Lernverfahren, wie der Backpropagation-Algorithmus und seine Varianten, gestatten es, die Netz-
werke zur Lösung vielfältiger nichtlinearer Regressionsprobleme, einschließlich der Zeitreihenpro-
gnose, einzusetzen (Kapitel 5).
In der vorliegenden Arbeit wurden Mehrschicht-Perzeptrone als eine spezifische Klasse nichtlinearer
autoregressiver Modelle zur Prognose univariater stationärer Zeitreihen motiviert (Kapitel 6). Da die
unterschiedlichsten Formen nichtlinearer Dynamik in Zeitreihen auftreten können, erfordert die Pro-
gnose ein entsprechend flexibles Instrumentarium. Mehrschicht-Perzeptrone stellen diesbezüglich
eine wertvolle Ergänzung des verfügbaren statistischen Instrumentariums dar, weil sie es dem An-
wender gestatten, die Modellflexibilität durch Variation der Basisfunktionenanzahl im Netzwerk oder
durch Regularisierungstechniken zu steuern. So können sowohl einfache als auch hoch flexible, in
ihrem Wesen nichtparametrische Modelle gebildet werden.
Der praktische Prognoseeinsatz der Netzwerke erfordert die Lösung zweier Problembereiche:
(i) Die Spezifikation eines prognosetauglichen Netzwerkes;
(ii) Die geeignete Nutzung des spezifizierten Netzwerkes zur Prognose.
Beide Problembereiche sind mit den heute verfügbaren Hilfswerkzeugen i.d.R. nicht einfach lösbar,
so daß Bedarf nach verbesserten Methoden besteht.
In der konnektionistischen Literatur wird vielfach behauptet, daß die Netzwerkspezifikation weit-
gehend durch Einsatz der Stopp-Training-Prozedur automatisierbar sei, "... so that people with little
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
230 SCHLUSSBEMERKUNGEN
knowledge of either forecasting or neural nets can prepare reasonable forecasts in short space of
time" (Hoptroff [1993], zitiert nach Chatfield [1996, S.209]). Wie in Kapitel 6.3 ausgeführt, ist das
Stopp-Training in zeitreihenanalytischen Anwendungen statistisch allerdings nicht zu rechtfertigen.
Neben Stopp-Training stehen weitere Spezifikationswerkzeuge zur Verfügung, die jedoch zumeist
mit einem sehr hohen Rechenaufwand verbunden sind und/oder umfangreiche Datensätze erfordern.
Insbesondere dann, wenn nur 'kurze' Zeitreihen (beispielsweise mit weniger als 200 Beobachtungen)
als Lerndaten gegeben sind, verlangt die Netzwerkspezifikation vom Anwender - wie jede andere
Form der nichtlinearen Modellierung auch - im hohen Maße Erfahrung und subjektives Urteilsver-
mögen. Im Bereich der Entwicklung von Spezifikationsverfahren bleibt somit noch ein erheblicher
Forschungsbedarf.
In den Kapiteln 7, 8 und 9 wurden verschiedene Techniken zur Ermittlung von Mehrschritt-Punkt-
prognosen und Mehrschritt-Regionprognosen diskutiert und deren Einsatz am Beispiel simulierter
Zeitreihen und einer empirischen Reihe untersucht.
Die übliche praktische Vorgehensweise der Mehrschritt-Punktprognose ist die iterative oder deter-
ministische Technik. Diese Technik, obwohl suboptimal im Sinne des MSE-Kriteriums, kann zu
befriedigenden Ergebnissen führen, wenn der 'Rauschanteil' im datenerzeugenden Prozeß gering ist
oder wenn ein datenerzeugender Prozeß mit moderatem Rauschanteil und ausgeprägt zyklischem
Verhalten vorliegt. Dies zeigte sich sowohl in Anwendungen auf simulierte Reihen (Kapitel 7.3) als
auch in der Anwendung auf die empirische Reihe der Wolf'schen Sonnenflecken (Kapitel 9). Anson-
sten besteht die Gefahr, daß deterministische Prognosen einen substantiellen Bias und inflationär
große mittlere quadratische Prognosefehler aufweisen. Der Einsatz rechenintensiver Verfahren wie
die rekursive Kleinste-Quadrate-Prognose, die Bootstrap-Prognose oder - mit Einschränkungen -
die direkte Prognose kann hier mit einem deutlichen Gewinn an Prognosegenauigkeit belohnt werden
(Kapitel 7.3).
Prognoseregionen sind Instrumente zur Beschreibung der Prognoseunsicherheit. In Kapitel 8 wurden
zwei interessante Ansätze von Hyndman [1995] und Yao [1996] - die Maximum-Bedingte-Dichte-
Region und das Maximum-Bedingte-Dichte-Intervall - diskutiert und eine 'naive' Monte-Carlo- und
Bootstrap-Schätzung der Prognoseregionen mittels Künstlicher Neuronaler Netze vorgeschlagen.
Diese auf Simulationstechniken basierenden Vorgehensweisen führen zu brauchbaren Ergebnissen,
wenn umfangreiche Datensätze verfügbar sind. Im Falle kurzer Zeitreihen besteht jedoch die Gefahr
einer Schätzung ungerechtfertigt kleiner Regionen, die die tatsächliche Prognoseunsicherheit unter-
zeichnen. Auch hier besteht noch ein erheblicher Forschungsbedarf zur Entwicklung verbesserter
Schätztechniken für kurze Zeitreihen. Eine interessante Perspektive eröffnet auch die direkte
Schätzung von Prognosedichten ohne Verwendung von Simulationstechniken. Die bisherigen Vor-
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
SCHLUSSBEMERKUNGEN 231
schläge zur direkten Schätzung (siehe z.B. Weigend & Srivastava [1994]) zeichnen sich allerdings
noch durch einen enorm hohen Datenbedarf aus.
Bei aller Faszination, die Künstliche Neuronale Netze verständlicherweise hervorrufen, bleibt somit
zusammenfassend festzuhalten, daß zum gegenwärtigen Zeitpunkt eine Reihe von Fragen noch unbe-
antwortet sind. Auf die Phase der teilweise unkritischen Begeisterung für die vielfältigen Einsatzmög-
lichkeiten Künstlicher Neuronaler Netze muß daher eine Phase der wissenschaftlichen Konsolidie-
rung folgen. Nichtzuletzt auch für die Statistik bietet sich diesbezüglich ein weites Feld für zukünftige
Forschungsbemühungen.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
233
LITERATURVERZEICHNIS
Ackley, D.H., G.E. Hinton & T.J. Sejnowski [1985]: A learning algorithm for Boltzmann Maschines;Cognitive Science, 9, 147-169
Akaike, H. [1969]: Fitting autoregressions for predictions; Annals of the Institute of StatisticalMathematics, 21, 243-247
Akaike, H. [1970]: Statistical predictor identification; Annals of the Institute of StatisticalMathematics, 22, 203-217
Akaike [1974]: A new look at the statistical model identification; IEEE Transactions on AutomaticControl, AC-19, 716-723
Alberts, B., D. Bray, J. Lewis, M. Raff, K. Roberts & J.D. Watson [1987]: Molekularbiologie derZelle; Weinheim: VCH
Alberts, B., A. Johnson, J. Lewis, M. Raff, K. Roberts & P. Walter [2002]: Molecular biology ofthe cell, 4th ed.; New York: Garland Science
Al-Qas sem, M.S. & J.A. Lane [1989]: Forecasting exponential autoregressive models of order 1;Journal of Time Series Analysis, 10, 95-113
Arbib, M.A. [1987]: Brains, maschines and mathematics, 2nd ed.; New York et al.: Springer
Bauer, H. [1974]: Wahrscheinlichkeitstheorie und Grundzüge der Maßtheorie, 2. Aufl.; Berlin, NewYork: de Gruyter
Bhaskara Rao, M., T. Subba Rao & A.M. Walker [1983]: On the existence of some bilinear timeseries models; Journal of Time Series Analysis, 4, 95-110
Birkenfeld, W. [1977]: Methoden zur Analyse von kurzen Zeitreihen; Basel, Stuttgart: Birkhäuser
Birkenfeld, W. & R. Schuhr [1985]: Zur Theorie und Technik der Auswahl von AR-Teilmodellen inder Zeitreihenanalyse; in: Prace Naukove. Akademii Ekonomicznej imienia Oskara Langego, Nr.301, 167-186; Wroclaw
Bishop, C.M. [1995]: Neural networks for pattern recognition; Oxford: Clarendon Press
Block, H.D. [1962]: The perceptron: a model for brain functioning. I; Reviews of Modern Physics,34, 123-135
Blum, J. [1954]: Multivariate stochastic approximation methods; Annals of Mathematical Statistics,25, 737-744
Blum, E.K. & L.K. Li [1991]: Approximation theory and feedforward networks; Neural Networks, 4,511-516
Bodewig, E. [1956]: Matrix calculus; Amsterdam: North Holland
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
234 LITERATURVERZEICHNIS
Bollerslev, T. [1986]: Generalized autoregressive conditional heteroskedasticity; Journal ofEconometrics, 31, 307-327
Bollerslev, T., R.F. Engle & D.B. Nelson [1994]: ARCH models; in: R.F. Engle & D. McFadden(eds.): Handbook of econometrics, Vol. IV, 2959-3038; Amsterdam et al.: Elsevier
Box, G.E.P. & G.M. Jenkins [1970]: Time series analysis, forecasting and control; San Francisco etal.: Holden-Day
Breidt, F.J., R.A. Davis & W.T.M. Dunsmuir [1995]: Improved bootstrap prediction intervals forautoregressions; Journal of Time Series Analysis, 16, 177-200
Brent, R. P. [1974]: Algorithm 488; Communications of the Association for Computing Machinery,17, 704
Brockwell, P.J. & R.A.Davies [1991]: Time series: theory and methods, 2nd ed.; New York et al.:Springer
Brown, B.W. & R.S. Mariano [1989]: Predictors in dynamic nonlinear models: Large-samplebehavior; Econometric Theory, 5, 430-452
Broyden, C.G. [1970]: The convergence of a class of double rank minimization algorithms, part I andII; Journal of the Institute of Mathematics and its Applications, 6, 76-90 and 222-231
Bryson, A.E. & Y.-C. Ho [1969]: Applied optimal control; New York: Blaisdell
Buchholtz, C. [1982]: Grundlagen der Verhaltensphysiologie; Braunschweig, Wiesbaden: Vieweg
Burman, P., E. Chow & D. Nolan [1994]: A cross-validatory method for dependent data;Biometrika, 81, 351-358
Carpenter, G. & S. Grossberg [1987]: ART 2: Self-organization of stable category recognition codesfor analog input patterns; Applied Optics, 26, 4919-4930
Carpenter, G. & S. Grossberg [1990]: ART 3: Hierarchical search using chemical transmitters inself-organizing pattern recognition architectures; Neural Networks, 3, 129-152
Cater, J.P. [1987]: Successfully using peak learning rates of 10 (and greater) in back-propagationnetworks with the heuristic learning algorithm; in: M. Caudill & C. Butler (eds.): Proceedings ofthe First IEEE International Conference on Neural Networks, San Diego, CA, 1987, Vol. II, 645-651; New York: IEEE Press
Chan, K. S. & H. Tong [1986]: On estimating thresholds in autoregressive models; Journal of TimeSeries Analysis, 7, 179-190
Chatfield, C. [1993]: Calculating interval forecasts; Journal of Business & Economic Statistics, 11,121-144
Chatfield, C. [1996]: The analysis of time series: An introduction, fifth ed.; London et al.: Chapman& Hall
Chen, R. & R.S. Tsay [1993]: Functional-coefficient autoregressive models; Journal of the AmericanStatistical Association, 88, 298-308
Cheng, B. & D.M. Titterington [1994]: Neural networks: A Review from a statistical perspective;Statistical Science, 9, 2-54
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
LITERATURVERZEICHNIS 235
Cybenko, G. [1989]: Approximation by superpositions of a sigmoid function; Mathematics of Control,Signals, and Systems, 2, 303-314
D'Agostino, R.B. [1986]: Graphical analysis; in: R.B. D'Agostino & M.A. Stephens (eds.):Goodness-of-fit-techniques, 7-62; New York, Basel: Marcel Dekker
De Gooijer, J.G. & K. Kumar [1992]: Some recent developments in non-linear time series modelling,testing, and forecasting; International Journal of Forecasting, 8, 135-156
De Groot, C. & D. Würtz [1991]: Analysis of univariate time series with connectionist nets: a casestudy of two classical examples; Neurocomputing, 3, 177-192
Dennis Jr., J.E. & J.J. More [1977]: Quasi-Newton methods, motivation, and theory; SIAM Review,19, 46-89
Domowitz, I. & H. White [1982]: Misspecified models with dependent observations; Journal ofEconometrics, 20, 35-58
Doob, J.L. [1953]: Stochastic processes; New York, London, Sydney: Wiley
Engle, R.F. [1982]: Autoregressive conditional heteroskedasticity with estimates of the variance ofUnited Kingdom inflation; Econometrica, 50, 987-1007
Fahrmeir, L., H. Kaufmann & F. Ost [1981]: Stochastische Prozesse. Eine Einführung in Theorieund Anwendungen; München, Wien: Hanser
Fletcher, R. [1970]: A new approach to variable metric algorithms; Computer Journal, 13, 317-322
Fletcher, R. [1987]: Practical methods of optimization, 2nd ed.; Chichester et al.: Wiley
Friedman, J.H. [1991]: Multivariate adaptive regression splines (with discussion); Annals ofStatistics, 19, 1-141
Friedman, J.H. & W. Stuetzle [1981]: Projection pursuit regression; Journal of the AmericanStatistical Association, 76, 817-823
Frohn, J. [1995]: Grundausbildung in Ökonometrie, 2. Aufl.; Berlin, New York: de Gruyter
Funahashi, K. [1989]: On the approximate realization of continuous mappings by neural networks;Neural Networks, 2, 183-192
Gallant, A.R. & H. White [1988]: A unified theory of estimation and inference for nonlinear dynamicmodels; Oxford, New York: Basil Blackwell
Gauß, C.F. [1823]: Theoria combinationis observationum erroribus minimis obnoxiae; in:Commentationes societates Gottingensis recentiones, Vol. V, ad annos 1819-22, S.38-90,Göttingen 1823; Supplementum ,Vol. VI, ad annos 1823-27, S. 57-98
Geisser, S. [1975]: The predictive sample reuse method with applications; Journal of the AmericanStatistical Association, 70, 320-328
Geman, S., E. Bienenstock & R. Doursat [1992]: Neural networks and the bias/variance dilemma;Neural Computation, 4, 1-58
Goldfarb, D. [1970]: A family of variable metric methods derived by variational means; Mathematicsof Computation, 24, 23-26
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
236 LITERATURVERZEICHNIS
Goldfeld, S.M. , R.E. Quandt & H.F. Trotter [1966]: Maximization by quadratic hill-climbing;Econometrica, 34, 541-551
Goldfeld, S.M. & R.E. Quandt [1976]: Nonlinear methods in econometrics, 2nd ed.; Amsterdam,New York, Oxford: North-Holland
Granger, C.W.J. & A.P. Andersen [1978]: An introduction to bilinear time series models;Göttingen: Vandenhoeck und Ruprecht
Granger, C.W.J. & T. Teräsvirta [1993]: Modelling nonlinear economic relationships; Oxford etal.: Oxford University Press
Grenander, U. [1981]: Abstract inference; New York et al.: Wiley
Härdle, W. & O. Linton [1994]: Applied nonparametric methods; in: R.F. Engle & D. McFadden(eds.): Handbook of econometrics, Vol. IV, 2295-2339; Amsterdam et al.: Elsevier
Härdle, W., H. Lütkepohl & R. Chen [1997]: A review of nonparametric time series analysis;International Statistical Review, 65, 49-72
Hagan, M.T. & M.B. Menhaj [1994]: Training feedforward networks with the Marquardt algorithm;IEEE Transactions on Neural Networks, 5, 989-993
Haggan, V. & T. Ozaki [1981]: Modelling nonlinear random vibrations using an amplitude-dependentautoregressive time series model; Biometrika, 68, 189-196
Hallin, M. [1980]: Invertibility and generalised invertibility of time series models; Journal of theRoyal Statistical Society, Series B, 42, 210-212; Addendum [1981], 43, 103
Hannan, E.J. [1970]: Multiple time series; New York et al.: Wiley
Hannan, E.J. [1980]: The estimation of the order of an ARMA process; The Annals of Statistics, 8,1071-1081
Hannan, E.J. & G.B. Quinn [1979]: The determination of the order of an autoregression; Journal ofthe Royal Statistical Society, Series B, 41, 190-195
Harvey, A. [1990]: The econometric analysis of time series, 2nd ed.; New York et al.: Philip Allan
Hastie, T.J. & R.J. Tibshirani [1990]: Generalized additive models; London: Chapman & Hall
Haykin, S. [1994]: Neural networks; New York: Macmillan College Publishing
Hebb, D.O. [1949]: The organization of behaviour; New York: Wiley
Hecht-Nielsen, R. [1989]: Theory of the back-propagation neural network ; in: Proceedings of theInternational Joint Conference on Neural Networks, Washington, D.C., 1989, Vol. I, 593-606; NewYork: IEEE Press
Hertz, J., A. Krogh & R.G. Palmer [1991]: Introduction to the theory of neural computation;Redwood City et al.: Addison-Wesley
Hinton, G.E. [1986]: Learning distributed representations of concepts; in: Proceedings of the EighthAnnual Conference of the Cognitive Science Society, Amherst, 1986, 1-12; Hillsdale: Erlbaum
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
LITERATURVERZEICHNIS 237
Hinton, G.E. & T.J. Sejnowski [1986]: Learning and relearning in Boltzmann Maschines; in: D.E.Rumelhart & J.L. McClelland (eds.): Parallel Distributed Processing: Explorations in the micro-structures of cognition, Vol. I, 282-317; Cambridge: M.I.T. Press
Hoerl, A.E. & R.W. Kennrad [1970a]: Ridge regression. Biased estimation for nonorthogonalproblems; Technometrics, 12, 55-67
Hoerl, A.E. & R.W. Kennrad [1970b]: Ridge regression. Applications to nonorthogonal problems;Technometrics, 12, 69-82
Hopfield, J.J. [1982]: Neural networks and physical systems with emergent collective computationalabilities; Proceedings of the National Academy of Science U.S.A., 79, 2554-2558
Hopfield, J.J. [1984]: Neurons with graded response have collective computational properties likethose of two-state neurons; Proceedings of the National Academy of Science U.S.A., 81, 3088-3092
Hoptroff, R.G. [1993]: The principles and practice of time series forecasting and business modellingusing neural nets; Neural Computing & Applications, 1, 59-66
Hornik, K., M. Stinchcombe & H. White [1989]: Multi-layer feedforward networks are universalapproximators; Neural Networks, 2, 551-560
Hyndman, R. [1995]: Highest-density forecast regions for non-linear and non-normal time seriesmodels; Journal of Forecasting, 14, 431-441
Iosifescu, M. & R. Theodorescu [1969]: Random processes and learning; New York et al.: Springer
Izenman, A.J. [1983]: J. R. Wolf and H. A. Wolfer: An historical note on the Zurich sunspot relativenumbers; Journal of the Royal Statistical Society, Series A, 146, 311-318
Jacobs, R.A. [1988]: Increased rates of convergence through learning rate adaption; NeuralNetworks, 1, 295-307
Kabaila, P. [1993]: On bootstrap predictive inference for autoregressive processes; Journal of TimeSeries Analysis, 14, 473-484
Kasparian, V., C. Batur, H. Zhang & J. Padovan [1994]: Davidon least squares-based learningalgorithm for feedforward neural networks; Neural Networks, 7, 661-670
Kautsky, J. & S. Elhay [1982]: Calculation of the weights of interpolatory quadratures; Numer.Math., 40, 407-422
Kay, J.W. & D.M. Titterington [2000]: Statistics and neural networks: Advances at the interface;Oxford: Oxford University Press
Kennedy, W.J. & J.E. Gentle [1980]: Statistical computing; New York, Basel: Marcel Dekker
Kiefer, J. & J. Wolfowitz [1952]: Stochastic estimation of the maximum of a regression funktion;Annals of Mathematical Statistics, 23, 462-466
Kirkpatrick, S., C.D. Gelatt Jr. & M.P. Vecchi [1983]: Optimization by simulated annealing;Science, 220, 671-680
Kleijnen, J. & W. van Groenendaal [1992]: Simulation. A statistical perspective; Chichester et al.:Wiley
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
238 LITERATURVERZEICHNIS
Kohonen, T. [1982]: Self-organized formation of topologically correct feature maps; BiologicalCybernetics, 43, 59-69
Kohonen, T. [1984]: Self-organization and associative memory; Berlin: Springer
Kosko, B. [1988]: Bidirectional associative memories; IEEE Transactions on Systems, Man andCybernetics, 18, 49-60
Kuan, C.-M. & K. Hornik [1991]: Convergence of learning algorithms with constant learning rates;IEEE Transactions on Neural Networks, 2, 484-489
Kuan, C.-M. & H. White [1989]: Recursive M-estimation, nonlinear regression and neural networklearning with dependent observations; UCSD Department of Economics discussion paper
Kuan, C.-M. & H. White [1994]: Artificial neural networks: an econometric perspective;Econometric Reviews, 13, 1-91
Kushner, H. [1987]: Asymptotic global behavior for stochastic approximations and diffusions withslowly decreasing noise effects: global minimization via Monte Carlo ; SIAM Journal on AppliedMathematics, 47, 169-185
Le Cun, Y. [1985]: Une Procédure d'Apprentissage pour Réseau à Seuil Assymétrique ; in: Cognitiva85: A la Frontière de l'Intelligence Artificielle des Sciences de la Connaissance des Neurosciences,Paris, 599-604; Paris: CESTA
Lee, T.-H., H. White & C.W.J. Granger [1993]: Testing the neglected nonlinearity in time seriesmodels; Journal of Econometrics, 56, 269-290
Leisch, F., A. Trapletti & K. Hornik [1999]: Stationarity and stability of autoregressive neural net-work processes; in: M.S. Kearns, S.A. Solla & D.A. Cohn (eds.): Advances in neural informationprocessing systems, Vol. XI, 267-273; Cambridge, Mass.: MIT Press
Levenberg, K. [1944]: A method for the solution of certain nonlinear problems in least squares;Quarterly of Applied Mathematics, 2, 164-168
Lewis, P.A.W. & J.G. Stevens [1991]: Nonlinear modeling of time series using multivariate adaptiveregression splines (MARS); Journal of the American Statistical Association, 86, 864-877
Lin, J.-L. & C.W.J. Granger [1994]: Forecasting from non-linear models in practice; Journal ofForecasting, 13, 1-9
Lippmann, R.P. [1987]: An introduction to computing with neural nets; IEEE ASSP Magazine, 4,4-22
Ljung, G.M. & G.E.P. Box [1978]: On a measure of lack of fit in times series models; Biometrika,65, 297-303
Luukkonen, R., P. Saikkonen & T. Teräsvirta [1988]: Testing linearity against smooth transitionautoregressive models; Biometrika, 75, 491-499
MacKay, D.J.C. [1995]: Bayesian methods for neural networks: Theory and applications; TechnicalReport, Cavendish Laboratory, Cambridge, CB3 0HE, U.K.
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
LITERATURVERZEICHNIS 239
Mariano, R.S. & B.W. Brown [1989]: Stochastic simulation, prediction and validation of nonlinearmodels; in: L.R. Klein & Marquez, J. (eds.): Economics in theory and practice: an eclecticapproach, 17-36; Amsterdam: Kluwer Academic Publishers
Marquardt, D.W. [1963]: An algorithm for least squares estimation of non linear parameters;Journal of the Society of Industrial Applied Mathematics, 2, 431-441
McCulloch, W.S. & W. Pitts [1943]: A logical calculus of the ideas immanent in nervous activity;Bulletin of Mathematical Biophysics, 5, 115-133
McLeod, A.I. & W.K. Li [1983]: Diagnostic checking ARMA time series models using squared-residual autocorrelations; Journal of Time Series Analysis, 4, 269-273
Miller, M. [1994]: Das Optimieren von Neuronalen Netzen für den Einsatz zur Prognose in der Öko-nomie; in: G. Bol, G. Nakhaeizadeh & K.-H. Vollmer (Hrsg.): Finanzmarktanwendungenneuronaler Netze und ökonometrische Verfahren: Ergebnisse des 4. Karlsruher Ökonometrie-Workshops, 125-147; Heidelberg: Physica
Minsky, M. & S. Papert [1969]: Perceptrons; Cambridge, Mass.: MIT Press
Moeanaddin, R. [1991]: Approximating multi-step non-linear least squares prediction of thresholdautoregressive models; Paper presented at the IMS Philadelphia meeting 1991
Moeanaddin, R. & H. Tong [1990]: Numerical evaluation of distributions in non-linear autoregres-sion; Journal of Time Series Analysis, 11, 33-48
Moody, J.E. [1992]: The effective number of parameters: An analysis of generalization andregularization in nonlinear learning systems; in J.E. Moody, S.J. Hanson & R.P. Lippmann (eds.):Advances in neural information processing systems 4, 847-854; San Mateo, CA: MorganKaufmann
Moody, J.E. & C. Darken [1989]: Fast learning in networks of locally-tuned processing units;Neural Computation, 1, 281-294
Moran, P.A.P. [1954]: Some experiments on the prediction of sunspot numbers; Journal of the RoyalStatistical Society, Series B, 16, 112-117
Morris, M.J. [1977]: Forecasting the sunspot cycle; Journal of the Royal Statistical Society, Series A,140, 437-468
Murata, N., S. Yoshizawa & S. Amari [1991]: A criterion for determining the number of parametersin an artificial neural network model; in T. Kohonen, K. Mäkisara, O. Simula & J. Kangas (eds.):Artificial neural networks, Vol. 1, 9-14; Amsterdam et al.: North-Holland
Nauck, D., F. Klawonn & R. Kruse [1996]: Neuronale Netze und Fuzzy-Systeme: Grundlagen desKonnektionismus, Neuronaler Fuzzy-Systeme und der Kopplung mit wissensbasierten Methoden, 2.Auflage; Braunschweig: Vieweg
Neuneier, R., F. Hergert, W. Finnoff & D. Ormoneit [1994]: Estimation of conditional densities: acomparison of neural network approaches; in: M. Mariano & P.G. Morasso (eds.): Proceedings ofthe International Conference on Artifical Neural Networks, Vol. 1, 689-692; New York et al.:Springer
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
240 LITERATURVERZEICHNIS
Nicholls, D.F. & B.G. Quinn [1982]: Random coefficient autoregressive models: an introduction;New York et al.: Springer
Ozaki, T. [1982]: The statistical analysis of pertubed limit cycle processes using nonlinear time seriesmodels; Journal of Time Series Analysis, 3, 29-41
Papoulis, A. [1965]: Probability, random variables, and stochastic processes; New York et al.:McGraw-Hill
Parker, D.B. [1982]: Learning logic ; Invention report 581-64, File 1, Office of TechnologyLicensing, Stanford University
Pemberton, J. [1987]: Exact least squares multi-step prediction from nonlinear autoregressivemodels; Journal of Time Series Analysis, 8, 443-448
Petruccelli, J.D. & S.W. Woolford [1984]: A threshold AR(1) model; Journal of Applied Probability,18, 617-627
Poggio, T. & F. Girosi [1990]: Networks for approximation and learning; Proceedings of the IEEE,78, 1481-1497
Press, W.H., B.P. Flannery, S.A.Teukolsky & W.T. Vetterling [1988]: Numerical recipes: the artof scientific computing; Cambridge et al.: Cambridge University Press
Priestley, M.B. [1980]: State-dependent models: a general approach to non-linear time seriesanalysis; Journal of Time Series Analysis, 1, 47-71
Priestley, M.B. [1981]: Spectral analysis and time series, Vol. 1 and 2; London et al.: Academic Press
Riedmiller & Braun [1993]: A direct adaptive method for faster backpropagation learning: theRPROP algorithm; in: H. Ruspini (ed.): Proceedings of the IEEE International Conference onNeural Networks, San Fransisco, 1993, 586-591; New York: IEEE Press
Rinnooy Kan, A.H.G., C.G.E. Boender & G.T. Timmer [1985]: A stochastic approach to globaloptimization; in: K. Schittkowski (ed.): Computational mathematical programming; NATO ASISeries, F15, 281-308; Berlin et al.: Springer
Ripley, B.D. [1993]: Statistical aspects of neural networks; in: O.E. Barndorff-Nielsen, J.L. Jensen &W.S. Kendall (eds.): Networks and chaos - statistical and probabilistic aspects, 40-123; London etal.: Chapman & Hall
Ripley, B.D. [1994]: Neural networks and related methods for classification (with discussion); Journalof the Royal Statistical Society, Series B, 56, 409-456
Ripley, B.D. [1996]: Pattern recognition and neural networks; Cambridge: Cambridge UniversityPress
Ritter, H., T. Martinetz & K. Schulten [1992]: Neuronale Netze. Eine Einführung in die Informatikselbstorganisierter Netzwerke, 2. Aufl.; Bonn et al.: Addison-Wesley
Robbins, H. & S. Monro [1951]: A stochastic approximation method; Annals of MathematicalStatistics, 22, 400-4071
Robinson, P.M. [1983]: Non-parametric estimation for time series models; Journal of Time SeriesAnalysis, 4, 185-208
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
LITERATURVERZEICHNIS 241
Rojas, R. [1993]: Theorie der neuronalen Netze: Eine systematische Einführung; Berlin et al.:Springer
Rosenblatt, F. [1958]: The perceptron: a probabilistic model for information storage andorganization in the brain ; Psychological Review, 65, 386-408
Rosenblatt, F. [1962]: Principles of neurodynamics; New York: Spartan
Rosenblatt, M. [1956]: A central limit theorem and a strong mixing condition; Proceedings of theNational Academy of Science, U.S.A., 42, 43-47
Rosenblatt, M. [1978]: Dependence and asymptotic independence for random processes; in: M.Rosenblatt (ed.): Studies in probability theory; Washington, D.C.: Mathematical Association ofAmerica
Rumelhart, D.E., G.E. Hinton & R.J. Williams [1986a]: Learning representations by back-propagating errors; Nature, 323, 533-536
Rumelhart, D.E., G.E. Hinton & R.J. Williams [1986b]: Learning internal representations by errorpropagation; in: D.E. Rumelhart & J.L. McClelland (eds.): Parallel Distributed Processing:Explorations in the microstructures of cognition, Vol. I, 318-362, Cambridge: M.I.T. Press
Sarle, W.S. [1995]: Stopped training and other remedies for overfitting; Technical Report, SASInstitute Inc., Cary, NC 27513, U.S.A.
Schaerf, M.C. [1964]: Estimation of the covariance and autoregressive structure of a stationary timeseries; Ph. D. thesis, Stanford University
Schlittgen, R. [1996]: Statistische Inferenz; München, Wien: Oldenburg
Schlittgen, R. & B. Streitberg [1994]: Zeitreihenanalyse, 5. Aufl.; München, Wien: Oldenburg
Schuhr, B. [1990]: Soziale Haltung und individuelles Lernen bei weiblichen Labormäusen (MusMusculus, Han:NMRI); Dissertation Marburg/Lahn
Schuhr, R. [1991]: Lineare versus nichtlineare Modelle für univariate Zeitreihen: Diagnoseverfahrenund Tests; Frankfurt et al.: Peter Lang
Schuster, H.G. [1989]: Deterministic chaos: an introduction, 2nd rev. ed.; Weinheim et al.: VCH
Schwarz, G. [1978]: Estimating the dimension of a model; Annals of Statistics, 6, 461-464
Seber, G.A. & C.J. Wild [1989]: Nonlinear regression; New York et al.: Wiley
Sejnowski, T.J. & C.R. Rosenberg [1987]: Parallel networks that learn to pronounce English text;Complex Systems, 1, 145-168
Sesay, S.A.O. & T. Subba Rao [1988]: Yule-walker type difference equations for higher-ordermoments and cumulants for bilinear time series models; Journal of Time Series Analysis, 9,385-401
Shanno, D.F. [1970]: Conditioning of quasi-Newton methods for function minimization; Mathematicsof Computation, 24, 647-656
Silverman, B.W. [1986]: Density estimation for statistics and data analysis; London: Chapman &Hall
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
242 LITERATURVERZEICHNIS
Silvey, S.D. [1959]: The Lagrangean multiplier test; Annals of Mathematical Statistics, 30, 389-407
Smith, M. [1993]: Neural networks for statistical modeling; New York: Van Nostrand Reinhold
Stephens, M.A. [1986]: Tests based on EDF statistics; in: R.B. D'Agostino & M.A. Stephens (eds.):Goodness-of-fit-techniques, 97-193; New York, Basel: Marcel Dekker
Stinchcombe, M. & H. White [1989]: Universal approximation using feedforward networks withnon-sigmoid hidden layer activation functions; in: Proceedings of the International JointConference on Neural Networks, Washington, D.C., 1989, Vol. I, 612-617, New York: IEEE Press
Stone, M. [1974]: Cross-validatory choice and assessment of statistical predictions; Journal of theRoyal Statistical Society, Series B, 36, 11-147
Stout, W.F. [1974]: Almost sure convergence; New York: Academic Press
Subba Rao, T. [1981]: On the theory of bilinear time series models; Journal of the Royal StatisticalSociety, Series B, 43, 244-255
Subba Rao, T. & M.M. Gabr [1984]: An introduction to bispectral analysis and bilinear time seriesmodels; New York et al.: Springer
Teräsvirta, T. & H.M. Anderson [1993]: Characterizing nonlinearities in business cycles usingsmooth transition autoregressive models; in: M.H. Pesaran & S.M. Potter (eds.): Nonlineardynamics, chaos and econometrics, 111-128; Chichester et al.: Wiley
Teräsvirta, T. & C.-F. J. Lin [1993]: Determining the number of hidden units in a single hidden-layer neural network model; Arbeids Notat 1993/7, Norges Bank, Research Department
Teräsvirta, T., C.-F. Lin & C.W.J. Granger [1993]: Power of the neural network linearity test;Journal of Time Series Analysis, 14, 209-220
Thisted, R.A. [1988]: Elements of statistical computing. Numerical computation; New York, London:Chapman & Hall
Thombs, L.A. & W.R. Schucany [1990]: Bootstrap prediction intervals for autoregression; Journalof the American Statistical Association, 85, 486-492
Tjøstheim, D. [1990]: Non-linear time series and markov chains; Advances in Applied Probabilty,22, 587-611
Tjøstheim, D. [1994]: Nonlinear time series, a selective review; Scandinavian Journal of Statistics,21, 97-130
Tjøstheim, D. & B.H. Auestad [1994]: Nonparametric identification of nonlinear time series:selecting significant lags; Journal of the American Statistical Association, 89, 1410-1419
Tollenaere, T. [1990]: SuperSAB: fast adaptive backpropagation with good scaling properties; NeuralNetworks, 3, 561.573
Tong, H. [1983]: Threshold models in non-linear time series analysis; New York et al.: Springer
Tong, H. [1990]: Non-linear time series: a dynamical system approach; Oxford et al.: OxfordUniversity Press
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
LITERATURVERZEICHNIS 243
Tong, H. & K.S. Lim [1980]: Threshold autoregression, limit cycles and cyclical data ; Journal of theRoyal Statistical Society, Series B, 42, 245-292
Tong, H. & R. Moeanaddin [1988]: On multi-step non-linear least squares prediction; TheStatistican, 37, 101-110
Trapletti, A., F. Leisch & K. Hornik [1998]: Stationary and integrated autoregressive neuralnetwork processes; Working Paper No. 24, November 1998, Vienna University of Economics andBusiness Administration, SFB ‚Adaptive Information Systems and Modelling in Economics andManagement Science‘
Trippi, R.R. & E. Turban (eds.) [1996]: Neural networks in finance and investing. Using artificialintelligence to improve real-world performance, 2nd ed.; Chicago, Cambridge: Probus
Tsypkin. Y.Z. [1971]: Adaption and learning in automatic systems; New York: Academic Press
Weigend, A.S. [1991]: Connectionist architectures for time series prediction; Ph. D. thesis, StanfordUniversity
Weigend, A.S., D.E. Rumelhart & B.A. Huberman [1991]: Generalisation by weight-eliminationwith application to forecasting; in: R.P. Lippman, J.E. Moody & D.S. Touretzky (eds.): Advancesin neural information processing systems 3, 875-882; San Mateo, California: Morgan KaufmanPublishers
Weigend, A.S., B.A. Huberman & D.E. Rumelhart [1992]: Predicting sunspots and exchange rateswith connectionist networks; in: M. Casdagli & S. Eubank (eds.): Nonlinear modeling and fore-casting, 395-432; Redwood City et al.: Addison-Wesley
Weigend, A.S. & A.N. Srivastava [1995]: Predicting conditional probability distributions: aconnectionist approach; Technical Report, University of Colorado at Boulder, Department ofComputer Science
Werbos, P.J. [1974]: Beyond regression: New tools for prediction and analysis in behavioral sciences;Ph. D. Thesis, Harvard University
White, H. [1981]: Consequences and detection of misspecified nonlinear regression models; Journalof the American Statistical Association, 76, 419-433
White, H. [1984]: Asymptotic theory for econometricians; Orlando et al.: Academic Press
White, H. [1989a]: Some asymptotic results for learning in single hidden layer feedforward networks;Journal of the American Statistical Association, 84, 1008-1013
White, H. [1989b]: Learning in artificial neural networks: a statistical perspective; NeuralComputation, 1, 425-464
White, H. [1989c]: An additional hidden unit test for neglected non-linearity in multilayerfeedforward networks; in: Proceedings of the International Joint Conference on Neural Networks,Washington, D.C., 1989, Vol. II, 451-455; New York: IEEE Press
White, H. [1990]: Connectionist nonparametric regression: multilayer feedforward networks canlearn arbitrary mappings; Neural Networks, 3, 535-550
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004
244 LITERATURVERZEICHNIS
White, H. [1992a]: Parametric statistical estimation with artifical neural networks; Discussion Paper92-13, March 1992, University of Carlifornia, San Diego, Department of Economics
White, H. [1992b]: Nonparametric estimation of conditional quantiles using neural networks; in: C.Page & R. Le Page (eds.): Computing Science and Statistics; New York et al.: Springer
White, H. & I. Domowitz [1984]: Nonlinear regression with dependent observations; Econometrica,52, 143-161
Widrow, B. & M.E. Hoff [1960]: Adaptive switching circuits; IRE WESCON Convention Record,New York: IRE, 96-104
Widrow, B., P.E. Mantey, L.J. Griffiths & B.B. Goode [1967]: Adaptive antenna systems;Proceedings of the IEEE, 55, 2143-2159
Widrow, B., J.R. Glover Jr., J.M. McCool, J. Kaunitz, C.S. Williams, R.H. Hearn, J.R. Zeidler,J. Dong Jr. & R.C. Goodlin [1975]: Adaptive noise cancelling: principles and applications;Proceedings of the IEEE, 63, 1692-1716
Widrow, B. & S.D. Stearns [1985]: Adaptive signal processing; Englewood Cliffs, N.J.: Prentice-Hall
Widrow, B. & R. Winter [1988]: Neural nets for adaptive filtering and adaptive pattern recognition;Computer, 21, 25-39
Winter, R. & B. Widrow [1988]: MADALINE RULE II: a training algorithm for neural networks; in:Proceedings of the Second Annual IEEE International Conference on Neural networks, San Diego,CA, 1988, Vol. I, 401-408: New York: IEEE Press
Wooldridge, J.M. [1994]: Estimation and inference for dependent processes; in: R.F. Engle & D.McFadden (eds.): Handbook of econometrics, Vol. IV, 2639-2738; Amsterdam et al.: Elsevier
Wu, B. [1995]: Model-free forecasting for nonlinear time series (with application to exchange rates);Computational Statistics & Data Analysis, 19, 433-459
Yao, Q. & H. Tong [1995]: On prediction and chaos in stochastic systems; in: H. Tong (ed.): Chaosand forecasting. Proceedings of the Royal Society Discussion Meeting, London, 2-3 March 1994,57-86; Singapore et al.: World Scientific
Yao, Q. [1996]: Conditional predictive regions for stochastic processes; IMS Technical Report UKC /IMS / 96 / 18, University of Kent at Canterbury, Institute of Mathematics and Statistics
Young, P. [1984]: Recursive estimation and time-series analysis. An introduction; Berlin et al.:Springer
Yule, G.U. [1927]: On the method of investigating periodicities in disturbed series, with specialreference to Wolfer's sunspot series; Philosophical Transactions of the Royal Society, Series A,226, 267-298
Zimmermann, H.G. [1994]: Neuronale Netze als Entscheidungskalkül; in: H. Rehkugler & H.G.Zimmermann (Hrsg.): Neuronale Netze in der Ökonomie: Grundlagen und finanzwirtschaftlicheAnwendungen, 1-87; München: Franz Vahlen
Roland Schuhr – Institut für Empirische Wirtschaftsforschung – Universität Leipzig 2004