drzewa regresyjne i lasy losowe jako narzĘdzia … · narzĘdzia predykcji szeregÓw czasowych ......
Post on 28-Feb-2019
223 Views
Preview:
TRANSCRIPT
DRZEWA REGRESYJNE I LASY LOSOWE JAKO
NARZĘDZIA PREDYKCJI SZEREGÓW CZASOWYCH Z WAHANIAMI SEZONOWYMI
Grzegorz Dudek
Instytut Informatyki Wydział Elektryczny Politechnika Częstochowska www.gdudek.el.pcz.pl
VI spotkanie Polskiej Grupy Badawczej Systemów Uczących się
Częstochowa, 14.04.2016 r.
2
Predykcja szeregu czasowego z wieloma cyklami wahań sezonowych w horyzoncie τ na
podstawie przebiegu historycznego.
Obciążenie system elektroenergetycznego z cyklami rocznymi, tygodniowymi i dobowymi
2002 2003 200410
15
20
Rok
P,
GW
0 24 48 72 96 120 144 16810
12
14
16
18
20
22
Godzina
P,
GW
zima
wiosnalato
jesień
pn wt śr sb ndcz pt
PROBLEM PREDYKCJI SZEREGU CZASOWEGO
3
IDEA
4
IDEA
5
Definicja obrazów cykli dobowych
Obrazy wejściowe xi = [xi,1 xi,2 … xi,n] odwzorowują wyrazy poprzedzające moment prognozy – obciążenia doby i: Pi = [Pi,1 Pi,2 … Pi,n]
∑=
−
−==
n
jiji
itititi
PP
PPPgx
1
2,
,,,
)(
)(
Obrazy xi są unormowanymi wersjami wektorów Pi Ich długość jest jednostkowa, średnia zerowa, a wariancja jednakowa
REPREZENTACJA SZEREGÓW CZASOWYCH
6
Obrazy wyjściowe yi = [yi,1 yi,2 … yi,n] odwzorowują wyrazy w okresie prognozowanym – w
kolejnych chwilach doby prognozy i+τ: Pi+τ = [Pi+τ,1 Pi+τ,2 … Pi+τ,n]
∑=
++
−
−==
n
jiji
itititi
PP
PPPhy
1
2,
,,,
)(
)( ττ
Inne definicje obrazów: ⇒ Dudek G.: Systemy uczące się oparte na podobieństwie obrazów do prognozowania szeregów czasowych obciążeń
elektroeneregtycznych. EXIT, Warszawa 2012 ⇒ Dudek G.: Pattern Similarity-based Methods for Short-term Load Forecasting – Part 1: Principles. Applied Soft Computing,
vol. 37, pp. 277-287, 2015
REPREZENTACJA SZEREGÓW CZASOWYCH
7
Cel
Odfiltrowanie trendu i cykli dłuższych niż podstawowy (dobowy), sprowadzenie szeregu do
stacjonarności
0 24 48 72 96 120 144 1681
1.5
2
x 104
Godziny
P
Zima
Lato
0 24 48 72 96 120 144 168
-0.5
0
0.5
x
Obrazy x
0 24 48 72 96 120 144 168
-0.5
0
0.5
1
1.5
y
Obrazy y
REPREZENTACJA SZEREGÓW CZASOWYCH
8
Model prognostyczny
f : X → Y
Wyjściem modelu jest prognoza obrazu y (lub jego składowej)
Prognoza wyrazów szeregu czasowego
i
n
jijitititi PPPyPhP +−== ∑
=+
−+
1
2,,,
1, )()(
))
ττ
REPREZENTACJA SZEREGÓW CZASOWYCH IDEA MODELI PROGNOSTYCZNYCH OPARTYCH NA
PODOBIEŃSTWIE OBRAZÓW MODEL
9
Cechy
• Reprezentacja drzewiasta lub zbiór reguł decyzyjnych „jeśli – to”
• Działanie na zmiennych ilościowych i jakościowych
• Podział przestrzeni cech na hiper-prostopadłościany
• Lokalna aproksymacja funkcji stałą wewnątrz hiperprostopadłościanu (aproksymacja
dyskretna)
• Zależnie od funkcji docelowej drzewo decyzyjne może pełnić rolę klasyfikatora lub
modelu regresyjnego
DRZEWO REGRESYJNE (CART)
10
x<2.0
x<1.0 x<3.5
T N
T N T N
x<4T Ny=3.2
y=4.0 y=4.2
y=2.6y=3.1
x1.0 2.0 3.5 4.0
2.6
4.2
3.23.1
4.0
y
DRZEWO REGRESYJNE (CART)
11
• Sposób konstrukcji drzewa regresyjnego z rozmytymi węzłami jest taki sam jak drzewa w wariancie podstawowym
• Testy przeprowadzanie w węzłach pośrednich zmieniają postać:
→
-2 -1 0 1 20
0.2
0.4
0.6
0.8
1
x
µ
Lewa gałąź
0.5
θ
− µ0 − µ1Prawa gałąź
-2 -1 0 1 20
0.2
0.4
0.6
0.8
1
x
µ
Lewa gałąź
0.5
θ
− µ0 − µ1Prawa gałąź
≤>
=ii
ii
x
xT
θθ
jeśli ,0
jeśli ,1)(x ))(),(()( 01 xxx µµ=T
+>>−+−
+≥
−≤
=
ax
a
,θxa
ax
ax
iiii
ii
ii
5,050 jeśli ,5,0)(
5,0 jeśli ,1
5,0 jeśli ,0
)(1
θθ
θ
θ
µ x))(exp(1
1)(1
iixa θµ
−−+=x
)(1)( 10 xx µµ −=
DRZEWO REGRESYJNE Z ROZMYTYMI WĘZŁAMI
⇒ Dudek G.: Prognozowanie krótkoterminowe obciążeń systemów elektroenergetycznych z wykorzystaniem rozmytych drzew regresyjnych. Przegląd Elektrotechniczny, r. 90, nr 4, s. 108-111, 2014.
12
175,02,017,0109,02,017,0026,0
2,083,012,08,019,0)()()(
)()()()()()()(10
21
31
31
10
21
30
30
10
20
20
11
11
=⋅⋅⋅+⋅⋅⋅+⋅⋅+⋅=+
++=
xxx
xxxxxxx
µµµµµµµµµ
y
yyyy
DRZEWO REGRESYJNE Z ROZMYTYMI WĘZŁAMI
13
1. Powtarzaj dla każdego drzewa (dla k = 1 do K)
1.1. Wylosuj ze zbioru uczącego próbę bootstrapową o rozmiarze N
1.2. Zbuduj drzewo Tk na próbie bootstrapowej, powtarzając dla każdego węzła, jeśli jego rozmiar jest większy od m
1.2.1. Wylosuj F ≤ n składowych obrazu x
1.2.2. Znajdź składową xi i wartość progową θi (przegląd zupełny)
1.2.3. Rozdziel węzeł na dwa węzły potomne
2. Zwróć drzewa {Tk}k= 1, 2, …, K
Wyznaczenie prognozy dla obrazu x:
∑=
=K
kkT
Kf
1
)(1
)( xx
⇒ Hastie T., Tibshirani R., Friedman J.: The Elements of Statistical Learning. Data Mining, Inference, and Prediction. Springer 2009
LAS LOSOWY
14
Dane
Szereg czasowy obciążeń krajowego systemu elektroenergetycznego w okresie 2002-
2004
Problem prognostyczny
Prognoza obciążeń godzinowych w kolejnych dniach stycznia i lipca 2004, τ = 1
Zbiór uczący
Zbiór uczący zawierał przykłady reprezentujące te same typy dni tygodnia, co przykład
testowy
Błąd prognozy
∑=
−=
M
j j
jj
P
PP
MMAPE
1
100)
BADANIA SYMULACYJNE
15
0.66361
0.19371
0.087591 0.25742 0.22665 0.21227 0.15281
0.20612
0.084451
0.12018
0.10896
0.17587 0.14912
x24 < -0.0149864
x11 < 0.159799
x8 < -0.0300898 x7 < -0.00965465
x10 < 0.102544 x6 < -0.254511 x4 < -0.291916
x2 < -0.263239
x16 < -0.0350514
x6 < -0.267088
x3 < -0.333753
x17 < -0.0104694
x24 >= -0.0149864
x11 >= 0.159799
x8 >= -0.0300898 x7 >= -0.00965465
x10 >= 0.102544 x6 >= -0.254511 x4 >= -0.291916
x2 >= -0.263239
x16 >= -0.0350514
x6 >= -0.267088
x3 >= -0.333753
x17 >= -0.0104694
5 10 15 20 25
10
20
30
40
50
60
Godzina
Num
er p
róbk
i tes
tow
ej
5
10
15
20
25
30
35
40
45
50
55
60
Drzewo regresyjne (CART)
Parametr - m (przegląd zupełny, local leave-one-out)
BADANIA SYMULACYJNE
Drzewo regresyjne utworzone w zadaniu prognozy
obciążenia dn. 01.07.2004 r. o godz. 12, (m = 18) Optymalne wartości m
16
Drzewo regresyjne z rozmytymi węzłami (Fuzzy CART)
Parametr - kąt nachylenia funkcji przynależności α (przegląd zupełny, local leave-one-out)
Wariant drzewa Parametry MAPEwal MAPEtst
CART m = var 1,27 1,42
Fuzzy CART m = mCART, α = var 1,12 1,33
Fuzzy CART m = 30, α = var 1,22 1,36
Fuzzy CART m = 1, α = var 1,22 1,33
Fuzzy CART m = mCART, α = var 1,13 1,31
Fuzzy CART m = 30, α = var 1,23 1,42
Fuzzy CART m = 1, α = var 1,23 1,35
Fuzzy CART m = mCART, α1, …, αm = var 0,74 1,37
BADANIA SYMULACYJNE
Histogram optymalnych kątów nachylenia
funkcji przynależności
0 10 20 30 40 50 60 70 80 900
0.1
0.2
0.3
0.4
α
Czę
stość
17
Las losowy
Parametry - liczba drzew K, liczba składowych F, m (przegląd zupełny, out-of-bag)
0 100 200 300 400 5003
4
5
6
7x 10
-3
K
MS
E
F = 8m = 1
0 2 4 6 8 10 12 14 16 18 20 22 243.3
3.4
3.5
3.6
3.7
3.8
3.9x 10
-3
F
MS
E
K = 100m = 1
m
0 5 10 15 20
Frequency
0
0.05
0.1
0.15
0.2
0.25
0 5 10 15 20
MSE
10-3
3
3.5
4
4.5
5
BADANIA SYMULACYJNE BADANIA SYMULACYJNE
⇒ Dudek G.: Short-Term Load Forecasting using Random Forests. In: Filev D. et al. (eds.): Intelligent Systems’2014, Advances in Intelligent Systems and Computing 323, pp. 821-828, 2015.
18
Las losowy
Ważność składowych
0 10 20
0
0.5
1
Variable
Impo
rtan
ce
January 15, hour 1
July 1, hour 1
Forecast for:
0 10 20-0.2
0
0.2
0.4
Variable
Impo
rtan
ce
January 15, hour 12
July 1, hour 12
Forecast for:
0 10 20-0.2
0
0.2
0.4
0.6
Variable
Impo
rtan
ce
January 15, hour 24
July 1, hour 24
Forecast for:
BADANIA SYMULACYJNE BADANIA SYMULACYJNE
19
Wyniki
Model Styczeń Lipiec Średni
MAPEtst IQR MAPEtst IQR MAPEtst IQR
Las losowy 1.42 1.39 0.92 0.98 1.16 1.17
CART 1.70 1.58 1.16 1.17 1.42 1.39
Fuzzy CART 1.62 1.47 1.13 1.12 1.37 1.35
ARIMA 2.64 2.34 1.21 1.24 1.91 1.67
Wygładzanie wykładnicze
2.35 1.88 1.19 1.30 1.76 1.56
Sieć neuronowa
1.32 1.30 0.97 1.01 1.14 1.15
Prognoza naiwna
6.37 5.36 1.29 1.20 3.78 3.82
BADANIA SYMULACYJNE
20
Rozkład błędów
-5 0 50
100
200 RF
PE
Num
ber
of o
bser
vatio
ns
-5 0 50
100
200 CART
-5 0 50
100
200Fuzzy CART
-5 0 50
100
200 ARIMA
-5 0 50
100
200 ES
-5 0 50
100
200 ANN
BADANIA SYMULACYJNE
21
• Reprezentacja szeregów czasowych za pomocą obrazów cykli sezonowych ułatwia
prognozowanie szeregów niestacjonarnych z trendem i wieloma cyklami wahań
sezonowych
• Model prognostyczne oparte na drzewach regresyjnych wyróżnia prosta i zrozumiała
budowa oraz niewielka liczba parametrów
• Rozmyta wersja drzew regresyjnych pozwala sterować równowagą między obciążeniem i
wariancją modelu
• Lasy losowe jako komitet słabych uczniów pozwalają zredukować błąd prognozy i uzyskać
stabilniejsze rezultaty
WNIOSKI
22
Dziękuję za uwagę
top related