Download - TEZË DOKTORATURE - api.fshn.edu.al
UNIVERSITETI I TIRANËS
FAKULTETI I SHKENCAVE TË NATYRËS
PROGRAMI I STUDIMIT: Metodat Probabilitare, Statistike dhe Metodat e
Analizës Numerike
TEZË DOKTORATURE
SERITË KOHORE, REDUKTIMI I PËRMASAVE,
PARASHIKIMI: STUDIMI I NGJASHMËRIVE NËPËRMJET
REDUKTIMIT TË PËRMASAVE TË SERISË, PARAQITJES
SIMBOLIKE DHE PËRDORIMI I METODAVE SAX
Doktoranti: Udhëheqësi:
Eralda GJIKA (DHAMO) PROF. DR. Llukan PUKA
Tiranë, 2014
ii
UNIVERSITETI I TIRANËS
FAKULTETI I SHKENCAVE TË NATYRËS
PROGRAMI I STUDIMIT: Metodat Probabilitare, Statistike dhe Metodat e
Analizës Numerike
TEZË DOKTORATURE
paraqitur nga
Znj. Eralda GJIKA (DHAMO)
Udhëhequr nga:
Prof. Dr. Llukan PUKA
Për marrjen e gradës shkencore:
DOKTOR
Me temë:
SERITË KOHORE, REDUKTIMI I PËRMASAVE, PARASHIKIMI:
STUDIMI I NGJASHMËRIVE NËPËRMJET REDUKTIMIT TË
PËRMASAVE TË SERISË, PARAQITJES SIMBOLIKE DHE PËRDORIMI I
METODAVE SAX
Mbrohet më datë ____/____/2014 para jurisë:
1. Prof._______________________________________Kryetar
2. Prof._______________________________________Anëtar (Oponent)
3. Prof.________________________________________Anëtar (Oponent)
4. Prof.________________________________________Anëtar
5. Prof.________________________________________Anëtar
iii
PËRMBAJTJA
Falenderime ………………………………………………………………….…...….vii
Hyrje …………………………………………………………………………….…..viii
Kapitulli 1 Karakteristikat e serive kohore. Terma dhe përkufizime
1.2 Natyra e serive kohore……………………………………………………….…2
1.3 Modele statistikore të serive kohore…………………………………………....6
1.4 Madhësitë e varësisë, funksioni i autokovariancës (ACVF) dhe funksioni i
Autokorrelacionit (ACF)…………………………………………….................7
1.5 Stacionariteti, Trendi dhe Sezonaliteti……………………………………..…....9
1.6 Vlerësimi i autokorrelacionit ………………………………...………….……10
Kapitulli 2 Regresi linear dhe sheshimi eksponencial për ndërtimin e
modeleve parashikuese të serive kohore demografike
2.1 Regresi linear i aplikuar në seritë kohore ………………………….………....12
2.1.1 Përkufizime dhe modele ………………………………….……..…...12
2.2 Metodat e Sheshimit Eksponencial …………………………….…………..18
2.2.1 Dekompozimi i serive kohore ……………………………………….19
2.2.2 Klasifikimi i Metodave të Sheshimit Eksponencial …………………20
2.3 Parashikimi pikësor për metodat më të njohura ……………………..………21
2.3.1 Sheshimi i thjeshtë eksponencial (N, N) …………………………….21
2.3.2 Metoda lineare Holt (A, N) ………………………………………….23
2.3.3 Metoda me trend të shuar (damped) (Ad, A) ………………………..24
2.3.4 Metoda Holt- Winters me trend dhe sezonalitet ……….…………….24
2.4 Parashikimi pikësor për gjithë metodat …………………….………………..26
2.5 Vlerat fillestare dhe vlerësimi ……………………………………………….26
2.5.1 Vlerat fillestare ………………………………………………………26
iv
2.5.2 Vlerësimi …………………………………………...………………..27
2.6 Cilësia e parashikimit ………………………………………………………..27
2.6.1 Gabimet që varen nga shkallëzimi …………………………………..27
2.6.2 Gabimet përqindje (percentage errors) ………………………………28
2.6.3 Gabimet e shkallëzuar (scaled errors) ……………………………….28
2.7 Përzgjedhja e modelit të parashikimit ……………………………………….29
2.8 Parashikimi automatik në R …………………………………………………31
Kapitulli 3 Modelet SARIMA konsiderata dhe vlerësime. Simulimi i
modeleve ARIMA në programin R
3.1 Modelet Autoregresive me Mesatare të Lëvizshme (ARMA) ………………37
3.1.1 Modelet Autoregresive (AR) ……………………………………...…37
3.1.2 Simulimi i një procesi AR(p) në R ……………………………..…....40
3.1.3 Modelet me Mesatare të Lëvizshme (MA) ………………………..…41
3.1.4 Simulimi i një procesi MA(q) në R ………………………………….42
3.1.5 Modelet Autoregresive me Mesatare të Lëvizshme (ARMA) ………43
3.1.6 Simulimi i një procesi ARMA(p,q) në R…………………………….45
3.1.7 Modelet ARIMA……………………………………………………..46
3.1.8 Ndërtimi i Modeleve ARIMA ……………………………………….47
3.1.9 Vlerësimi i Parametrave për Modelet ARMA (p,q) ………….……...60
3.2 Modelet SARIMA multiplikative ……………………………………………69
3.3 Modelet ARCH dhe GARCH …………………………………………...….72
Kapitulli 4 Përzgjedhja e modelit më të mirë për qëllime parashikimi
sipas
metodologjisë Box-Jenkins
4.1 Metodologjia Box- Jenkins ………………………………………………….78
4.1.1 Hapat e metodologjisë Box dhe Jenkins …………………………….79
v
4.2 Aplikimi i metodologjisë Box-Jenkins në një seri demografike me të dhëna
Shqiptare (Simulimi i parashikimeve në R)………….……………….....…..81
Kapitulli 5 Reduktimi i Përmasave dhe Ngjashmëritë Në Seritë Kohore.
Modifikimi dhe Aplikime të Teknikave PAA dhe SAX në
zbulimin e ngjashmërive të sekuencave të ADN-ve
5.1 Funksionet distancë (Aksiomat metrike) …………………………….………97
5.1.1 Distanca Minkowski …………………………………………………98
5.1.2 Distanca Manhatan/ Distanca “City Block” …………………………98
5.1.3 Distanca Euklidiane ………………………………………………….98
5.1.4 Distanca Çebishev …………………………………………………...98
5.1.5 Distanca Jaccard ……………………………………………………..99
5.1.6 Koeficienti Dice ……………………………………………………..99
5.1.7 Ngjashmëria kosinusoidale …………………………………………100
5.1.8 Distanca Hamming …………………………………………………100
5.1.9 Madhësitë probabilitare të ngjashmërive…………………………...100
5.1.10 Vlerësimi me metodën e përgjasisë maksimale (MLE) dhe vlerësimi i
maksimumit a-posteriori ………………………………………….………..100
5.2 Kërkimi i ngjashmërive në seri kohore numerike ………………………….101
5.2.1 Dynamic Time Warping (DTW) …………………………………...101
5.2.2 Aplikime të teknikës DTW në programin R ……………………….102
5.3 Reduktimi i përmasave të serive kohore …………………………………...107
5.3.1 Përkufizime dhe koncepte kryesore ………………………………..107
5.3.2 Teknika SAX (Symbolic Aggregate Approximation) në R.……….108
5.4 Zbulimi i ngjashmërive në sekuencat e ADN-ve nëpërmjet teknikës SAX të
implementuar në gjuhën R …………………………………………………116
5.5 Modifikimi i teknikës SAX për ngjashmëritë në sekuencat e ADN-ve.
Rezultate eksperimentale ……………….……………………..…………...118
Konkluzione ………………………………………………………………..……..121
vi
Bibliografia ………………………………………………………………………..123
Shtojca ……………………………………………………………..………….….130
vii
FALENDERIME
Përfundimi i kësaj teze doktorature ishte një rrugëtim i gjatë, i mundimshëm,
frutdhënës dhe surprizues. Kam nevojë të falenderoj shumë përsona të cilët më kanë
ndihmuar dhe mbështetur, që kanë besuar tek unë jo vetëm në vitet e doktoraturës por
edhe më herët.
Së pari, dua të falenderoj udhëheqësin tim profesor Llukan Puka për mbështetjen e tij
të vazhdueshme, këshillat dhe nxitjen për të kërkuar gjithmonë më të mirën në
ndërtimin e këtij punimi. Gjithashtu një falenderim shkon dhe për gjithë kolegët e mi
të cilët më kanë ndihmuar me vërejtjet dhe këshillat e tyre.
Një falenderim i veçatë shkon për familjen time, për mbështetjen që në propozimet e
para të kësaj teze dhe në udhëtimin e gjatë e të vështirë deri në përfundimin e saj.
Faleminderit, bashkëshortit tim Elvans, për mbështetjen dhe durimin që ke treguar me
mua gjatë këtij rrugëtimi. Faleminderit Emia që me ardhjen tënde u kurorëzua dhe ky
disertacion.
viii
Hyrje
1.1 Disa zhvillime
Seritë kohore të vrojtueshme, të cilat përshkruajnë fenomene që ndryshojnë në lidhje
me kohën, mund të klasifikoheshin rreth viteve 1940 në dy kategori kryesore:
evolutive dhe stacionare. Me kalimin e viteve klasifikimi filloi të bëhej më i gjerë dhe
më eksplicit bazuar në natyrën e të dhënave të serisë kohore. Në analizën e serive
kohore evolutive koha luan një rol të rëndësishëm, një shembull mund të jetë një
variabël i pavarur në funksion të trendit. Seritë kohore stacionare janë të
“pandryshueshme” në respekt me strukturën e tyre të përgjithshme. Luhatjet në seri
kohore stacionare mund të duken të rastësishme ose të shfaqin tendenca (prirje) të
rregullta. Në analizën e serive kohore stacionare koha luan një rol dytësor.
Metodat klasike të Furie dhe Shuster, të cilat kanë në themel te tyre hipotezën mbi
ekzistencën e periodiciteteve të fshehura, janë përdorur shpesh dhe kanë rezultuar të
suksesshme deri në vitet ’40. Ata që i dhanë një ndryshim të rëndësishëm fushës së
serive kohore ishin Yule, Slutsky dhe Wold.
Duke u nisur nga një seri kohore e rastësishme, si për shembull hedhja e një zari të
rregullt, G.U. Yule (1921, 1926) formoi diferencat e një rendi të fiksuar dhe zbuloi se
seria e përftuar shfaqte tendenca të rregullta në luhatje.
E. Slustsky (1927, 1937) studioi efektin e disa parametrave linear më të përgjithshëm
dhe zbuloi se, nën disa rrethana të caktuara, seria kohore do të shfaqte valë
sinusoidale me ndryshime të ngadalta të amplitudës dhe fazës. Slutsky ishte i pari që
prezantoi proceset e quajtura më vonë mesatare të lëvizshme (MA). G.U Yule (1927)
në një studim të serisë kohore të njollave diellore investigoi korrelacionin e
shumfishtë midis vrojtimeve dhe përafroi, duke përdorur analizën e regresit linear,
çdo vrojtim me një funksion linear të vrojtimeve paraardhëse. Kjo skemë u quajt më
vonë skema e autoregresionit linear dhe sot modele të tilla quhen modele
autoregresive (AR). Nga pikëpamja e teorisë së probabilitetit skemat e regresit linear
janë raste të vecanta të proçeseve stacionare të rastësishme të përkufizuara dhe
studiuara nga A. Khintchinc (1932,1934).
H.Would ishte ai i cili në vitin 1938 në tezën e tij të doktoratës “A study in the
Analysis of Stationary time series” përmend modelet e serive kohore të propozuara
nga Yule dhe Slutsky dhe i kombinon ato për ndërtimin e modeleve ARMA
(Autoregresive me mesatare të lëvizshme).
Në vitet pasuese fusha e serive kohore pati një impakt të rëndësishëm jo vetëm në
drejtimin matematikor por edhe në disiplina të tjera të shkencës siç ishin: ekonomi,
meteorologji, demografi, ekologji etj.
Në vitin 1956, Robert Goodell Bown ishte i pari që propozoi teknikën e sheshimit
eksponencial për seritë kohore. Më pas në 1957, Charles C.Holt e zgjeroi më tej
kuptimin e sheshimit eksponencial me një faktor. Holt vuri re se nëse seria kohore
shfaqte trend atëherë sheshimi eksponencial me një faktor nuk jepte rezultate të
kënaqshme. Në vitet pasuese (1957,1960) ishte Peter Winters një student i Holt i cili
së bashku me Holt propozuan teknikën e sheshimit eksponencial me dy faktorë. Kjo
ix
teknikë merrte në konsideratë edhe sezonalitetin. Më pas teknika u përmirësua duke
shtuar edhe një parametër të tretë.
Në vitet 2000, Rob J. Hyndman pedagog në universitetin Monash, Australi së bashku
me të tjerë kërkues ( Koehler A.B; Ord J.K; Snyder R.D; 2005) iu përkushtuan
studimit dhe përmirësimit të teknikave të sheshimit eksponencial dhe i paraqitën
përfundimet e tyre në punimin “Forecasting with exponential smoothing”. Studime
mbi teknikat e shumta të propozuara ndër vite pasqyronin në takimet e tyre edhe
Makridakis S. dhe Hibon M. (M-Competition).
Arritje tjetër në fushën e serive kohore ishte metodologjia e propozuar nga
statisticienët George Box dhe Gwilym Jenkins (1976) për ndërtimin e një modeli
ARMA. Kjo metodologji ishte ndër të parat e cila nxiti më tej zhvillimin e
programeve kompjuterike për të mundësuar përllogaritjet e shumta dhe të ndërlikuara
për vlerësimin e parametrave të modelit. Megjithëse në vitet 2000 studiues të
ndryshëm (përmendim këtu M-Competitions të Makridakis dhe Hibon) kanë kritikuar
teknikën e propozuar nga Box dhe Jenknins ajo vazhdon të jetë një ndër teknikat më të
mira të propozuara deri më sot për ndërtimin e modeleve ARMA.
Në vitet ’80 u prezantuan modifikime të modeleve bazë (AR, MA) ku ndër to ishte
edhe modeli ARCH (AutoRegresive Conditional Heteroskedasticity) i propozuar nga
Robert F. Engle në revistën Econometrica, 1982. Modele të tjera pasuan modelin e ri
të propozuar nga Engle kështu ishte modeli GARCH (Generalized AutoRegresive
Conditional Heteroskedasticity) u propozua në vitin 1986 nga Tim Bollerslev;
NGARCH (Nonlinear Generalized AutoRegresive Conditional Heteroskedasticity) u
propozua nga Engle R.F. dhe Ng V.K. në vitin 1993; EGARCH (Exponential
General AutoRegresive Conditional Heteroskedasticity) u propozua nga Nelson në
vitin 1991; QGARCH ( Quadratic GARCH) u propozua nga Senata në vitin 1995;
TGARCH (Threshold GARCH) u propozua nga Zakoian (1994) i cili u bazua në
modelin GJR GARCH të propozuar nga Glosten, Jagannathan dhe Runkle (1993).
Zhvillimet teorike u shoqëruan me pjesën softuerike. Seritë kohore masive dhe
modelet matematike gjithnjë e më të holla kërkonin edhe mbështetje për kryerjen e
njehsimeve. Të gjithë softueret që kishin qëllime statistike, përfshinë gjithnjë e më
shumë algoritme e module për veprimet. Softueret si SAS, SPSS, S-Plus etj në
versionet e tyre të reja kanë arritjet më të fundit në fushën e serive kohore.
Në tezën tonë, vëmëndja është përqëndruar në softueret R dhe MATLAB, sepse
ofrojnë mjedise pune komode; R nuk është komercial, dhe sidomos pas viteve 2000
është kthyer në një mjedis pune shumë i suksesshëm për qëllime të kërkimit
akademik. Studiues të ndryshëm të fushës së serive kohore kanë dhënë kontributin e
tyre në pasurimin e softuerit R i cili gjithnjë e më shumë përmban teknika të analizës
së serive kohore.
Për më shumë se dy dekada, metodologjive të kërkimit të ngjashmërive në seri kohore
u është kushtuar një vëmendje e veçantë nga kërkues të fushave të biostatistikës,
bioinformatikës, mjekësisë etj. Përmirësimi i teknikave ekzistuese dhe gjetja e atyre të
reja ka qenë një synim i vazhdueshëm. Ashtu sikurse shumë probleme në shkencat
kompjuterike, përzgjedhja e përfaqësimit të mirë lidhet me lehtësinë dhe eficencën e
serive kohore. Duke patur ndër mend këto janë prezantuar një numër i madh i
x
metodave të reduktimit të serive kohore duke filluar me Transformimin Diskret Furie
(DFT) [Faloutsos et al. 1994], Transformimin Valor Diskret (DWT) [Chan dhe Fu
1999], modelet Pjesë –Pjesë Lineare (PAA) [Keogh et al. 2001], (APCA) [Geurts
2001; Keogh et al. 2001], dhe Dekompozimi me Vlera Singulare (SVD) [Keogh et al.
2001].
Teknika e prezantuar së fundmi nga Keogh është Përafrimi simbolik (SAX) [Keogh
et al 2006]. Kjo teknikë ka treguar të jetë mjaft efiçente jo vetëm në përpunimin e
serive kohore, zbulimet e ngjashmërive midis serive kohore me përmasa të mëdha por
edhe në zgjidhjen e problemeve të shumta të fushave të ndryshme të shkencës në një
kohë mjaft të shkurtër.
1.2 Qëllimi i studimit dhe organizimi i materialit
Qëllimi i këtij punimi është studimi i serive kohore, teknikave të ngjashmërive dhe
reduktimit të përmasave të tyre. Në pjesën e saj të parë, kjo tezë doktorate siguron një
përmbledhje teorike të koncepteve dhe natyrës së serive kohore të gërshetuara me
praktikën. Rastet e studimit janë seri kohore me të dhëna nga vendi. Qëllimi kryesor i
kësaj pjese është studimi i natyrës së serive kohore, përdorimi i teknikave të ndërtimit
të modeleve dhe parashikimeve nëpërmjet softuerit R [Dhamo E. Puka Ll.,2010;
Dhamo E. Puka Ll.,2011A; Dhamo E. Puka Ll.,2011B; Dhamo E. Puka Ll.,2012].
Në pjesën e tij të dytë, materiali prezanton disa prej teknikave të zbulimit të
ngjashmërive midis serive kohore si dhe teknika të reduktimit të përmasave. Qëllimi i
kësaj pjese përveç njohjes me teknikat është dhe shfrytëzimi i softuerit R për
ndërtimin e algoritmeve të ngjashërive dhe reduktimit të përmasave të serive kohore.
Më tej, synohet të modifikohen teknikat e reduktimit të serive kohore dhe
simbolizimit të tyre dhe tregohen përpjekjet për të modifikuar teknikat e prezantuara
deri më sot duke i zbatuar ato në situata të ndryshme në fushën e gjenetikës,
informatikës etj [Dhamo E. Puka Ll.,2012A; Dhamo E. Puka Ll.,2012B].
Organizimi i materialit
Materiali është ndërtuar në 5 kapituj të cilët prezantojnë gradualisht koncepte, teknika
të analizës së serive kohore si dhe teknika të reduktimit të përmasave të serive kohore
dhe zbulimit të ngjashmërive.
Në Kapitullin 1, prezantohen disa nga karakteristikat kryesore të serive kohore.
Përkufizohen trendi, sezonaliteti, periodiciteti, stacionariteti, funksionet
autokovariancë dhe autokorrelacioni (autokorrelacion i pjesshëm) veti të tyre.
Gjithashtu në këtë kre prezantohen disa nga seritë kohore të cilat do të jenë në qëndër
të studimit në krerët pasues. Seritë kohore janë përzgjedhur qëllimisht për të zbuluar
efektshmërinë e teknikave të analizës së serive kohore në seri ekonomike,
demografike, financiare etj.
Kapitulli 2 trajton metodën e sheshimit eksponencial si një ndër metodat më klasike
të përdorura për qëllime parashikimi. Në këtë pjesë aplikohen metodat e sheshimit
eksponencial me një , dy dhe tre faktorë në seritë kohore të prezantuara në kapitullin
1. Metodat aplikohen në softuerin R nëpërmjet të cilit arrihet të ndërtohen modele të
xi
sheshimit eksponencial dhe të analizohet cilësia e tyre nëpërmjet gabimeve dhe
kritereve të informacionit.
Metodat klasike të serive kohore si dhe kombinimet e tyre prezantohen në Kapitullin
3. Në këtë kre studiohet natyra e modeleve autoregresive (AR) dhe mesatare të
lëvizshme (MA), kombinime të tyre ARMA( Autoregresive me mesatare të
lëvizshme), ARIMA (Autoregresive me mesatare të lëvizshme të integruar), SARIMA
( ARMA sezonale), ARCH ((AutoRegresive Conditional Heteroskedasticity) dhe
modifikime të tij. Studiohen gjithashtu metodat e vlerësimit të parametrave të modelit
nëpërmjet softuerit R. Zbatime të këtyre teknikave ofrohen nëpërmjet serive kohore të
prezantuara në kapitullin 1. Tregohen hapat e analizës së stacionaritetit të serisë
nëpërmjet testeve grafike dhe numerike në R (QQ-plot, lag-plot, grafikët ACF etj),
transformimet e serive kohore deri në një seri stacionare si dhe testet e cilësisë së
modeleve të propozuara nga vlerësimet e parametrave.
Metodologjia e përzgjedhjes së një modeli të mirë për qëllime parashikimi
prezantohet në Kapitullin 4. Hapat e metodologjisë aplikohen në seritë kohore me të
dhëna reale nga vendi (prezantuar në Kapitullin 1) dhe për lehtësira të përllogaritjeve
shfrytëzohet softueri R. Bazuar në hapat e metodologjisë Box dhe Jenkins dhe
rezultatet e përftuara kryhet analiza e përshtatshmërisë së modelit të ndërtuar dhe
arrihet në përfundimet mbi cilësinë e parashikimit.
Pjesa e dytë e materialit është përmbledhur në Kapitullin 5, ajo prezanton dhe
analizon teknikat e propozuara për reduktimin e përmasave të serive kohore,
përmirësimin e tyre dhe aplikimet e tyre. Teknikat kryesore ku bazohet materiali jane:
Piecewise Aggregate Approximation (PAA) ( Yi dhe Faloutos, 2000; Keogh et al,
2000) dhe Symbolic Aggregate Approximation (SAX) (Keogh et al, 2003). Në këtë
kapitull i kushtohet vëmëndje ndërtimit të algoritmeve të dy teknikave PAA dhe SAX
në softuerin R. Prezantohen algoritmet dhe testet numerike të ecurisë së tyre. Efiçenca
e algoritmeve në R krahasohet me algoritmet e ndërtuar në MATLAB nga autorët. Si
madhësi të ngjashmërive të serive kohore numerike përmenden distancat e propozuara
si për shembull distanca: Euklidiane, Minkowski, Manhatan, Chebyshev, Jaccard,
Hamming, Levenshtein, Keogh etj. Për më tepër, analizohen teknikat e ngjashmërive
midis dy serive kohore numerike apo simbolike. Dhe në fund të këtij kapitulli
prezantohen rezultatet eksperimentale të testimit të modifikimeve të propozuara në
teknikat bazë PAA dhe SAX. Modifikimet për zbulimin e ngjashmërive në sekuenca
të ADN-ve tregojnë se algoritmi SAX është i lehtë dhe shpejtë në afishim e
rezultateve të ngjashmërive.
1
"Predicting the future is hard, especially if it hasn't happened yet." -- Yogi Berra
Kapitulli 1
Karakteristikat e Serive Kohore
Terma dhe Përkufizime
Ky kapitull prezanton konceptet themelore në teorinë e modeleve të serive kohore. Në
veçanti, prezantohen konceptet e proceseve stokastike, funksionet autokovariancë,
proceset stacionare dhe funksionet e autokorrelacionit.
Analiza e të dhënave eksperimentale të vëzhguara në momente të ndryshme të kohës
çon në probleme të reja të modelimit statistikor dhe përfundimeve statistikore.
Korrelacioni i dukshëm i prezantuar nga zgjedhja e rastit, të pikave të afërta në kohë,
mund të kufizojnë ashpër aplikimin e shumë metodave statistikore, tradicionalisht të
varura në supozimin se këto vëzhgime të afërta janë të pavarura dhe me shpërndarje të
njëjtë. Këtyre qasjeve sistematike, të cilat duhet t’i përgjigjen pyetjeve matematikore
dhe statistikore që vijnë nga korrelacionet kohore, i referohemi shpesh si analiza e
serive kohore.
Ndikimi i analizës së serive kohore në aplikimet shkencore mund të dokumentohet
pjesërisht duke listuar shkurt fushat e ndryshme në të cilat mund të shfaqen probleme
të rëndësishme të serive kohore. Për shembull, shumë seri kohore familjare mund të
shfaqen në fushën ekonomike, ku ne jemi të ekspozuar ndaj ndryshimeve ditore të
çmimeve të produkteve ushqimore apo shifrave mujore të papunësisë në vend. Studiues
në fushën e sociologjisë interesohen për seritë e popullatave si, normat e lindjeve,
vdekjeve, martesave apo numrit të studentëve që shkojnë çdo vit akademik në
universitete. Një epidiomolog mund të interesohet në numrin e rasteve të prekur nga
gripi në një periudhë kohore. Në mjekësi, matja e presionit të gjakut gjatë një periudhe
kohe mund të ndihmojë në recetën e ilaceve për të trajtuar hipertensionin ose vrojtimi i
një elektrocenfalograme (EKG) mund të ndihmojë mjekët kardiak të vlerësojnë situatën
e zemrës së një individi. Rezonanca magnetike e valëve të trurit mund të përdoret për
të studiuar se si reagon truri ndaj disa stimujve në kushte eksperimentale.
Shumë aplikime intensive dhe të sofistikuara të serive kohore janë shfaqur në probleme
fizike dhe të shkencave mjedisore. Një ndër seritë kohore më të vjetra është ajo e numrit
të njollave diellore mujore të studiuara nga Schuster (1906). Investigime më moderne
lidhen me matjet e temperaturave mbi ngrohjen globale dhe ndikimet e saj në normat e
mortalitetit. Seritë kohore gjeofizike mund të japin informacione mbi temperaturat dhe
rreshjet. Regjistrimet sizmike mund të ndihmojnë në dallimin midis një termeti dhe
shpërthimeve nukleare.
Seritë kohore të përmendura më sipër janë veç disa shembuj të databazave
eksperimentale që mund të përdoren për të ilustruar procesin e aplikimit të
metodologjive klasike statistikore në kornizën e korreluar të serive kohore. Në
2
këndvështrimin tonë, hapi i parë në investigimin e çdo serie kohore gjithmonë duhet të
përfshijë një shqyrtim të kujdesshëm të të dhënave të regjistruara në kohë. Ky shqyrtim
shpesh sugjeron metodën e analizimit që do të përdoret në përmbledhjen e
informacionit të të dhënave. Qëllimi i analizës së serive kohore është i dyfishtë: të
kuptojë apo modelojë mekanizmin stokastik që krijon një seri e vrojtuar dhe të
parashikojë vlerat e ardhshme të një serie bazuar në historikun e asaj serie.
1.2 Natyra e serive kohore Në këtë sesion do të prezantojmë disa nga rastet më të zakonshme të shfaqjes së serive
kohore dhe pyetjet statistikore që mund të lindin mbi të dhëna të tilla. Këtyre rasteve
do t’u referohemi në vazhdimësi të materialit.
Shembull 1.1 Vlera mesatare mujore e dëmeve të ndodhura në një kompani sigurimi
2005-2008
Figura 1.1 tregon vlerën mesatare mujore të dëmeve të shkaktuara nga të siguruarit në
një kompani sigurimi në Shqipëri për një periudhë 42 mujore (2005-2008). Vini re
qëndrueshmërinë e serisë. Metoda për të analizuar të dhëna të tilla do të prezantohen në
kapitujt 2 dhe 3.
Figura 1.1 Vlera mesatare mujore e dëmeve të kompanisë së sigurimeve (2005-
2008) në Lek
Shembull 1.2 Numri i lindjeve për muaj në Shqipëri 1990-2008
Figura 1.2/a Numri i lindjeve për muaj në Shqipëri (1990-2008)
Muaj
0 10 20 30 40
20000
60000
100000
140000
Muaj 0 50 100 150 200
2000
3000
4000
5000
6000
7000
8000
3
Seria kohore e lindjeve sipas muajve në Shqipëri është një ndër seritë që është studiuar
me kujdes në këtë punim. Të dhënat janë marrë nga INSTAT dhe në total përfshijnë
vrojtimet që prej Janarit të viti 1985 deri në Dhjetor të vitit 2008 (288 vrojtime). Në
këto të dhëna kohore vihet re një zbritje graduale e vlerave dhe një variacion i rregullt
i cili duket se përsëritet me kalimin e kohës.
Figura 1.2/b Numri i lindjeve për muaj në Shqipëri (1985-2008), INSTAT
Natyra e serisë kohore të numrit të lindjeve për muaj do të jetë objekt studimi në kapitujt
në vijim.
Shembull 1.3 Numri i vdekjeve për muaj në Shqipëri (1985-2008)
Figura 1.3 Numri i vdekjeve për muaj në Shqipëri (1985-2008), INSTAT
Seria kohore e numrit të vdekjeve për çdo muaj për periudhën 1985- 2008 është
paraqitur në Figurën 1.3. në këtë figurë vihet re përsëritja e “sinjalit” , periodicitet dhe
mungesa e trendit në muajt në vazhdim.
Muaj 1985 1990 1995 2000 2005
2000
3000
4000
5000
6000
7000
8000
Muaj
1985 1990 1995 2000 2005
1000
1500
2000
4
Shembull 1.4 Numri i martesave për muaj në Shqipëri (1985-2008)
Figura 1.4 Numri i martesave për muaj në Shqipëri (1990-2008), INSTAT
Seria e numrit të martesave për muaj shfaq një sjellje e cila përsëritet me kalimin e
kohës. Kjo sjellje periodike e numrit të martesave për muaj është me interes sepse
procesi mund të jetë i rregullt dhe me një normë apo frekuencë oshilacioni e cila mund
të ndihmojë të identifikohen vlerat e vrojtuara.
Shembull 1.5 Norma e fertilitetit (TFR) për çdo muaj (1985-2008)
Figura 1.5 Norma mujore e fretilitetit në Shqipëri për periudhën (1985-2008)
Këtyre të dhënave do t’ju rikthehemi në kapitujt 2 dhe 3.
Muaj 1985 1990 1995 2000 2005
500
1000
1500
2000
2500
3000
3500
Muaj 1985 1990 1995 2000 2005
1
2
3
4
5
6
7
5
Shembull 1.6 Vlera e dëmeve (prona) të një kompanie sigurimi për periudhën (2005 –
2010)
Figura 1.6 Vlera mujore e dëmeve për periudhën (2005-2010)
Figura 1.6 tregon vlerën mujore të dëmeve të deklaruara nga siguruesit në një kompani
sigurimi në Shqipëri për periudhën Janar 2005 deri Dhjetor 2010, në total 11 477
vrojtime. Seria kohore e dëmeve është një shembull i serive kohore ekonomike dhe
financiare me luhatshmëri.
Shembull 1.7 Numri ditor i shtrimeve në pavionin e kardiologjisë QSUT (1 Janari
2006 deri në 31 Dhjetor 2010)
Figura 1.7 Shtrimet ditore në pavionin e kardiologjisë QSUT (2006-2010)
Të dhënat mbi numrit ditor të shtrimeve përbëjnë në total 1825 vëzhgime. Numri
minimal ditor i shtrimeve është 1, dhe numri maksimal është 51 shtrime në ditë. Numri
mesatar i shtrimeve të përditshme është 16.
Figura 1.7 tregon një prirje të ngadalshmenë rritje në vitet e fundit dhe kjo mund të jetë
një rezultat i vetëdijes së njerëzve për t’u kontrolluar tek kardiologu.
Property claim value
Day
Va
lue
in
AL
L
0 2000 4000 6000 8000 10000
01
50
00
00
35
00
00
0
Ditë
2006 2007 2008 2009 2010 2011
0
10
20
30
40
50
6
Shembull 1.8 Numri ditor i defekteve të telefonisë fikse të raportuara gjatë periudhës
, Janar 2009 deri Mars 2011
Figura 1.8 Defektet ditore të telefonisë fikse (2009-2011)
Të dhënat e mësipërme i përkasin një ndër telefonive fikse më të mëdha që operojnë në
Shqipëri. Figura 1.8 pasqyron ditë në të cilat numri i defekteve është i lartë dhe të tjera
në të cilat ky numër është i ulët. Kjo sjellje tregon praninë e sezonalitetit të cilin do ta
shqyrtojmë në vijim të materialit.
Këto dhe të tjera seri kohore do të jenë objekt i studimit në vazhdim.
1.3 Modele statistikore të serive kohore
Qëllimi parësor i analizës së serive kohore është të zhvillojë modele matematikore të
cilat të ofrojnë përshkrime të besueshme për të dhënat e zgjedhjes së bërë. Në mënyrë
që të sigurojmë një mjedis statistikor për të përshkruar natyrën e të dhënave, që në dukje
luhatet në mënyrë të rastësishme në lidhje me kohën, ne supozojmë se seria mund të
përkufizohet si një grupim ndryshoresh rasti të indeksuara sipas rendit që shfaqen në
kohë. Për shembull, ne mund të konsiderojmë një seri kohore si një sekuencë
ndryshoresh rasti: X1, X2, X3, ..., ky ndryshorja e rastit X1 tregon vlerën e marrë nga seria
në momentin e parë të kohës, ndryshorja e rastit X2tregon vlerën e marrë nga seria në
momentin e dytë të kohës dhe kështu me rradhë. Në përgjithësi një bashkësi
ndryshoresh rasti, {Xt}, të indeksuara nga koha i referohet një procesi stokastik. Në
material t do të jetë diskrete dhe do të marrë vlera të plota.
Shembull 1.9 Zhurma e bardhë (White Noise)
Një shembull i thjeshtë i serive të gjeneruara mund të jetë një grupim i ndryshoreve të
rastit të pakorreluara, wt, me pritje matematike 0 dhe dispersion të fundëm 2
w . Seria
kohore e gjeneruar nga ndryshoret e rastit të pakorreluara mund të përdoret si një model
për zhurmën në aplikacionet inxhinierike, ku quhet zhurmë e bardhë; në material do të
përdorim shënimin 2(0, )t ww WN .
Shpesh në material do të kërkojmë që zhurma të jetë një varg ndryshoresh rasti të pavarura dhe
me shpërndarje të njëjtë me pritje matematike 0 dhe dispersion 2
w . Do ta bëjmë të dallueshëm
Dite 0 200 400 600 800
0
200
400
600
800
1200
7
këtë rast duke iu referuar si zhurmë e bardhë e pavarur. Një seri zhurmë e bardhë është zhurma
e bardhë Gausiane, ku wt janë ndryshore rasti të pavarura me pritje matematike 0 dhe
dispersion 2
w . Figura 1.6 tregon një paraqitje grafike të një zhurme të bardhë me pritje
matematike 0 dhe dispersion 2
w =1.
Figura 1.9 Zhurmë e bardhë Gausiane
Shembull 1.10 Mesatarja e lëvizshme
Këtë model dhe të tjerët në vijim do t’i shqyrtojmë më me hollësi në kapitullin 2.
Mesatarja e lëvizshme është një mënyrë e sheshimit të një serie kohore. Ajo merr në
konsideratë vlerat e zhurmës në momentet e shkuara. Modeli më i thjeshtë i mesatares
së lëvizshme MA(1) do të shkruhej:
1t t tX w w (1.1)
Ndërsa modeli i përgjithshëm me mesatare të lëvizshme i rendit q, MA(q) do të shkruhej:
1 1 2 2 ...t t t t q t qX w w w w (1.2)
Shembull 1.11 Proceset Autoregresive
Modeli më i thjeshtë autoregresiv është modeli AR(1) i cili mund të shkruhet si:
1t t tX X w (1.3)
ku, është parametri i modelit. Në përgjithësi një model autoregresiv i rendit p, AR(p) do të
shkruhej:
1 1 2 2 ...t t t p t p tX X X X w (1.4)
Shembujt e përmendur më sipër janë disa nga modelet kryesore të serive kohore. Ato janë baza
e ndërtimit të modeleve të rëndësishme të kombinuara për seritë kohore.
1.4 Madhësitë e varësisë, funksioni i autokovariancës (ACVF) dhe
funksioni i autokorrelacionit (ACF)
Le të jetë ( , )tX t T një seri kohore.
0 20 40 60 80 100
-2
-1
0
1
2
3
Koha
Xt
8
Përkufizim 1.1 Funksioni i autokovariancës quhet funksioni që për çdo
,s t T përcaktohet me barazimin:
( , ) [( )( )]X s s t ts t E X X (1.5)
Kur nuk ekziston konfuzion mbi serinë kohore të cilës i referohemi mund të shkruajmë ( , )s t
në vend të ( , )X s t .
Përkufizim 1.2 Funksioni i autokorrelacionit (ACF) quhet funksioni që për
çdo ,s t T përcaktohet me barazimin:
( , )
( , )( , ) ( , )
s ts t
s s t t
(1.6)
Janë të vërteta vetitë e mëposhtëme të funksionit autokovariancë dhe autokorrelacion
të serisë kohore X.
1. ( , ) ( , )s t t s
2. t(0) (X )D
3. ( ) ( )h h , për çdo h=|s-t|
4. 1 ( , ) 1s t
5. (0) 1
6. ( ) ( )h h për çdo h=|s-t|
Përkufizim 1.3 Funksioni i kros-kovariancës midis dy serive kohore (Xt) dhe
(Yt) quhet funksioni që për çdo ,s t T përcaktohet me barazimin:
( , ) [( )( )]s tXY s X t Ys t E X Y (1.7)
Përkufizim 1.4 Funksioni i kros-korrelacionit midis dy serive kohore (Xt) dhe
(Yt) quhet funksioni që për çdo ,s t T përcaktohet me barazimin:
( , )
( , )( , ) ( , )
XYXY
X Y
s ts t
s s t t
(1.8)
Përkufizim 1.5 (Xt) quhet proces linear, nëse shprehet si një kombinim linear i
zhurmës së bardhë (wt):
t j t j
j
X w
(1.9)
ku, koefiҫientët j kënaqin kushtin:
9
| |j
j
(1.10)
Për procesin linear mund të tregohet se funksioni autokovariancë jepet nga:
2( ) w j h j
j
h w
(1.11)
për, 0h ; kujtojmë se ( ) ( )h h .
Përkufizim 1.6 Njëproces (Xt ), quhet Gausian nëse vektori k-dimensional
1 2( , ,..., ) '
kt t tX X X X për çdo moment të kohës 1 2, ,..., kt t t dhe çdo numër të plotë
pozitiv k, ka shpërndarje normale.
1.5 Stacionariteti, Trendi dhe Sezonaliteti
Karakteristika të rëndësishme të serisë kohore janë: stacionariteti, trendi dhe
sezonaliteti.
Stacionariteti përkufizohet si cilësi e një procesi në të cilin disa parametra statistikorë
(pritja matematike dhe dispersioni) nuk ndryshojnë në lidhje me kohën.
Trendi përkufizohet si një prirje e caktuar në një seri kohore. Teknika të regresit linear
mund të ndihmojnë në studimin e trendit të një serie kohore.
Sezonaliteti përkufizohet si një sjellje e përsëritshme dhe e parashikueshme e serisë
kohore përgjatë trendit.
Studimi i një serie kohore lidhet ngushtë me nocionin e stacionaritetit. Një seri kohore
stacionare ruan të pandryshueshme disa cilësi të saj e kjo bën të mundur parashikimin.
Modelet që studiohen në këtë punim lidhen me stacionaritetin e “dobët” (ose të rendit
të dytë). Krahas tij konsiderohet edhe stacionariteti i “fortë”. Përkufizimet që vijojnë
saktësojnë këto kuptime.
Përkufizim 1.7 Një seri kohore ( )tX quhet rigorozisht stacionare nëse vektori:
1 2{ , ,..., }
kt t tX X X
dhe vektori:
1 2{ , ,..., }
kt h t h t hX X X
kanë shpërndarje të njëjtë për çdo k=1,2,..., çdo 1 2, , ..., kt t t , për çdo
0, 1, 2, ...h
Le të jetë ( , )tX t T një seri kohore e tillë që: 2( )tE X për çdo t:
Përkufizim 1.8 Seria kohore ( )tX quhet stacionare e rendit të dytë ose
stacionare e dobët nëse:
10
(1) funksioni i pritjes matematike ( )tt E X është konstant dhe nuk varet nga koha
t, dhe
(2) funksioni kovariancë ( , ) ( , )s t s t varet nga s dhe t vetëm nëpërmjet diferencës
së tyre |s-t|.
Në vazhdim do të përdorim termin stacionaritet dhe do të nënkuptojmë stationaritetin
e dobët.
Nëse një seri është e rendit të dytë, 2( )tE X , dhe rigorozisht stacionare, atëherë ajo
është stacionare. E anasjellta nuk është gjithmonë e vërtetë. Një rast i rëndësishëm në
të cilin stacionariteti sjell stacionaritetin rigoroz është seria Gausiane. Meqë pritja
matematike e një serie stacionare është e pavarur nga koha do të shkruajmë:
t (1.13)
Gjithashtu meqë funksioni kovariancë e një serie kohore stacionare varet nga s dhe t
vetëm nëpërmjet diferencës së tyre |s-t|, mund ta thjeshtëzojmë shënimin. Le të
shënojmë s=t+h, atëherë:
0
( , ) [( )( )]
[( )( )]
( ,0)
t h t
h
t h t E X X
E X X
h
(1.14)
nuk varet nga koha t.
Rrjedhimisht kemi këto shprehje për ACVF dhe ACF
( ) [( )( )]t h th E X X (1.15)
( , ) ( )( )
(0)( , ) ( , )
t h t hh
t h t h t t
(1.16)
1.6 Vlerësimi i autokorrelacionit
Treguesit e përkufizuar më sipër, në situatë reale, është e nevojshme të vlerësohen
nëpërmjet vrojtimeve 1 2, ,..., nX X X nga seria kohore ( )tX . Për këtë qëllim
përkufizohen treguesit empirik përkatës, si vlerësime statistike.
Pritja matematike e një serie kohore stacionare është konstante. Ajo vlerësohet me anë
të mesatares:
1
1 n
t
t
X Xn
(1.17)
Funksioni autokovariancë ( )h vlerësohet nga funksioni autokovariancë i zgjedhjes si
më poshtë.
11
1
1ˆ( ) ( )( )
n h
t h t
t
h X X X Xn
(1.18)
me, ˆ ˆ( ) ( )h h për h=0,1,...,n-1
Ndërsa funksioni i autokorrelacionit ( )h vlerësohet nëpërmjet:
ˆ( )
ˆ( )ˆ(0)
hh
(1.19)
Funksioni autokorrelacion i zgjedhjes ka një shpërndarje të zgjedhjes e cila na lejon ne
të vlerësojmë nëse të dhënat janë tërësisht të rastësishme, seri të zhurmave të bardha
apo korrelacionet janë domethënëse në ndonjë lag.
Pohim1.1 Nën disa kushte të përgjithshme, nëse Xt është zhurmë e bardhë, atëherë
për vëllime zgjedhje të mëdha, ACF e zgjedhjes, ˆ ( )X h , për h=0,1,...,T ku T është e
fiksuar por arbitrare, ka shpërndarje përafërsisht normale me pritje matematike zero
dhe devijim standart të dhënë:
ˆ ( )
1X h
n (1.20)
Bazuar në rezultatin e mësipërm përftojmë një metodë të përafërt për të vlerësuar nëse
piqet në ˆ( )h janë domethënës duke përcaktuar nëse piku i vëzhguar ndodhet jashtë
intervalit 2
n (ose ndryshe, ˆ ( )2
X h ); për një zhurmë të bardhë, përafërsisht 95% e
ACF-ve të zgjedhjes duhet të jenë brenda këtyre kufijve.
Në rastin e kros-kovariancës ( )XY h dhe kros-korrelacionit ( )XY h janë:
1
1ˆ ( ) ( )( )
n h
XY t h t
t
h X X Y Yn
(1.21)
ku, ˆ ˆ( ) ( )XY XYh h , dhe:
ˆ ( )
ˆ ( )ˆ ˆ(0) (0)
XYXY
X Y
hh
(1.22)
12
Kapitulli 2
Regresi Linear dhe Sheshimi Eksponencial për
Ndërtimin e Modeleve Parashikuese të Serive Kohore
Demografike
Në këtë kapitull do të shqyrtohen metodat e regresit dhe sheshimit eksponencial për
ndërtimin e modeleve të serive kohore. Qëllimi kryesor i ndërtimit të këtyre modeleve
është parashikimi. Aplikimet e këtyre teknikave do t’i prezantojmë duke ndërtuar disa
modele për seritë kohore të: numrit të lindjeve për muaj, numri të martesave për muaj,
normës së fertilitetit, numrit të përgjithshëm të popullatës në Shqipëri.
2.1 Regresi linear i aplikuar në seritë kohore
Modelet lineare dhe aplikimet e tyre janë po aq dominuese në konteksin e serive kohore
sa edhe në statistikën klasike. Modelet e regresit janë të rëndësishme për modelet e
serive kohore. Në një seri kohore të përgjithshme funksioni i pritjes matematike është
një funksion arbitrar i kohës. Në një seri stacionare funksioni i pritjes matematike është
konstant në lidhje me kohën. Shpesh na duhet të zgjedhim rrugën e mesme dhe të
konsiderojmë funksione të pritjes matematike relativisht të thjeshta (por jo konstante)
në lidhje me kohën.
“Trendi” mund të jetë mjaft i pakapshëm. E njëjta seri kohore mund të shihet ndryshe
nga analistë të ndryshëm. Trendi i perceptuar shpesh është vetëm një artificë e
korrelacionit të fortë pozitiv midis vlerave të serisë kohore, në pika të afërta të kohës,
dhe rritjes së dispersionit në proces ndërkohë që koha rritet.
2.1.1 Përkufizime dhe modele
Në përgjithësi është e nevojshme që të dhënat e serive kohore të jenë stacionare. Në
vrojtimet e serive kohore e rëndësishme është të vlerësojmë me saktësi
autokorrelacionin. Do të ishte e vështirë të matje varësinë midis vlerave të vrojtuara
nëse struktura e varësisë nuk është e rregullt apo është duke ndryshuar me kohën.
13
Ndoshta mënyra më e lehtë për të punuar me seritë kohore jo stacionare është trendi.
Mund ta shkruajmë këtë model të serive kohore si:
t t tX Y
(2.1)
ku, tX janë vëzhgimet,
t tregon trendin dhe tY është një proces stacionar. Shpesh një
trend i fortët , mund të errësojë sjelljen e një procesi stacionar
tY , sic do e shohim në
shembujt në vijim.
Regresi linear në konteksin e serive kohore është një metodë e thjeshtë për tëvlerësuar
trendin në vrojtimet e kryera. Modeli më i thjeshtë i regresit linear është ai i fuqisë së
parë:
1 2t tX t w (2.2)
ku, 1 2, janë koeficientë të panjohur të regresit (të cilët vlerësohen duke përdorur
metodën e katrorëve më të vegjël) dhe { }tw është një gabim i rastësishëm ose një proces
zhurmë me ndryshore rasti të pavarura dhe me shpërndarje të njëjtë normale me pritje
matematike zero dhe dispersion konstant, dhe tështë koha
Në shembujt në vijim ne do të interesohemi kryesisht për modelin e thjeshtë të regresit
linear. Mënyra më e thjeshtë për të përftuar një seri stacionare (në rastet kur trendi është
i dukshëm) është kombinimi i dy formulave (2.1) dhe (2.2). Hapat që ndiqen janë:
Hapi 1: Ndërto një model të regresit linear për serinë e vrojtuar ( )tX .
Bazuar në (2.2) le ta shënojmë këtë model
1 2ˆ
t t (2.3)
Hapi 2: Për të përftuar serinë pa trend zbresim nga vrojtimet origjinale vlerat e
vlerësuara në hapin 1, pra përftojmë:
1 2ˆ ˆt t t tY X X t
(2.4)
Nëse nga paraqitja grafike e serisë ˆtY , vihet re se njëendje e rastësishme mund të jetë
një model i mirë për trendin atëherë mund të modelohet trendi si një përbërëse
stokastike duke përdorur modelin e endjes së rastësishme me zhvendosje:
1t t tw
(2.5)
ku, tw është zhurma e bardhë dhe është e pavarur nga
tY . Nëse modeli i përshtatshëm
është (2.1) atëherë duke diferencuar vrojtimet tX , përftojmë njëproces stacionar:
1 1 1
1
( ) ( )
t t t t t t
t t t
X X Y Y
w Y Y
(2.6)
Do të tregohet në kapitujt në vijim se procesi i përftuar si diferencë e vrojtimeve (2.6)
është stacionar.
14
Një avantazh i kryerjes së diferencave për të larguar trendin është se nuk kërkohet
vlerësimi i asnjë parametri gjatë veprimeve të diferencimit. Një disavantazh është se
veprimi i diferencimit nuk jep një vlerësim të procesit stacionar.
Shembull 2.1 Numri i lindjeve për muaj në Shqipëri (1985-2008)
Le të konsiderojmë të dhënat mbi numrin e lindjeve për muaj në Shqipëri për periudhën
1985-2008. Ashtu sikurse e vumë re në kapitullin 1, Figura 1.2/b, në këto të dhëna vihet
re një trend zbritës. Ne mund të përdorim regresin linear për të vlerësuar këtë trend duke
përshtatur një model si ai në (2.1). Po supozojmë gjithashtu se gabimet { }tw janë të
pavarur dhe me shpërndarje të njëjtë, gjë që mund edhe të mos jetë e vertetë. Vlerat e
parametrit kohë (t) janë marrë 0, 1, 2, 3,..., 288; kjo do të ndikojë vetëm në vlerën e
termit të lirë në modelin e regresit.
Duke aplikuar modelin dhe të dhënat mbi numrin e lindjeve në programin R përftojmë
koeficientët e vlerësuar 1 2=6864.724, =18.758 dhe vlerën e koeficientit të
përcaktueshmërisë 0.7569. Figura 2.1 tregon qartë drejtëzën e regresit linear të modelit
të ndërtuar më sipër.
Figura 2.1 Trendi nëpërmjet regresit linear të numrit të lindjeve (1985-2008)
Trendi i zbuluar tregon një sjellje në zbritje të numrit të lindjeve në 20 vitet e fundit.
Por është e dukshme se vija e regresit linear të përftuar nëpërmjet regresit të thjeshtë
linear është vetëm një vlerësim i thjeshtë i trendit. Modele më të mira do të nevojiten
për të përshkruar sa më mirë sjelljen e kësaj serie kohore.
Shembull 2.2 Largimi i trendit nga seria e numrit të lindjeve (1985-2008)
Le të provojmë të stacionarizojmë serinë e lindjeve duke përdorur veprimin e
diferencimit. Në hyrje të kapitullit 2 përmendëm se diferencat e para të vrojtimeve
largojnë trendin linear në serinë kohore. Figura 2.2 tregon serinë e re të numrit të
lindjeve pas kryerjes së veprimit të diferencimit të rendit të parë.
0 50 100 150 200 250
2000
3000
4000
5000
6000
7000
8000
Muaj
15
Figura 2.2 Seria e diferencave të para të numrit të lindjeve (1985-2008)
Vini re “largimin” e trendit linear në serinë e lindjeve për çdo muaj.
Shembull 2.3 Numri i martesave për muaj në Shqipëri (1985-2008)
Seria e martesave për çdo muaj në Shqipëri, me vrojtime prej Janarit të vitit 1985 deri
në Dhjetor të vitit 2008, është një tjetër seri interesante. Ashtu sikurse e vumë re edhe
në kapitullin 1 (Figura 1.4) kjo seri shfaq një sjellje me karakter kryesisht përsëritës.
Në Figurën 2.3 është paraqitur seria e vrojtimeve për numrin e martesave dhe drejtëza
e regresit linear në varësi të kohës.
Figura 2.3 Numri i martesave për muaj (1985-2008) dhe drejtëza e regresit linear
Shembull 2.4 Norma e fertilitetit (Total Fertility Rate) (1985-2008)
Në shembullin më poshtë kemi marrë në konsideratë normën e fertilitetit për çdo muaj
për Shqipërinë për periudhën 1985-2008. Le të japim disa përkufizime të nevojshme
për treguesit që po shqyrtojmë në këtë shembull.
Muaj 1985 1990 1995 2000 2005
-2000
-1000
0
1000
2000
0 50 100 150 200 250
500
1000
2000
3000
Muaj
16
Norma e fertilitetit (TFR) për një popullatë është numri mesatar i fëmijëve që një femër
do të mund të lindte gjatë jetës së saj. Ky tregues është një vlerë mesatare pasi disa
femra mund të lindin më shumë fëmijë, disa më pak dhe disa të mos lindin. Teorikisht,
kur vlera e 2TFR , çdo çift zëvendëson veten.
Duke marrë në konsideratë faktin se nëçdo martesë është një grua përgjegjëse për të
dhënë jetë dhe në çdo martesë ka mundësi të larta që gruaja të lindë dhe të mbijetojë
lindjes së fëmijës, ne kemi vlerësuar normën e fertilitetit si raport i numrit të lindjeve
për muaj dhe numrit të martesave për muaj.
Numri i lindjeve per muaj TFR =
Numri i martesave per muaj (2.7)
Vlera më e vogël e normës së fertilitetit për Shqipërinë është 0.9342 dhe është vrojtuar
në Janar 2007 dhe vlera më e madhe është 7.3193 dhe është vrojtuar në Mars 2005.
Vihet re (me përjashtim të vlerës së vrojtuar në Mars 2005) se ky tregues ka një trend
zbritës. Duke përdorur modelin e regresit linear të përmendur më sipër (2.3) përftojmë
ekuacionin e drejtëzës së regresit:
TFR =3.37 - 0.006 *t
Dhe vlera të koeficientit të përcaktueshmërisë rreth 0.29. Nga Figura 2.4 duket se ky
trend është real.
Figura 2.4 Vlera e TFR për çdo muaj dhe drejtëza e regresit linear ( 1985-2008)
Qëndrueshmëria e serisë kohore të martesave ka ndikuar në serinë kohore të koeficientit
të TFR duke zbutur në këtë mënyrë trendin zbritës të imponuar nga seria e numrit të
lindjeve. Edhe në këtë shembull model i regresit linear nuk është i përshtatshëm për të
parashikuar ecurinë e këtij treguesi në të ardhmen.
Shembull 2.5 Norma e rritjes së popullatës (Population Growth Rate, PGR)
Shpesh ky tregues shprehet si:
0 50 100 150 200 250
1
2
3
4
5
6
7
Muaj
17
- lim
Popullata në fund të periudhës Popullata në fil të periudhësPGR
Popullata në fund të periudhës
(2.8)
Formula (2.8) mund të shkruhet si vijon:
- t tPGR L V
(2.9)
Formula (2.9) rrjedh nga formula e përgjithshme e projeksionit të popullatës:
( 1) - t t tPopullata në momentin t P L V
(2.10)
ku,
t
t
t
P =Numri i Popullatës në momentin e kohës ,
= Numri i Lindjeve në momentin e kohës ,
V = Numri i Vdekjeve në momentin e kohës
t
L t
t
(2.11)
Modeli i plotë duhet të marrë në konsidertaë edhe numrin e emigrantëve dhe
imigranteve në momentin e kohës t, portë dhënat për Shqipërinë nuk janë të
mjaftueshme për të gjetur apo vlerësuar këta tregues. Ndaj ne kemi marrë në
konsideratë vetëm numrin e lindjeve dhe vdekjeve për periudhën 1985-2008.
Figura 2.5 Norma e rritjes së popullsisë për muaj (1985-2008)
Sikurse vihet re, nga Figura 2.4, kjo seri ka një trend zbritës e ndikuar kryesisht nga
trendi i serisë së numrit të lindjeve e cila tregon një zbritje të dukshme pas vitit 1995.
Ky trend vihet re edhe nga drejtëza e regresit linear në lidhje me kohën:
5839 -15.06* PGR t (2.12)
0 50 100 150 200 250
1000
2000
3000
4000
5000
6000
7000
Muaj
18
Por gjithashtu edhe nga koefiçienti i përcaktueshmërisë: 2 0.6647R . Vlerat e
koeficientit të përcaktueshmërisë janë domethënëse.
Pasi kemi grupuar të dhënat sipas viteve përftojmë një seri më të reduktuar dhe një
drejtëz regresi e cila tregon tani më qartë trendin vjetor të këtij treguesi. Figura 2.6/a
dhe 2.6/b tregojnë qartë trendin zbritës.
Figura 2.6/a Norma e rritjes vjetore (PGR), 1985-2008
Figura 2.6/b Drejtëza e regresit linear të normës së rritjes vjetore (PGR), 1985-2008
Në fund të këtyre shembujve duam të theksojmë se modeli i regresit linear i vrojtimeve
në lidhje me kohën nuk është një model i mirë për ndërtimin e modeleve parashikuese
të serive kohore, kjo pasi natyra e serive kohore shfaq përvecse trendit edhe
karakteristika të tjera të rëndësishme (siç është përshembull: sezonaliteti dhe
periodiciteti).
2.2 Metodat e Sheshimit Eksponencial Metodat e sheshimit eksponencial janë zhvilluar që prej vitit 1950. Ord et al, 1997, dhe
Hyndman et al, 2002, japin një kornizë mbi modelet. Llogaritjet e vlerësimit të
Viti
1985 1990 1995 2000 2005
2000
3000
4000
5000
5 10 15 20
2000
3000
4000
5000
Viti
19
parametrave, intervalet e besimit dhe proçedura mbi përzgjedhjen e modelit. Në këto
publikime, por edhe të tjera, janë zhvilluar studime mbi gjithë modelet e mundshme të
sheshimit eksponencial. Në këtë pjesë do të prezantojmë sheshimin eksponencial si dhe
hapësirën e modeleve të tij.
2.2.1 Dekompozimi i serive kohore Është më se e zakonshme në fushën e biznesit apo ekonomisë të mendojë një seri kohore
si kombinim i disa përbërëseve si për shembull trendi (T), cikli (C), sezonaliteti (S) dhe
përbërësja e gabimeve (E). Përcaktimi i këtyre përbërëseve mund të bëhet si më poshtë:
Trendi (T): Orientimi afatgjatë i serisë kohore
Sezonaliteti (S): Një model që përsëritet me një period të njohur
(psh; 12 mujore, 7 ditore etj)
Cikël: Një model që përsëritet me një rregullsi por me periodicitet të
panjohur dhe që ndryshon (psh; një cikël financiar)
Gabimet: Komponentja e paparashikueshme e series
Figura 2.7 Vlerat e përftuara nga metoda e sheshimit eksponencial Holt-Winters
për katër seritë e mësipërme
Në këtë material do të përqëndrohemi kryesisht në tre përbërëset T, S dhe E. Çdo
element ciklik do të përmblidhet me përbërësen trend përveç rasteve kur ai është i
dukshëm.
Këta tre përbërës mund të kombinohen në një numër të ndryshëm mënyrash. Një model
i pastër aditiv mund të shprehet si:
X T S E (2.13)
ku, tre përbërësit mblidhen së bashku për të formuar serinë e vëzhguar.
Një model i pastër multiplikativ mund të shprehet si:
Holt-Winters filtering
Time
Observ
ed /
Fitte
d
1990 1995 2000 2005
2000
5000
8000
Holt-Winters filtering
Time
Observ
ed /
Fitte
d
1990 1995 2000 2005
500
1500
3000
Holt-Winters filtering
Time
Observ
ed /
Fitte
d
2006.0 2006.5 2007.0 2007.5 2008.0 2008.5
20000
80000
140000
Holt-Winters filtering
Time
Observ
ed /
Fitte
d
1990 1995 2000 2005
12
34
56
7
20
x x X T S E (2.14)
ku të dhënat formohen si rezultat i prodhimit të tre përbërëseve.
Një seri sezonale e rregulluar formohet duke larguar përbërësen sezonale nga të dhënat
dhe duke lënë vetëm dy përbërëset trend dhe gabim. Në modelin aditiv, seria e
rregulluar sezonale është X S , ndërsa në modelin multiplikativ seria sezonale e
rregulluar është /X S . Për detaje të mëtejshme mbi rregullimet sezonale dhe
dekompozimin e serive kohore mund të shihet Makridakis et al (1998).
Kombinime të tjera, përvec modeleve të thjeshta aditive dhe multiplikative, janë të
mundshme. Për shembull,
( + ) x X T S E (2.15)
e cila trajton përbërësen e parregullt si multiplikative dhe përbërëset e tjera si aditive.
(Për referenca shiko Hyndman (2004))
2.2.2 Klasifikimi i Metodave të Sheshimit Eksponencial
Në sheshimin eksponencial gjithmonë nisim me një përbërës trend i cili është një
kombinim i termit të nivelit (l) dhe termit të rritjes (b). Niveli dhe rritja mund të
kombinohen në disa mënyra duke dhënë pesë lloje të trendit në të ardhmen. Le të
shënojmë Th trendin e parashikuar pas h periodave të ardhshme, dhe shënojmë një
parametër “shuarës” (damp) ( 0 1 ). Pesë llojet e trendit apo modeleve të rritjes
janë si vijon:
Asnjë: T lh
Aditiv: T l bhh
Aditiv damped: 2( ... )hT l bh
Multiplikativ: hT lbh
Multiplikativ damped: 2( ... )h
T lbh
Një metodë me trend në “shuarje” (damped trend) është e përshtatshme kur në serinë
kohore besohet se norma e rritjes në fund të të dhënave historike nuk ka gjasa të
vazhdojë më shumë se një periudhë e shkurtër në të ardhmen. Ekuacioni për trendin
damped bën atë që emërtimi tregon: shuan trendin me rritjen e horizontit të
parashikimit. Kjo përmirëson shpesh cilësinë e parashikimit, në vecanti për intervale të
gjata kohore.
Pasi kemi përzgjedhur një përbërëse trend mund të prezantojmë një përbërëse sezonale
dhe një gabim, aditiv apo multiplikativ. Nga të dhënat historike natyra e përbërëses së
gabimit nuk është marrë në konsideratë pasi gabimet aditive apo multiplikative nuk
ndikojnë në parashikime.
21
Nëse përbërësja e gabimit nuk merret në konsideratë atëherë kemi pesëmbëdhjetë
metoda të sheshimit eksponencial të pasqyruara në Tabelën 2.1. Ky klasifikim
(taksonomi) i metodave u prezantua fillimisht nga Pegels’ (1969) dhe u vazhdua më tej
nga Gardner (1985), Hyndman et al. (2002, 2005), Taylor (2003).
Tabela 2.1 Klasifikimi i metodave të sheshimit eksponencial (Hyndman et al, 2000)
Përbërësja sezonale
N
(pa sezonalitet)
A
(Aditiv)
M
(Multiplikativ) Përbërësja Trend
N (pa trend) N, N N, A N, M
A (Aditiv) A, N A, A A, M
Ad (Aditiv damped) Ad, N Ad, A Ad, M
M (Multiplikativ) M, N M, A M, M
Md (Multiplikativ
damped) Md, N Md, A Md, M
Disa nga metodat e tabelës 2.1 njihen me emra të tjerë përshembull: (N, N) përshkruan
metodën e thjeshtë eksponenciale (ose SES- Simple Exponential Smoothing); (A, N)
përshkruan metodën lineare Holt’s; (A, A) përshkruan metodën Holt-Winters’ aditive;
(A, M) metodën multiplikative Holt-Winters. Qelizat e tjera të tabelës përfaqësojnë
metoda të sheshimit eksponencial më pak të njohura.
Për secilën nga 15 metodat e përshkruar në tabelën 2.1 ekzistojnë dy hapësira të
mundshme modelesh, njëra me përbërëse gabim aditive dhe tjetra multiplikative. Nëse
përdoren të njëjtat vlera të parametrave atëherë këto dy modele do të japin të njëjtat
vlera të parashikuara pavarësisht intervaleve të ndryshme të parashikimeve. Pra,
ekzistojnë 30 modele të mundshme të përshkruara nga ky klasifikim.
2.3 Parashikimi pikësor për metodat më të njohura
Duhet të kemi parasysh dallimin midis metodave të sheshimit eksponencial dhe
hapësirës së modeleve themelore. Një metodë e sheshimit eksponencial është një
algoritëm për prodhimin e vlerave të parashikuara. Hapësira e modeleve themelore jep
të njëjtat vlera për parashikimin por gjithashtu siguron një kornizë për të llogaritur
intervalet e parashikimit dhe veti të tjera.
2.3.1 Sheshimi i thjeshtë eksponencial (N, N)
Le të supozojmë se kemi grumbulluar të dhëna deri në një moment kohe t-1,
1 2 1{ , ,..., }tX X X , dhe kërkojmë të parashikojmë vlerën pasardhëse të serisë sonë
kohore, Xt.Vlerën e parashikimit tonë do ta shënojmë ˆtX . Kur vlera tX të bëhet e
disponueshme, gabimi në parashikim do të jetë ˆt tX X . Metoda e thjeshtë e sheshimit
22
eksponencial (e njohur gjithashtu si metoda e sheshimit eksponencial me një parametër)
u prezantua nga Brown (1959), ajo merr në konsideratë vlerën e parashikuar në
momentin e mëparshëm dhe e rregullon atë duke përdorur gabimin gjatë parashikimit.
Pra parashikimi për momentin pasardhës sipas kësaj metode do të jepej nga formula:
1
ˆ ˆ ˆ( )t t t tX X X X (2.16)
ku, është një konstante midis 0 dhe 1.
Pra siç vihet re, parashikimi i ri është parashikimi i vjetër plus një rregullim për gabimin
që ka ndodhur në parashikimin e fundit të kryer. Kur ka një vlerë pranë 1, parashikimi
i ri do të përfshijë një rregullim thelbësor për gabimin në parashikimin e mëparshëm.
Anasjelltas kur ka një vlerë pranë 0, parashikimi i ri do të përfshijë shumë pak
rregullime.
Një mënyrë tjetër për të shkruar (2.16) është:
1
ˆ ˆ(1 )t t tX X X (2.17)
Parashikimi1
ˆtX
bazohet në peshimin e vrojtimeve më të fundit tX me një peshë ,
dhe parashikimin më të fundit ˆtX me një peshë1 . Në këtë mënyrë kjo metodë mund
të interpretohet si një mesatare e lëvizshme e parashikimeve më të fundit dhe vrojtimeve
më të fundit.
Implikimi i sheshimit eksponencial mund të vihet re më lehtë nëse (2.17) zgjerohet duke
zëvendësuar ˆtX me përbërëset e saj, si në vijim:
1 1 1
2
1 1
ˆ ˆ(1 )[ (1 ) ]
ˆ (1 ) (1 )
t t t t
t t t
X X X X
X X X
(2.18)
Nëse vazhdohet me këtë proces zëvendësimi rezultati do të ishte:
2 3
1 1 2 3
4 1
4 1 1
ˆ (1 ) (1 ) (1 )
ˆ (1 ) ... (1 ) (1 )
t t t t t
t t
t
X X X X X
X X X
(2.19)
Pra,1
ˆtX
përfaqëson një mesatare të lëvizshme të peshuar të gjithë vrojtimeve të
shkuara me pesha që vijnë duke u zvogëluar eksponencialisht; nga kjo vjen dhe emri
“sheshim eksponencial”. Vëmë re se, pesha e 1X mund të jetë relativisht e madhe kur
është e vogël dhe seria kohore është me përmasë të vogël. Përzgjedhja e vlerës
fillestare të është e rëndësishme dhe njihet si “problem fillestar” të cilin do ta
trajtojmë në vijim.
Një vlerë e parashikuar e t hX bazuar mbi gjithë vlerat e vrojtuara deri në momentin e
kohës t shënohet/
ˆt h tX
. Për parashikimet me një hap do të përdorim shënimet
1 1/ˆ ˆ
t t tX X .
23
Për parashikime me periodë të madhe, supozohet se funksioni i parashikimit është i
“sheshtë”, pra:
/ 1
ˆ ˆ , 2,3,...t h t tX X h (2.20)
Një funksion i sheshtë parashikimi përdoret sepse sheshimi eksponencial i thjeshtë
funksionon më mirë për të dhëna të cilat nuk kanë trend, sezonalitet apo të tjera
karakteristika.
Një mënyrë tjetër për ta shkruar këtë është zëvendësimi i 1
ˆt tl X . Pastaj,
/ˆ
t h t tX l
dhe1(1 )t t tl X l . Vlera e
tl është një matës i “nivelit” të serisë në momentin e
kohës t.
Në mënyrë që të llogarisim vlerën e parashikuar duke përdorur metodën e thjeshtë të
sheshimit eksponencial duhet të specifikojmë vlerën fillestare 0 1
ˆl X dhe vlerën e
parametrit . Tradicionalisht vlera e 1X merrej e njëjtë me vlerën e parë të vrojtuar dhe
specifikohej të ishte një vlerë e vogël, shpesh 0.2. Në ditët e sotme ka mënyra më
efikase për të përzgjedhur këto parametra për të cilat ne do të flasim në vijim.
2.3.2 Metoda lineare Holt (A, N)
Holt (1957) e zgjeroi sheshimin e thjeshtë eksponencial në sheshimin eksponencial
linear me qëllim lejimin e parashikimit në të dhëna që shfaqin trend. Parashikimet sipas
kësaj metode gjenden duke përdorur dy konstante sheshuese, dhe * (me vlera
midis 0 dhe 1), dhe tre ekuacione:
Niveli : 1 1(1 )( )t t t tl X l b
(2.21a)
Rritja: * *
1 1( ) (1 )t t t tb l l b (2.21b)
Parashikimi: /
ˆt h t t tX l b h
(2.21c)
ku,tl tregon një vlerësues të nivelit të serisë kohore në momentin e kohës t, dhe
tb
tregon një vlerësues të rritjes së serisë kohore në momentin e kohës t. Vini re se, tb
është një mesatare e peshuar e rritjes së mëparshme 1tb dhe një vlerësues i rritjes i
bazuar në diferencën midis niveleve të njëpasnjëshme. Arsyeja përse në shënimet tona
përdorim * në vend të do të bëhet e qartë kur të të flasim për hapësirën e modeleve
të sheshimit eksponencial.
Në rastin e veçantë kur * , metoda Holt është ekuivalente me metodë e Brown të
sheshimit eksponencial me dy parametra [Brown, 1959]. Brown përdor një argument të
zhvlerësuar (discounting) për të arritur në ekuacionin e tij për parashikimin, pra 1
përfaqëson faktorin e zakonshëm që aplikohet në përbërëset trend dhe nivel.
Një rast i veçantë i kësaj metode është rasti kur * 0 . Në këtë rast:
Niveli: 1(1 )( )t t tl X l b
Parashikimi: /
ˆt h t tX l bh
24
Kjo metodë njihet si “sheshimi eksponencial me zhvendosje (drift) dhe është i lidhur
ngushtë me metodën “Theta” të parashikimit të përdorur nga Assimakopoulos dhe
Nikolopoulos (2000). Lidhja midis këtyre metodave u tregua nga Hyndman dhe Billah
(2003).
2.3.3 Metoda me trend të shuar (damped) (Ad, A)
Gardner dhe Mckenzie (1985) propozuan një modifikim të metodës lineare Holt me
qëllim lejimin e shuarjes së trendit. Ekuacionet për këtë metodë janë:
Niveli: 1 1(1 )( )t t t tl X l b
(2.22a)
Rritja: * *
1 1( ) (1 )t t t tb l l b (2.22b)
Parashikimi: 2
/ˆ ( ... )h
t h t t tX l b (2.22c)
Pra rritja për një hap të parashikimit të1tX është
tb dhe rritja shuhet (damped) nga
një faktor i për çdo moment kohe në të ardhmen. Nëse 1 kjo metodë jep të njëjtin
parashikim me metodën lineare Holt. Nëse 0 1 kur h , parashikimi i
përafrohet një asimptote të dhënë nga / (1 )t tl b . Për të mënjanuar rastin që një
koefiçient negativ t’i aplikohet 1tb në (2.24b) zakonisht kufizohet 0 dhe 1 për
të mënjanuar rritjen eksponenciale të tb .
2.3.4 Metoda Holt- Winters me trend dhe sezonalitet
Nëse të dhënat e vrojtuara nuk kanë trend apo sezonalitet atëherë sheshimi eksponencial
i thjeshtë është i përshtatshëm. Nëse të dhënat e vrojtuara shfaqin trend, atëherë metoda
lineare Holt është e përshtatshme. Por nëse të dhënat janë sezonale këto metoda nuk
mund ta trajtojnë mirë problemin.
Holt (1957) propozoi një metodë për të dhëna sezonale. Kjo metodë u studiua më tej
nga Winters (1960), dhe tani ajo njihet me emrin “Metoda Holt-Winters”.
Metoda Holt-Winters bazohet në tre ekuacione sheshimi, një për nivelin, një për trendin
dhe një për sezonalitetin. Është e ngjashme me metodën lineare Holt, me një ekuacion
shtesë që merr në konsideratë sezonalitetin. Në fakt ka dy metoda të ndryshme Holt-
Winters, në varësi të modelimit të sezonalitetit (aditiv apo multiplikativ).
Sezonaliteti multiplikativ (metoda (A, M))
Ekuacionet bazë për metodën multiplikative Holt-Winters janë:
Niveli: 1 1(1 )( )t
t t t
t
Xl l b
s m
(2.23a)
Rritja: * *
1 1( ) (1 )t t t tb l l b (2.23b)
Sezonaliteti: 1 1/ ( ) (1 )t t t t t ms X l b s (2.23c)
Parashikimi: ˆ ( )/
X l b h st tt h t t m hm (2.23d)
25
ku, m është gjatësia e sezonalitetit (për shembull, numri i muajve apo stinëve të vitit),
tl përfaqëson nivelin e serisë, tb tregon rritjen,
ts është përbërësja sezonale, /
ˆt h tX
është
parashikimi për h perioda në të ardhmen dhe [( 1)mod ] 1mh h m . Parametrat *( , , ) shpesh kufizohen të marrin vlera brenda intervalit ]0, 1[ . Në vijim do t’i
rikthehemi këtyre kufizimeve si dhe vlerave fillestare dhe vlerësuesve të parametrave
të metodës.
Ekuacioni (2.23c) shkruhet ndryshe nga autorë si Makridakis et al (1998) apo
Bowerman et al (2005):
/ (1 )t t t t ms X l s
Modifikimi i dhënë në (2.22c) u propozua nga Ord et al (1997) për të lehtësuar
formulimin e hapësirës. Ajo është e njëjtë me propozimin e Archibaldit (1990).
Modifikimi jep një ndryshim të vogël por të papërfillshëm të parashikimit.
Sezonaliteti aditiv (metoda (A, A))
Këto komponente në metodën Holt-Winters mund të trajtohen në mënyrë aditive,
megjithëse ky trajtim përdoret shumë pak në praktikë. Ekuacionet bazë për metodën
aditive Holt-Winters janë:
Niveli: 1 1( ) (1 )( )t t t m t tl X s l b
(2.24a)
Rritja: * *
1 1( ) (1 )t t t tb l l b (2.24b)
Sezonaliteti: 1 1( ) (1 )t t t t t ms X l b s (2.24c)
Parashikimi: ˆ/
X l b h st h t t t
t m hm
(2.24d)
Ekuacioni i dytë është i njëjtë me (2.23b) të vetmet ndryshime në ekuacionet e tjera
janë se treguesit sezonal tanimë i shtohen apo zbriten në vend që të merret prodhimi
apo raportet.
Ashtu sikurse edhe me modelin multiplikativ, ekuacioni më i përdorur në tekste për
termin sezonal është ndryshe nga (2.26c). Shumica e teksteve përdorin:
* *( ) (1 )t t t t ms X l s
Nëse zëvendësojmë lt duke përdorur (2.26a) përftojmë:
* *
1 1(1 )( ) [1 (1 )]t t t t t ms X l b s
Pra, përftojmë të njëjtat parashikime nëse zëvendesojmë në (2.26c) me *(1 ) .
2.4 Parashikimi pikësor për gjithë metodat
Le të prezantojmë në këtë pjesë hapësirën e modeleve të sheshimit eksponencial. Për
secilën metodë ka dy modele, një model me gabime aditive dhe një model me gabime
multiplikative. Parashikimet pikësore për të dy modelet janë të njëjta por intervalet e
parashikimit do të ndryshojnë.
26
Me qëllim dallimin e modeleve aditive dhe multiplikative i shtohet një gërmë tjetër
secilit shënim të modelit. Treshja (E, T, S) i referohet tre përbërëseve gabim (Error),
trend dhe sezonalitet. Kështu, modeli ETS (A, A, N) ka gabime aditive, trend aditiv dhe
nuk ka sezonalitet (ky është modeli linear Holt me gabime aditive). Në mënyrë të
ngjashme ETS (M, Md, M) i referohet një modeli me gabime multiplikative, trend në
shuarje (damped) multiplikativ dhe sezonalitet multiplikativ. Shënimi ETS (...) shërben
për të kujtuar rendin në të cilin janë specifikuar përbërëset. ETS mund të konsiderohet
edhe një shkurtim i Exponential Smoothing.
Tabela mbi llogaritjet rekursive dhe parashikimin e 15 modeleve të sheshimit
eksponencial të përmendura në krye të kreut gjendet në shtojcë. (Shtojca 1)
2.5 Vlerat fillestare dhe vlerësimi
2.5.1 Vlerat fillestare
Nëse duam të përdorim këto modele për qëllime parashikimi ne duhet të specifikojmë
llojin e modelit, vlerat fillestare y0 dhe vlerat e parametrave , , dhe (nëpërmjet
vlerësimit).
Tradicionalisht vlera fillestare specifikohet duke përdorur një vlerë të përzgjedhur ad
hoc, apo sipas një skeme euristike. Skema euristike e propozuar nga Hyndman et al
duket të funksionojë mjaft mirë. Hapat që ajo ndjek janë:
Vlera fillestare e përbërëses sezonale.
Për vrojtime sezonale njehsojmë mesataren e lëvizshme të rendit 2xm, duke shfrytëzuar
të dhënat paraprake, shënojmë {ft}, t=m/2 +1, m/2 +2,... . Për sezonalitetin aditiv,
largojmë trendin nga vrojtimet me qëllim përftimin e Xt+ft; për sezonalitetin
multiplikativ, largojmë trendin nga vrojtimet me qëllim përftimin e Xt/ ft. Njehsojmë
treguesit fillestar sezonal, s-m+1, s-m+2, ... , s0 duke llogaritur mesataren e vrojtimeve, me
trend të larguar, për çdo sezon. Normalizojmë këta tregues sezonal në mënyrë që ata
të qëndrojnë të pandryshuar për sezonalitetin aditiv dhe t’i shtohen m-së për
sezonalitetin multiplikativ.
Vlera fillestare e nivelit
Për vrojtime sezonale njehsojmë një trend linear duke përdorur regresin linear në 10
vrojtimet e para sezonale të rregulluara (pra, duke përdorur treguesit sezonal të njehsuar
më sipër) kundrejt variablit kohë t=1,2,..., 10. Për të dhënat jo-sezonale njehsojmë një
trend linear duke shfrytëzuar 10 vlerat e para të vrojtuara në lidhje me variablin kohë
t=1,2, ... ,10. Shënojmë l0 termin e lirë të ekuacionit të drejtëzës së regresit linear të
thjeshtë.
Vlera fillestare e rritjes
Për trendin aditiv, shënojmë b0 koeficientin pranë ndryshores së pavarur në ekuacionin
e drejtëzës së regresit. Për trendin multiplikativ shënojmë 0 1b
ba
, ku a tregon termin
e lirë dhe b tregon koeficientin pranë ndryshores së pavarur të trendit të përshtatur. Këto
vlera përmirësohen më vonë duke i vlerësuar së bashku me parametrat e tjerë të modelit.
27
2.5.2 Vlerësimi Për të ndërtuar modelin e përshtatshëm të serisë kohore duhet të vlerësohen parametrat
e modelit dhe gjendjet fillestare. Vlerësuesit e përgjasisë maksimale janë mjaft të
kërkuar për këto proçedura sepse janë të qëndrueshëm dhe asimptotikisht efiçentë nën
disa kushte të arsyeshme [Gallant 1987, fq. 357-391; Hamilton 1994, fq. 133-149]. Hyndman et al (2008, fq. 67-68) tregojnë se parametrat , , dhe vektori i gjendjeve
fillestare y0 mund të vlerësohen duke minimizuar:
* 2
0
1 1
( , ) log( ) 2 log | ( 1) |n n
t t
t t
L y n r y
(2.27)
ku, ( , , , ) ' ,0 0 0 0 1 1( , , , ,..., ) 'my l b s s s dhe n- numri i vrojtimeve të kryera.
Vlerësime alternative mund të përftohen duke minimizuar MSE (gabimin mesatar
katror), minimizimin e dispersionit të mbetjeve apo ndonjë kriteri tjetër i cili mat
gabimin e parashikimit.
Cilido prej kritereve që mund të përdoret zakonisht fillohet optimizimi me y0 sipas
skemës së mësipërme të propozuar nga Hyndman et al dhe (0.1,0.01,0.01,0.99) ' .
Ka disa sugjerime mbi kufizimet e parametrave , , . Përafrimi tradicional është të
sigurojë që ekuacionet e ndryshme të interpretohen si mesatare të lëvizshme, pra
kërkohet që * *, , ,1
të marrin vlera brenda intervalit (0,1). Kjo
sugjeron që: 0 1,0 ,0 1 ,0 1 . Megjithëse disa autorë pohojnë
se këto kufizime janë shpesh më shumë seç duhen.
2.6 Cilësia e parashikimit
Problemi i matjes së cilësisë së parashikimit të dhënë nga disa metoda të ndryshme ka
qënë subjekt që ka tërhequr vëmendjen e shumë studiuesve në fushën e serive kohore.
Një diskutim i plotë mbi këtë çështje jepet nga Hyndman dhe Koehler (2006). Ka tre
raste sipas të cilave mund të ketë lindur një parashikim:
1. Parashikimi mund të jetë përftuar nga një bazë vrojtimesh të zakonshme kohore. Pra,
bazuar mbi vrojtimet në momentet e kohës t=1, ... , n mund të përftohen parashikimet
me një periodë kohe pas momentit të kohës n.
2. Parashikimi mund të jetë përftuar nga vrojtime në baza të ndryshme kohore.
3. Mund të duam të krahasojmë cilësinë e metodave midis disa serive në një horizont
parashikimi të përbashkët.
Ndërkohë që këto janë situata të ndryshme, matja e cilësisë së parashikimit është e njëjtë
në secilin rast. Madhësitë e përmendura më poshtë në material janë përshkruar për
parashikimet me një hap përpara; përgjithësimi për h-hapa përpara është i
menjëhershëm në çdo rast dhe nuk con në pyetje të reja parimore.
2.6.1 Gabimet që varen nga shkallëzimi
Gabimi i parashikimit me një hap përpara është ˆe X Xt t t , pa i kushtuar vëmëndje
mënyrës se si është përftuar parashikimi. Në mënyrë të ngjashme gabimi i parashikimit
28
me h-hapa përpara është ˆ| |
e X Xt ht t h t ht
. Ky gabim është në të njëjtën shkallë
me vrojtimet. Madhësitë e cilësisë së parashikimit që bazohen në et varen nga
shkallëzimi.
Dy madhësitë më të përdorshme bazohen në gabimet absolute ose katrorët e gabimeve:
Gabimi mesatar absolut (MAE-Mean Absolute Error) = (| |)tmesatarja e
Gabimi mesatar katror (MSE-Mean Squared Error) = 2( )tmesatarja e
Kur krahasohen metodat parashikuese në të njëjtën seri, preferohet të përdoret si
madhësi krahasuese MAE duke qënë se është e lehtë për t’u kuptuar dhe njehsuar. Ajo
nuk mund të përdoret për të bërë krahasime midis serive sepse është e pakuptimtë të
krahasosh cilësinë në shkallë të ndryshme.
2.6.2 Gabimet përqindje (percentage errors)
Gabimi përqindje jepet nga 100tt
t
ep
y . Gabimet përqindje kanë përparësinë se janë të
pavarur nga shkalla, nuk kanë një shkallë natyrale dhe për këtë qëllim përdoren
kryesisht për të krahasuar performancën parashikuese midis serive kohore të ndryshme.
Madhësia më shumë e përdorshme është:
Gabimi përqindje mesatar absolut (MAPE-Mean Absolute Percentage Error) =
(| |)tmesatarja p
Madhësitë e bazuar në gabimet në përqindje kanë mangësinë e të qënit të pafundme apo
të papërcaktuara nëse yt =0 për ndonjë t në periudhën që interesohemi, dhe të pasurit e
një shpërndarje shumë asimetrike kur ndonjë vlerë e ytështë pranë zeros. Një problem
tjetër që neglizhohet me gabimet në përqindje është fakti se ato supozojnë vlera
pozitive. Për shembull, një gabim në përqindje nuk ka kuptim nëse matet cilësia e
parashikimeve të temperaturës në shkallët Celcius apo Fahrenheit.
Ato gjithashtu kanë mangësinë e penalizimit rëndë të gabimeve pozitive sesa atyre
negative. Ky konstatim çoi në përdorimin e të ashtuquajturës MAPE “simetrike” të
propozuar nga Makridakis (1993), e cila u përdor në konkurimin e M3 (Makridakis dhe
Hibon, 2000). Kjo madhësi përcaktohet si:
Gabimi- përqindje mesatar absolut (sMAPE) = ˆ ˆ(200 | | /( ))t t t tmesatarja y y y y
Nëse ty është zero atëherë ˆ
ty ka shumë mundësi të jetë shumë pranë zeros. Pra,
madhësia ende përmban pjestimin me një numër shumë pranë zeros. Gjithashtu vlera e
sMAPE mund të jetë negative, pra nuk është një madhësi e “gabimit- përqindje mesatar
absolut’.
2.6.3 Gabimet e shkallëzuar (scaled errors)
MASE u propozua nga Hyndman dhe Koehler (2006) si një madhësi e përgjithshme për
matjen e cilësisë së parashikimit. Ata propozuan të shkallëzojnë gabimet bazuar në in-
29
sample MAE nga metoda naive e parashikimit. Kështu një gabim i shkallëzuar
përkufizohet si:
1
2
1| |
1
tt n
i i
i
eq
y yn
dhe është i pavarur nga shkalla e vrojtimeve. Një gabim i shkallëzuar është më i vogël
se 1 nëse vjen nga një parashikim më i mirë se parashikimi naïve sipas mesatares për
një zgjedhje. Anasjelltas është më i madh se 1 nëse parashikimi është më i “keq” sesa
parashikimi naïve sipas mesatares për një zgjedhje.
Gabimi i mesatar absolut i shkallëzuar përcaktohet si:
MASE = (| |)tmesatarja q
MASE mund të përdoret për të krahasuar metoda të parashikimit në një seri të vetme
dhe për të krahasuar cilësinë e parashikimit midis serive duke qënë se ajo është scale-
free. Është i vetmi tregues që mund të përdoret në të gjitha rastet. Kur MAE<1, metoda
e propozuar jep gabime më të vogla se metoda naïve. MASE është më pak e ndjeshme
ndaj vlerave të huaja, e lehtë të interpretohet dhe pak e ndryshueshme për zgjedhje me
përmasë të vogël.
2.7 Përzgjedhja e modelit të parashikimit
Synimi në përzgjedhjen e modelit është gjetja e modelit me cilësi më të mira
parashikuese. Përzgjedhja e modelit me vlera të vogla të gabimeve apo minimizim të
vlerësuesit sipas metodës së përgjasisë maksimale nuk na siguron që modeli do të jetë
më i miri për parashikime.
Një mënyrë tjetër është përdorimi i një kriteri informacioni i cili në formën e
përgjithshme të tij shfaqet si:
0
ˆ2log ( , | ) ( )IC L y y q n (2.28)
ku, 0
ˆ( , | )L y y është funksioni i përgjasisë maksimale, q është numri i parametrave në
vektorin plus numri i gjendjeve të lira në0y , dhe ( )n është një funksion i përmasës
së zgjedhjes. Pra, ( )n është një penalitet që i shoqërohet një modeli për numrin e
parametrave dhe gjendjeve në model. 1
Tabela 2.2 përmbledh disa nga kriteret e informacionit dhe penalitetet përkatëse.
Tabela 2.2 Kriteret e informacionit
Kriteri ( )n Penaliteti Burimi
AIC 2 2q Akaike (1974)
BIC log(n) qlog(n) Schvarz(1978)
HQIC 2log(log(n)) 2qlog((log(n)) Hannan dhe quinn (1979)
AICc 2n/(n-q-1) 2qn/(n-q-1) Sugiura (1978)
LEIC c empirike qc Billah et al (2003)
1 Për më tepër informacion shiko Hyndman et al, 2008
30
Në kriterin e informacionit Akaike (AIC) (Akaike 1974), ( ) 2n dhe penaliteti
është2q. AIC rrjedh duke konsideruar parimet e përgjasisë maksimale dhe entropisë
negative. Le të supozojmë se duhet të parashikojmë vlerat e ardhshme të një serie
kohore *
1[ ,..., ]n n hy y y duke shfrytëzuar vlerat e tashme dhe të shkuara
1[ ,..., ]ny y y . Përzgjedhja e modelit mund të shihet si problemi i përafrimit të*( | )f y y , densiteti i vërtetë i kushtëzuar i *y kur dihet se y është vrojtuar. Nëse *( | )g y y është një vlerësues i f , mirësia e tij në përafrimin e f do të mund të matej
nëpërmjet entropisë së tij negative.
*
** *
*|
( | )( , ) ( | ) log
( | )y y
f y yI f g f y y dy
g y y
Parimi i entropisë negative është të përzgjedhë densitetin e përafruar g që minimizon
pritjen matematike të entropisë negative *|[ ( , )]
y yE I f g [Akaike, 1977]. Entropitë
negative të modeleve të ndryshme duhet të vlerësohen me qëllim gjetjen e vlerës
minimale të këtij treguesi. Kriteri i informacionit Akaike vlerëson dy herë entropinë
negative dhe është dizenjuar për të prodhuar një vlerësues simptotikisht të
pazhvendosur me rritjen e n-së. Pra, modeli i cili ka vlerën minimale të AIC duhet të
ketë gabim parashikues më të vogël për *y , të paktën asimptotikisht.
Në kriterin e informacionit Bejesian (BIC) [Schvarz, 1978], ( ) log( )n n dhe
penaliteti është log( )q n . Kriteri i Shvarz-it erdhi si zgjidhje bejesiane e problemit të
identifikimit të modelit. BIC është i qëndrueshëm sipas rendit (order consistent) nën
disa kushte të qëndrueshme. Një kriter është i qëndrueshëm sipas rendit nëse me rritjen
e vëllimit të zgjedhjes kriteri minimizohet në rendin e vërtetë me probabilitet që shkon
drejt 1. Për modelet tona rendi është numri i parametrave dhe gjendjeve të lira. Në
kontrast, AIC është kritikuar si i paqëndrueshëm dhe tenton të mbivlerësojë modelet.
Geweke dhe Meese (1981) e treguan këtë për modelet e regresit linear, Shibata (1976)
për modelet autoregresive dhe Hannan (1980) për modelet ARMA.
Në kriterin e informacionit Hannan–Quinn (HQIC) [Hannan dhe Quinn, 1979],
( ) 2log(log( ))n n dhe penaliteti 2 log(log( ))q n . Për të kuptuar më mirë qëllimin e
Hannan dhe Quinn le ta shkruajmë kriterin e informacionit (2.28) në formën Gausiane
të tij2:
2
1 1
log( ) 2 log | ( 1) | ( )n n
t t
t t
IC n r y q n
(2.29)
Duke pjestuar të dy anët me n:
2
1 1
2log( ) log | ( 1) |
n n
t t n
t t
IC r y qCn
ku, 1 ( )nC n n .
Synimi i Hannan dhe Quinn ishte të gjenin një kriter informacioni, bazuar në
minimizimin e IC, i cili të ishte i qëndrueshëm sipas rendit dhe për të cilin nC të
2Referenca Hyndman et al, 2008 (fq. 67-119)
31
zvogëlohej me ritme të shpejta. Pra, HQIC ka vetinë, ashtu sikurse BIC, e të qënit i
qëndrueshëm sipas rendit dhe i afrohet performancës optimale parashikuese të AIC-së.
Në kriterin e informacionit AIC me zhvendosje të korregjuar (AICc) [Sugiura 1978;
Hurvich dhe Tsai 1989], ( ) / ( 1)n n n q dhe penaliteti 2 / ( 1)qn n q . Ndërsa
BIC dhe HQIC janë të qëndrueshëm sipas rendit, ata nuk janë asimptotikisht eficentë
si AIC. Për më tepër AIC është një vlerësues përafërsisht i pazhvendosur dhe ka një
zhvendosje negative e cila bëhet më e theksuar me rritjen e raportit n/q. AICc është një
kriter informacioni asimptotikisht eficent i cili bën një rregullim të përafërt për këtë
zhvendosje negative, dhe ka treguar se jep modele më të mira për vëllime zgjedhje të
vogla.
2.8 Parashikimi automatik në R
Llogaritjet kërkojnë kohë dhe shpesh janë të dyshimta për modelin e përshtatur.
Përgjithësisht nuk ka një metodë e cila të performojë më mirë në çdo seri kohore. Për
seri kohore me cilësi të ndryshme ka metoda të ndryshme parashikimi që performojnë
në një mënyrë më efiçente.
Përdorimi i teknikave parashikuese në programin R kërkon instalimin e disa paketave
statistikore, ndër më kryesoret:expsmooth, Mcomp, fma, pastec, psych, Hmisc, nls2,
nlme, dynlm, dynamicGraph, lmtest, psplin3.
Autorët e diskutime më të fundit të metodave parashikuese dhe cilësive të modeleve
parashikuese, kanë dhënë kontributin e tyre në R duke ndërtuar algoritme të shpejtë dhe
eficentë, për gjetjen e një modeli optimal për parashikime.
Në vijim po prezantojmë disa aplikime të metodave të sheshimit eksponencial, sipas
Holt dhe Winters, në seritë kohore të prezantuara në fillim të 2.2. Tabela 2.3 paraqet
modelet e përzgjedhura nga algoritmi i implementuar në programin R nga Hyndman et
al.
Tabela 2.3 Modelet e sheshimit eksponencial (H-W) për seritë e lindjeve,
martesave, dëmeve, TFR
Koeficentët
e sheshimit
eksponecial
Sheshimi
Eksponencial
Sheshimi
Eksponencial
Sheshimi
Eksponencial
Sheshimi
Eksponencial
Seria kohore e
Lindjeve
Seria kohore e
Martesave
Seria kohore e
Demeve
Seria kohore e
TFR
alpha 0.7056884 0.09005282 0.03811473 0.0754692
beta 0 0.008497386 1 0.0129869
gamma 1 0.2841229 0.474314 0.269427
a 3072.05 1937.67 50314.02 1.48
b -15.14 -1.48 -6789.02 -0.005
s1 -358.08 474.26 -8266.27 -0.31
s2 -973.13 -393.77 -6027.03 0.035
3 Për detaje shiko http://CRAN.R-project.org/package=forecasting .
32
s3 -864.03 -605.76 -12843.05 0.83
s4 -788.39 -199.92 -25467.28 0.002
s5 -119.64 -339.72 -19386.51 0.40
s6 69.01 -678.93 -13212.71 0.88
s7 602.84 -602.16 -11531.83 0.96
s8 635.46 869.34 -8003.60 -0.36
s9 1227.89 63.67 -2911.02 0.26
s10 845.48 -280.71 -8856.43 0.43
s11 108.64 -571.86 6769.84 0.43
s12 -66.05 106.74 10453.52 -0.17
Tabela 2.3 pasqyron rezultatet e përftuara pas aplikimit të metodës së sheshimit
eksponencial, koeficientët , , si dhe koeficientët sezonal për secilin model.
Tabela 2.4 Modelet e sheshimit eksponencial sipas modelit ETS për seritë e lindjeve,
martesave, dëmeve, TFR
Koeficentët
e sheshimit
eksponecial
ETS(M,N,M) ETS(M,N,M) ETS(M,N,N) ETS(M,A,A)
Seria kohore
e Lindjeve
Seria kohore
e Martesave
Seria
kohore e
Demeve
Seria
kohore e
TFR
alpha 0.8342 0.0763 1.00E-04 0.8047
beta 1.00E-04
gamma 0.13 0.2689 1.00E-04
l 6733.5658 1966.065 60691.3694 3.5967
b 0.0653
sigma 0.093 0.1671 0.3856 0.2288
s1 0.8135 1.4666 -0.975
s2 0.8009 1.1128 -0.38
s3 0.957 1.1029 -0.231
s4 1.0173 1.0188 -0.047
s5 1.1204 0.9591 -0.315
s6 1.1891 0.9779 0.589
s7 1.1641 0.8209 0.759
s8 1.1566 0.821 0.534
s9 1.1072 0.8696 0.35
s10 0.9897 0.9254 0.529
s11 0.8408 0.8315 -0.279
s12 0.8786 1.0934 -0.533
ME -18.69 -11.006 -2.51 -0.084
RMSE 448.94 367.46 23398.3 0.63
MAE 325.43 261.89 18024.42 0.43
MPE -0.77 -4.16 -19.97 -7.1
MAPE 6.71 14.08 39.55 18.97
MASE 0.76 0.62 0.81 0.83
33
AIC 5181.51 5035.08 1006.06 1330.41
AICC 5183.05 5036.62 1006.36 1332.42
BIC 5232.79 5086.36 1009.53 1389.02
Ashtu sikurse u vu re, në paragrafët më sipër, në përllogaritjet e koeficientëve
përfshihen një numër i madh veprimesh. Por, me ndihmën e një softueri të specializuar
(në këtë punim është përdorur softueri R) rezultatet mund të përftohen shumë shpejt.
Metodologjia që kemi ndjekur në modelet e mësipërme është propozuar nga Hyndman
et al në konkurset e Makridakis et al (1982, 2000), dhe ka treguar se është shumë e mirë
për parashikimet afatshkurtër (deri në gjashtë perioda parashikimi) dhe në vecanti për
seri kohore me sezonalitet të pranishëm.
Në kapitujt në vijim do të ndërtojmë modele të tjera parashikimi dhe do t’i rikthehemi
këtyre modeleve për t’i krahasuar mbi bazën e treguesve të cilësisë.
Figura 2.8 paraqet grafikisht vlerat e reale të serisë së lindjeve në Shqipëri së bashku
me vlerat e përftuara nga sheshimi eksponencial dhe vlerat e parashikuara nga metoda
Holt-Winters. Për të ndërtuar këtë grafik është shfrytëzuar seria origjinale e vrojtimeve
për periudhën 1990-2005; seria origjinale me vlerat e vrojtuara për periudhën 2006-
2008 (kjo për qëllim krahasimi midis dy periudhave të ndryshme mbi të cilat janë
ndërtuar dy modelet). Vini re, nga grafiku ruajtjen e natyrës sezonale të serisë dhe vlerat
e përafërta me vlerat reale në periudhën ’06-’08, gjë që na bën të besojmë se modeli
mund të jetë i përshtatshëm për parashikime në periudhat në vijim.
Figura 2.8 Sheshimi dhe Parashikimi Holt-Winters (vija blu= vrojtimet reale për
periudhën ’90-‘05, vija e kuqe= vlerat e sheshuara dhe parashikimi bazuar në
vrojtimet e periudhës ’90-’05, vija lejla= vrojtimet reale për periudhën ’06-’08, vija
jeshile= parashikimi bazuar mbi vrojtimet në periudhën ’90-‘08)
Metoda e sheshimit eksponencial Holt-Winters e implementuar në programin R ofron
përveç vlerave të koefiçientëve të modelit optimal të përzgjedhur sipas alogritmit
Holt-Winters filtering
Time
Obs
erve
d / F
itted
1995 2000 2005 2010
2000
4000
6000
8000
34
automatik edhe paraqitjet grafike të vlerave origjinale të vrojtuara dhe vlerat e
parashikuara. Figura 2.9 paraqet aplikimin për katër seritë kohore të përmendura në 2.2.
Figura 2.9 Vlerat e parashikuara dhe intervalet e besimit sipas modeleve të sheshimit
eksponencial4
Le të rikthejmë vëmëndjen në dy modelet e sheshimit eksponencial të propozuara për
katër seritë e përmenduramë sipër. Grafikët në figurat në vijim tregojnë parashikimet
dhe intervalet e besimit për secilën seri kohore sipas dy metodave atë Holt-Winters dhe
ETS.
Figura 2.10 Parashikimi dhe intervalet e besimit 80% dhe 95% për serinë e
lindjeve sipas metodave Holt-Winters dhe ETS
4 Grafikët nga e majta në të djathtë janë: Seria e lindjeve ’85-’08, seria e martesave ’85-’08, seria e
demeve ’05-’08, seria e TFR ’85-‘08
Forecasts from ETS(M,N,M)
2007 2008 2009 2010 2011
10
00
30
00
50
00
70
00
Forecasts from HoltWinters
2007 2008 2009 2010 2011
02
00
04
00
06
00
0
Forecasts from HoltWinters
1985 1990 1995 2000 2005 2010
-2000
0
2000
6000
Forecasts from HoltWinters
1985 1990 1995 2000 2005 2010
500
1500
2500
3500
Forecasts from HoltWinters
2005 2006 2007 2008 2009 2010 2011
-5e+05
-3e+05
-1e+05
1e+05
Forecasts from HoltWinters
1985 1990 1995 2000 2005 2010
0
2
4
6
35
Të dy modelet (HW dhe ETS) e ndërtuara për secilën nga seritë kohore japin vlerësime
të parashikimit të përafërta dhe vlerësime intervalore gjithashtu të përafërta.
Figura 2.11 Parashikimi dhe intervalet e besimit 80% dhe 95% për serinë e
martesave sipas metodave Holt-Winters dhe ETS
Nga Figura 2.11 vihet re se metoda e sheshimit ETS ka gabime multiplikative (M), nuk
ka trend (N) dhe sezonaliteti është multiplikativ (M). Vlerat e parashikuara dhe
intervalet e besimit për periudhat pasardhëse janë të përafërta nga të dy modelet. Të dy
modelet ruajnë sezonalitetin e vrojtimeve.
Figura 2.12 Parashikimi dhe intervalet e besimit 80% dhe 95% për serinë e dëmeve
sipas metodave Holt-Winters dhe ETS
Nga Figura 2.12 vihet re se metoda e sheshimit ETS ka gabime multiplikative (M), nuk
e ruan trendin (N) dhe sezonalitetin (N). Parashikimi për periudhat pasardhëse është
vlera mesatare e vrojtimeve. Metoda Holt-Winters ruan trendin zbritës dhe jep një
parashikim i cili ruan trendin zbritës dhe sezonalitetin.
Forecasts from ETS(M,N,M)
2007 2008 2009 2010 2011
10
00
20
00
30
00
Forecasts from HoltWinters
2007 2008 2009 2010 2011
50
01
50
02
50
03
50
0
Forecasts from ETS(M,N,N)
2007 2008 2009 2010
2000
060
000
1000
0014
0000
Forecasts from HoltWinters
2007 2008 2009 2010
-2e+
05-1
e+05
0e+0
01e
+05
36
Figura 2.13 Parashikimi dhe intervalet e besimit 80% dhe 95% për serinë e TFR-së
sipas metodave Holt-Winters dhe ETS
Nga Figura 2.13 vihet re se metoda e sheshimit ETS për serinë e treguesit TFR ka
gabime multiplikative (M), trend aditiv (A) dhe sezonalitet aditiv (A). Intervali i besimit
për vlerat e parashikuara sipas metodës ETS është më i gjerë në periudhat në vijim
ndërsa sipas metodës Holt-Winters intervalet e besimit qëndrojnë pranë sjelljes
sezonale të modelit.
Forecasts from ETS(M,A,A)
2005 2007 2009 2011
05
10
Forecasts from HoltWinters
2005 2007 2009 2011
02
46
37
Kapitulli 3
Modelet SARIMA konsiderata dhe vlerësime. Simulimi i
modeleve ARIMA në programin R.
Në kapitullin 1 dhe 2, prezantuam autokorrelacionin dhe kros-korrelacionin si mjete
për të qartësuar lidhjet që mund të ndodhin brenda dhe midis serive kohore në lage të
ndryshëm. Gjithashtu trajtuam se si të ndërtojmë modele lineare bazuar në teorinë
klasike të regresit. Modelet që do të trajtojmë në këtë kapitull janë të përshtatshme kur
seritë kohore janë jo-stacionare dhe të shkurtëra.
Regresi klasik është shpesh i pamjaftueshëm për të shpjeguar gjithë dinamikën
interesante të një serie kohore. Modelet që do të trajtohen në këtë pjesë janë: modelet
autoregresive (AR), me mesatare të lëvizshme (MA), modelet autoregresive me
mesatare të lëvizshme (ARMA), modelet autoregresive me mesatare të lëvizshme të
integruar (ARIMA), modelet autoregresive me mesatare të lëvizshme të integruar dhe
me sezonalitet (SARIMA).
Seritë kohore mbi të cilat do të punohet janë seritë e përmendura në kapitujt paraardhës:
seria mujore e lindjeve, seria mujore e martesave, seria e dëmeve të kompanisë së
sigurimit, seria mujore e treguesit të fertilitetit TFR si dhe seria kohore e numrit të
difekteve ditore të një prej kompanive të telefonisë fikse në Shqipëri. Për këtë të fundit
është ndërtuar një model parashikimi i cili përshtatet me luhatshmërinë në një seri
kohore, modeli GARCH.
Modelet autoregressive (AR) u prezantuan për herë të parë nga Yule në vitin 1926 dhe
u pasuan më vonë nga Slutsky i cili në vitin 1937 prezantoi skemën e modeleve me
mesatare të lëvizshme (MA). Ishte Wold në vitin 1938, i cili kombinoi të dy skemat,
AR dhe MA, dhe tregoi se modelet ARMA mund të përdoren për të modeluar gjithë
seritë kohore stacionare për sa kohë që rendi p, numri i termave të AR-së, dhe rendi q,
numri i termave të MA-së ishin specifikuar saktësisht.
3.1 Modelet Autoregresive me Mesatare të Lëvizshme (ARMA)
3.1.1 Modelet Autoregresive (AR)
Në metodën klasike të regresit linear variabli i varur ndikohet nga vlerat e fundit të
variablit të pavarur. Në rastin e serive kohore ne dëshirojmë që variabli i varur të
ndikohet nga vlerat e shkuara të variablit të pavarur.
38
Modelet autoregresive bazohen në idenë se vlerat Xt të serisë kohore mund të
shpjegohen si një funksion i p vlerave të shkuara1 2, ,...,t t t pX X X
, ku p përcakton
numrin e hapave në të shkuarën që nevojiten për të parashikuar vlerën në momentin e
kohës t.
Përkufizim 3.1 Një model autoregresiv i rendit p, shkurt AR (p), është një model
i formës:
1 1 2 2 ...t t t p t p tX X X X w (3.1)
ku, tX është stacionar,
1 2, ,..., p janë konstante 0p dhe tw është një zhurmë e
bardhë Gausiane me pritje matematike zero dhe dispersion 2w
. Pritja matematike e
tX është zero. Nëse pritja matematike ( ) e tX nuk është zero, zëvendësojmë
tX
në (3.1) pra,
1 1 2 2( ) ( ) ... ( )t t t p t p tX X X X w
Ose mund ta shkruajmë:
1 1 2 2 ...t t t p t p tX X X X w (3.2)
ku, 1 2( ... )p .
Përkufizim 3.2 Operatori i zhvendosjes majtas (backshift) përcaktohet si vijon:
1t tBX X
ndërkaq: 2
1 2( )t t t tB X B BX BX X e kështu me radhë. Pra,
k
t t kB X X (3.3)
Mund të shkruajmë1t t tX X X duke përdorur operatorin B:
(1 )t tX B X (3.4)
ose:
2 2 2
1 2
(1 ) (1 2 )
2
t t t
t t t
X B X B B X
X X X
nga vetia e linearitetit të operatorit. Për ta kontrolluar mjafton të marrim diferencën e
rendit të dytë: 1 1 1 2( ) ( ) ( ) ( )t t t t t t tX X X X X X X
Përkufizim 3.3 Diferenca e rendit d përcaktohet nëpërmjet operatorit B si vijon:
(1 )d dB (3.5)
Kur d=1 shënojmë 1
39
Modeli AR (p) mund të shkruhet duke shfrytëzuar operatorin B:
2
1 2(1 ... )p
p t tB B B X w (3.6)
Ose, ndryshe:
( ) t tB X w (3.7)
ku Operatori autoregresiv ( )B është:
2
1 2( ) 1 ... p
pB B B B (3.8)
Midis modeleve AR (p) modeli i rendit të parë është ai kur p=1, 1t t tX X w .
Duke zëvendësuar në mënyrë iterative pas k herë përftojmë:
1 2 1
2
2 1
1
0
( )
...
t t t t t t
t t t
kk j
t k t j
j
X X w X w w
X w w
X w
Nëse | | 1 ne mund të shkruajmë një model AR (1) si një proces linear:
0
j
t t j
j
X w
(3.9)
Procesi AR (1) i përcaktuar në (3.9) është stacionar me pritje matematike:
0
( ) ( ) 0j
t t j
j
E X E w
dhe funksion autokovariancë:
0 0
22 2 2
20 0
( ) cov( , )
, 01
j j
t h t t h j t j
j j
hj j h h j w
w w
j j
h X X E w w
h
(3.10)
Kujtojmë vetinë e autokovariancës ( ) ( )h h , ndaj e shprehim për 0h . Nga (3.10)
mund të shkruajmë autokorrelacionin për AR(1):
( )( ) , 0
(0)
hhh h
Dhe ( )h kënaq barazimin: ( ) ( 1), 1,2,...h h h .
40
3.1.2 Simulimi i një procesi AR(p) në R
Softueri R mundëson simulimin e një procesi AR(p) nëse disponohet informacioni
bazë, pra1 2, ,..., p dhe
tw është një zhurmë e bardhë Gausiane me pritje matematike
zero dhe dispersion 2w
. Mjafton të instalohet nga cran-R paketa e parashikimit
forecast dhe të thërritet > library(forecast)
Le të provojmë të simulojmë një proces AR(1) me parametër 0,4 përmasë 100 dhe
të përftojmë një paraqitje grafike të tij.
Komandat që bëjnë të mundur këtë janë:
>plot(arima.sim(list(order=c(1,0,0),ar=0.4),n=100),ylab="x",main=(exp
ression("+ AR(1) "*phi*" =+.4")),col="blue",lwd=2)
Figura 3.1 Model AR(1) i simuluar me 0.4 , n=100
Dhe një model AR(1) me vlerë të parametrit negativ 0.4 do të përftohej nga
komanda:
>plot(arima.sim(list(order=c(1,0,0),ar=-.4),n=100),ylab="x",
+main=(expression("AR(1)"*phi*" =-0.4")),col="blue",lwd=2)
Figura 3.2 Model AR(1) i simuluar me 0.4 , n=100
AR(1) =+.4
Time
x
0 20 40 60 80 100
-3-2
-10
12
3
AR(1) =-0.4
Time
x
0 20 40 60 80 100
-2-1
01
23
41
Natyrshëm lind pyetja: A ekziston një proces AR(1) me | | 1 stacionar ? Procese të
tilla quhen “eksplozive” sepse vlerat e serisë kohore rriten shumë shpejt. Është e qartë
se nëse | | j rritet pafundësisht ndërsa j ,1
0
kj
t j
j
w
nuk do të konvergjojë kur
k , kështu që intuita e përdorur për të përftuar (3.11) nuk funksionon në mënyrë
të drejtpërdrejtë. Megjithëse mund të modifikohet duke përftuar një model stacionar.5
3.1.3 Modelet me Mesatare të Lëvizshme (MA)
Përkufizim 3.4 Një model me mesatare të lëvizshme i rendit q, shkurt MA(q),
përcaktohet si:
1 1 2 2 ...t t t t q t qX w w w w (3.11)
ku 1 2, ,..., ( 0)q q janë parametra. Zhurma
tw supozohet një zhurmë e bardhë
Gausiane.6
Përkufizim 3.5 Operatori i mesatares së lëvizshme është:
2
1 2( ) 1 ... q
qB B B B (3.12)
Ndryshe nga procesi autoregresiv, procesi me mesatare të lëvizshme është stacionar për
çdo vlerë të parametrave1 2, ,..., q .
Trajta e modelit të mesatares së lëvizshme duke përdorur operatorin do të ishte:
( )t tX B w
Le të fillojmë investigimin e modeleve MA duke konsideruar modelin e rendit të parë,
MA(1), i cili jepet në formën1t t tX w w . Duke vepruar si në AR(1) (këtu veprimet
janë më të thjeshta pasi MA është funksion i zhurmës së bardhë) përftojmë
autokovariancën e procesit:
2 2
2
(1 ) , 0
( ) cov( , ) , 1
0, 1
w
t h t w
h
h X X h
h
(3.13)
Dhe funksioni autokorrelacion për MA(1) është:
2, 1
( ) 1
0, 1
hh
h
(3.14)
5Time Series Analysis and it’s Applications in R. Shumway, David Stoffer, 2006, fq.88-89 6Disa tekste apo softuere e shkruajnë procesin MA me koeficientë negativ:
...1 1 2 2X w w w wt t q t qt t
42
Vini re, | (1) | 1/ 2 për çdo vlerë të parametrit . Gjithashtu Xtështë e korreluar me Xt-
1 por jo me 2 3, ,...t tX X
. Ndryshe nga modeli AR(1), në të cilin korrelacioni midis Xt
dhe Xt-k nuk është kurrë zero, ajo që vihet re për MA(1) është fakti për vlera pozitive
të parametrit Xt dhe Xt-1 janë pozitivisht të korreluara dhe për vlera negative të
parametrit janë negativisht të korreluara, për më tepër vlera e autokorrelacionit në
vlerë absolute është e njëjtë. Gjithashtu vlera e autokorrelacionit për procesin MA(1)
është e njëjtë për dhe1/ .
3.1.4 Simulimi i një procesi MA(q) në R
Softueri R mundëson simulimin e një procesi MA(q) nëse disponohet informacioni
bazë, pra1 2, ,..., q dhe
tw është një zhurmë e bardhë Gausiane me pritje matematike
zero dhe dispersion 2w
.
Le të provojmë të simulojmë një proces MA(1) me parametër 0.6 , përmasë 100
dhe të përftojmë një paraqitje grafike të tij.
Komandat që bëjnë të mundur këtë janë:
>plot(arima.sim(list(order=c(0,0,1),ma=+.6),n=100),ylab="x",main=(exp
ression("MA(1) "*theta*" =0.6")),col="blue",lwd=2)
Figura 3.3 Model MA(1) i simuluar me 0.6 , n=100
Dhe një model MA(1) me parametër 0.6 dhe n=100 do të përftohej nga
komanda:
>plot(arima.sim(list(order=c(0,0,1),ma=.6),n=100),ylab="x",main=(expr
ession("MA(1) "*theta*" =-0.6")),col="blue",lwd=2)
MA(1) =0.6
Time
x
0 20 40 60 80 100
-3-1
13
43
Figura 3.4 Model MA(1) i simuluar me 0.6 , n=100
Vini re, seria e simuluar në Figurën 3.3 ( 0.6 ) është më e sheshuar se seria e simuluar
në Figurën 3.4 ( 0.6 ).
3.1.5 Modelet Autoregresive me Mesatare të Lëvizshme (ARMA)
Përkufizim 3.6 Një seri kohore { ; 0, 1, 2,...}tX t është proces autoregresiv
me mesatare të lëvizshme, ARMA(p,q) nëse është stacionar dhe:
1 1 2 2 1 1 2 2... ...t t t p t p t t t q t qX X X X w w w w
(3.15)
me 0, 0p q dhe 2 0w . Parametrat p dhe q quhen përkatësisht parametra
autoregresive dhe mesatare të lëvizshme. Nëse Xt ka pritje matematike të ndryshme nga
zero , shënojmë1(1 ... )p dhe e shkruajmë modelin si:
1 1 2 2 1 1 2 2... ...t t t p t p t t t q t qX X X X w w w w (3.16)
Për sa më sipër { ; 0, 1, 2,...}tw t është një zhurmë e bardhë Gausiane.
Modeli ARMA mund të shkruhet duke përdorur operatorët e modeleve autoregresive
(AR) dhe me mesatare të lëvizshme (MA). Në veçanti për një model ARMA(p,q) trajta
do të ishte:
( ) ( )t tB X B w
(3.17)
Për një proces ARMA(p,q), përcaktuar si në (3.17), ku zerot e ( )z janë jashtë rrethit
njësi, mund të shkruajmë:
0
t j t j
j
X w
Nga kjo rrjedh se ( ) 0tE X . Gjithashtu funksioni autokovariancë për tX mund të
shkruhet:
MA(1) =-0.6
Time
x
0 20 40 60 80 100
-20
12
3
44
2
0
( ) cov( , ) , 0t h t w j j h
j
h X X h
(3.18)
Për një proces ARMA(p,q) funksioni autokovariancë kënaq barazimin7:
1( ) ( 1) ... ( ) 0, max( , 1)ph h h p h p q (3.19)
Me kushte fillestare,
2
1
( ) ( ) , 0 max( , 1)p q
j w j j h
j j h
h h j h p q
(3.20)
Duke pjestuar (3.19) dhe (3.20) me (0) do të na lejojë të njehsojmë ACF-në,
( ) ( ) / (0)h h .
Shembull 3.1 ACF për një proces ARMA(1,1)
Le të konsiderojmë një proces ARMA(1,1) 1 1t t t tX X w w ku | | 1 .
Bazuar në (3.19) funksioni autokovariancë kënaq barazimin:
( ) ( 1) 0, 2,3,...h h h
Pra zgjidhja e përgjithshme është ( ) , 1,2,3,...hh c h . Për të përftuar kushtet
fillestare shfrytëzojmë (3.20):
2 2
2
(0) (1) [1 ]
(1) (0)
w
w
Duke e zgjidhur sistemin në lidhje me të panjohurat (0), (1) , përftojmë:
22
2
2
2
1 2(0)
1
(1 )( )(1)
1
w
w
Për të gjetur vlerën e c-së, vini re (1) c , nga e cila rrjedh (1) /c . Pra, zgjidhja
e përgjithshme është:
2 1
2
(1 )( )( )
1
h
wh
Duke pjestuar të dy anët me (0) përftojmë fuknsionin autokorrelacion për procesin
ARMA(1,1):
7 Për detaje shiko Shumway dhe Stoffer, (2008)
45
(3.21)
3.1.6 Simulimi i një procesi ARMA(p,q) në R
Komanda për simulimin e një procesi ARMA(p,q) në R është një gërshetim i dy
komandave të mësipërme për simulimin e modeleve AR dhe MA. Komandat më poshtë
japin paraqitjet grafike të simulimit të tre proceseve të thjeshtë ARMA(1,1) me
parametra të ndryshëm , .
>plot(arima.sim(list(order=c(1,0,1),ar=-0.8,ma=-0.7),n=100),ylab="x",
+main=(expression("ARMA(1,1) "*phi*"=-0.8 "*theta*" =-0.7")),
+col="blue",lwd=2)
>plot(arima.sim(list(order=c(1,0,1),ar=-0.1,ma=-0.2),n=100),ylab="x",
+main=(expression("ARMA(1,1) "*phi*"=-0.1 "*theta*" =-0.2")),
+col="blue",lwd=2)
>plot(arima.sim(list(order=c(1,0,1),ar=0.8,ma=0.7),n=100),ylab="x",ma
in=(expression("ARMA(1,1) "*phi*"=0.8 "*theta*"
=0.7")),col="blue",lwd=2)
ARMA(1,1) =-0.8 =-0.7
Time
x
0 20 40 60 80 100
-6-2
2
ARMA(1,1) =-0.1 =-0.2
Time
x
0 20 40 60 80 100
-20
2
ARMA(1,1) =0.8 =0.7
Time
x
0 20 40 60 80 100
-6-2
2
1
2
(1 )( )( ) , 1
1 2
hh h
46
Figura 3.5 Modele ARMA(1,1) të simuluar në R me n=100
3.1.7 Modelet ARIMA
Në paragrafët paraardhës vrojtuam se nëse tX është njëendje e rastit,
1t t tX X w ,
duke diferencuar tX , zbuluam se
t tX w është stacionar. Në shumë situata mund të
mendohet se seria kohore kompozohet nga dy përbërëse, një përbërëse trendi jo-
stacionar dhe një përbërëse stacionare me pritje matematike zero. Për shembull
konsiderojmë procesin:
t t tX Y (3.18)
ku, 0 1t t dhe
tY stacionar. Duke diferencuar në të do të përftojmë një proces
stacionar:
1 1 1 1t t t t t tX X X Y Y Y (3.19)
Një tjetër model i cili çon në diferencat e para është rasti kur t në (3.18) është një
proces stokastik që ndryshon me ngadalë sipas një endje të rastit:
1t t tv
ku, tv është stacionar. Në këtë rast,
t t tX v Y
është stacionar. Nëse t në (3.18) është një polinom i rendit k,
0
kj
t j
j
t
, atëherë
seria e diferencuar k
tX është stacionare.
Modelet stokastike me trend të pranishëm mund të çojnë në rende më të larta
diferencimi. Për shembull, le të supozojmë në (3.18) : 1t t tv dhe 1t t tv v e
ku te është stacionare. Nëse kryejmë diferencën e rendit të parë,
t t tX v Y ky
proces nuk është stacionar, por nëse kryejmë diferencën e rendit të dytë, 2 2
t t tX e Y , atëherë procesi përftojmë një proces stacionar.
Modelet e integruara ARMA, apo ARIMA, janë një zgjerim i klasës së modeleve
ARMA për të përfshirë diferencimin.
Përkufizim 3.7 Një seri kohore { ; 0, 1, 2,...}tX t është një proces
ARIMA(p,d,q) nëse
(1 )d d
t tX B X është ARMA(p,q). Në përgjithësi modeli mund të
shkruhet si:
47
( )(1 ) ( )d
t tB B X B w (3.20)
Nëse ( )d
tE X modeli mund të shkruhet si:
( )(1 ) ( )d
t tB B X B w
ku, 1(1 ... )p .
3.1.8 Ndërtimi i Modeleve ARIMA
Për të përshtatur një model ARIMA ndiqen disa hapa. Këto hapa përfshijnë ndërtimin
grafik të të dhënave, transformim i të dhënave, identifikimin e rendit të varësisë së
modelit, vlerësimin e parametrave, diagnostikimin dhe zgjedhjen e modelit.
a) Transformimet
1) Diferencimi
Së pari, ashtu sikurse me çdo analizë të dhënash, duhet të ndërtojmë një grafik kohor të
të dhënave dhe të inspektojmë grafikun për anomali. Nëse në të dhënat vrojtohet trend
atëherë transformimi i diferencimit mund të jetë i përshtatshëm. Diferenca e rendit të
parëështë një shembull i një filtri linear i cili aplikohet për të eliminuar trendin. Të tjera
filtra, të formuara nga mesatarja e vlerave pranëtX , mund të prodhojnë seri të
rregulluara të cilat kanë eleminuar të tjera luhatje.Teknnika e diferencimit është një
përbërëse e rëndësishme e modeleve ARMA të Box dhe Jenkins (1970)8.
Një alternativë tjetër e diferencimit, e quajtur diferencim thyesor (fractional
differencing) zgjeron nocionin e operatorit të diferencimit (3.5) në fuqi thyese -0.5<d
< 0.5, të cilat gjithashtu përcaktojnë procese stacionar. Modele ku aplikohet diferencimi
i pjesshëm i përkasin fushës së serive kohore mjedisore (hidrologji).9
2) Logaritmimi
Një tjetër transformim i përdorshëm është logaritmi natyror:
lnt tY X (3.21)
i cili ka një tendencë të shtypë luhatjete mëdha mbi pjesë të serisë.
Gjithashtu një transformim mund të sugjerohet në varësi të aplikimit të tij. Për
shembull, nëse marrim në konsideratë një situatë ekonomike në fushën e investimeve
do të mund të shkruanim:
1(1 )t t tX p X ,
8Për detaje shiko Box et al.,1994 9Për detaje shiko Granger dhe Joyeux (1980), Hosking (1981)
48
ku, tX është vlera e investimit në momentin e kohës t dhe ptështë ndryshimi në
përqindje nga momenti i kohës t-1 nët, e cila mund të jetë dhe negative. Duke
logaritmuar të dy anët kemi:
1ln( ) ln(1 ) ln( )t t tX p X
ose, [ln( )] ln(1 )t tX p
Nëse ndryshimi i përqindjes së investimit, pt, qëndron në vlera relativisht të vogla,
atëherë ln(1 )t tp p dhe kështu,
[ln( )]t tX p
do të jetë njëproces relativisht i qëndrueshëm. Shpesh [ln( )]tX quhet norma e rritjes.
Si një shembull i transformimeve më sipër le të shohim serinë e lindjeve në Shqipëri
(1985-2008). Vlerat e mëdha të serisë shfaqin luhatje të konsiderueshme krahasuar me
vlerat e ulëta.
Figura 3.6 paraqet serinë kohore të numrit të lindjeve për muaj në Shqipëri, serinë
kohore të transformuar sipas logaritmit natyror dhe serinë e transformuar sipas
diferencave të para të logaritmit natyror të serisë reale.
Figura 3.6 Transformimet e serisë kohore të Lindjeve në Shqipëri (1985-2008)
Vini re luhatjet të cilat pas transformimit të parë (logaritmit) bëhen më uniforme si në
vlerat e mëdha ashtu edhe në ato të vogla të serisë. Pas transformimit të dytë (diferencat
e logaritmit), grafiku i tretë në Figurën 3.6, mund ta konsiderojmë serinë e transformuar
si një model të përshtatshëm stacionar.
Seria e lindjeve, 1985-2008
Time
X0
1985 1990 1995 2000 2005
2000
5000
8000
Seria e transformuar duke logaritmuar
Time
X0
1985 1990 1995 2000 2005
7.8
8.4
9.0
Seria e transformuar duke diferencuar vlerat e logaritmuara
Time
X0
1985 1990 1995 2000 2005
-0.4
0.2
0.6
49
Shënim: Të tjera transformime përveç atyre të përmendura më sipër mund të aplikohen
në seritë kohore, përmendim këtu: ngritjen në fuqi, zbritjen e një konstanteje apo çdo
kombinim i transformimeve kryesore.
3) Transformimet fuqi (Box-Cox)
Nëse, për shembull, ndryshueshmeria në grafik rritet me rritjen e kohës, mund të jetë e
nevojshme të transformohen të dhënat me qëllim stabilizimin e dispersionit. Në raste të
tilla mund të përdoren transformimet fuqi Box-Cox të cilat u prezantuan nga Box dhe
Cox (1964). Për një vlerë të dhënë të parametrit , transformimi përcaktohet në
formën:
( 1), 0
ln , 0
t
t
t
X
Y
X
(3.22)
Metoda për të përzgjedhur fuqinë propozohen nga Johnson dhe Wichern (1992).
Transformimet përdoren gjithashtu për të përmirësuar përafrimin me normalitetin apo
për të përmirësuar linearitetin e parashikimit. Termi tX është pjesa më e rëndësishme
e shprehjes së parë, por zbritja me 1 dhe pjestimi me e bën tY të ndryshojë në mënyrë
të zbutur kur 0 . Në fakt një llogaritje e thjeshtë tregon se ndërsa 0 ,
( 1)ln( )t
t
XX
. Vini re se, vlera e 1/ 2 i korrespondon një transformimi rrënjë
katrore të përdorshëm për të dhënat që ndjekin një shpërndarje puasoniane, dhe 1
i korrespondon një transformimi reciprok.
Transformimet e fuqive aplikohen vetëm në të dhëna me vlera pozitive. Nëse ndonjë
prej vlerave është negative apo zero, atëherë mund t’u shtohet një konstante pozitive të
gjitha vlerave për t’i bërë ato pozitive dhe më pas të kryhet transformimi. Kjo konstante
përgjithësisht zgjidhet subjektivisht. Për shembull në të dhëna në fushën e biologjisë
shfaqja e zerove trajtohet shpesh duke shtuar një konstante të njëjtë me vlerën më e
vogël pozitive të vrojtuar ndër gjithë vlerat e vrojtuara.
mund të konsiderohet si një parametër shtesë që duhet vlerësuar në model.
Megjithëse një vlerësim i saktë i parametrit shpesh nuk është i garantuar. Vlerat
fillestare të cilat mund të mjaftojnë dhe kanë domethënie intuitive propozohen
0, 1, 1/ 2, 1/ 3, 1/ 4 . Programe kompjuterik (duke përfshirë ketu R) ofrojnë
mundësitë e marrjes në konsideratë të disa vlerave të parametrit .10
b) Funksionet autokorrelacion (ACF) dhe autokorrelacion i pjesshëm (PACF)
Pas transformimit të përshtatshëm të të dhënave, hapi tjetër është identifikimi i vlerave
fillestare të rendeve autoregresive, p, rendin e diferencimit, d, rendin e mesatares
sëlëvizshme, q. Në paragrafët e mësipërm kemi përmendur disa mënyra për të
përzgjedhur rendin e diferencimit d. Një grafik i serisë kohore sugjeron nëse nevojitet
apo jo një diferencim. Nëse ka nevojë për diferencim atëherë diferencojmë të dhënat
duke filluar nga rendi më i vogël, d=1, dhe inspektojmë serinë e tX . Nëse vëmë re se
10Funksioni në R për transformimet Box-Cox :> BoxCox.ar(data)
50
nevojitet një tjetër diferencim atëherë provojmë të diferencojmë sërisht dhe
inspektojmë grafikun e të dhënave 2
tX . Duhet të kemi kujdes të mos rrisim shumë
rendin e diferencimit pasi kjo mund të shfaqë varësi aty ku nuk ekziston. Për shembull,
t tX w është e pakorreluar, por 1t t tX w w është një MA(1).
Së bashku me grafikun e serisë kohore grafiku i autokorrelacionit të zgjedhjes mund të
ndihmojë nëse diferencimi është i nevojshëm. Duke qënë se ( )(1 )dz z është një
polinom me rrënjë njësi, ACF-ja e zgjedhjes, ˆ( )h , me rritjen e h-së nuk do të zbresë
me shpejtësi drejt zeros. Pra, një zbritje e ngadaltë e ˆ( )h është një tregues për nevojën
e diferencimit.
Kur është caktuar vlera paraprake e d-së, hapi pasues është të vrojtohet ACF-ja dhe
PACF-ja e zgjedhjes për serinë d
tX për çfarëdo vlera të d-së që janë zgjedhur. Tabela
3.1 tregon se si mund të përzgjidhen vlerat fillestare të p dhe q.
Tabela 3.1 Sjellja e ACF dhe PACF për modelet kryesore të serive kohore
AR(p) MA(q) ARMA(p,q)
ACF
Zvogëlim të vlerave të
autokorrelacionit
(tails off)
Zhdukje të
autokorrelacionit
pas lagut q
(cut off after lag p)
Zvogëlim të
vlerave të
autokorrelacionit
(tails off)
PACF
Zhdukje të autokorrelacionit
pas lagut p
(cut off after lag p)
Zvogëlim të vlerave
të autokorrelacionit
(tails off)
Zvogëlim të
vlerave të
autokorrelacionit
(tails off)
Nëse p=0 dhe q>0, ACF-ja zhduket pas lagut q dhe PACF zvogëlon vlerat deri në
zhdukje. Nëse q=0 dhe p>0, PACF-ja zhduket pas lagut p dhe ACF-ja zvogëlon vlerat
deri në zhdukje. Nëse p>0 dhe q>0 së bashku ACF-ja dhe PACF-ja do të zhduken.
Konceptet e zhdukjes (cut off) dhe zvogëlimit deri në zhdukje (tail off) të ACF-së dhe
PACF-së nuk do të jenë të qarta për sa kohë ne jemi duke konsideruar vlerësues.
Gjithashtu dy modele që në dukje janë të ndryshëm mund të jenë shumë të ngjashëm
realisht. Duke patur këtë parasysh nuk duhet të jemi shumë në merak për të qënë të
saktë në këtë fazë të përshtatjes së modelit. Në këtë fazë duhet të kemi në dorë disa
vlera fillestare të p, q dhe d.
Në kapitullin 1 kemi parë se për një MA(q) vlera e ACF-së për lage më të mëdhenj se
q është zero. Dhe për më tepër, duke qënë se 0q , ACF-ja nuk do të ketë vlerën zero
në lagun q. Në këtë mënyrë ACF-ja ofron një informacion të konsiderueshëm për rendin
e varësisë kur procesi është një proces mesatare e lëvizshme. Nëse procesi është ARMA
apo AR, vetëm ACF-ja na ofron një informacion të vogël për rendin e varësisë. Për këtë
arsye do të ishte mirë të studionim një funksion i cili do të sillej si ACF-ja e modeleve
51
MA, por për modelet AR, ky funksion u quajt funksioni autokorrelacion i pjesshëm
(PACF).
Për të përcaktuar saktë PACF-në e serive kohore stacionare me pritje matematike zero,
le të shënojmë, 1h
hX , kombinimin linear të 1 2 1{ , ,..., }h hX X X
që minimizon
12
1
( )h
h j j
j
E X X
. Pra, mund të shënojmë:
1
1 1 2 2 1 1...h
h h h hX X X X
(3.23)
Në (3.23) nuk nevojitet term i lirë pasi pritja matematike etX është zero.
Në mënyrë të ngjashme për 0X do të shënonim:
1
0 1 1 2 2 1 1...h
h hX X X X
(3.24)
Koeficientët 1 2 1, ,..., h
janë të njëjtët në (3.23) dhe (3.24)
Përkufizim 3.8 Funksioni autokorrelacion i pjesshëm (PACF) i një serie
kohore stacionare { ; 0, 1, 2,...}tX t , shënohet hh , për h=1,2,... është
11 1 0( , ) (1)corr X X (3.25)
dhe
1 1
0 0( , ), 2h h
hh h hcorr X X X X h (3.26)
Të dyja 1( )h
h hX X dhe 1
0 0( )hX X janë të pakorreluara me 1 2 1( , ,..., )hX X X
.
Nga stacionariteti i serisë mund të pohojmë se PACF-ja, hh , është korrelacioni midis
tX dhet hX
, nga i cili është “hequr” pjesa e korrelacionit që vjen nga ndikimi i
1 2 ( 1)( , ,..., )t t t hX X X . Ky ndikim modelohet varësia më e mirë lineare e tX nga
1 2 ( 1)( , ,..., )t t t hX X X . Nëse
tX është një proces Gausian atëherë,
1 ( 1)( , | ,..., )t t h t t hhhcorr X X X X .
Shembull 3.1 PACF-ja e një AR(1)
Le të konsiderojmë njëproces AR(1) të dhënë në trajtën:1 ,| | 1t t tX X w . Sipas
përkufizimit të PACF-së, 11 (1) . Për të njehsuar22 , konsiderojmë regresin e X2
në varësi të X1, 2
1
1X X . Zgjedhim për të minimizuar:
2 2
2 1( ) (0) 2 (1) (0)E X X
52
Duke derivuar dhe barazuar me zero do të përftojmë: (1) / (0) (1) . Pra,
2
1
1X X . Në vazhdim konsiderojmë regresin eX0 në varësi të X1, 0
1
1X X .
Zgjedhim për të minimizuar:
2 2
0 1( ) (0) 2 (1) (0)E X X .
Ky është i njëjti ekuacion si më parë, pra dhe 1
0 1X X .
Duke bërë zëvendësimet përftojmë: 22 2 1 0 1( , )corr X X X X .
Kujtojmë, ( ) (0) hh ndaj 2
2 1 0 1cov( , ) (2) 2 (1) (0) 0X X X X
dhe nga kjo mund të shkruajmë:22 0 .
Për rastin e një procesi AR(p), p>1 do të kemi: 22 0 për çdo h>1.
Shembull 3.2 PACF-ja e një MA(1)
Le të konsiderojmë një proces MA(1) në trajtën1,| | 1t t tX w w . Duke kryer të
njëjtat llogaritje si në shembullin më sipër do të përftojmë: 2 2 4
22 / (1 ) . Për
një MA(1) në përgjithësi mund të tregohet se:
2
2( 1)
( ) (1 ), 1
1
h
hh hh
.
Në lidhje me sjelljen e fuknsioneve ACF dhe PACF të modeleve kryesore mund të
pohojmë se:
PACF-ja e modeleve MA ka një sjellje të ngjashme me ACF-në e modeleve AR.
ACF-ja e modeleve AR ka një sjellje të ngjashme me PACF-në e modeleve MA.
Duke qënë se një model ARMA mund të shprehet si një AR e pafundme, PACF-ja e saj
nuk do të zhduket.
Shembull 3.3 Grafikët e ACF-së dhe PACF-së për modelet AR(1), AR(2), MA(1),
MA(2), ARMA(1,1), ARMA(1,2) të simuluara në R
0 5 10 15 20
-0.2
0.2
0.6
1.0
Lag
AC
F
ACF per AR(1), phi=0.3
5 10 15 20
-0.2
0.0
0.2
Lag
Pa
rtia
l A
CF
PACF per AR(1), phi=0.3
53
Figura 3.7 Grafikët e ACF dhe PACF për disa modele të simuluara në R
0 5 10 15 20
-0.5
0.0
0.5
1.0
Lag
AC
F
ACF per AR(2), phi1=0.3, phi2=-0.8
5 10 15 20
-0.8
-0.4
0.0
Lag
Pa
rtia
l A
CF
PACF per AR(2), phi1=0.3, phi2=-0.8
0 5 10 15 20
-0.2
0.2
0.6
1.0
Lag
AC
F
ACF per MA(1), theta=0.3
5 10 15 20
-0.2
0.0
0.1
0.2
Lag
Pa
rtia
l A
CF
PACF per MA(1), theta=0.3
0 5 10 15 20
-0.5
0.0
0.5
1.0
Lag
AC
F
ACF per MA(2), theta1=0.3,theta2=-0.85
5 10 15 20
-0.6
-0.2
0.0
0.2
Lag
Pa
rtia
l A
CF
PACF per MA(2), theta1=0.3,theta2=-0.85
0 5 10 15 20
-0.2
0.2
0.6
1.0
Lag
AC
F
ACF per ARMA(1,1), phi1=0.2, theta=-0.85
5 10 15 20
-0.4
-0.2
0.0
0.2
Lag
Pa
rtia
l A
CF
PACF per ARMA(1,1), phi1=0.2, theta=-0.85
54
Shembull 3.4 Grafikët e ACF-së dhe PACF-së për modelet e serive kohore të
shembujve të marra në kapitullin 1
Le të shohim grafikisht ACF dhe PACF për seritë e përmendura në kreun 1.
Figura 3.8 Grafikët e ACF dhe PACF për seritë reale (në R)
0.0 0.5 1.0 1.5 2.0
0.0
0.4
0.8
Lag
AC
F
ACF e zgjedhjes per serine e lindjeve '85-'08
0.5 1.0 1.5 2.0
-0.2
0.2
0.6
Lag
Pa
rtia
l A
CF
PACF e zgjedhjes per serine e lindjeve '85-'08
0.0 0.5 1.0 1.5 2.0
-0.2
0.2
0.6
1.0
Lag
AC
F
ACF e zgjedhjes per serine e martesave '85-'08
0.5 1.0 1.5 2.0
-0.2
0.0
0.2
0.4
Lag
Pa
rtia
l A
CF
PACF e zgjedhjes per serine e martesave '85-'08
0.0 0.2 0.4 0.6 0.8 1.0 1.2
-0.2
0.2
0.6
1.0
Lag
AC
F
ACF e zgjedhjes per serine e demeve
0.2 0.4 0.6 0.8 1.0 1.2
-0.3
-0.1
0.1
0.3
Lag
Pa
rtia
l A
CF
PACF e zgjedhjes per serine e demeve
0.0 0.5 1.0 1.5 2.0
0.0
0.4
0.8
Lag
AC
F
ACF e zgjedhjes per serine e TFR
0.5 1.0 1.5 2.0
-0.2
0.2
0.6
Lag
Pa
rtia
l A
CF
PACF e zgjedhjes per serine e TFR
55
Komandat në R për të përftuar paraqitjet grafike të ACF-së dhe PACF-së për seritë me
të dhëna mbi Shqipërinë gjenden në shtojcën 2.
Duke u nisur nga paraqitja grafike e funksioneve të autokorrelacionit dhe
autokorrelacionit të pjesshëm mund të supozojmë disa modele të mundshme të serive
të mësipërme.
Interpretime:
Seria mujore e lindjeve
Duke vrojtuar grafikun e ACF për serinë e lindjeve mund të vëmë re vlera të
autokorrelacionit të cilat nuk zvogëlohen drejt zeros me rritjen e lagut por kanë një
sjellje “valore”. Kjo tendencë e ACF-së tregon se seria e lindjeve nuk është një seri
kohore stacionare (kjo vihet re edhe nga grafiku i ndërtuar në kapitullin 1, për më tepër
ajo shfaq dhe trend i cili do të ndikojë në përcaktimin e koeficientit d). Sjellja e PACF-
së, e cila ndryshon nga ACF-ja, tregon se modeli i cili mund t’i përshtatet kësaj serie
është një model i kombinuar ARIMA. Një rritje e menjëhershme e autokorrelacionit të
pjesshëm në lagun 1 propozon një koeficient autoregresioni p=1. Ndërsa një zvogëlim
i ngadaltë i PACF-së gërshetuar me sjelljen “valore” të ACF-së propozon një term
mesatare të lëvizshme. Një rend diferencimi, d=1 mund t’i aplikohet modelit, gjithashtu
rendet fillestare të koeficientëve autoregresiv dhe mestatare të lëvizshme nuk duhet të
jenë të mëdhenj. Kësaj serie mund t’i propozohet një model ARIMA (p,d,q), ku vlerat
e parametrave mund të fillohen nga (1,1,1).
Seria mujore e martesave
Grafiku i ACF-së për serinë e martesave tregon një sjellje jo shumë të dukshme “valore”
me vlera të cilat zvogëlohen drejt zeros. Kjo tendencë e ACF-së tregon se seria e
martesave nuk është një seri kohore stacionare (kjo do të ndikojë në përcaktimin e rendit
d). Vlera të alternuara të ACF-së, pozitive dhe negative, si dhe zvogëlim i ngadaltë drejt
zeros tregojnë një model autoregresiv. Sjellja e PACF-së, tregon një zvogëlim të
ngadaltë të vlerave të autokorrelacionit të pjesshëm në lage, vlera e autokorrelacionit
në lagun 1 propozon një rend mesatare të lëvizshme. Modeli për serinë kohore të
martesave mund të jetë një model ARIMA(p,d,q).
Seria mujore e dëmeve
Duke vëzhguar grafikun e ACF-së për serinë e dëmeve mund të shohim qartë se vlera
e autokorrelacionit fillojnë të zvogëlohen drejt zeros, ato qëndrojnë brenda intervalit të
besimit. Shuarja e vlerave të autokorrelacionit në mënyrë të alternuar (vlera pozitive
dhe negative) propozon një proces autoregresiv. Për të supozuar rendin e procesit mund
të vrojtohet lagu në të cilin vlerat autokorrelacionit të pjesshëm, PACF-së, pëson një
rritje të menjëhershme. Në grafikun e PACF-së së dëmeve kjo rritje e menjëhershme
vihet re pranë lagut 1. Kjo propozon një model AR(1) për serinë e dëmeve. Sigurisht
duke qënë se të dhënat janë mujore dhe për një periudhë të konsiderueshme duhet të
merret në konsiderate edhe një parametër sezonal në modelin që do t’i përshtatet serisë.
Seria mujore e TFR
Nga grafiku i ACF-së vihet re një sjellje sinusoidale e vlerave të autokorrelaciont të
serisë së TFR-së. Kjo sjellje propozon një model i cili shfaq sjellje periodike (një
parametër periodik do të jetë i pranishëm në model). Gjithashtu meqënëse vlerat e ACF-
së nuk bien drejt zeros në mënyrë të menjëhershme kjo nënkupton një seri jo-stacionare.
Jo-stacionariteti (prania e trendit) i serisë i propozon modelit një term diference d (rendi
56
mund të përcaktohet pas disa testeve, rekomandohet të fillohet me d=1). Sjellja
sinusoidale e ACF-së e kombinuar me një zvogëlim të ngadaltë të vlerave të PACF-së
tregon praninë e një rendi të modelit me mesatare të lëvizshme. Pra modeli që mund të
propozohet për serinë e TFR do të jetë një model ARIMA(0,d,q) me sezonalitet të
pranishëm.
Shembull 3.5 ACF për serinë e lindjeve pas dy transformimeve të kryera
Figura 3.9 ACF pas stacionarizimit të serisë së lindjeve
Vini re zvogëlimin e vlerave të autokorrelacionit për serinë e lindjeve pas transformimit
të dytë (diferencim i vlerave të logaritmuara të serisë reale).
Duke vrojtuar formën dhe sjelljen e ACF-së dhe PACF-së, ajo çka këshillohet në
përshtatjen e modelit është: të niset puna duke supozuar modele me rende të ulëta,
(p,q,d), dhe të kontrollohet shkalla e përshtatjes së modelit me të dhënat reale duke
përdorur teste statistikore apo tregues mbi gabimet.
c) Grafikët Lag (Lag-plot)
Për një seri kohore një grafik lag është një teknikë grafike për të përcaktuar nëse
ekziston një strukturë autokorrelacioni brenda serisë. Për dy seri kohore një grafik lag
është një teknikë grafike e cila përdoret për të përcaktuar nëse ekzistojnë struktura
kros-korrelacioni midis dy serive kohore.
Idealisht ( për një proces zhurmë të bardhë apo dy seri kohore të pakorreluara), grafiku
lag duhet të ketë pamjen e një tabele qitje me goditje të ç’rregullta.
Për një seri kohore grafiku lag përbëhet nga:
0.0 0.5 1.0 1.5 2.0
0.0
0.4
0.8
Lag
AC
F
X0
0.0 0.5 1.0 1.5 2.0
0.0
0.4
0.8
Lag
AC
F
X0
0.0 0.5 1.0 1.5 2.0
-0.2
0.2
0.6
1.0
AC
F
X0
57
Boshti vertikal= Xi
Boshti horizontal=Xi+lagu
Për dy seri kohore grafiku lag përbëhet nga:
Boshti vertikal= Yi
Boshti horizontal=Xi+lagu
Ndërtimi i grafikëve lag bëhet më i ndërlikuar dhe kërkon kohë me rritjen e rendit të
modelit. Softuere statistikor bëjnë përllogaritjen e vlerave të autokorrelacionit (për një
seri kohore) në pak sekonda duke afishuar paraqitjen grafike menjëherë më pas. Në R
komandat që ofrojnë ndërtimin e grafikëve lag janë zbatuar në shembujt e serive reale
të përmendura në kreun 1.
Shembull 3.6 Grafikët lag për seritë kohore të kapitullit 1
Kodi në R që bën të mundur afishimin e grafikëve lag gjendet në sajtin e poshtë shënuar 11.
Seritë kohore të marra në shqyrtim janë seritë mujore të: lindjeve, martesave, dëmeve
dhe TFR.
Komandat për secilën seri kohore dhe grafikët lag sipas renditjes së mësipërme janë
paraqitur më poshtë.
Komandat në R:
> lag.plot1(Ls,9,corr=TRUE,smooth=TRUE)
> lag.plot1(Ms,9,corr=TRUE,smooth=TRUE)
> lag.plot1(Demets,9,corr=TRUE,smooth=TRUE)
> lag.plot1(TFR,9,corr=TRUE,smooth=TRUE)
11Më tepër informacion: http://www.stat.ualberta.ca/~wiens/stat479/R%20scripts/itall.R
2000 4000 6000 8000
2000
5000
8000
Ls(t-1)
Ls(t
)
0.93
2000 4000 6000 8000
2000
5000
8000
Ls(t-2)
Ls(t
)
0.84
2000 4000 6000 8000
2000
5000
8000
Ls(t-3)
Ls(t
)
0.75
2000 4000 6000 8000
2000
5000
8000
Ls(t-4)
Ls(t
)
0.65
2000 4000 6000 8000
2000
5000
8000
Ls(t-5)
Ls(t
)
0.58
2000 4000 6000 8000
2000
5000
8000
Ls(t-6)
Ls(t
)
0.55
2000 4000 6000 8000
2000
5000
8000
Ls(t-7)
Ls(t
)
0.56
2000 4000 6000 8000
2000
5000
8000
Ls(t-8)
Ls(t
)
0.6
2000 4000 6000 8000
2000
5000
8000
Ls(t-9)
Ls(t
)
0.67
58
Figura 3.10 a) Grafiku lag për serinë kohore të lindjeve (lagu=9)
Siç edhe vihet re nga grafikët lag për serinë kohore të lindjeve autokorrelacioni i
brendshëm i serisë është i rëndësishëm. Vlerat e autokorrelacionit në lage janë larg
zeros.
Figura 3.11 b) Grafiku lag për serinë kohore të martesave (lagu=9)
Grafikët lag për serinë kohore të martesave tregojnë një shpërndarje të rastësishme të
pikave dhe vlera të autokorrelacionit të ulëta krahasuar me serinë kohore të lindjeve.
Pra, ashtu sikurse pohuam edhe më sipër nëpërmjet analizimit të ACF dhe PACF kjo
seri nuk shfaq autokorrelacion të brendshëm.
500 1500 2500 3500
500
2000
3500
Ms(t-1)
Ms(t
)
0.38
500 1500 2500 3500
500
2000
3500
Ms(t-2)
Ms(t
)
0.06
500 1500 2500 3500
500
2000
3500
Ms(t-3)
Ms(t
)
0.09
500 1500 2500 3500
500
2000
3500
Ms(t-4)
Ms(t
)
0.14
500 1500 2500 3500
500
2000
3500
Ms(t-5)M
s(t
)
-0.07
500 1500 2500 3500
500
2000
3500
Ms(t-6)
Ms(t
)
-0.29
500 1500 2500 3500
500
2000
3500
Ms(t-7)
Ms(t
)
-0.09
500 1500 2500 3500
500
2000
3500
Ms(t-8)
Ms(t
)
0.08
500 1500 2500 3500
500
2000
3500
Ms(t-9)
Ms(t
)
0.02
59
Figura 3.12 c) Grafiku lag për serinë kohore të dëmeve (lagu=9)
Ky grafik është një rast i pastër i mungesës së autokorrelacionit të serisë kohore. Vini
re shpërndarjen e rastësishme të pikave dhe vlerat koresponduese të autokorrelacionit
për çdo lag.
Figura 3.13 d) Grafiku lag për serinë kohore të TFR (lagu=9)
20000 60000 100000 140000
20000
80000
140000 Demets(t-1)
Dem
ets
(t)
0.28
20000 60000 100000 140000
20000
80000
140000 Demets(t-2)
Dem
ets
(t)
-0.02
20000 60000 100000 140000
20000
80000
140000 Demets(t-3)
Dem
ets
(t)
0.18
20000 60000 100000 140000
20000
80000
140000 Demets(t-4)
Dem
ets
(t)
0.12
20000 60000 100000 14000040000
100000
Demets(t-5)
Dem
ets
(t)
-0.15
20000 60000 100000 140000
40000
100000
Demets(t-6)
Dem
ets
(t)
0.03
20000 60000 100000 140000
40000
100000
Demets(t-7)
Dem
ets
(t)
0.19
20000 60000 100000 140000
40000
100000
Demets(t-8)
Dem
ets
(t)
-0.14
20000 60000 100000 140000
40000
100000
Demets(t-9)
Dem
ets
(t)
0.05
1 2 3 4 5 6 7
12
34
56
7
TFR(t-1)
TF
R(t
)
0.64
1 2 3 4 5 6 7
12
34
56
7
TFR(t-2)
TF
R(t
)
0.42
1 2 3 4 5 6 7
12
34
56
7
TFR(t-3)
TF
R(t
)
0.3
1 2 3 4 5 6 7
12
34
56
7
TFR(t-4)
TF
R(t
)
0.2
1 2 3 4 5 6 7
12
34
56
7
TFR(t-5)
TF
R(t
)
-0.01
1 2 3 4 5 6 7
12
34
56
7
TFR(t-6)
TF
R(t
)
-0.09
1 2 3 4 5 6 7
12
34
56
7
TFR(t-7)
TF
R(t
)
-0.04
1 2 3 4 5 6 7
12
34
56
7
TFR(t-8)
TF
R(t
)
0.16
1 2 3 4 5 6 7
12
34
56
7
TFR(t-9)
TF
R(t
)
0.26
60
Vlerat e autokorrelacionit për seritë kohore të TFR-së janë të rëndësishme vetëm në
laget e para. Në laget pasues këto vlera shkojnë në zbritje dhe të alternuara i afrohen
zeros.
Paraqitjet grafike lag për seritë kohore janë të rëndësishme por njëherëshi për lage të
mëdha ato e rëndojnë grafikun dhe bëhen të vështira për t’u analizuar. Në R ofrohet një
tjetër funksion i gatshëm për përllogaritjen e autokorrelacionit në lage të mëdhenj,
acf2() në paketën astsa.
Nëse intersohemi të shohim ecurinë e autokorrelacionit dhe autokorrelacionit të
pjesshëm të serisë kohore në lage të mëdhenj atëherë aplikimi i këtij funksioni do të
bëjë të mundur afishimin e vlerave, ACF dhe PACF, për çdo lag si dhe paraqitjet grafike
të ACF dhe PACF. Duhet të kemi kujdes që numri i lageve të mos kalojë numrin e
vëzhgimeve.
Komandat në R dhe rezultatet për secilin lag (1-30):
Lindjet Martesat Dëmet TFR
> acf2(Ls,30)
ACF PACF
[1,] 0.93 0.93
[2,] 0.84 -0.15
[3,] 0.75 -0.09
[4,] 0.65 -0.07
[5,] 0.58 0.14
[6,] 0.55 0.24
[7,] 0.56 0.19
[8,] 0.60 0.24
[9,] 0.67 0.24
[10,] 0.75 0.19
[11,] 0.81 0.14
[12,] 0.84 0.03
[13,] 0.81 -0.29
[14,] 0.76 0.06
[15,] 0.68 -0.05
[16,] 0.60 -0.02
[17,] 0.54 0.04
[18,] 0.50 -0.05
[19,] 0.50 0.07
[20,] 0.54 0.08
[21,] 0.61 0.05
[22,] 0.67 -0.06
[23,] 0.71 -0.12
[24,] 0.73 0.02
[25,] 0.70 -0.13
[26,] 0.65 -0.02
[27,] 0.58 -0.01
[28,] 0.50 0.00
[29,] 0.45 -0.02
[30,] 0.41 -0.02
> acf2(Ms,30)
ACF PACF
[1,] 0.38 0.38
[2,] 0.06 -0.10
[3,] 0.09 0.12
[4,] 0.14 0.08
[5,] -0.07 -0.18
[6,] -0.29 -0.23
[7,] -0.09 0.11
[8,] 0.08 0.09
[9,] 0.02 0.01
[10,]-0.04 0.02
[11,] 0.20 0.20
[12,] 0.61 0.50
[13,] 0.25 -0.19
[14,] 0.03 -0.01
[15,] 0.01 -0.15
[16,] 0.12 0.06
[17,]-0.07 -0.05
[18,]-0.25 0.03
[19,]-0.08 0.04
[20,] 0.12 0.13
[21,]-0.01 -0.13
[22,]-0.04 0.09
[23,] 0.20 0.10
[24,] 0.47 0.07
[25,] 0.20 -0.06
[26,] 0.02 0.00
[27,] 0.00 -0.03
[28,] 0.07 -0.05
[29,]-0.07 0.05
[30,]-0.26 -0.08
> acf2(Demets,30)
ACF PACF
[1,] 0.28 0.28
[2,] -0.02 -0.11
[3,] 0.18 0.24
[4,] 0.12 -0.02
[5,] -0.15 -0.17
[6,] 0.03 0.12
[7,] 0.19 0.10
[8,] -0.14 -0.20
[9,] 0.05 0.25
[10,] -0.04 -0.34
[11,] -0.19 0.01
[12,] -0.20 -0.12
[13,] 0.09 0.16
[14,] -0.01 -0.06
[15,] -0.01 0.20
[16,] 0.13 -0.16
[17,] -0.10 -0.04
[18,] -0.08 -0.03
[19,] -0.09 -0.09
[20,] -0.11 -0.14
[21,] -0.15 0.13
[22,] 0.11 -0.07
[23,] -0.06 -0.11
[24,] -0.31 -0.23
[25,] -0.12 0.00
[26,] -0.06 -0.02
[27,] -0.19 -0.04
[28,] -0.18 -0.13
[29,] 0.10 0.03
[30,] 0.02 0.03
> acf2(TFR,30)
ACF PACF
[1,] 0.64 0.64
[2,] 0.42 0.01
[3,] 0.30 0.05
[4,] 0.20 -0.02
[5,] -0.01 -0.25
[6,] -0.09 0.01
[7,] -0.04 0.10
[8,] 0.16 0.35
[9,] 0.26 0.16
[10,] 0.35 0.13
[11,] 0.50 0.23
[12,] 0.65 0.26
[13,] 0.54 0.00
[14,] 0.41 0.04
[15,] 0.25 -0.09
[16,] 0.17 0.03
[17,]-0.03 -0.16
[18,]-0.09 0.01
[19,]-0.05 0.04
[20,] 0.14 0.14
[21,] 0.20 -0.04
[22,] 0.29 -0.03
[23,] 0.45 0.10
[24,] 0.55 0.03
[25,] 0.44 -0.06
[26,] 0.33 0.01
[27,] 0.22 -0.01
[28,] 0.15 0.03
[29,]-0.03 -0.07
[30,]-0.11 -0.03
3.1.9 Vlerësimi i Parametrave për Modelet ARMA (p, q)
Përgjatë këtij sesioni do të supozojmë se kemi n vrojtime, 1 2, ,..., nX X X , nga një proces
Gausian ARMA(p,q) i kthyeshëm në të cilin parametrat e rendeve, p dhe q, janë
fillimisht të njohur. Qëllimi është vlerësimi i parametrave të modelit2
1 2 1, ,..., , ,..., ,p q w . Problemi i përcaktimit të rendeve u trajtua më sipër dhe do të
vazhdojnë në kapitujt në vijim (teknika Box-Jenkins).
61
Ka disa metoda vlerësimi për parametrat, dy më kryesoret dhe më të përdorshmet janë:
metoda e momenteve dhe metoda e përgjasisë maksimale. Në këtë pjesë do të
shqyrtojmë metodën e momenteve për vlerësimin e parametrave të modelit ARMA. Do
të supozojmë 0 . Le të konsiderojmë rastin kur kjo metodë jep vlerësime optimal
(eficente), rasti AR(p).
Në paragrafët më sipër forma e një procesi AR(p) ishte:
1 1 2 2 ...t t t p t p tX X X X w
Në këtë rast duke ndërtuar p+1 ekuacionet e (3.19) dhe (3.20), h=0,1,...,p, gjenden:
Ekuacionet e Yule-Walker:
1( ) ( 1) ... ( ), 1,2,...,ph h h p h p
2
1(0) (1) ... ( ).w p p
Duke përdorur shënimet matricore, ekuacionet Yule-Walker shkruhen:
2, (0) ' ( ),p p w p (3.27)
ku, , 1{ ( )}p
p j kk j është një matricë pxp, 1 2( , ,..., ) 'p është një vektor px1
dhe ( (1),..., ( )) 'p p është një vektor px1. Duke zbatuar metodën e momenteve,
zëvendësojmë ( )h në (3.27) me ˆ( )h (funksioni autokorrelacion i zgjedhjes) dhe duke
e zgjidhur:
1 2 ' 1ˆ ˆ ˆˆ ˆ ˆ ˆˆ, (0)p p w p p p (3.28)
Këta vlerësues quhen vlerësues Yule-Walker. Për qëllime llogaritëse disa herë është më
e përshtatshme të punohet me ACF-në e zgjedhjes.
Duke faktorizuar (0) në (3.28) mund të shkruajmë vlerësuesit Yule-Walker:
1 2 ' 1 'ˆ ˆˆ ˆˆ ˆ ˆ ˆ ˆ ˆˆ, (0)[1 ] (0)[1 ]p p w p p p pR R (3.29)
ku, , 1
ˆ ˆ{ ( )}p
p j kR k j është një matricë pxp dhe ˆ ˆ ˆ( (1),..., ( )) 'p p është një vektor
px1.
Për proceset AR(p) nëse vëllimi i zgjedhjes është i madh, vlerësuesit Yule-Walker janë
përafërsisht të shpërndarë normalish dhe 2ˆw është shumë pranë vlerës reale 2 w .
62
Veti 3.1 Vëllime të mëdha të zgjedhjes dhe vlerësuesit Yule-Walker
Sjellja asimptotike ( n ) e vlerësuesve Yule-Walker për rastin e proceseve të
rastësishme AR(p) është si vijon:
2 1 2 2ˆ ˆ( ) (0, ), pd
w p w wn N (3.30)
Veti 3.2Për njëproces të rastësishëm AR(p), kur n , kemi:
ˆ (0,1), d
hhn N h p (3.31)
Shembull 3.7 Vlerësimi i parametrave për njëproces AR(2) nëpërmjet vlerësuesve
Yule-Walker
Në shembullin 3.3 simuluam një proces AR(2) me n=100 vlera dhe vlera të
parametrave 1 20.3, 0.8 . Pra modeli i simuluar do të shkruhej (në faqen e punës
në R është ruajtur me emrin ar2):
1 2 20.3 0.8t t t tX X X w
ku, ~ (0,1)tw N janë të pavarura. Për këto vlera të serisë së simuluar njehsojmë vlerat
e autokovariancës dhe autokorrelacionit nëpërmjet programit R.
Mënyra e parë
Mund të shfrytëzojmë funksionet e gatshme në R për të kryer veprimet llogaritëse.
Vlera e autokovariancës në lagun zero është vlera e dispersionit të serisë së simuluar:
> var(ar2)
[1] 2.248947
Pra, autokovarianca në lagun zero është ˆ(0) 2.25 .
Ndërsa vlerat e autokorrelacionit të zgjedhjes në lagun 1 dhe 2 i gjejmë duke shfrytëzuar
funksionin acf2 në R:
> acf2(ar2,2)
ACF PACF
[1,] 0.20 0.20
[2,] -0.67 -0.74
Pra, ˆ ˆ(1) 0.20; (2) 0.67 . Duke kryer veprimet përftojmë:
1 1
1
2
ˆ ˆ ˆ1 (1) (1) 1 -0.2 0.20 0.34782ˆ
ˆ ˆ ˆ(1) 1 (2) -0.2 1 0.67 0.73946
dhe,
63
20.34782
ˆˆ ˆ ˆˆ (0)[1 ( (1), (2)) ] 2.24895[1 (0.20, 0.67) ] 0.97830.73946
w
Duke shfrytëzuar vetinë 3.1 matrica asimptotike e variancë-kovariancës për :
1 12 ˆ1 (1) 1 -0.20 0.0435 -0.00087ˆ1 1 0,9783
ˆˆ (1) 1 -0.20 1 -0.00087 0.0435(0) 100 2.24895
w
n
mund të shfrytëzohet për të gjetur intervalet e besimit për parametrat e . Për shembull
në shembullin më sipër intervalet e besimit për parametrat e modelit AR(2) do të jenë:
1
2
ˆ 0.34789 2 0.0435;0.34789 2 0.0435 0.0692;0.765
ˆ 0.73946 2 0.0435; 0.73946 2 0.0435 0.3223; 1.15
Vini re, vlerat e vlerësuara janë shumë pranë vlerave reale të modelit si dhe intervalet
e besimit i përfshijnë këto vlera.
Mënyra e dytë
Veprimet e mësipërme mund t’i thjeshtonim duke përdorur softuerin R për të afishuar
rezultatet e vlerësuesve Yule-Walker për modelin AR(2). Komandat që do ndiqeshin
në R dhe rezultatet e afishuara janë:
> ar2.yw=ar.yw(ar2,order=2)
> ar2.yw
Call:
ar.yw.default(x = ar2, order.max = 2)
Coefficients:
1 2
0.3512 -0.7393
Order selected 2 sigma^2 estimated as 0.9983
Shënim: Ndryshimet në vlerat e llogaritura sipas mënyrës së parë dhe mënyrës së dytë
vijnë si rezultat i rrumbullakimeve.
Vlerësuesit Yule-Walker të përftuar për modelet AR(p) janë vlerësues optimal, kjo
sepse modelet AR janë modele lineare dhe vlerësuesit Yule-Walker janë në themel
vlerësues të metodës së katrorëve më të vegjël. Nëse përdorim metodën e momenteve
për modelet MA dhe ARMA nuk do të përftojmë vlerësues optimal sepse procese të
tilla nuk janë linear në lidhje me parametrat.
Për të tilla modele propozohen metoda të tjera vlerësuesish të parametrave si për
shembull ajo e përgjasisë maksimale. Veprimet për vlerësimin e parametrave të
modeleve të mësipërme nëpërmjet metodës së përgjasisë maksimale janë të gjata dhe
të vështira, kërkojnë kujdes në përllogaritje. Në shembullin 3.7 ne do të prezantojmë
64
aplikimin e kesaj metode nëpërmjet softuerit R. Funksioni i cili bën të mundur
aplikimin e metodës së përgjasisë maksimale në R për një model AR është:
> ar.mle(data,order)
Nëse e aplikojmë këtë funksion në serinë e simuluar në Shembullin 3.6, AR(2),
rezultatet që do japë metoda e përgjasisë maksimale janë:
> ar2.mle=ar.mle(ar2,order=2)
> ar2.mle
Call:
ar.mle(x = ar2, order.max = 2)
Coefficients:
1 2
0.3496 -0.7371
Order selected 2 sigma^2 estimated as 0.9495
Vlerat e përllogaritura janë të përafërta me metodën e momenteve.
Një tjetër funksion në R i cili afishon informacion mbi modelin, përfshirë këtu edhe
vlerësimin e parametrave, është:
>ar(ARp,order.max=p,AIC=F,method=”yw”)# vlerësuesit Yule-walker
>ar(ARp,order.max=p,AIC=F,method=”ols”)#vlerësuesit sipas metodës së
katrorëve
>ar(ARp,order.max=p,AIC=F,method=”mle”)# vlerësuesit sipas metodës së
përgjasisë maksimale
Të zbatuara në serinë e simuluar më sipër (ar2) do përftonim këto rezultate:
> ar(ar2,order.max=2,AIC=F,method="yw")
Call:
ar(x = ar2, order.max = 2, method = "yw", AIC = F)
Coefficients:
1 2
0.3512 -0.7393
Order selected 2 sigma^2 estimated as 0.9983
> ar(ar2,order.max=2,AIC=T,method="ols")
Call:
ar(x = ar2, order.max = 2, method = "ols", AIC = T)
Coefficients:
65
1 2
0.3491 -0.7421
Intercept: 0.02104 (0.09878)
Order selected 2 sigma^2 estimated as 0.9561
> ar(ar2,order.max=2,AIC=F,method="mle")
Call:
ar(x = ar2, order.max = 2, method = "mle", AIC = F)
Coefficients:
1 2
0.3496 -0.7371
Order selected 2 sigma^2 estimated as 0.9495
Shembull 3.8 Vlerësimi i parametrave për një proces ARIMA(p,d,q) nëpërmjet
funksioneve të gatshme në R
Metoda e momenteve nuk është e përshtatshme për modelet MA. Le ta shohim këtë fakt
duke shqyrtuar modelin MA(1),1t t tX w w për të cilin dimë se:
1 21
dhe duke zëvendësuar
1 1r (1r është funksioni autokorrelacion i
zgjedhjes) zgjidhim ekuacionin e gradës së dytë në lidhje me . Nëse 1| | 0.5r atëherë
dy rrënjët e ekuacionit janë:
1 1
1 11
2 4r r
Prodhimi i dy rrënjëve është gjithmonë i barabartë me 1; për këtë arsye vetëm njëra nga
zgjidhjet kënaq kushtin e kthyeshmërisë | | 1 .
Pas disa veprimeve të thjeshta algjebrike shohim se vlerësuesi i parametrit mund të
shkruhet:
2
1
1
1 1 4ˆ2
r
r
Nëse: 1 0.5r atëherë ekzistojnë zgjidhje reale të parametrit .
Nëse: 1| | 0.5r atëherë nuk ekzistojnë zgjidhje reale të parametrit dhe kështu metoda e
momenteve dështon në përpjekjen për të gjetur një vlerësues të parametrit .
Le të shqyrtojmë modelin MA(2) të simuluar në shembullin 3.3:
66
> ma2=arima.sim(list(order=c(0,0,2),ma=c(0.3,-0.85)),n=100)
Nëse njohim vlerat e vrojtuara dhe rendin e modelit atëherë një nga funksionet i cili bën
të mundur përshtatjen e një modeli duke vlerësuar parametrat e tij është:
> arima(data,order=c(p,d,q))
Nëse e aplikojmë komandën e mësipërme në modelin e simuluar MA(2) rezultati që do
përftojmë do të jetë:
> arima(ma2,order=c(0,0,2))
Call:
arima(x = ma2, order = c(0, 0, 2))
Coefficients:
ma1 ma2 intercept
0.1477 -0.6834 0.0369
s.e. 0.0774 0.0752 0.0567
sigma^2 estimated as 1.414: log likelihood = -159.96, aic = 327.91
Vlerësimet e afishuara nga funksioni arima në R japin vlera të parametrave të përafërt
me vlerat reale të parametrave të serisë.
Nëse aplikojmë të njëjtin funksion për serinë e simuluar në shembullin 3.7, AR(2),
rezultatet janë të njëjta me vlerat e afishuara nga metoda e përgjasisë maksimale.
Një mangësi që ka funksioni arima() është fakti se ai kërkon informacion mbi llojin e
modelit dhe duke e shfrytëzuar këtë informacion kryen përllogaritjet statistikore për
vlerësimin e parametrave të modelit.
Të tjera funksione që cilësojnë metodën e vlerësimit të parametrave (CSS apo ML)
janë:
> arima(ma2,order=c(0,0,2),method="CSS")# CSS,metoda e katrorëve më të
vegjël
Series: ma2
ARIMA(0,0,2) with non-zero mean
Coefficients:
ma1 ma2 intercept
0.1479 -0.6917 0.0377
s.e. 0.0750 0.0744 0.0558
sigma^2 estimated as 1.432: part log likelihood=-159.84
> arima(ma2,order=c(0,0,2),method="ML")# ML,metoda e përgjasisë
maksimale
Series: ma2
67
ARIMA(0,0,2) with non-zero mean
Coefficients:
ma1 ma2 intercept
0.1477 -0.6834 0.0369
s.e. 0.0774 0.0752 0.0567
sigma^2 estimated as 1.414: log likelihood=-159.96
AIC=327.91 AICc=328.33 BIC=338.33
Por në jetën reale shpesh përballemi me seri kohore të cilave nuk ia njohim natyrën. Në
këtë rast një tjetër funksion i R-së bën të mundur vlerësimin e parametrave të modelit
pa patur informacion mbi rendin e modelit apo llojin e tij, ky është funksioni
auto.arima(). Për serinë e simuluar MA(2) ky funksion afishon rezultatet e
mëposhtëme:
> auto.arima(ma2)
Series: ma2
ARIMA(0,0,2) with zero mean
Coefficients:
ma1 ma2
0.1549 -0.6766
s.e. 0.0764 0.0741
sigma^2 estimated as 1.42: log likelihood=-160.16
AIC=326.32 AICc=326.57 BIC=334.14
Nëse do arsyetonim për modelin më të mirë një tregues është kriteri i informacionit
AIC. Në kapitullin 2 ne trajtuam disa nga kriteret të cilat mund të përdoren për të
përzgjedhur modelin më të përshtatshëm. Një prej tyre ishte kriteri i informaccionit
Akaike (AIC). Vlera sa më të vogla të AIC-së tregojnë përshtatshmëri më të lartë të
modelit. Në rastin e MA(2) modeli më i përshtatshëm është ai i propozuar nga funksioni
auto.arima(), sepse vlera e AIC-së (AIC=326.32) është më e vogël se vlera e AIC-së
në modelin e propozura nga funksioni arima()(AIC = 327.91).
Shembull 3.9 Vlerësimi i parametrave për seritë kohore reale, Funksioni
auto.arima()
Formulat përllogaritëse për të vlerësuar parametrat e modelve ARIMA(p,d,q)
vështirësohen me rritjen e rendeve të modelit. Kështu përshembull për një model të
thjeshtë ARMA(1,1) formulat përllogaritëse duke përdorur metodën e momenteve do
të ishin:
1
2
(1 )( ), 1
1 2
h
h h
68
Vëmë re se: 2 2
1 1
ˆ r
r
. Duke zgjidhur ekuacionin: 1 2
ˆ ˆ(1 )( )
ˆ1 2r
në lidhje
me parametrin mund të gjejmë një vlerësues për të.
Ashtu sikurse e përmendëm më sipër një ndër paketat që bën të mundur përdorimin e
funksionit auto.arima() në R, është paketa forecast(). Rezultatet që afishon ky funksion
pas aplikimit në një seri kohore janë:
- rendet e modelit (p,d,q)
- parametrat e modelit
- dispersioni i vlerësuar
- statistika të mirësisë së modelit të vlerësuar
Pas aplikimit të këtij funksioni në seritë kohore reale të prezantuara në kapitullin 1
modelet e propozuara janë:
1) Seria e lindjeve
> auto.arima(Ls)
Series: Ls
ARIMA(2,1,2)(1,0,1)[12]
Coefficients:
ar1 ar2 ma1 ma2 sar1 sma1
0.3319 0.2136 -0.5477 -0.4098 0.9552 -0.6757
s.e. 0.4469 0.3260 0.4309 0.4200 0.0209 0.0597
sigma^2 estimated as 171549: log likelihood=-2142.84
AIC=4299.67 AICc=4300.08 BIC=4325.29
2) Seria e martesave
> auto.arima(Ms)
Series: Ms
ARIMA(1,1,1)(1,0,2)[12]
Coefficients:
ar1 ma1 sar1 sma1 sma2
0.3710 -0.9895 0.9666 -0.5387 -0.1637
s.e. 0.0574 0.0110 0.0168 0.0657 0.0601
sigma^2 estimated as 117134: log likelihood=-2089.04
AIC=4190.09 AICc=4190.39 BIC=4212.05
3) Seria e demeve
> auto.arima(Demets)
Series: Demets
ARIMA(1,0,0)(0,0,1)[12] with non-zero mean
Coefficients:
ar1 sma1 intercept
69
0.3236 -0.7916 63639.112
s.e. 0.1553 0.5752 2761.071
sigma^2 estimated as 335775495: log likelihood=-477.03
AIC=962.05 AICc=963.13 BIC=969
4) Seria e TFR
> auto.arima(TFR)
Series: TFR
ARIMA(0,1,2)(1,0,1)[12]
Coefficients:
ma1 ma2 sar1 sma1
-0.6653 -0.3063 0.9687 -0.7466
s.e. 0.0538 0.0527 0.0158 0.0495
sigma^2 estimated as 0.304: log likelihood=-243.4
AIC=496.81 AICc=497.02 BIC=515.1
Pas këtyre modeleve të propozuara mbetet të fillojmë punën për të gjetur modelin më
të mirë me qëllim përftimin e parashikimeve më të “mira”. Në kapitullin 4 do të trajtohet
metoda Box –Jenkins si një ndër metodat më të përdorshme për përzgjedhjen e modelit
më të mirë.
3.2 Modelet SARIMA multiplikative
Në këtë sesion do të trajtojmë disa modifikime që i janë bërë modeleve ARIMA për të
konsideruar sjelljen sezonale dhe jo-stacionare. Shpesh varësia nga e shkuara tenton të
ndodhë më fortë dhe duke shfaqur sezonalitet në disa lage s. Për shembull, të dhënat
mujore financiare me shumë të ngjarë kanë një përbërëse vjetore tëforte, e cila shfaqet
në lage shumfish të s=12. Kjo ndodh për shkak të lidhjeve të forta të aktivitetit në gjithë
vitin kalendarik. Të dhënat e mbledhuratremujore do të shfaqin një periodë përsëritëse
vjetore në çdotremujorë. Fenomene natyrore, si për shembull temperatura, kanë
përbërëse të forta sezonale. Gjithashtu ndryshueshmëria e shumë proceseve me natyrë
fizike, biologjike dhe ekonomike priret të shfaqë luhatje sezonale. Ky sezonalitet dhe
stacionaritet përfshihet në model në formën e një përbërësi multiplikativ qëështë me
interest ë studiohet. Për këtë qëllim futet modeli ARMA sezonali pastër (pure sesonal
autoregressive moving average model), që shënohet ARMA (P,Q)s dhe që është i
formës:
( ) ( )s s
P t Q tB X B w (3.32)
ku, operatorët
2
1 2( ) 1 ...s s s Ps
P PB B B B (3.33)
dhe
2
1 2( ) 1 ...s s s Qs
Q QB B B B (3.34)
70
janë përkatësisht përbërësi autoregresiv sezonal dhe përbërësi mesatare të lëvizshme
sezonal të rendeve P dhe Q, me periodë sezonale s.
Mund të tregohet se për të siguruar stacionaritetin, si në rastin e proceseve ARMA
josezonalë, kërkohet që rrënjët e polinomit karakteristik ( )s
P z dhe të polinomit
karakteristik ( )s
Q z të jenë jashtë rrethit njësi. Në këtë mënyrë sigurohet që procesi
ARMA(P,Q)s është rastësor (causal) dhe i kthyeshëm (invertible).
Në përgjithësi mund të kombinohen operatorët sezonal dhe jo-sezonal në një model
autoregresiv me mesatare të lëvizshme multiplikativ sezonal, i cili shënohet
ARMA(p,q)x(P,Q)s që shkruhet në formën e përgjithshme:
( ) ( ) ( ) ( )s s
P t Q tB B X B B w (3.35)
si model të përgjithshëm.
Në analogji me tabelën 3.1 që përshkruan sjelljen e ACF dhe PACF për modelt ARMA
të kthyeshëm, mund të ndërtohet një tabelë për sjelljen e ACF dhe PACF për modelet
e përziera si këto më lart (Shih Shumway dhe Sttofer, 2006).
Le të shohim modelin e përzier sezonal ARMA(1,0)x(1,0)12që shkruhet:
12 1t t t tX X w w
ku | | 1 dhe | | 1 . Meqënëse 12 1, ,t t tX w w
janë të pakorreluara, dhe tX është
stacionar, atëherë: 2 2 2 2(0) (0) w w ose 2
2
2
1(0)
1w
.
Nëse shumëzojmë modelin me t hX
, h>0 dhe duke marrë pritjen matematike të dy
anëve gjejmë: 2(1) (11) w dhe ( ) ( 12), 2h h h .
Funksioni autokorrelacion për këtë model është:
2
(12 ) , 1,2,...
(12 1) (12 1) , 0,1,2,...1
( ) 0, .
h
h
h h
h h h
h ndryshe
Mund të ndodhë të kemi sezonalitet jo stacionar, për shembull, kur procesi është
pothuajse periodik në sezon. Për shembull për serinë e temperaturave mesatare mujore
për çdo muaj të vitit, çdo muaj Janar do të ketë përafërsisht të njëjtën vlerë, çdo muaj
Shkurt gjithashtu e kështu me rradhë. Në këtë rast mund të mendojmë se temperatura
mesatare mujore Xtmodelohet si:
t t tX S w
ku, St është një përbërëse sezonale që ndryshon ngadalë nga njëri vit në tjetrin si një
endje e rastit:
71
12t t tS S v
Në këtë model tw dhe
tv janë procese zhurmë e bardhë të pakorreluara. Prirja e
vrojtimeve për të ndjekur këtë lloj modeli shfaqet në funksionin autokorrelacion të
zgjedhjes (ACF) i cili ka vlera të larta dhe zbret shumë ngadalë në laget h=12k, për
k=1,2, ... . Nëse mënjanojmë efektin e viteve pasardhës nga njeri-tjetri, gjejmë:
12
12 12(1 ) .t t t t t tB X X X v w w
Modeli i mësipërm është një model stacionar MA(1)12, dhe funksioni autokorrelacion i
tij do të ketë një vlerë të lartë vetëm në lagun 12. Në përgjithësi kur ACF zvogëlohet
ngadalë në shumfishat e një periode s por është shumë i vogël midis periodave, atëherë
mund të zbatohet diferencimi sezonal. Një diferencim sezonal i rendit D përcaktohet
me barazimin:
(1 )D s D
s t tX B X
ku D=1,2,... merr vlera të plota pozitive. Zakonisht D=1 mjafton për të përftuar
stacionaritet sezonal.
Përkufizim 3.12 Modeli multiplikativ sezonal autoregresiv me mesatare të
lëvizshme të integruar, ndryshe modeli SARIMA, nga Box dhe Jenkins (1970) jepet
nga:
( ) ( ) ( ) ( )s D d s
P s t Q tB B X B B w (3.35)
ku tw është procesi zhurmë e bardhë Gausiane. Modeli shënohet
ARIMA(p,d,q)x(P,D,Q)s. Përbërëset e zakonshme autoregresive dhe të mesatares së
lëvizshme përfaqësohen nga polinomet ( )B dhe ( )B të rendeve p dhe q
respektivisht, përbërëset autoregresive dhe mesatare të lëvizshme sezonale
përfaqësohen nga ( )s
P B dhe ( )s
Q B me rende P dhe Q, dhe përbërëset e
zakonshme të diferencave përfaqësohen nga (1 )d dB dhe (1 )D s D
s B .
Shembull 3.9 Një model SARIMA
Le të konsiderojmë një model të thjeshtë SARIMA, ARIMA(0,1,1)x(0,1,1)12, ku luhatjet
ndodhin çdo 12 muaj.Modeli do të shkruhej sipas (3.35): 12 12(1 )(1 ) (1 )(1 )t tB B X B B w (3.36)
Duke zbërthyer të dy anët e (3.36) përftojmë:
12 13 12 13(1 ) (1 )t tB B B X B B B w
ose në trajtën e ekuacioneve me diferenca:
1 12 13 1 12 13.t t t t t t t tX X X X w w w w
Përzgjedhja e modelit të përshtatshëm për një bashkësi vrojtimesh sipas formulës së
përgjithshme (3.35) është një detyrë e “frikshme”. Ne përpiqemi fillimisht të gjejmë
operatorët e diferencave që prodhojnë një seri përafërsisht stacionare dhe më pas një
72
bashkësi modelesh ARMA ose SARIMA të thjeshtë, jo dhe aq të ndërlikuar, që i
përshtaten serisë së mbetjeve. Së pari aplikohen operatorët e diferencave dhe më pas
ndërtohen mbetjet nga një seri me përmasë të reduktuar. Në vijim vlerësohen ACF-ja
dhe PACF-ja e mbetjeve. Vlera të larta që shfaqen në këto funksione mund të
eleminohen duke përshtatur një përbërëse autoregresive ose mesatare të levizshme.
Shembull 3.10 Aplikimi i modeleve SARIMA në programin R
Një problem me interes në fushat ekonomike dhe demografike është identifikimi i një
modeli të klasës së Box-Jenkins dhe më pas prodhimi i parashikimeve bazuar në
modelin e përzgjedhur.
Do të ndalemi më shumë në kapitullin 4 përsa i përket metodologjisë Box-Jenkins për
përftimin e një modeli sa më të përshtatshëm të vrojtimeve të kryera. Në këtë shembull
do të trajtojmë mundësitë që ofron R për përshtatjen e një modeli SARIMA.
Nëse i rikthehemi shembullit 3.9, aty ku përftuam vlerësuesit e parametrave të modelit
nëpërmjet R-së, do të vëmë re se funksioni i zbatuar (auto.arima() ) ofron përveç
vlerësimeve të parametrave të modelit edhe natyrën dhe rendet e tij.
Vini re modelet e propozuara janë modele SARIMA me sezonalitet 12. Një shpjegim i
thjeshtë është fakti se vrojtimet janë mujore dhe për disa vite. Kështu që, një sezonalitet
s=12 ishte i pritshëm.
Modelet e mësipërme janë një pikë nisje për të filluar analizimin e modelit për vrojtimet
e kryera. Teknika apo tregues të tjerë aplikohen për të përzgjedhur cili nga modelet
është më i “miri” për vrojtimet.
3.3 Modelet ARCH dhe GARCH
Probleme të kohëve të fundit në finacë kanë motivuar studimin e volatilitetit, apo
ndryshueshmërisë, së serive kohore. Ndonëse modelet ARMA supozojnë një dispersion
konstant, të tjera modele si ato autoregresive me heteroskedasticitet të kushtëzuar,
ARCH, u propozuan nga Engle (1982) për të modeluar ndryshimet në volatilitet. Këto
modele u zgjeruan më tej në modelt ARCH të përgjithësuara të njohura më pas si
modelet GARCH nga Bollerslev (1986).
Korniza e modeleve ARCH/GARCH ka provuar të jetë shumë e suksesshme në
parashikimin e volatilitetit. Këto modele përshkruajnë ecurinë kohore të mesatares së
katrorëve të gabimeve, pra të evoluimit të amplitudës së pasigurisë. Vrojtimet në të cilat
dispersionet e gabimeve janë të ndryshme në momente të ndryshme thuhet se vuajnë
nga heteroskedasticiteti. Modelet GARCH e trajtojnë heteroskedasticitetin si një
dispersion që duhet modeluar.12
Në paragrafin 3.1.7 në shqyrtuam normën e rritjes së një serie. Për shembull nëse Yt
është vlera e një aksioni në momentin e kohës t, atëherë kthimi ose fitimi i afërm, Xt, i
aksionit në momentin e kohës t është:
12Shumway H. R. dhe Stoffer S. D. (2006) ; Hamilton, J. D. (1994); Engle Robert (2001)
73
1
1
t tt
t
Y YX
Y
(3.37)
Shihet se 1(1 )t t tY X Y ; ndërkaq fitimi i afërm përfaqëson një ndryshim të vogël në
përqindje atëherë mund të shkruajmë:
[ln ]t tY X (3.38)
Të dy vlerat në (3.37) dhe (3.38) do të shënohen Xt. Modelet ARCH dhe GARCH
synojnë studimin pikërisht të Xt. Në seritë financiare, Xtnukka dispersion constant dhe
modelet e volatilitetit janë mëse normale.
Modeli më i thjeshtë ARCH është ARCH(1) sipas të cilit:
2 2
0 1 1
t t t
t t
X w
X
(3.39)
ku tw është zhurmë e bardhë Gausiane standarde. Ashtu sikurse me modelet ARMA
duhet të vendosim disa kufizime. Një kufizim i natyrshëm është që1 të mos jetë
negative, përndryshe 2
t mund të jetë negative.
Një model ARCH (1) karakterizohet nga vetitë e mëposhtëme:
Nëse 1 1 , procesi Xt është një zhurmë e bardhë dhe shpërndarja e tij e
pakushtëzuar është simetrike përreth zeros; kjo shpërndarje është leptokurtic13
Nëse, më tej, 2
13 1 , atëherë katrori i procesit, 2
tX , ndjek një model shkakësor
AR(1) me ACF të dhënë nga 2 1( ) 0h
Xh për çdo h>0. Nëse 2
13 1 , por
1 1 atëherë 2
tX është rigorozisht stacionar me dispersion të pafundëm.
Ashtu sikurse veprohej me vlerësimin e parametrave të modeleve ARMA edhe për
rastin e modeleve ARCH metodat e vlerësimit janë të njëjta. Përgjithësisht veprohet me
metodën e përgjasisë maksimale.
Modelet GARCH përdoren shpesh për seri kohore financiare por kjo nuk largon
mundësinë e të dhënave me natyrë tjetër. [Bo Zhou, Dan He; Zhili Sun (2005)]
Modeli më i thjeshtë GARCH është GARCH(1,1) i cili shkruhet:
2 2 2
0 1 1 1 1
t t t
t t t
X w
X
(3.40)
ku, ~ (0,1)tw N është zhurma e bardhë Gausiane standarde dhe 1 10, 0
Shembull 3.11 Aplikim i modeleve GARCH në R
Një ndër paketat që bën të mundur një përshtatje të vrojtimeve sipas një modeli
13 Shpërndarjet Leptokurtic janë ato shperndarje të cilat kanë koeficient të sheshtësisë (kurtosis) pozitiv
të lartë. (2004) David J. Sheskin
74
GARCH është Rtseries. Seria kohore që kemi marrë në konsideratë është një seri e
difekteve ditore telefonike fikse të një kompanie që operon në Shqipëri.
Figura 3.14 Seria e numrit të difekteve ditore të kompanisë telefonise fikse
Sic vihet re edhe nga grafiku i serisë kohore, ka ditë në të cilët numri i difekteve është
i lartë dhe ditë në të cilët numri i difekteve është i ulët. Kjo sjellje tregon se sezonaliteti
është i pranishëm në serinë kohore dhe duhet të merret në konsideratë në hapat e
vlerësimit të modelit.
Një model i mirë duhet të ketë aftësinë të kapë karakteristikat e dukshme të serisë.
Figura 3.14 tregon një seri kohore ku sezonaliteti dhe paqëndrueshmëria janë të
pranishme.
Komandat dhe rezultatet pas përpunimit të serisë kohore në programin R tregohen më
poshtë:
Modeli i propozuar është: GARCH(1,1)
Mbetjet:
Min 1Q Median 3Q Max
0.7284 0.7534 0.8488 1.1088 1.3721
Koeficientët e modelit:
Estimate Std. Error t value Pr(>|t|)
a0 2.823e+04 1.482e+06 0.019 0.985
a1 9.611e-01 4.131e+00 0.233 0.816
b1 9.833e-10 3.275e+00 0.000 1.000
Testet diagnostikuese:
Jarque Bera Test
data: Residuals
X-squared = 1.0993, df = 2, p-value = 0.5772
Box-Ljung test
data: Squared.Residuals
X-squared = 2.8882, df = 1, p-value = 0.08923
Statistikat e kritereve të informacionit:
Numri i difekteve ditore periudha Janar 2009- Mars 2011
Vite
Nu
mri
2009.0 2009.5 2010.0 2010.5 2011.0 2011.5
02
00
40
06
00
80
01
20
0
75
AIC BIC SIC HQIC
13.85324 13.87626 13.85319 13.86207
Vlera e statistikës Jarque-Bera testështë1.0993, p-vlera> 0.05 nënkupton se duhet të
pranojmë hipotezën zero (pra të dhënat kanë shpërndarje normale). Testi Ljung –Box
në modelin GARCH përdoret për të treguar nëse modeli që i është përshtatur vrojtimeve
ka kapur gjithë informacionin. Hipotezat që testohen janë: H0: të dhënat kanë
autokorrelacione zero vs H1: të dhënat nuk kanë autokorrelacione zero. Nëse p-vlera
> 0.05atëherë hipoteza H0 pranohet përndryshe ajo refuzohet.
Figura 3.15 paraqet parashikimet sipas modelit të propozuar GARCH (1,1) së bashku
me luhatjet ,t , për periudhën Prill-Maj 2011.
Vijat blu dhe e gjelbër tregojnë intervalet e besimit 95% për parashikimet ndërsa vija e
kuqe tregon vlerën mesatare të difekteve bazuar në modelin e propozuar GARCH(1,1).
Figura 3.15 Parashikimet sipas modelit GARCH(1,1) për periudhën Prill-Maj 2011
Funksioni Fgarch() në R ofron një analizë të plotë të modelit GARCH.
3.1.9 Krahasim i dy modeleve ARIMA dhe GARCH për serinë e difekteve
ditore të telefonisë fikse
Modelet e prezantuar në këtë kapitull janë një përpjekje e parë në investigimin që mund
t’i bëhet serive reale me të dhënanga vendi. Pas përpjekjeve të kryera në programin R
për të përshtatur një model të dhënave të defekteve ditore përftuam dy modele të
rëndësishme: ARIMA dhe GARCH.
Modeli ARIMA i propozuar:
ARIMA(4,1,5)
Koeficientët e modelit:
0 50 100 150 200 250 300
02
00
40
06
00
80
01
00
01
20
0
Index
x
Prediction with confidence intervals
X^
t h
X^
t h 2 MSE
X^
t h 2 MSE
76
AR: =0.7644, =-1.1679,=0.4775, =-0.7626,
MA: = -1.3175, = 1.1669, = -0.7702, = 0.7138,= -0.4944
Vlerat e kritereve të informacionit:
AIC= 10698.12, AICc= 10698.39, BIC= 10745.17
Vrojtimet e defekteve telefonike ditore shfaqin volatilitet dhe kjo ishte një ndër arsyet
se përse zgjodhëm modelin GARCH për t’ia përshtatur të dhënave. Por parashikimi që
ky model ofronte për serinë e difekteve telefonike nuk ishte i kënaqshëm. Ndërkohë
modeli ARIMA (4, 1, 5) duket se i përshtatet më mirë këtyre vrojtimeve. Ky model
ofron informacion më të detajuar për vrojtimet në ditët pasardhëse, ai ruan
stacionaritetin dhe periodicitetin e serisë origjinale. (Figura 3.16 është përftuar nga
ekzekutimi i funksionit forecast() në R)
Figura 3.16 Modeli ARIMA (seria e difekteve telefonike)
Grafiku i dytë në Figurën 3.16 tregon përshtatshmërinë e modelit të propozuar ARIMA
dhe vrojtimeve reale për dy muajt në vijim.
Forecasts from ARIMA(4,1,5)
0 200 400 600 800
04
00
80
01
20
0
Forecasts from ARIMA(4,1,5)
760 770 780 790 800 810 820 830
20
06
00
10
00
77
Figura 3.17 Parashikimet sipas modelit ARIMA ( vija e kuqe) dhe vrojtimeve reale
(vija blu) për periudhën Prill-Maj 2011
Pavarësisht suksesit të modeleve ARCH/GARCH mbi seritë kohore që shfaqin
paqëndrueshmëri, nuk ka një konsensus se përse pasiguria tenton të grumbullohet. Për
këtë arsye apo dhe mjaft të tjera modelet e propozuara tentojnë të performojnë mirë në
disa periudha dhe jo mirë në disa të tjera. [Awartani, B. M. A., & Corradi, V. (2005)]
Dite
0 10 20 30 40 50 60
200
400
600
800
1000
78
Kapitulli 4
Përzgjedhja e modelit më të mirë për qëllime parashikimi
sipas metodologjisë Box-Jenkins
Qëllimi i këtij kapitulli është përzgjedhja e një modeli më të përshtatshëm për qëllime
të mëtejshme parashikimi për serinë kohore të numri të lindjeve çdo muaj në
Shqipëri. Përzgjedhja e modelit “më të mirë” do të kryhet bazuar mbi disa teknika të
propozuara në literaturën e serive kohore dhe aplikimi i tyre në programin R.
Në fillim do të paraqesim disa elemente kryesore të metodologjisë Box-Jenkins për
modelet ARIMA, zbatimi i saj në programin R. Në material tregohet se problemi më i
madh është mënyra e stacionarizimit të serisë kohore që Box dhe Jenkins propozojnë
(diferencimin e serisë). Kontributi i Box dhe Jenkins qëndron në zhvillimin e një
metodologjie për identifikimin dhe vlerësimin e modeleve.[ Box, G. E. P. & Jenkins,
G. (1970), (1976)]
4.1 Metodologjia Box- Jenkins Ndonëse modelet autoregresive dhe mesatare të levizshme u prezantuan fillimisht nga
Yule (1926) dhe Slutsky (1937) , ishte Wold (1938) i cili i kombinoi këto modele
(ARMA) dhe tregoi se modelimi i serive kohore të jetës reale kërkon kalimin në katër
hapa kryesorë. Së pari, seria origjinale duhet të transformohet në mënyrë të tillë që të
jetë stacionare pranë pritjes matematike dhe dispersionit të saj. Së dyti, duhet të
përcaktohet rendi i përshtatshëm i p dhe q. Së treti, duhet të vlerësohen parametrat e
modelit ARMA ( , 1i i p dhe , 1j j q ). Dhe së fundmi, duhen konsideruar mënyra
praktike të modelimit të serive sezonale në mënyrë që të specifikohen rendet e modelit.
Realizimi i rezultatetve teorike të propozuara nga Wold në seri kohore të jetës reale
nuk u bë e mundur deri në meset e viteve ’60 kur kompjuterat, të aftë për përllogaritjet
e kërkuara, u bënë të mundur të përdoreshin në masë. Box dhe Jenkins (1976, puna e
tyre origjinale 1970) popullarizuan modelet ARMA duke propozuar:
(a) udhëzime për transformimin e serisë në një seri stacionare ,
(b) përdorimin e koefiçientëve të autokorrelacionit dhe autokorrelacionit të pjesshëm
për të përcaktuar vlera të përshtatshme për p dhe q ( dhe ekuivalenteve sezonale P dhe
Q, në rastet kur seria shfaqte natyrë sezonale),
(c) një listë programesh kompjuterik për të ndihmuar përdoruesit të identifikonin rendet
e përshtatshme të parametrave p,q (edhe P, Q për rastin sezonal) si dhe vlerësimin e
parametrave të modelit,
(d) një kontroll diagnostikues për të përcaktuar nëse mbetjet ishin një zhurmë e bardhë,
në këtë rast rendet e modelit konsideroheshin përfundimtare (përndryshe duhet të
prezantohej një model tjetër në (b) dhe të përsëriteshin hapat (c) dhe (d)).
79
Nëse kontrolli diagnostikues tregonte mbetje rastësore, atëherë modeli i ndërtuar
përdorej për parashikim ose qëllime kontrolli, duke supozuar sigurisht qëndrueshmëri,
që nënkupton se rendi i modelit dhe sjellja e tij jo-stacionare do të qëndronin të njëjta
gjatë parashikimit apo fazës së kontrollit.
Përafrimi i propozuar nga Box dhe Jenkins, që mori emrin Metodologjia Box dhe
Jenkins për modelet ARIMA, u bë mjaft popullore në vitet ’70 në mjediset akademike,
në vecanti kur u tregua me studime empirike [Cooper, 1972; Nelson, 1972;
Narasimham et al., 1974; McWhorter, 1975; Armstrong, 1978] se kjo metodologji
mund të vepronte më mirë se modelet ekonometrike, të popullarizuara në atë kohë, në
një shumllojshmëri situatash.
4.1.1 Hapat e metodologjisë Box dhe Jenkins
Proçedura origjinale e metodologjise Box-Jenkins përfshin një proces iterativ me tre
hapa: përzgjedhja e modelit, vlerësimi i parametrave dhe kontrolli i modelit.
Figura 4.1 tregon katër hapat e metodologjisë Box dhe Jenkins [Makridakis, 1983]. Ky
paragraf shqyrton secilin prej hapave dhe diskuton kontibutin e tyre në cilësinë e
parashikimit.
Figura 4.1 Skema e metodologjisë Box-Jenkins (1976)
Stacionariteti
Përpara se seria kohore të modelohet si një seri ARIMA ajo duhet të jetë stacionare në
pritje dhe dispersion. Përafrimi Box dhe Jenkins sugjeron diferencime të shkurtëra dhe
sezonale me qëllim stacionarizimin në pritjen matematike, dhe logaritmim apo
transformime të fuqisë për të arritur stacionarizim në dispersion. Të dyja mënyrat e
diferencimit janë vënë në pikëpyetje në vitet në vijim të propozimit të Box dhe Jenkins.
Kështu, Pierce (1977) argumentoi se diferencimi nuk ishte një mënyrë e përshtatshme
për të stacionarizuar të dhënat dhe kundrejt këtij transformimi ai propozoi
detrendimin.Nelson dhe Plosser (1982) argumentuan se disa seri mund të
stacionarizoheshin më mirë duke përdorur diferencimin ndërsa disa të tjera duke
shfrytëzuar largimin linear të trendit. Të tjerë në vitet në vijim [Parzen, 1982; Newton
dhe Parzen, 1984; Meese dhe Geweke,1984] kanë përdorur një filtër paraprak të
80
përbërë nga një model AR për të zbuluar shenjat e jo-stacionaritetit përpara se të
përdornin një model ARMA.
Box dhe Jenkins sugjerojnë transformime logaritmike apo të fuqive për të arritur
stacionaritetin në dispersion. Këto transformime janë diskutuar gjithashtu në vitet e
mëvonshme dhe ende janë çështje debatesh midis ekspertëve akademik [Chatfield dhe
Prothero, 1973]. Megjithë diskutimet e shumta duhet të kihet në konsideratë fakti se
transformimet kërkojnë një gjykim personal dhe natyra e serive reale ndikon gjithashtu
në përmirësimin apo jo të parashikimeve, pas transformimeve për stacionaritet.
Sezonaliteti
Në rastin kur seritë kohore janë sezonale, metodologjia Box dhe Jenkins propozon
modele multiplikative sezonale të shoqëruar me diferencime nëse është e nevojshme të
arrihet stacionariteti në pritjen matematike. Vështirësia me të tilla përafrime është fakti
se nuk ka asnjëherë të dhëna të mjaftueshme për të përcaktuar nivelin e përshtatshëm
të modelit sezonal ARMA me një nivel besimi të arsyeshëm. Përdoruesit në të tilla
raste vazhdojnë të punojnë përmes provës dhe gabimit në identifikimin e një modeli të
përshtatshëm sezonal dhe përzgjedhjen e termit sezonal. Sezonaliteti e ndërlikon
përdorimin e modeleve ARMA pasi kërkon përdorimin e shumë më tepër vrojtimeve.
Nuk ka ende punë empirike që të tregojnë nëse largimi i sezonalitetit në vrojtime, duke
përdorur procedura dekompozimi [Durbin, 1979], dhe më pas përdorimi i
metodologjisë Box-Jenkins në serinë e rregulluar, përmirëson parashikimin.
Rendi i modelit ARMA
Rendi i modelit ARMA zbulohet duke shqyrtuar autokorrelacionin dhe
autokorrelacionin e pjesshëm në serinë e stacionarizuar. Box dhe Jenkins (1976) ofruan
teorikisht dhe praktikisht rregulla për të përcaktuar vlera të përshtatshme për p, q, P
dhe Q. E vetmja vështirësi është se shpesh mund të supozohet më shumë se një model,
duke i kërkuar në këtë mënyrë përdoruesit të zgjedhë njërin prej tyre pa patur asnjë
njohuri të zgjedhjes së tij/saj në cilësinë e parashikimit të këtij modeli. Sipas
metodologjisë Box-Jenkins çdo model që rezulton me mbetje të rastësishme është një
model i përshtatshëm. Më tej Box dhe Jenkins propozojnë parimin e parsimonisë (
parsimony) që nënkupton: përzgjedhjen e modelit më të thjeshtë ( ai që ka më pak
parametra) midis modeleve të mundshme.
Vlerësimi i parametrave të modelit
Kjo pjesë e metodologjisë Box dhe Jenkins është më e thjeshta. Procedura optimizimit
jo-lineare [Marquardt, 1963] përdoret për të vlerësuar parametrat p dhe q ( P dhe Q në
rastin sezonal). Metoda e vlerësimit është tërësish automatike pasi ajo tashmë ofrohet
nga programet kompjuterike që përdorin të njëjtin algoritëm (Marquardt).
Kontrolli diagnostikues: Me përzgjedhjen e modelit të përshtashëm dhe vlerësimin e
parametrave të tij, metodologjia Box dhe Jenkins kërkon shqyrtimin e mbetjeve (vlera
aktuale minus vlera e vlerësuar sipas modelit). Nëse këto mbetje janë rastësore atëherë
modeli është i përshtatshëm. Në të kundërt propozohet një model tjetër dhe kalohet në
hapat e vlerësimit dhe kontrollit të mbetjeve. Teste të ndryshme [Statistika Box-Pierce,
Box dhe Pierce, 1970] janë sugjeruar për të ndihmuar në përcaktimin e rastësisë së
81
mbetjeve. Përdorimi i modeleve në të cilat mbetjet nuk janë rastësore, mund të jetë me
interes studimi për pasojat në cilësinë e parashikimeve.
Cilësia e parashikimit
Makridakis dhe Hibon në studimin e tyre të vitit 1979, M-Competition [Makridakis et
al, 1982], M2-Competition (1993) si dhe mjaft studime të tjera empirike [Schnaars,
1986; Koehler dhe Murphree, 1988; Geurts dhe Kelly, 1986; Watson et al., 1987;
Collopy dhe Armstrong, 1992] kanë treguar se metoda të thjeshta si: sheshimi
eksponencial funksionojnë më mirë se metodologjia Box dhe Jenkins për modelet
ARMA.
Në M-competition [Makridakis et al, 1982] metoda “Box-Jenkins” u aplikua në një
bashkësi prej 111 nga 1001 seri kohore. Arsyeja ishte se sipas ekspertëve metodologjia
Box –Jenkins kërkonte mestarisht 1 orë përpara se modeli të konfirmohej si i
përshtatshëm për qëllime parashikimi [Andersen dhe Weiss, 1984].
Largimi i sezonalitetit në seri
Në diskutimin e Makridakis dhe Hibon (1979) u sugjerua se metodologjia Box dhe
Jenkins duhet të aplikohet gjithashtu në të dhëna sezonale të rregulluara me qëllim
përcaktimin e efektit sezonal në cilësinë e mëvonshme.
Seria origjinale tX mund të bëhej jo-sezonale duke e pjestuar atë me indeksin e saj
sezonal jS të njehsuar sipas metodës klasike të dekompozimit (Makridakis et al, 1983)
pra, ' /t t jX X S
ku jS është indeksi sezonal që i korespondon muajit të j-të, nëse të dhënat janë mujore
, apo sezonit të j-të nëse të dhënat janë stinore. Nëse të dhënat nuk janë sezonale
atëherë të gjithë treguesit marrin vlerën 1.
Me kryerjen e parashikimeve sipas metodologjisë Box-Jenkins, vrojtimet mund të
sezonalizohen duke i shumëzuar me indeksin korresponues sezonal.
Studimi i Makridakis et al tregoi se është më e lehtë dhe më e thjeshtë aplikimi i
modeleve ARIMA sipas metodologjisë Box-Jenkins nëse të dhënat fillimisht trajtohen
për sezonalitetin.
4.2 Aplikimi i metodologjisë Box-Jenkins në një seri demografike me të
dhëna Shqiptare (Simulimi i parashikimeve në R)
Numri i lindjeve për muaj në Shqipëri mund të modelohet si një proces stokastik dhe
si rrjedhim ne mund të përdorim metodologjinë Box-Jenkins për këtë qëllim. Hapat e
ndjekur në ndërtimin e modelit të lindjeve në Shqipëri janë:
1. Përgatitja e vrojtimeve në serinë origjinale
Përfshin transformimet dhe diferencimet. Transformimet e vrojtimeve ( si rrënja
katrore apo logaritmet) mund të ndihmojnë në stabilizimin e dispersionit në një seri ku
luhatjet ndryshojnë me nivelin. Kjo ndodh shpesh me të dhëna ekonomike. Më pas të
dhënat diferencohen deri në largimin e trendit apo sezonalitetit. ‘Diferencimi’
82
nënkupton përftimin e një serie kohore me vlera diferencat e njëpasnjëshme të serisë
origjinale. Të dhënat e diferencuara janë shpesh më lehtë për t’u modeluar se të dhënat
origjinale.
2. Përzgjedhja e modelit
Metodologjia Box-Jenkins përdor paraqitje grafike të ndryshme bazuar në serinë e
transformuar për të identifikuar modelin ARIMA më të mundshëm. Zhvillime të
mëvonshme shfrytëzojnë edhe tregues të tjerë si treguesit e informacionit (Akaike
Informatin criterion, AIC)
3. Vlerësimi i parametrave
Nënkupton gjetjen e vlerave të koeficientëve të modelit që sigurojnë përshtatjen më të
mirë me vrojtimet. Për këtë ka algoritme kompjuterike të sofistikuara tashmë.
4. Kontrolli i modelit
Përfshin testimin e supozimeve të modelit për të identifikuar nëse modeli është i
përshtatshëm. Nëse modeli nuk është i përshtatshëm atëherë duhet të kthehemi pas në
hapin 2 dhe të përpiqemi të identifikojmë një model më të mirë.
5. Parashikimi
Parashikimi është arritja e gjithë proçedurës. Me përzgjedhjen e modelit, vlerësimin
dhe kontrollin e tij qëllimi pasues është parashikimi. Softwaret statistikorë e bëjnë këtë
në pak sekonda.
Përzgjedhja e modelit më “të mirë” për parashikimin e numrit të lindjeve në Shqipëri
(të dhënat 1985-2008)
1. Analiza fillestare e serisë kohore dhe transformime të mundshme
Përpara se të ndërtojmë modelin për serinë kohore duhet të organizojmë të dhënat sipas
periodës që ato kanë. Të dhënat për numrin e lindjeve në Shqipëri janë të dhëna mujore
ndaj perioda për këtë seri kohore do të jetë 12. Përdorimi i softuerit R na krijon
lehtësira për ndërtimin e serisë kohore:
> SS5
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
... ... ... ... ... ... ... ... ... ... ...
...
1990 6077 6488 7720 7555 8130 7555 7473 7145 6981 6324 5257 3122
... ... ... ... ... ... ... ... ... ... ... ...
2005 3092 2887 2957 2991 3419 3245 3307 3586 4177 3795 3034 5420
... ... ... ... ... ... ... ... ... ... ... ...
2. Përzgjedhja e modelit
Të dhënat mujore të lindjeve u mblodhën (INSTAT) për periudhën 1 Janar 1985 deri
në 31 Dhjetor 2008, në total 288 vrojtime. (Figura 4.2).
83
Figura 4.2 Numri i lindjeve për çdo muaj në Shqipëri (Janar 1985 - Dhjetor 2008)
a) Stacionariteti
Për të ndërtuar një model ARIMA seria kohore duhet të jetë stacionare. Një ndër
mënyrat e stacionarizimit të propozuara nga Box dhe Jenkins është diferencimi derisa
të bëhet stacionare. Gjithashtu grafiku i autokorrelacionin është një mjet identifikimi i
rendeve të modelit. Një vlerë e mirë e rendit të diferencave d është ajo e cila siguron
një zbritje të menjëhershme të ACF-së drejt vlerës zero. Sic vihet re nga grafiku i
autokorrelacionit më poshtë, seria jonë nuk është stacionare.
Figura 4.3 ACF dhe PACF për serinë e lindjeve
b) Sezonalitetit
Shumë seri kohore përfshijnë një karakteristikë sezonale e cila përsërit veten pas një
periode të rregullt kohe. Kjo karakteristikë është e dukshme në serinë e lindjeve.
Muaj
1985 1990 1995 2000 2005
2000
3000
4000
5000
6000
7000
8000
Numri i lindjeve, 1985-2008
1985 1990 1995 2000 2005
2000
4000
6000
8000
5 10 15 20 25
-0.2
0.2
0.6
Lag
ACF
5 10 15 20 25
-0.2
0.2
0.6
Lag
PACF
84
Sezonaliteti, apo periodiciteti, mund të vlerësohen bazuar në një grafik
autokorrelacioni apo një grafik sezonal.
Grafiku mujor i mëposhtëm tregon qartë sjelljen sezonale të serisë së lindjeve. Ai
pasqyron ecurinë e 24 viteve për çdo muaj.Duket qartë se vlerat mesatare janë pranë
njera –tjetrës.
Figura 4.4 Numri i lindjeve për çdo muaj në 24 vite
c) Diferencimi për stacionaritet dhe sezonalitet
Duke aplikuar diferencat e rendit të parë në serinë kohore të lindjeve, Δyt=yt –yt-1,
përftojmë një seri kohore të re grafiku i së cilës i shoqëruar me ACF-në dhe PACF-në
është paraqitur në figurën 4.5.
Figura 4.5 ACF dhe PACF për serinë e diferencave të para
Natyra sinusoidale e grafikut të ACF-së tregon stacionaritet në serinë e vrojtuar.
Gjithashtu edhe zvogëlimi i vlerave të autokorrelacionit të pjesshëm është shenjë e
stacionaritetit.
MonthPlot
Muaj
J F M A M J J A S O N D
2000
3000
4000
5000
6000
7000
8000
Seria e diferencuar, 1985-2008
1985 1990 1995 2000 2005
-2000
0
1000
5 10 15 20 25
-0.2
0.0
0.2
0.4
Lag
ACF
5 10 15 20 25
-0.2
0.0
0.2
0.4
Lag
PACF
85
Në vijim inspektojmë grafikët lag të serisë origjinale dhe serisë së diferencave të para.
Figura 4.6 tregon autokorrelacionin për laget 1 deri 9 për serinë origjinale dhe Figura
4.7 tregon autokorrelacionin për laget 1-9 për serinë e diferencave të para.
Natyra e Lag-plot ndryshon me diferencimin e rendit të parë të serisë origjinale. Vihet
re zvogëlimi i vlerave të autokorrelacionit me rritjen e lagut. Seria e diferencave është
stacionarizuar, dhe për këtë mjaftoi vetëm transformimi i diferencave të para.
Figura 4.6. Lag-plot për serinë origjinale
Figura 4.7. Lag-plot për serinë e diferencave
të para
3. Vlerësimi
Për të vrojtuar trendin në serinë kohore ndërtojmë një drejtëz regresi linear. Ekuacioni
i vijës së regresit është: 6864.724 18.758 L t , L është numri i lindjeve për muaj dhe
t është koha. Koeficienti i përcaktueshmërisë është 0,758, koeficienti i
përcaktueshmërisë i rregulluar është 0,7569.
Figura 4.8 Regresi linear i serisë kohore
Në fazën e vlerësimit qëllimi është të zbulojmë sezonalitetin nëse ai është i pranishëm
dhe të identifikojmë rendet e modelit. Duke vrojtuar grafikët e ACF-së dhe PACF-së
ne supozojmë se modeli mund të jetë një model ARIMA(p,d,q) dhe duke marrë në
2000 4000 6000 8000
2000
4000
6000
8000
TS(t-1)
TS
(t)
0.93
2000 4000 6000 8000
2000
4000
6000
8000
TS(t-2)
TS
(t)
0.84
2000 4000 6000 8000
2000
4000
6000
8000
TS(t-3)
TS
(t)
0.75
2000 4000 6000 8000
2000
4000
6000
8000
TS(t-4)
TS
(t)
0.65
2000 4000 6000 8000
2000
4000
6000
8000
TS(t-5)
TS
(t)
0.58
2000 4000 6000 8000
2000
4000
6000
8000
TS(t-6)
TS
(t)
0.55
2000 4000 6000 8000
2000
4000
6000
8000
TS(t-7)
TS
(t)
0.56
2000 4000 6000 8000
2000
4000
6000
8000
TS(t-8)
TS
(t)
0.6
2000 4000 6000 8000
2000
4000
6000
8000
TS(t-9)
TS
(t)
0.67
-2000 0 1000
-2000
01000
TSd(t-1)
TS
d(t
)
0.11
-2000 0 1000
-2000
01000
TSd(t-2)
TS
d(t
)
0.06
-2000 0 1000
-2000
01000
TSd(t-3)
TS
d(t
)
0.03
-2000 0 1000
-2000
01000
TSd(t-4)
TS
d(t
)
-0.2
-2000 0 1000
-2000
01000
TSd(t-5)
TS
d(t
)
-0.3
-2000 0 1000
-2000
01000
TSd(t-6)
TS
d(t
)
-0.28
-2000 0 1000
-2000
01000
TSd(t-7)
TS
d(t
)
-0.28
-2000 0 1000
-2000
01000
TSd(t-8)
TS
d(t
)
-0.22
-2000 0 1000
-2000
01000
TSd(t-9)
TS
d(t
)
-0.05
0 50 100 150 200 250
20
00
3
00
0
40
00
5
00
0
60
00
7
00
0
80
00
Drejtëza e regresit linear
Muaj
Nu
mri
i l
indje
ve
86
konsideratë praninë e sezonalitetit atëherë ky model mund të jetë ARIMA (p, d, q) (P,
D, Q)m, m=12 frekuenca sezonale.
Sipas metodologjisë Box-Jenkins dhe duke zbatuar disa nga funksionet e gatshme në
R modeli që përftojmë për serinë e lindjeve është:
ARIMA(2,1,2)(1,0,1)[12]
Koeficientët e modelit:
s = 12, = 0.3319, = 0.2136, = 0.9552, = -0.5477, = -0.4098, = -0.6757
Vlerat e kritereve të informacionit dhe gabimeve të modelit:
AIC= 4299.67, AICc= 4300.08, BIC= 4325.29
ME= -31.60, RMSE= 413.46, MAE= 287.99, MPE= -1.25, MAPE= 5.95,
MASE= 0.67
4. Kontrolli i modelit
Një ndër propozimet e Box-Jenkins për të kontrolluar përshtatshmërinë e modelit është
kontrolli i mbetjeve. Nëse mbetjet janë të rastit atëherë modeli është i përshtatshëm.
Një test grafik që ofron R për kontrollin e natyrës së mbetjeve është grafiku i
shpërndarjes normale Q-Q plot.
Figura 4.9.a tregon grafikun Q-Q plot për mbetjet e modelit të regresit linear të
propozuar, ndërsa figura 4.9.b tregon grafikun Q-Q plot të mbetjeve të modelit ARIMA
të propozuar.
Modeli ARIMA siç vihet re edhe nga grafiku duket t’i përshtatet më mirë të dhënave
pasi natyra e mbetjeve të modelit është më pranë shpërndarjes normale.
Gjithashtu ne inspektuam edhe funksionin autokorrelacion të mbetjeve duke ndërtuar
grafikun e autokorrelacionit dhe intervalet e besimit ±2/√n. (Rezultatet grafike janë
përftuar nga funksionet e gatshme në softuerin R.)
Figura 4.9.a Mbetjet e modelit te regresit (seria e lindjeve 1985-2008)
Histogram of Residual
Residual
Fre
qu
en
cy
-2000 -1000 0 1000 2000
02
04
06
0
-3 -2 -1 0 1 2 3
-20
00
02
00
0
Normal Q-Q Plot
Theoretical Quantiles
Sa
mp
le Q
ua
ntile
s
87
Figura 4.9.b Mbetjet e modelit ARIMA (seria e lindjeve 1985-2008)
Në ndihmë të grafikëve të autokorrelacionit ne kryem edhe një test të përgjithshëm i
cili merr në konsideratë amplitudat e gjithë autokorrelacioneve. Testi ofrohet nga
statistika Ljung–Box–Pierce, Q-statistic: 2
1
( )( 2)
H
h
hQ n n
n h
(4.1)
Vlera H në (4.1) zgjidhet arbitrarisht, përgjithësisht, H = 20. Nën hipotezën zero (
mungon autokorrelacion në mbetjet e modelit) statistika Q ka shpërndarje Hi-katror,2
1 ,~ H p qQ . Pra, ne do ta hedhim poshtë hipotezën zero me nivel besimi α nëse
vlera e statistikës Q kalon kuartilin (1−α) të shpërndarjes 2
H p q .
Figura 4.10 Mbetjet e modelit, ACF e mbetjevedhe statistika Ljung-Box
Histogram of Res
Res
Fre
qu
en
cy
-3000 -2000 -1000 0 1000 2000
04
08
0
-3 -2 -1 0 1 2 3
-20
00
02
00
0
Normal Q-Q Plot
Theoretical Quantiles
Sa
mp
le Q
ua
ntile
s
Standardized Residuals
Time
1985 1990 1995 2000 2005
-6-2
2
0.0 0.5 1.0 1.5 2.0
0.0
0.4
0.8
Lag
AC
F
ACF of Residuals
0 10 20 30 40
0.0
0.4
0.8
p values for Ljung-Box statistic
lag
p va
lue
88
Grafiku i parë në Figurën 4.10 tregon se mbetjet e modelit ndjekin një shpërndarje
normale. Grafiku i dytë, tregon se vlerat e autokorrelcionit të mbetjeve bien brenda
intervaleve të besimit.Grafiku i tretë, tregon se vlerat e statistikës Ljung- Box nuk e
kalojnë kuartilin (1−α), ndaj hipoteza zero pranohet. Pra, nuk kemi arsye të hedhim
poshtë modelin e propozuar.
5. Parashikimi Qëllimi kryesor i vlerësimit të modeleve të lindjeve në Shqipëri është përdorimi i tyre
për parashikime të mëtejshme të popullatës në Shqipëri.
A) Modeli SARIMA
Në modelin tonë të propozuar, SARIMA, ne morëm në konsideratë natyrën sezonale të
të dhënave dhe duke shfrytëzuar disa nga madhësitë e cilësisë së modelit (përmendim
këtu gabimet MAPE, MSE, MAE, AIC, BIC etj) ne përzgjodhëm modelin me tregues
të informacionit AIC më të vogël si dhe vlera të gabimeve më të vogla. Në figurën 4.12,
tregohen vlerat e parashikuara dhe intervalet e besimit 85% dhe 95% bazuar në tre
periudha vrojtimesh të shfrytëzuara për ndërtimin e një modeli të mirë për qëllime
parashikimi: 1985-2008 (288 vrojtime), 1990-2008 (228 vrojtime) dhe 2000-2008 (96
vrojtime).
Shënim: Funksioni auto.arima() aplikon metodologjinë Box-Jenkins për të përzgjedhur
modelin më “të mirë” për vrojtimet.
Figura 4.12 Parashikimet sipas modelit SARIMA
B) Parashikimi sipas Sheshimit eksponencial (Metoda Holt-Winters)
Në kapitullin 2 ne shqyrtuam metodën Holt-Winters si një ndër metodat klasike të
sheshimit eksponencial. Aplikuam këtë teknikë në serinë e lindjeve dhe përftuam
modelin e sheshimit eksponencial me të cilin parashikuam vlerat e serisë në muajt në
Forecasts from ARIMA(2,1,2)(1,0,1)[12]
2007 2008 2009 2010 2011
1000
1500
2000
2500
3000
3500
4000
4500
Forecasts from ARIMA(1,1,1)(1,0,1)[12]
2007 2008 2009 2010 2011
1000
2000
3000
4000
Forecasts from ARIMA(0,1,0)(2,0,0)[12]
2006 2007 2008 2009 2010
01000
2000
3000
4000
5000
6000
7000
Forecasts from ARIMA(2,1,2)(1,0,1)[12]
1985 1990 1995 2000 2005 2010
2000
4000
6000
8000
Forecasts from ARIMA(1,1,1)(1,0,1)[12]
1990 1995 2000 2005 2010
2000
4000
6000
8000
Forecasts from ARIMA(0,1,0)(2,0,0)[12]
2000 2002 2004 2006 2008 2010
01000
2000
3000
4000
5000
6000
7000
89
vijim. I rikthehemi sërisht rezultateve të përftuara për të bërë një krahasim të modelit
sipas metodologjisë Box-Jenkins me modelet e tjera.
Duke përdorur komandat e gatshme të metodës Holt-Winters në R ne përftojmë
sheshimin e serisë kohore dhe parametrat:
> HW=HoltWinters(SS5) #kryen sheshimin eksponencial te serisë kohore
Modeli Holt-Winters për serinë kohore të lindjeve në Shqipëri është një model me trend
dhe përbërëse sezonale aditive dhe parametrat e sheshimit janë: alpha: 0.729 ; beta :
0; gamma: 1 (shiko sheshimin në Figurën 4.13). Seria mbi të cilën është punuar metoda
Holt-Winters ka të dhënat prej 1990-2005.
Figura 4.13 Metoda Holt-Winters (vija blu= seria, vija e kuqe= sheshimi)
Për të gjykuar mbi mirësinë e modelit ne kemi krahasuar të dhënat reale të viteve 1990-
2008 me të dhënat e parashikuara për vitet 2006-2008. Si dhe disa prej kritereve të
parashikimit: ME, RMSE, MAE, MPE, MAPE, MASE, AIC, AICC, BIC.
Komandat e ekzekutuara në R për të përftuar parashikimet janë:
>HoltWintersForecast<-predict(HW,36,prediction.interval= TRUE)
# seria e sheshuar dhe intervalet e besimit
> HoltWintersForecast
fit upr lwr
Jan 2006 2707.779 3899.939 1515.61869
Feb 2006 2430.338 3905.949 954.72754
…. ……… ……… …… ....
Një grafik i të dhënave reale dhe atyre të parashikuara të shoqëruara me intervalet e
besimit tregohet në Figurën 4.14.
Holt-Winters filtering
Time
Obs
erve
d / F
itted
1995 2000 2005
3000
4000
5000
6000
7000
8000
90
Figura 4.14 Metoda Holt-Winters dhe vlerësimet intervalore të parashikimit (vija
blu=seria dhe intervalet e besimitpër parashikimin, vija e kuqe= vlerat e sheshuara )
Një grafik i detajuar i të dhënave reale (Janar 1990-Dhjetor 2008), vlerave të sheshimit
eksponencial nëpërmjet metodës Holt-Winters (për periudhat 1990-2005 dhe 1990-
2008) paraqitet në Figurën 4.15.
Figura 4.15 Parashikimi nëpërmjet metodës Holt-Winters (vija blu=seria reale ’90-
‘05, vija e kuqe= vlerat e sheshuara bazuar në të dhënat e viteve ’90-’05, vija lejla =
seria reale ’06-’08, vija jeshile=vlerat e sheshuara bazuar në të dhënat e viteve ’90-
‘08)
C) Parashikimi sipas modelit ETS
Funksioni ets() afishon modelin dhe parametrat e sheshimit sipas E-Error T-trend
dhe S-Sezonalitet.
Holt-Winters filtering
Time
Obs
erve
d / F
itted
1995 2000 2005 2010
2000
4000
6000
8000
91
Funksioni summary ()afishon një përmbledhje të modelit dhe parashikimet. Modeli
ETS për serinë e lindjeve (1990- 2005) është: ETS(A,N,A) pra një model me gabime
aditive, pa trend dhe sezonalitet aditiv.
> summary(forecast(SS))
Forecast method: ETS(A,N,A)
Model Information:
ETS(A,N,A)
Call:
ets(y = object)
Smoothing parameters:
alpha = 0.9999
gamma = 1e-04
Initial states:
l = 7499.4998
s = -560.9959 -627.2871 -90.4 205.6223 397.7078 696.0149
416.9466 299.9661 39.389 43.8771 -435.9757 -384.8651
sigma: 480.7723
AIC AICc BIC
3408.790 3411.163 3454.395
In-sample error measures:
ME RMSE MAE MPE MAPE
-19.8798397 480.7723060 329.4195487 -0.9382922 6.7947608
MASE
0.7959913
Forecasts:
Point Forecast Lo 80 Hi 80 Lo 95 Hi 95
Jan 2006 3298.174 2682.0391 3914.308 2355.87724 4240.470
… …. …. …. …
Dec 2007 3122.000 103.8945 6140.105 -1493.79378 7737.793
Modeli ETS për serinë e vrojtimeve 1990- 2008 është:
> summary(ets(Ls))
ETS(M,N,M)
Call:
ets(y = Ls)
Smoothing parameters:
alpha = 0.7654
gamma = 1e-04
Initial states:
l = 7598.2042
s=0.8879 0.8668 0.9898 1.0572 1.063 1.1367
1.0807 1.0722 1.0012 0.99 0.8972 0.9573
sigma: 0.0962
AIC AICc BIC
4036.809 4038.781 4084.820
Training set error measures:
ME RMSE MAE MPE MAPE MASE
-24.5326955 465.4780546 323.1767185 -1.0516275 6.9702644 0.8231815
92
Duke shfrytëzuar të dhënat e serisë kohore të lindjeve për dy periudha 1990-2005 dhe
1990-2008 kemi ndërtuar dy modele, përkatësisht: ETS(A,N,A) dhe ETS(M,N,M).
Figura 4.16 paraqet serinë e vlerave reale dhe parashikimet sipas dy modeleve.:
Figura 4.16 Parashikimet dhe intervalet e besimit për modelet ETS(A,N,A) dhe
ETS(M,N,M) (vija e zeze= seria reale, vija blu=parashikimi ETS, zona blu=intervali
i besimit 80%, zona e gri=intervali i besimit 95%).
Grafiku i parë në Figurën 4.16 paraqet vlerat reale të serisë së lindjeve (1990-2005, vija
e zezë) dhe parashikimet sipas modelit për periudhën 2006-2010 (vija blu). Grafiku i
dytë në Figurën 4.16 paraqet vlerat e parashikuara (2009-2013) sipas modelit të
simuluar mbi serinë reale të vrojtimeve (1990-2008). [ Vlerat e parashikuara për secilin
model gjenden në Shtojcën 4]
D) Parashikimi sipas modelit ARIMA
Modelet ARIMA i përmendëm në kapitullin 3, ku ndërtuam edhe një model për serinë
kohore të lindjeve në Shqipëri.
Në këtë pjesë do të shqyrtojmë dy modele duke shfrytëzuar të dhënat e serisë 1990-
2005 dhe të dhënat e serisë 1990-2008.
> auto.arima(SS5) # SS5 seria kohore 1990-2005
Series: SS5
ARIMA(1,1,1)(1,0,1)[12]
Call: auto.arima(x = SS5)
Coefficients:
ar1 ma1 sar1 sma1
0.7004 -0.9657 0.9307 -0.7090
s.e. 0.0582 0.0155 0.0425 0.0871
sigma^2 estimated as 218215: log likelihood = -1448.58
AIC = 2907.16 AICc = 2907.48 BIC = 2923.42
> auto.arima(SS8) # SS8 seria kohore 1990-2008
Series: SS8
ARIMA(1,1,1)(1,0,1)[12]
Call: auto.arima(x = SS8)
Coefficients:
ar1 ma1 sar1 sma1
Forecasts from ETS(A,N,A)
Muaj
Nu
mri
i lin
dje
ve
2002 2004 2006 2008 2010
05
00
01
00
00
Forecasts from ETS(M,N,M)
Muaj
Nu
mri
i lin
dje
ve
2004 2006 2008 2010 2012 20140
20
00
40
00
60
00
80
00
93
0.7075 -0.9674 0.9428 -0.7175
s.e. 0.0528 0.0142 0.0323 0.0722
sigma^2 estimated as 188954: log likelihood = -1705.24
AIC = 3420.48 AICc = 3420.76 BIC = 3437.61
> forecast(auto.arima(SS8))
Point Forecast Lo 80 Hi 80 Lo 95 Hi 95
Jan 2009 2932.194 2375.117 3489.270 2080.2184 3784.169
… … … … … … … …
Dec 2010 2447.406 1497.329 3397.482 994.3883 3900.423
Modelet janë përkatësisht SARIMA me koeficientë:
ARIMA(1,1,1)(1,0,1)[12] ( 1990 deri 2005 )
s = 12, 0.7004, = 0.9307, =-0.9657, = -0.7090
Ekuacioni i modelit SARIMA do të shkruhej:
1 2 12 13 14
1 12 13
1.7004 0.7004 0.9307 1.5825 0.6518
0.9657 0.709 0.6847
t t t t t t
t t t t
X X X X X X
dhe,
ARIMA(1,1,1)(1,0,1)[12] ( 1990 deri 2008 )
s = 12, 0.7075, = 0.9428, = -0.9674, = -0.7175
Grafikisht modelet dhe seria reale e vrojtimeve tregohet në figurën 4.17
Figura 4.17 Parashikimet për serinë e lindjeve sipas modeleve SARIMA
94
Grafiku i parë, në Figurën 4.17 paraqet modeline parë
ARIMA(1,1,1)(1,0,1)[12](simuluar mbi vrojtimet 1990 - 2005) , vija e zeze= seria ’90-
’08, vija blu = parashikimi, zona portokalli =intervali i besimit 80%, zona e verdhë
=intervali i besimit 95%).
Grafikui dytë, në Figurën 4.17 paraqet modeline dytë ARIMA(1,1,1)(1,0,1)[12]
(simuluar mbi vrojtimet 1990-2008).
Tabela 4.1 dhe Tabela 4.2 tregojnë disa prej rezultateve dhe kritereve të përdorura për
vlerësimin e modelit më të mirë për parashikimet e lindjeve.
Tabela 4.1 Rezultatet sipas Sheshimit eksponencial (Holt-Winters) dhe modelit ETS
Koeficientët Exp.Smoothing
’90-‘05
Exp.Smoothing
’90-‘08
ETS
(A,N,A)
ETS
(M,N,M)
alpha 0.7294214 0.6811137 0.9999 0.7654
beta 0 0
gamma 1 1 1 e-04 1 e-04
a 3693.28 2826.18
b -40.81 -40.81
s1 -944.68 -156.94 -560.99 0.88
s2 -1181.31 -815.97 -627.28 0.86
s3 -770.64 -757.11 -90.4 0.98
s4 -433.74 -715.89 205.62 1.057
s5 403.09 -53.79 397.70 1.063
s6 793.098 145.47 696.01 1.136
s7 1194.73 716.062 416.94 1.08
s8 1270.97 778.204 299.96 1.072
s9 1400.52 1409.93 39.38 1.0012
s10 648.44 1065.26 43.87 0.99
s11 -330.24 353.50 -435.97 0.89
s12 -571.27 179.81 -384.86 0.95
ME -19.87 -24.53
RMSE 480.77 465.47
MAE 329.41 323.17
MPE -0.93 -1.05
MAPE 6.79 6.97
MASE 0.79 0.82
AIC 3408.79 4036.8
AICC 3411.16 4038.78
BIC 3454.39 4084.82
Tabela 4.2 Rezultatet për modelin SARIMA
Model ar1 ma1 sar1 sma1 AIC AICC BIC
ARIMA(1,1,1)(1,0,1)[12]
1990-2005 0.7004 -0.9657 0.9307 -0.7090 2907.16 2907.48 2923.42
s.e 0.0582 0.0155 0.0425 0.0871
ARIMA(1,1,1)(1,0,1)[12]
1990-2008 0.7075 -0.9674 0.9428 -0.7175 3420.48 3420.76 3437.61
s.e 0.0528 0.0142 0.0323 0.0722
Modelet e propozuara në këtë kapitull janë disa përpjekje të para për ndërtimin e
modeleve ARIMA për të dhënat demografike. Këtu është treguar përdorimi i
metodologjisë Box dhe Jenkins në përftimin e modeleve ARIMA dhe parashikimet e
serisë kohore të lindjeve. Të tjera studime, teknika dhe modele do të zhvillohen në
vijim me qëllim përftimin e modeleve parashikuese më të mira për seritë kohore.
95
Mbështetur në rezultatet e gjetura, shihet se modeli “më i mirë” për parashikimin e
numrit të lindjeve është modeli sezonal ARIMA(1,1,1)(1,0,1)[12].
Box dhe Jenkins mbetet teknika e parë dhe mjaft frytdhënëse për ndërtimin e modeleve
parashikuese të serive kohore. Të dhënat e INSTAT për vitet 2009 dhe 2010 janë
treguar në tabelën 4.3
Tabela 4.3 Numri i lindjeve për muaj (2009-2010)
Muaj Janar Shkurt Mars Prill Maj Qershor Korrik Gusht
Shtator Tetor Nëntor Dhjetor
2009 3,027 2,277 2,480 2,409 3,050 2,929 3,329 3,127
3,413 2,942 2,354 2,778
2010 3,028 2,387 2,594 2,464 2,819 2,708 2,922 2,973
3,402 3,152 2,601 3,012
Parashikimet dhe intervalet e besimit sipas modelit ARIMA të propozuar më sipër për
këto dy vite janë: Point Forecast Lo 80 Hi 80 Lo 95 Hi 95
Jan 2009 2932.194 2375.117 3489.270 2080.2184 3784.169
Feb 2009 2560.444 1867.390 3253.499 1500.5089 3620.380
Mar 2009 2645.377 1886.204 3404.549 1484.3220 3806.431
Apr 2009 2578.757 1783.332 3374.183 1362.2589 3795.256
May 2009 2926.985 2110.073 3743.897 1677.6262 4176.344
Jun 2009 2901.449 2070.906 3731.991 1631.2438 4171.654
Jul 2009 3077.219 2237.443 3916.995 1792.8926 4361.545
Aug 2009 2929.827 2083.384 3776.270 1635.3043 4224.350
Sep 2009 3251.426 2399.870 4102.983 1949.0826 4553.770
Oct 2009 2988.990 2133.291 3844.688 1680.3110 4297.668
Nov 2009 2519.616 1660.400 3378.832 1205.5583 3833.674
Dec 2009 2564.050 1701.728 3426.371 1245.2430 3882.856
Jan 2010 2583.624 1699.448 3467.800 1231.3934 3935.854
Feb 2010 2296.229 1397.608 3194.851 921.9059 3670.553
Mar 2010 2420.928 1512.103 3329.753 1031.0005 3810.855
Apr 2010 2389.695 1473.199 3306.192 988.0351 3791.356
May 2010 2740.331 1817.728 3662.935 1329.3306 4151.332
Jun 2010 2732.061 1804.347 3659.775 1313.2449 4150.877
Jul 2010 2908.953 1976.781 3841.124 1483.3187 4334.586
Aug 2010 2777.907 1841.714 3714.101 1346.1235 4209.691
Sep 2010 3086.697 2146.780 4026.614 1649.2180 4524.176
Oct 2010 2843.241 1899.806 3786.675 1400.3816 4286.100
Nov 2010 2403.533 1456.725 3350.340 955.5156 3851.550
Dec 2010 2447.406 1497.329 3397.482 994.3883 3900.423
Parashikimet dhe vlerat reale të paraqitura në një grafik janë:
Figura 4.18 Parashikimet dhe vlerat reale për serinë e lindjeve sipas modeleve
SARIMA(’09-’10)
Vrojtimet reale dhe parashikimet sipas modelit ARIMA 2009-2010
Muaj
Lin
dje
2009.0 2009.5 2010.0 2010.5
24
00
26
00
28
00
30
00
32
00
34
00
Instat
Parashikim
96
Siç vihet re edhe nga paraqitja grafike e vlerave të parashikuara sipas modelit ARIMA
të ndërtuar dhe vlerave reale të regjistruara nga INSTAT kemi një përafrim të
parashikimeve brenda intervaleve të besimit që jep modeli ARIMA. Mund të themi se
modeli i ndërtuar është një model i mirë për qëllime parashikimi të lindjeve në Shqipëri.
Parashikimet sipas modeleve të propozuara (ETS, Holt Winters dhe ARIMA) gjenden
në Shtojcën 4.
97
Kapitulli 5
Reduktimi i Përmasave dhe Ngjashmëritë Në Seritë
Kohore. Modifikimi dhe Aplikime të Teknikave PAA
dhe SAX në zbulimin e ngjashmërive të sekuencave të
ADN-ve
Në këtë kapitull do të prezantohen teknikat e reduktimit të përmasave të një serie
kohore, PAA (Piecewise Aggregate Approximation) dhe SAX (Symbolic Aggregate
Approximation). Do të prezantohen kodet e ndërtuara në gjuhën e programimit R,
performanca e SAX në R dhe Matlab. Për më tepër do të prezantohet një modifikim i
teknikës SAX për aplikime në zbulimin e ngjashmërive në sekuenca simbolike siç janë
sekuencat e ADN-së.
Koncepti i ngjashmërisë është i rëndësishëm jo vetëm në çdo fushë të shkencës por ai
ka rrënjë të thella edhe në filozofi dhe psikologji. Në filozofinë perëndimore ku
diskutohen konceptet e origjinës, tre parimet e shoqërisë përshkruhen si: ngjashmëri,
puqje në kohë ose në vend, shkak ose pasojë (Hume, 1784). Ngjashmëria strikte
përkufizohet ndryshe nga ngjashmëria e cila kërkon ndarjen e përbërëseve identike.
Wallach (1958) e zgjeron përkufizimin e ngjashmërisë në nivelin e ”ngjashmërisë
potenciale” (përkufizim që konsiderohet si studimi i parë modern i ngjashmërisë). Ai
përfshin idenë e përzgjedhjes apo injorimit të veçorive të objekteve që krahasohen për
ngjashmëri midis tyre.
Kjo pjesë trajton më tepër madhësitë e ngjashmërive në shkencat ekzakte. Madhësitë e
ngjashmërisë në këtë trajtim janë algoritme që përcaktojnë shkallën e marrëveshjes
midis subjekteve. Në paragrafët në vijim prezantohen konceptet dhe madhësitë
matematikore që përdoren për teknikat e ngjashmërive.
5.1 Funksionet distancë (Aksiomat metrike)
Përkufizimi 5.1 Për një hapësirë të dhënash D, që përcakton bashkësinë e serive
kohore ose trajektoreve të të dhënave, dhe dy element x, y 𝜖 D, një funksion distancë
(dist) në D përcaktohet si:
dist: DxD R
ku R është bashkësia e numrave real dhe dist ka vetitë në vazhdim:
(i) dist(x,y) ≥ 0( jonegativiteti );
(ii) dist(x,y)=0 x=y ( reflektiviteti );
(iii) dist(x,y)=dist(y,x) ( simetria );
98
Përkufizim 5.2 Për një hapësirë të dhënash D, x, y 𝜖 D së bashku me një
funksion distancë dist në D, themi se x është i ngjashëm me y nëse ( , )dist x y , ku
është një prag i paracaktuar.
Një funksion distancë ndikon drejtpërdrejt cilësinë e rezultateve të përputhjes, të tillë si
saktësinë e klasifikimit dhe klasterit. Funksioni distancë është i varur nga aplikimi dhe
të dhënat dhe për këtë qëllim duhet të modelohet më kujdes me qëllim që të kënaqë
kërkesat e aplikacionit.
Për të kuptuar më mirë ndikimin e funksioneve distancë në seritë kohore numerike po
japim në vijim disa nga funksionet distancë më të përdorura në teknikat e ngjashmërive
të serive kohore numerike.
5.1.1 Distanca Minkowski
Distanca Minkowski14 është një distancë metrike për të dhëna shumëdimensionale.
Norma-n e distancës Minkowski mund të përkufizohet si distanca Dijmidis dy pjesëve
i dhe j si më poshtë:
1/
1
| |
nd
n
ij il jl
l
D x x
(5.1)
5.1.2 Distanca Manhatan/ Distanca “City Block”
Distanca Manhatan është distanca Minkowski për vlerën e normës n=1. Ajo është
madhësia e diferencave në vlerë absolute midis dy pikave dhe përcaktohet si më poshtë:
1
| |d
ij il jl
l
D x x
(5.2)
5.1.3 Distanca Euklidiane
Distanca Minkowski për një vlerë të normës n=2 përkufizohet si distanca Euklidiane.
Kjo distancë është ndër madhësitë më të përdorshme për të përcaktuar largësinë midis
dy pikave, dhe përcaktohet si më poshtë: 2
1/ 2
1
| |d
ij il jl
l
D x x
(5.3)
5.1.4 Distanca Çebishev
Kur norma n në distancën Minkowski kjo distancë përkufizohet si distanca e
Ҫebishevit. Ajo përfaqëson distancën më të madhe ndërmjet dy vektorëve përgjatë çdo
dimensioni koordinativ, dhe përcaktohet si më poshtë:
1max | |ij il jl
l dD x x
(5.4)
14Applied Predictive Modeling, Max Kuhn & Kjell Johnson (2013)
99
5.1.5 Distanca Jaccard
Distanca Jaccard mat ndryshimin midis dy bashkësive. Ajo është plotësuese për
koeficientin Jaccard dhe përftohet duke zbritur koeficientin Jaccard nga 1. (A dhe B
janë dy bashkësitë)
| | | |( , ) 1 ( , )
| |
A B A BJ A B J A B
A B
(5.5)
5.1.6 Koeficienti Dice
Koeficienti Dice, i emërtuar sipas Lee Raymond Dice dhe i njohur si koeficienti Dice,
është një tjetër madhësi ngjashmërie midis dy bashkësive. Nuk është shumë i
dallueshëm nga koefiçienti Jaccard por ka disa veti të tjera. (X dhe Y janë dy bashkësitë)
2 | |
| | | |
X Ys
X Y
(5.6)
Funksioni i merr vlerat nga 0 në 1, ashtu si dhe Jaccard, por funksioni diferencë
korrespondues:
2 | |
1| | | |
X Yd
X Y
(5.7)
nuk është një distancë metrike pasi nuk gëzon vetinë e trekëndëshit.
Për dy bashkësi gërmash X dhe Y, koefiçienti mund të përcaktohet si dyfishi i
informacionit të bërbashkët pjestuar me shumën e kardinaleve të dy bashkësive. Kur
konsiderohet si një madhësi ngjashmërie për bashkësi gërmash koefiçienti mund të
përllogaritet për dy fjalë x dhe y duke përdorur bigram-et sipas formulës:
2ntsn nx y
(5.8)
ku, nt është numri i bigrameve të përbashkëta të gjetura në dy fjalët (vektorët e
gërmave), nx është numri i bigrameve të gjetura në fjalën (vektorin) X dhe ny është numri
i bigrameve të gjetura në fjalën (vektorin) Y.
Bigram ose digram quhet çdo sekuencë prej dy elementesh në një fjalë, që janë në
përgjithësi gërma apo fjalë.
Shembull 5.1
Nëse duam të njehsojmë ngjashmërinë midis dy fjalëve (vektorëve të gërmave):
kohë
kahë
do të gjenim bashkësinë e bigrameve në secilën fjalë:
{ko,oh,hë}
{ka,ah,hë}
100
Secila bashkësi ka 3 element dhe prerja e dy bashkësive të bigrameve kanë të përbashkët
1 element: hë.
Duke zëvendësuar tek formula përftojmë (2 1) /(3 3) 0.33s
Shënim: Sa më afër vlerës 1 aq më të ngjashme janë vektorët me gërma (fjalët).
5.1.7 Ngjashmëria kosinusoidale
Ngjashmëria kosinusoidale është një madhësi e njohur ngjashmërie bazuar në zbulimin
e informacionit. Në këtë përafrim fjalët që krahasohen transformohen në hapësira
vektoriale në mënyrë të tillë që rregulli Euklidian kosinusoidal të mund të përdoret për
të përllogaritur ngjashmërinë. Ky përafrim shpesh shoqërohet me përafrime të tjerë me
qëllim kufizimin e përmasës së hapësirës vektoriale.
cos( )|| || || ||
A Bngjashmëria
A B
(5.9)
5.1.8 Distanca Hamming
Kjo distancë konsiderohet si madhësia më popullore për atributet binare. Ajo
përcaktohet si numri i biteve që ndryshojnë midis dy vargjeve binare për shembull;
numri i biteve që duhet të ndryshohen me qëllim kthimin e një vargu në një tjetër. Për
shembull vargu 1011101 dhe 1001001 ka një distancë Hamming prej 2 biteve (ndryshe
themi se dy bite jane të ndryshëm). Ky përafrim përdoret për krahasime të sakta në
gjatësi.
5.1.9 Madhësitë probabilitare të ngjashmërive
Në shumë fusha aplikative si përpunimi i imazhit, analiza e ADN-së dhe databazat
multimediale; kompleksiteti i të dhënave shpesh e bën të vështirë përcaktimin e saktë
të funksioneve, pozicioneve metrike për ngjashmëritë. Për të studiuar ngjashmëritë
midis këtyre të dhënave komplekse shfrytëzohen mjete probabilitare mbi ngjashmërinë.
Në përgjithësi funksionet e ngjashmërisë marrin si argument të funksionit të
ngjashmërisë modelet probabilitare të objekteve që krahasohen.
5.1.10 Vlerësimi me metodën e përgjasisë maksimale (MLE) dhe vlerësimi
i maksimumit a-posteriori
Vlerësimet e përftuar nëpërmjet metodës së përgjasisë maksimale janë të përdorshëm
në përshtatjen e modeleve matematikore të të dhënave të disponueshme.
Vlerësuesit MAP lidhen ngushtë me vlerësuesit e metodës së përgjasisë maksimale,
megjithëse në dallim nga përafrimi MLE ku përdoren për vlerësim vetëm madhësitë
eksperimentale të të dhënave, MAP është një përafrim Bejesian ku një shpërndarje
paraprake përdoret gjithashtu për vlerësim. MAP është një metodë më pak e përdorur
si rezultat i kompleksitetit të saj dhe padisponueshmërisë së informacionit paraprak të
zgjedhjes.
101
5.2 Kërkimi i ngjashmërive në seri kohore numerike
Distanca Euklidiane është funksioni distancë i parë që është përfshirë në kërkimin e
ngjashmërive midis dy sekuencave të serive kohore të koduar numerikisht. Kjo distancë
ka përparësinë e kryerjes lehtësisht të veprimeve dhe kostoja e tyre është lineare në
lidhje me gjatësinë e sekuencës. Një mangësi e përdorimit të kësaj distance për qëllime
të zbulimit të ngjashmërive midis dy sekuencave numerike është fakti se ajo kërkon që
të dy seritë kohore (sekuencat) të kenë të njëjtën gjatësi dhe kjo gjë nuk përkrah
zhvendosjen kohore lokale.
Zhvendosje kohore lokale kemi në rastin kur një element i një sekuence është
zhvendosur gjatë boshtit të kohës për t’u përputhur me një element të sekuencës tjetër
kohore (madje edhe kur dy elementët e përputhur shfaqen në pozicione të ndryshme të
sekuencave). Kjo është e dobishme kur sekuencat kanë formë të ngjashme por janë
jashtë faze. Është quajtur “lokale”, sepse jo të gjithë elementët e sekuencës që
kontrollohet nevojiten të jenë të zhvendosur. Gjithashtu elementët e zhvendosur nuk
kanë të njëjtin faktor zhvendosje. Në zhvendosjen kohore “globale”, të gjithë elementet
janë zhvendosur gjatë boshtit të kohës me një faktor zhvendosje të fiksuar.
Përgjithësisht, zhvendosja kohore lokale nuk mund të trajtohet nga distanca si ajo
Minkowski, sepse kjo distancë kërkon që elementi i i-të i sekuencës që kontrollohet të
jetë i bashkërenduar me elementin e i-të të sekuencës së dhënë.
Softueri R ofron një funksion të gatshëm për të përllogaritur distancën Euklidiane (por
jo vetëm këtë) midis dy serive kohore me të njëjtën gjatësi. Shembulli më poshtë tregon
si mund të veprohet për dy seri kohore.
Shembull 5.1
> seria_1=c(1,2,1,0,2,1,2,3,2,1)
> seria_2=c(1,0,2,1,0,2,2,1,2,0)
> M=rbind(seria_1,seria_2)
> M
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
seria1 1 2 1 0 2 1 2 3 2 1
seria2 1 0 2 1 0 2 2 1 2 0
> DistEuklidiane=dist(M,"euclidean")
> DistEuklidiane
seria1
seria2 4
5.2.1 Dynamic Time Warping (DTW)
Një tjetër distancë qëpërdoret për të trajtuar zhvendosjen kohore lokale dhe sekuencat
kohore me gjatësi të ndryshme është DTW. Metoda DTW është propozuar në vitet 1970
në konteksin e zbulimit të zërit. Më vonë DTW është zbatuar si teknikë e zbulimit të
ngjashmërive në analizën e elektro-kardiogramave, biometrik, klasterat e gjeneve etj.
Dynamic Time Warping (DTW) [Keogh dhe Pazzani, 2001] zbulon ngjashmëri
optimale midis dy serive kohore. Është emërtuar “time warping” (prishje e kohës) pasi
karakterizon vetinë që një sekuence ngjarjesh të mos jetë e rregullt në kohë. Zakonisht
102
X dhe Y janë dy seri kohore të cilat duhet të ngjeshen ose zgjerohen në kohë me qëllim
zbulimin e ngjashmërive më të forta midis tyre.
Përkufizim 5.3Distanca DTW ndërmjet dy serive kohore T dhe S me gjatësi m dhe n,
respektivisht, është përkufizuar si:
DTW((),())=0
DTW(S,())=D((),T)=∞
DTW(S,T)=dist(ti,si)+min{ DTW(S,T[2:-]); DTW(S[2:-],T); DTW(S[2:-], T[2:-])
ku, () nënkupton bashkësinë boshe; [2:-] nënkupton nënbashkësinë që përfshin
elementin e dytë deri në të fundit; dhe dist(ti,si) nënkupton një funksion distancë i cili
mund të jetë dhe njëra nga distancat më sipër, për shembull distanca Euklidiane.
DTW nuk kërkon që dy seritë kohore të kenë të njejtën gjatësi, dhe mund të trajtojë
zhvendosjen kohore lokale nga dublikimi i elementit të mëparshëm të sekuencës
kohore.
DTW lejon disa elemente të dublikohen me qëllim që të përshtaten rastet kur elementët
janë të ngjashëm por jashtë fazës. DTW mund të trajtojë zhvendosjen kohore lokale, ku
distanca Euklidiane nuk mundet.
DTW për dy seri kohore mund të njehsohet nëpërmjet metodës së programimit dinamik.
Në rastin më të mirë, me programim dinamik, kompleksiteti i DTW është kuadratik,
O(m * n) (m dhe n janë gjatësitë e dy serive që krahasohen, respektivisht). Si rrjedhojë,
kur përmasa e bazës së të dhënave rritet, kërkohet të harxhohet një kohë e pafundme në
kryerjen e DTW. Fatkeqësisht, DTW nuk plotëson mosbarazimin e trekëndëshit.
5.2.2 Aplikime të teknikës DTW në programin R
Paketa dwt [Giorgino, 2009]15 në R ofron disa funksione ndihmëse për të përllogaritur
vlerën DTW midis dy serive kohore si dhe përftimin e paraqitjeve grafike më të
detajuara. Në këtë paketë, funksioni dtw(x, y, ...) llogarit Dynamic Time Warp dhe gjen
ngjashmërinë optimale midis dy serive x dhe y, dhe dtwDist(mx, my=mx, ...) ose
dist(mx, my=mx, method="DTW", ...) llogarit distancat midis serive kohore mx dhe my.
Paketa është përmirësuar dhe varianti më i fundit është hedhur në përdorim në 2013,
Giorgino. Paketa ofron shumë veprime dhe paraqitje grafike të një cilësie të lartë. Në
vijim po tregojmë disa aplikime.
Le të simulojmë dy seri kohore në R dhe të ndërtojmë paraqitjet grafike të tyre për të
zbatuar më vonë teknikën DTW.
> x=seq(-pi,pi,0.1)# simulimi i një sekuence vlerash
> S=ts(sin(x))#seri kohore sinusoidale
> T=ts(cos(x))#seri kohore kosinusoidale
> plot(main="Seri trigonometrike",window(cbind(S,T)),col=”red”)
#paraqitje grafike e dy serive kohore sipas të njëjtit bosht kohor
15http://dtw.r-forge.r-project.org
103
Figura 5.1 Dy seri trigonometrike të simuluara në R
Sikurse vihet re edhe nga figura 5.1 dy seritë janë të zhvendosura por duket të kenë
ngjashmëri në sekuenca vlerash. I mbivendosim të dy grafikët e serive kohore në një
sistem boshtesh për të kuptuar më qartë zhvendosjen.
> plot(T,main="Mbivendosje e dy serive kohore"); lines(S,col="blue")
Figura 5.2 Dy seritë kohore trigonometrike (S,T) të mbivendosura
Paketa dtw() në R ofron funksionin warping i cili nëpërmjet një paraqitje grafike tregon
sekuencat ku dy seritë kanë ngjashmëri dhe ku nuk kanë ngjashmëri.
> alignment<-dtw(S,T);
> alignment
DTW alignment object
Alignment size (query x reference): 63 x 63
Call: dtw(x = S, y = T)
-1.0
0.0
1.0
S
-1.0
0.0
1.0
0 10 20 30 40 50 60
T
Time
Seri trigonometrike
Mbivendosje e dy serive kohore
Time
T,S
0 10 20 30 40 50 60
-1.0
-0.5
0.0
0.5
1.0
104
> plot(alignment$index1,alignment$index2,main="Warping function");
> lines(1:100-25,col="red")
Figura 5.3 Funksioni warping për dy seritë kohore trigonometrike
Një paraqitje grafike tre-dimensionale e teknikës DTW për shembullin e mësipërm
përftohet në R nga kodi: > dtw(S,T,keep=TRUE)->alignment;
> dtwPlotThreeWay(alignment);
Figura 5.5 Ngjashmëria në sekuencat e dy serive kohore trigonometrike
Për të saktësuar pozicionin e pikave të serive kohore ku fillon ngjashmëria mund të
shfrytëzohet kodi i mëposhtëm. > hq <- (0:8)/8
> hq <- round(hq*100)
0 10 20 30 40 50 60
01
02
03
04
05
06
0
Warping function
alignment$index1
alig
nm
en
t$in
de
x2
Timeseries alignment
d$index1
d$index2
Query index
xts
0 10 20 30 40 50 60
-1.0
1.0
yts
Reference index
1.0 -1.0
0
10
20
30
40
50
60
105
> hw <- (alignment$index1 %in% hq)
> hi <- (1:length(alignment$index1))[hw]
> dtwPlotThreeWay(alignment,match.indices=hi,col=”blue”,lwd=3)
Figura 5.6 Ngjashmëria në sekuencat e dy serive kohore trigonometrike
Sikurse vihet re nga grafiku më sipër, dy sekuencat kanë ngjashmëri me njera tjetrën në
intervalet e vrojtimeve S [20:63] dhe T[4:50] (vlerat janë marrë me përafërsi)
Për t’u bindur për këtë ndërtojmë edhe dy paraqitjet grafike 5.6 A) dhe B) të dy pjesëve
të sekuencave. > plot(S[20:63],col="red",main="Sekuencat e ngjashme")
> lines(T[4:50],col="blue")
> legend(20,-0.5,c("Sekuenca S-sinusoid","Sekuenca T-kosinusoid"),
+ fill=c("red","blue"))
Figura 5.6 A) Ngjashmëria në sekuencat e dy serive kohore trigonometrike
Timeseries alignment
d$index1
d$in
dex2
Query index
xts
0 10 20 30 40 50 60
-1.0
0.5
yts
Ref
eren
ce in
dex
1.0 -0.5
010
2030
4050
60
0 10 20 30 40
-1.0
-0.5
0.0
0.5
1.0
Sekuencat e ngjashme
Index
S[20:63]
T[4:50]
Sekuenca S-sinusoid
Sekuenca T-kosinusoid
d$index1
106
Figura 5.6 B) Ngjashmëria në sekuencat e dy serive kohore trigonometrike
Në vitet e fundit janë propozuar të tjera distanca efektive për përdorime të ngjashmërive
midis dy serive kohore përmendim këtu: LCSS -Longest Common SubSequences.
LCSS është propozuar si distancë që mund të përdoret për rastet e serive kohore që
përmbajnë zhurmë. Intuita e LCSS është të largojë efektet e zhurmës duke numëruar
vetëm elementët që përputhen midis dy sekuencave.
Distanca Euklidiane dhe DTW janë të ndjeshme ndaj zhurmës sepse:
Distanca Euklidiane dhe DTW kërkojnë që secili element i sekuencës që
kontrollohet të ketë një element korrespondues në sekuencën me të cilën
krahasohet, madje edhe për zhurmën.
Tabela 5.1 Paraqet një krahasim të dy funksioneve distancë bazuar në gjashtë kritere:
aftësia për të trajtuar sekuenca me gjatësi të ndryshme, aftësia për të trajtuar sekuenca
me zhvendosje kohore lokale, aftësia për të trajtuar sekuencat që përmbajnë zhurma,
nëse pragu i përputhjes kërkohet, kompleksiteti (kostoja e veprimeve), dhe funksioni
distancë është një metrikë.
Funksion
i
Distancë
Gjatësi të
Ndyshm
e
Zhvendosj
a
Kohore
Lokale
Zhurm
a
Pragu
Përputhë
s
Kompleksitet
i
Metrik
ë
Lp-norma Jo Jo Jo Jo O(N) Po
DTW Po Po Jo Jo O(N2) Jo
LCSS Po Po Po Po O(N2) Jo
Nga Tabela 5.1, shihet se:
0 10 20 30 40
-1.0
0.0
1.0
Sekuencat e ngjashme ne dy serite
trigonometrike
Index
S[20:63]
0 10 20 30 40
-0.5
0.5
Index
T[5:50]
107
Kompleksiteti i Lp – normës është linear dhe është një metrikë, por nuk mund
të trajtojë seri kohore me gjatësi të ndyshme, zhvendosje kohore lokale, ose
zhurmë.
Kompleksiteti i DTW dhe LCSS është kuadratik, ato nuk janë metrika.
DTW mund të trajtojë sekuenca kohore me gjatësi të ndryshme dhe zhvendosje
kohore lokale, por është e ndjeshme ndaj zhurmave.
LCSS i nevojitet një prag përputhje i paracaktuar për të trajtuar zhurmën. Mund
të trajtojë kështu sekuencat kohore me gjatësi të ndryshme dhe zhvendosje
kohore lokale.
5.3 Reduktimi i përmasave të serive kohore
Reduktimi i përmasave të serive kohore është një ndër problemet që është diskutuar
mjaft në vitet e fundit dhe për të cilën janë propozuar shumë teknika. [Andre-Jonsson
H., Badal D., (1997); Chan K., Fu A. W., (1999); Faloutsos C., Ranganathan M.,
Manolopulos Y. (1994); Keogh E., Chakrabarti K., Pazzani M. (2001); Yi B. K.,
Faloutsos C., (2000)]. Disa prej teknikave shfrytëzojnë transformimin e të dhënave në
simbole (kryesisht gërma të alfabetit) me qëllim reduktimin e përmasës së serisë
kohore. Këto teknika kanë tërhequr vëmendjen e komuniteteve të korrigjimeve të
teksteve dhe së fundmi komunitetin e studiuesve biologë. [ Chan K., Fu A. W., (1999);
Apostolico A., Bock M.E., Lonardi S., (2002); Durbin R., Eddy S., Krogh A.,Mitchison
G., (1998); Tompa M., Buhler J., (2001); Lonardi S., (2001)].
Teknika të cilës do ti referohemi në këtë kapitull dhe për të cilën do të prezantojmë disa
modifikime dhe teste numerike është teknika Symbolic Aggregate Approximation
(SAX). Në vazhdim do ti referohemi shkurt SAX.
SAX u propozua për herë të parë në vitin 2002 nga Jessica Lin, Eamonn Keogh, Stefano
Lonardi, Bill Chiu; kjo teknikë bazohet në një tjetër teknikë reduktimi të quajtur
Piecewise Aggregate Approximation (PAA) dhe përdoret më së shumti për reduktimin
e përmasave të serive kohore. Për të shfrytëzuar teknikën SAX në një seri kohore
fillimisht seria kohore transformohet në një përfaqësim PAA dhe më pas simbolizohet
në një sekuencë gërmash, e cila është përfaqësimi SAX i asaj serie kohore. SAX duket
të jetë teknikë shumë e përshtatshme për të punuar me seri kohore me shumë përmasa.
5.3.1 Përkufizime dhe koncepte kryesore
Në dekadat e fundit janë studiuar një numër i madh i transformimeve të serive kohore.
Përmendim këtu: Transformimi Diskret Furie (Discrete Fourier Transform (DFT)),
Transformimi Diskret i valëzave Valor (Discrete Wavelet Transform (DWT)), Modelet
Pjesë-Pjesë Lineare dhe konstante (Piecewise Linear, Piecewise Constant Models
(PAA), (APCA)), dhe Dekompozimi i Vlerës Singulare (Singular Value
Decomposition (SVD)).
Në shkencat kompjuterike, reduktimi i përmasave është procesi i reduktimit të numrit
të ndryshoreve të rastit të marra në konsideratë dhe mund të ndahet në dy pjesë:
përzgjedhje dhe ekstraktim (feature selection;feature extraction).
Përfaqësimi simbolik mund të përkufizohet si dicka e dukshme që prezanton dicka të
padukshme.
108
Seri kohore: Një seri kohore reale është 1 2, , , nT X X X është një varg i renditur i
n ndryshoreve të rastit.
Nënsekuencë: një nënsekuencë S e një serie kohore T është një zgjedhje e me gjatësiw<
n e pozicioneve të vazhdueshme nga T.
Sekuencë gërmash: Një sekuencë gërmash është një bashkësi gërmash nga gërmat e
alfabetit, të cilat mund të përsëriten ose jo përgjatë sekuecës.
5.3.2 Teknika SAX (Symbolic Aggregate Approximation) në R
A) Piecewise Aggregate Approximation (PAA) në R
PAA u prezantua në mënyrë të pavarur nga Yi, Faloutsos, dhe Keogh et al në vitin 2001.
Për të reduktuar përmasate një serie kohore Yi, Faloutsos dhe Keogh realizuan
paraqitjen PAA të serisë kohore. Duke aplikuar teknikën PAA, seria kohore ndahet në
w sekuenca me gjatësi të njëjtë (përmasa e serisë kohore pjestuar me gjatësinë e
sekuencës duhet të ketë mbetje zero), më pas njehsohet mesatarja arithmetike e secilës
sekuencë duke ndërtuar në këtë mënyrë një vektor të ri të reduktuar me w vlera
PAA=(c1, c2,..., cw) . Elementi i i-të (ci) i vektorit PAA njehsohet sipas ekuacionit 5.13:
( 1) 1
w
i i in
j iw
wPAA c x
n
(5.13)
Figura 5.3 tregon një vizualizim të teknikës PAA për vektorin e vlerave:
e=(1,2,4,1,1,2,4,1,2,8,7,1,0,2,3,5,7,5) (vija blu)
PAA(e)= (2.333333, 1.333333, 2.333333, 5.333333, 1.666667, 5.666667)
Në total janë n=18 vlera, të ndara në w=6 intervale (sekuenca) dhe mesatarja
arithmetike për secilin interval është njehsuar (vija e kuqe).
Figura 5.3 Vizualizim i teknikës PAA - shembull
5 10 15
0
2
4
6
8
Vizualizim i teknikës PAA
Time
Serie
109
Teknika e reduktimit të përmasave të një serie kohore PAA është e thjeshtë dhe e lehtë
për t’u përdorur krahasuar me teknika të tjera si transformimi Furie apo valëzat.
Kodi në R për të përftuar teknikën PAA është ndërtuar bazuar mbi hapat që ndjek
teknika.
Teknika PAA:
Hapi 1
Përcakto gjatësinë e serisë dhe numrin e sekuencave
Hapi 2
Njehso mesataren arithmetike të seciles sekuencë
Hapi 3
Ndërto serinë e reduktuar
Hapi 4
Bëj paraqitjen grafike të serisë së re
Kodi në R për teknikën PAA:
v_abs<-function(x)
{
if (x<0)
x=-x
return(x)
}
paa<-function(seria,ndarje=4,grafiku=FALSE)
{
n=length(seria)
hapi=1
if (n%%ndarje==0)
{hapi=n%/%ndarje}
else
{hapi=(n-n%%ndarje)%/%ndarje+1}
s=0;Y=0;T=0;
j=1;nr=1;shuma=seria[1];
for (i in 2:n)
{
if (i%%hapi==0 || i==n)
{
shuma=shuma+seria[i]
nr=nr+1
s[j]=shuma/nr
Y[2*j-1]=s[j]
Y[2*j]=s[j]
T[2*j-1]=i-hapi+1/2
T[2*j]=i+1/2
shuma=0;nr=0
if (i==n)
{
T[2*j-1]=T[2*j-2]
}
j=j+1
}
else
110
{
shuma=shuma+seria[i]
nr=nr+1
}
}
if (grafiku==TRUE)
{
plot(seria,
col="blue",type="l",xlab="koha",main="Vizualizim i teknikës PAA")
points(T,Y,main="PAA", col="red",type="s")
}
s
} 16
B) Teknika Symbolic Aggregate Approximation (SAX) në R
SAX u propozua nga Lin dhe Keogh et al. (2002). Ata e bazuan atë në teknikën PAA
për reduktimin e përmasave të serisë kohore. Për të përftuar përfaqësimin SAX të një
serie kohore ata supozuan normalitetin e vlerave të grumbulluara të përftuara nga PAA.
Në teknikën SAX hapi i parë është transformimi i serisë në përfaqësimin PAA dhe më
pas cdo vlerë e PAA-së përfaqësohet nga një sekuencë gërmash, kjo e fundit është
përfaqësimi SAX i serisë kohore. Për të përftuar përfaqësimin SAX të serisë kohore
përdoret një transformim me qëllim përdorimin e simboleve (gërmave të alfabetit) me
probabilitet të njëjtë. Seria kohore e transformuar ka një shpërndarje Gausiane (normale
me pritje matematike 0 dhe dispersion 1), ndaj është e lehtë të përcaktohen pikat e
këputjes të cilat do të ndajnë zonën nën kurbën normale në pjesë të barabarta.
Përkufizime dhe koncepte
Pika këputje: pikat e këputjes janë një varg numrash 1 2 1, , , aB të tilla që
zona nën kurbën e Gausit nga i deri në
1i është e njëjtë 1/a ( 0 dhe a përcaktohen
si dhe përkatësisht).
Pikat e këputjes përcaktohen sipas numrit të gërmave të alfabetit që duam të përdorim
në përfaqësimin tonë SAX.
Tabela 5.2 tregon lidhjen midis pikave të këputjes dhe numrit të gërmave të alfabetit që
përdoren në gjetjen e përfaqësimit simbolik SAX të serisë kohore.
Sipas numrittë gërmave të alfabetit që duam të përdorim (rekomandohet më pak se 8
gërma), ekuacioni 5.14 tregon simbolet duke u mbështetur në sekuencën PAA të serisë
kohore:
( )iSAX alphabet j , nëse 1j i jPAA (5.14)
ku, alphabet(1) = a, alphabet(2) = b, e kështu me rradhë.
16 © Dhamo E., Puka Ll. (2012A)
111
Tabela 5.2 Pikat e këputjes për teknikën SAX (Përmasa e alfabetit: 3 deri në 10)
a 3 4 5 6 7 8 9 10
1 -0.43 -0.67 -0.84 -0.97 -1.07 -1.15 -1.22 -1.28
2 0.43 0 -0.25 -0.43 -0.57 -0.67 -0.76 -0.84
3 0.67 0.25 0 -0.18 -0.32 -0.43 -0.52
4 0.84 0.43 0.18 0 -0.14 -0.25
5 0.97 0.57 0.32 0.14 0
6 1.07 0.67 0.43 0.25
7 1.15 0.76 0.52
8 1.22 0.84
9 1.28
Një paraqitje grafike e teknikës SAX tregohet në Figurën 5.4 (për shembullin e
mësipërm)
SAX(e)=("b" ,"a", "b", "c", "a", "c")
Figura 5.3 Vizualizimi i teknikës SAX në R
Gërmat janë përcaktuar sipas pozicionit të elementit të i-të të serisë PAA në lidhje me
pikat e këputjes. Vini re vijat që ndajnë zonën nën kurbën e Gausit në pjesë të barabarta
(vija gri).
Paraqitja grafike dhe sekuenca e simbolizuar e serisë kohore janë përftuar nëpërmjet
kodit të ndërtuar në gjuhën R.
Kodi në R për teknikën SAX:
sax<-function(Serie, ndarje=5, alfabeti=5, grafiku=FALSE,
normalizo=FALSE)
{
5 10 15
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
Vizualizimi SAX
visualization
Time
Serie
112
mes=0;disp=1;n=length(Serie)
if (normalizo==TRUE)
{
Serie=(Serie-mean(Serie))/sd(Serie)
}
else
{
mes=mean(Serie)
disp=sd(Serie)
}
hapi=1
if (n%%ndarje==0)
{
hapi=n%/%ndarje}
else
{
hapi=(n-n%%ndarje)%/%ndarje+1
}
seria_paa=paa(Serie,ndarje,FALSE)
A=c('a','b','c','d','e','f','g','h','i','j','k','l','m','n','p'
,'q','r','s','t','u','v','ë','x','y','z')
p=1/alfabeti
b=0;s=0
for (i in 1:(alfabeti-1))
{
s=s+p
b[i]=qnorm(s,mes,disp)
}
seria_sax='a'; T=0; Y=0;
for (i in 1:ndarje)
{
j=1;dil=FALSE
while(dil==FALSE)
{
if (seria_paa[i] <= b[j])
{
seria_sax[i]=A[j]
dil=TRUE
}
if (j==alfabeti-1)
{
seria_sax[i]=A[alfabeti]
dil=TRUE
}
j=j+1
}
Y[2*i-1]=seria_paa[i]
Y[2*i]=seria_paa[i]
T[2*i-1]=(i-1)*hapi+1/2
T[2*i]=(i)*hapi+1/2
}
if (grafiku==TRUE)
{
plot(Serie,col="blue",type="l",xlab="Time",main="
Vizualizim I teknikës SAX",ylab="Serie",lwd=4)
abline(h=b,col = "lightgray",lwd=5)
points(T,Y,type='s', col="red",lwd=5)
}
seria_sax
113
}17
C) Aplikimi dhe Performanca e SAX në R dhe MATLAB
Rezultate eksperimentale
Koha e nevojshme për të zhvilluar një program varet nga një numër faktorësh: sa i
shpejtë është kompjuteri, kapaciteti RAM i tij, OS që përdor kompjuteri, cilësia e kodit
të gjeneruar nga përpiluesi, momenti i ekzekutimit, përmasa e të dhënave hyrëse etj.
Nëse ndonjë prej këtyre faktorëve ndryshon atëherë edhe koha e ekzekutimit ndryshon.
Koha e zbatimit të algoritmit përgjithësisht rritet me rritjen e të dhënave hyrëse; ndaj
në këtë studim kemi aplikuar vlera të ndryshme të përmasës së serisë kohore dhe numrit
të gërmave të alfabetit e sekuencave.
Ka disa rregulla për krahasimin e algoritmeve të shkruar; në këtë studim ne kemi
krahasuar disa prej tyre.
Autorët e SAX kanë ofruar algoritmin e SAX të shkruar në MATLAB për w dhe a të
përcaktuara paraprakisht (përkatësisht 8 dhe 4). Për të testuar performancën e
algoritmeve të shkruar në MATLAB dhe R ne kemi ekzekutuar algoritmin duke mbajtur
të njëjtën përmasë të tre parametrave n, w dhe a. Një grafik i kohës së ekzekutimit
(elapsed time) dhe përmasës së serisë kohore në MATLAB është paraqitur në Figurën
5.4 .
Figura 5.4. MATLAB elapsed time për SAX
Siç vihet re edhe nga grafiku në Figurën 5.4 koha (elapsed time) për algoritmin SAX
rritet linearisht me rritjen e përmasës së serisë kohore.
Funksioni System.time() në R
Algoritmi ynë për teknikën SAX është shkruar në R dhe mund të përballet me situata
kur N/n nuk është një numër i plotë. Një ndër funksionet që mat kohën e ekzekutimit
të një komandë në R është: system.time(). Rezultatet që afishon ky funksion janë:
17 © Dhamo E., Puka Ll., (2012A)
0 500000 1500000 2500000
0
50
100
150
200
250
300
350
MATLAB elapsed time për SAX
N
Elapsed
Time
114
Elapsed time, User time dhe System time.
‘Elapsed’ time është koha në sekonda që R ka punuar (psh, RGUI).
‘User’ time është koha e CPU-së që një komandë/script ka shfrytëzuar; kjo është
koha për të cilën ne jemi më shumë të interesuar.
'System' time është koha e CPU-së që sistemi operativ ka përdorur për të
ekzekutuar një skript; në pjesën më të madhe të rasteve kjo kohë duhet të jetë më e
vogël se 'user'.
Përpara ekzekutimeve në R sistemi ka qënë i lirë nga programe të tjera, nuk është duke
skanuar për viruse etj. Në R algoritmi është testuar duke punuar me një seri kohore
zhurmë të bardhë. Përmasa e serisë kohore është ndryshuar duke filluar nga n=10 deri
në n=1 000 000. Rezultatet numerike të ekzekutimeve janë paraqitur në Shtojcë.
Siç vihet re edhe nga të dhënat numerike në shtojcë koha e ekzekutimit të algoritmit
SAX varet nga përmasa e serisë kohore dhe gjithashtu nga numri i sekuencave që seria
kohore është ndarë për të përftuar përfaqësimin PAA. Rezultatet e kohëve të
ekzekutimit të algoritmit SAX në R janë paraqitur grafikisht në grafikët tre-dimensional
dhe dy-dimensional në Figurën 5.4. Vihet re nga grafikët se me rritjen e n (përmasa e
serisë kohore) dhe w (numri i sekuencave) koha e ekzekutimit të algoritmit rritet
gjithashtu. E njëjta gjë ndodh edhe me ekzekutimin e algoritmit në MATLAB, por koha
e ekzekutimit në R është relativisht më e vogël.
Figura 5.4 Lidhja midis: n (përmasa e serisë kohore), w (numri i sekuencave) dhe
Koha
a) System time
0e+00 2e+05 4e+05 6e+05 8e+05 1e+06
0
10
20
30
40
50
60
N
System time
115
b) User time
c) Elapsed time
Figura 5.5 Lidhja midis N (përmasa e serisë kohore) dhe koha e ekzekutimit(a, b,
c)
Siç shihet nga Figura 5.5 me rritjen e N, user time dhe elapsed time rriten me shpejtësi;
nuk ndodh njësoj me system time .
Një grafik i kohës së ekzekutimit të algoritmeve të SAX në R dhe në MATLAB tregohet
në Figurën 5.6.
Figura 5.6 R elapsed time vs MATLAB elapsed time për algoritmin SAX
Nga grafiku vëmë re se R është më e qëndrueshme në vlerësimin e kohës së ekzekutimit
krahasuar me MATLAB. Vihet re qartë se me rritjen e N koha e ekzekutimit rritet në
dy programet por kjo rritje në R është më e ngadaltë krahasuar me MATLAB. [Dhamo
, Puka , 2012A]
0e+00 2e+05 4e+05 6e+05 8e+05 1e+06
0
20
40
60
80
N
User Time
0e+00 2e+05 4e+05 6e+05 8e+05 1e+06
0
20
40
60
80
100
N
Elapsed
Time
0 500000 10000
00
150000
0
20000
00
25000
00
3000000 0
50
100
150
200
250
300
350
R elapsed time (Blu) vs MATLAB elapsed time (Kuqe) për SAX
Elapsed Time
N
116
5.4 Zbulimi i ngjashmërive në sekuencat e ADN-ve nëpërmjet
teknikës SAX të implementuar në gjuhën R
Për më shumë se një dekadë, metodologjive të kërkimit të ngjashmërive në seri kohore
u është kushtuar një vëmendje e veçantë nga kërkues të fushave të biostatistikës,
bioinformatikës, mjekësisë etj. Përmirësimi i teknikave ekzistuese dhe gjetja e atyre të
reja ka qenë një synim i vazhdueshëm, në veçanti për zbulimin e ngjashmërive në
sekuencat e ADN-ve. Specialistët e gjenetikës, mes të tjerëve, janë tërhequr nga
lehtësitë dhe cilësia e këtyre metodave dhe gjithmonë e më shumë kërkojnë t'i aplikojnë
në kërkimet e tyre.
Në këtë pjesë konsiderohet SAX për zbulimin e ngjashmërive të sekuencave të ADN-
ve. Testet numerike kanë treguar se kjo metodë është mjaft më efektive në zbulimin e
ngjashmërive të sekuencave të ADN-ve krahasuar me algoritmin Needleman- Wursch
(Saul Needleman dhe Christian Wunsch, 1970) (përdorur kryesisht në sekuenca të
AND-ve dhe ARN-ve). Algoritmi nedelman- Wursch është një shembull i programimit
dinamik.
Teknika SAX përdor si funksion distancë, distancën Euklidiane dhe për më tepër ofron
lehtësira në implementim në lidhje me teknika të tjera të krahasimit të sekuencave të
ADN-ve. Përdorimi i vetëm 4 gërmave të alfabetit (në rastin e sekuencave të ADN-ve)
e bën teknikën SAX më të shpejtë në rezultate se algoritmi i sipërpërmendur.
Pas prezantimit të teknikës më të re të simbolizimit të serive kohore SAX, autorët e saj
propozuan një madhësi ngjashmërie (pasi nuk plotëson dy veti të funksionit distancë
për t’u quajtur e tillë: identitetin dhe vetinë e trekëndëshit). Në vijim do i referohemi si
distanca Keogh, shënuar dist_D(). Ata morën në konsideratë distancën më të njohur
dhe më të përdorur distancën Euklidiane.
Për dy seri kohore me të njëjtën gjatësi: 1 2, , , nT t t t dhe 1 2, , , nQ q q q distanca
Euklidiane ndërmjet tyre jepet nga barazimi:
2
1
( , ) ( )n
i i
i
Dist T Q t q
(5.15)
Distanca midis dy përfaqësimeve PAA të këtyre dy serive kohore 1 2, , , wT t t t dhe
1 2, , , wQ q q q jepet nga barazimi:
2
1
( , ) ( )w
i i
i
nDistPAA T Q t q
w
(5.16)
Është provuar se DistPAA() është kufiri më i vogël i Dist(). [Keogh, E., Chakrabarti,
K., Pazzani, M. & Mehrotra, S. (2001)]
Ndërsa distanca ndërmjet dy përfaqësimeve simbolike të këtyre serive kohore jepet nga
barazimi:
2
1
( , ) _ ( , )w
i i
i
nDistSAX T Q dist D t q
w
(5.17)
Ky funksion distancë për dy përfaqësimet simbolike i ngjason funksionit distancë për
dy përfaqësimet PAA (5.16) me përjashtim të faktit se koeficientët e PAA-së janë
117
zevendësuar tashme me funksionin dist_D(). Funksioni dist_D() mund të përcaktohet
duke përdorur një tabelë si ajo e treguar më poshtë.
Tabela 5.3 Tabela me vlerat e funksionit dist_D() për sekuencat simbolike të dy
serive kohore
a b c d
a 0 0 0.67 1.34
b 0 0 0 0.67
c 0.67 0 0 0
d 1.34 0.67 0 0
Tabela më sipër tregon vlerat e funksionit dist_D() për sekuencat simbolike SAX të dy
serive kohore. Kjo tabelë jep distancat midis dy gërmave të alfabetit (për rastin kur në
përfaqësimet SAX janë përdorur vetëm 4 gërma). Vihet re edhe nga tabela se për dy
gërma fqinje vlera e funksionit dist_D() është zero dhe për gërmat më të afërta merr
vlerën e pikës së këputjes psh: dist(b,d)=0.67 ose shumën e vlerave të pikave të këputjes
psh: dist(a,d)=0.67+0.67=1.34.
Më saktë vlera në tabelë për çdo dy gërma mund të njehsohet sipas shprehjes më poshtë:
ku, r dhe c janë respektivisht pozicionet alfabetike të gërmave.
Figura 5.7 tregon vizualisht aplikimin e funksioneve distancë për tre rastet: rasti i parë
(A) dy seri kohore me gjatësi të njëjtë, rasti i dytë (B) dy përfaqësime PAA dhe rasti i
tretë (C) dy përfaqësime SAX.
(A)
(B)
0 20
40
60
80
100
120
- 1.5
- 1 - 0.5
0 0.5
1 1.5
C
Q
0 20
40
60
80
100
120
- 1.5
- 1 - 0.5
0 0.5
1 1.5
C
Q
0 nëse | | 1( , )
| - | , max( , )-1 min( , )
r cqeliza r c
ndrysher c r c
118
(C)
Figura 5.7A) Distanca Euklidiane midis dy serive kohore B) Distanca Euklidiane midis
dy përfaqësimeve PAA të serive kohore C) Distanca midis dy përfaqësimeve SAX të
dy serive kohore (Figurat: © Eamon Keogh)
5.5 Modifikimi i teknikës SAX për ngjashmëritë në sekuencat e ADN-
ve. Rezultate eksperimentale
Një ndër algoritmet që përdoren në bio-informatikë për ngjashmëritë e dy sekuencave
të ADN-ve është Algoritmi Needleman-Wunsch (1970). Ne propozojmë një modifikim
të teknikës SAX për të zbuluar ngjashmëritë midis dy sekuencave të ADN-së duke i
konsideruar ato si dy përfaqësime simbolike SAX.
Kemi koduar nukleotidet (A, C, T, G) në katër gërmat e para të alfabetit (përkatësisht:
D, C, A, B) dhe kemi përdorur distancën (madhësinë e ngjashmërisë) propozuar nga
Keogh për të zbuluar shkallën e ngjashmërisë midis dy sekuencave të ADN-së me
gjatësi të njëjtë. Për rastin e sekuencave të ADN-së vlerat e n dhe w për ne janë të njëjta
kështu që funksioni i distancës Keogh i modifikuar do të ishte:
2
1
( , ) _ ( , )w
i i
i
DistSAX T Q dist D t q
(5.18)
Shembull 5.3
Në vijim jepen shembujt e tre sekuencave të ADN (sekuencat janë gjeneruar nëpërmjet
një programi kompjuterik të posaçëm).
Sekuenca 1- TGCTAACGTGCA
Sekuenca 2- ACGATCAGTACG
Sekuenca 3- TGCAAACGTCCA
Tabela 5.3 Tabela e ngjashmërisë së dy sekuencave (1,3) sipas algoritmit të modifikuar
SAX
(1,3) T G C A A A C G T C C A
T 0
G 0
C 0
= baabccbc C ˆ
= babcacca Q ˆ
119
T 1.34
A 0
A 0
C 0
G 0
T 0
G 0
C 0
A 0
Dist.Keogh (1,3)=sqrt(1.34) = 1.157584
Dist. Keogh(2,3)=sqrt(2.2445) = 1.498166
Tabela 5.4 Tabela e ngjashmërisë së dy sekuencave (1,3) sipas algoritmit N-W
(1,3) T G C A A A C G T C C A
0 0 0 0 0 0 0 0 0 0 0 0
T 0 1 1 1 1 1 1 1 1 1 1 1 1
G 0 1 2 2 2 2 2 2 2 2 2 2 2
C 0 1 2 3 3 3 3 3 3 3 3 3 3
T 0 1 2 3 3 3 3 3 3 4 4 4 4
A 0 1 2 3 4 4 4 4 4 4 4 4 5
A 0 1 2 3 4 5 5 5 5 5 5 5 5
C 0 1 2 3 4 5 5 6 6 6 6 6 6
G 0 1 2 3 4 5 5 6 7 7 7 7 7
T 0 1 2 3 4 5 5 6 7 8 8 8 8
G 0 1 2 3 4 5 5 6 7 8 8 9 9
C 0 1 2 3 4 5 5 6 7 8 9 9 9
A 0 1 2 2 4 5 6 6 7 8 9 9 10
Needleman –Wursch (1,3)=10
Needleman–Wursch (2,3)=6
120
Siç vihet re edhe nga ky shembull i thjeshtë të dy algoritmet arrijnë të zbulojnë
ngjashmëri më të madhe midis sekuencave 1 dhe 3 por koha e ekzekutimit është më e
vogël për algoritmin e modifikuar SAX. (kjo vihet re edhe nga lehtësia e plotësimit të
tabelave). [Dhamo, Gjeçka, Mano , 2012]
Shembull 5.4
Kemi konsideruar katër sekuenca ADN-je me gjatësi 50 nukleotide.
1. ACACAGATACTCCGTCTGTCGGAGGTTGACCTACAGCTGGGTTTCGTGGG
2. GGTGCAAAGGTGAGCCAGGGTTCTGCGGCTGCAGGCGACCGATACTCATT
3. GGTGCAGAGGTGATCCAGGGTTCTGCCGTTGCAGGCGACCGATTCTCATT
4. GGTGCAGAGGTGATCCAGGGTTCTGCCGTTGCAAGCGAACGATTCTCATT
Distancat sipas Algoritmit të modifikuar SAX (Distanca Keogh) janë:
Dist.Keogh (1,2)=sqrt(13.9829)= 3.739372
Dist.Keogh (3,2)=sqrt(2.6934)= 1.641158
Dist.Keogh (4,2)=sqrt(3.5912)= 1.895046
Ashtu sikurse pritej ngjashmëria më e lartë është midis sekuencave 2 dhe 3.
Testet numerike treguan se përdorimi i SAX për zbulimin e ngjashmërive në sekuenca
të ADN-ve është më efektiv se një nga teknikat e njohura Needleman –Wursch. Koha
e ekzekutimit të SAX është më e vogël si dhe algoritmi SAX është më i lehtë në aplikim
sesa Needleman –Wursch.
Në vijim të punës sonë jemi duke punuar për ndërtimin e algoritmit të modifikuar të
SAX për zbulimin e ngjashmërive në sekuencat e ADN-ve në gjuhën R. Gjithashtu jemi
duke testuar modifikimin e propozuar nga Marwan M., Fuad M., Marteau P. F., (2010)
në aplikime të sekuencave të AND-ve.
121
KONKLUZIONE
Në këtë tezë doktorature janë prezantuar disa nga teknikat më të reja të ndërtimit të
modeleve të serive kohore si dhe aplikime të tyre në softuerin R.
Në modelimin e serive kohore një konsideratë e rëndësishme është parimi i parsimonisë
(principle of parsimony). Ky parim i referohet përfaqësimit të strukturës së një serie
kohore me sa më pak parametra të jetë e mundur. Kjo nënkupton që modele të serive
kohore sa më të thjeshta janë më të kënaqshme sesa modelet e ndërlikuara kur të dy
këto modele janë të përshtatshme. Ky parim çon në përdorimin e modeleve ARIMA në
vend të modeleve të pastra AR ose MA. Modelet ARIMA kanë treguar të jenë mjaft të
përshtatshme në modelimin e serive stacionare dhe jo-stacionare. Ato mund të përdoren
për të modeluar seri kohore me natyra të ndryshme: financiare, demografike,
meteorologjike, energjitike etj. [Dhamo E., Puka Ll., 2010A; Argjiri K., Dhamo E.,
2011; Dhamo E., Xhaja B., Koçi E., Asimi A., 2012; Dhamo E., Xhaja B., Koçi E.,
Shevroja M., 2012]
Në qëndër të pjesës së parë të tezës është seria kohore e numrit të lindjeve për muaj në
Shqipëri (1985-2010). Të dhënat janë marrë nga faqja zyrtare e INSTAT. Nga një
studim i kujdesshëm [Dhamo E., Puka Ll., 2010A; Dhamo E., Puka Ll., 2010B; Dhamo
E., Puka Ll., 2011A; Dhamo E., Puka Ll., 2011B] u vu re se kjo seri kohore mund të
modelohet sipas një modeli SARIMA (Seasonal Autoregressive Integrating Moving
Average). Treguesit e shfrytëzuar për përzgjedhjen e modelit më të mirë ndër modelet
e studiuara tregojnë se bazuar mbi gabimet (MSE, MAPE, AIC, BIC etj) modeli
SARIMA me sezonalitet 12 është modeli më i “mirë”.
Gjithashtu testet krahasuese me të dhënat reale kanë treguar se ky model i përshtatet
më mirë numrit të lindjeve në Shqipëri.
Modeli i propozuar mund të shfrytëzohet nga politikat qeveritare apo institucione, si
dhe kompanitë e sigurimit në Shqipëri të cilat interesohen në evoluimin e numrit të
lindjeve në Shqipëri. Ky model i propozuar mund të ndihmojë gjithashtu në
projektimin e numrit të përgjithshëm të popullsisë në të ardhmen. [Xhaja B., Dhamo
E., 2013]
Teknikat e reduktimit të serive kohore, veçanërisht ato të përfaqësimit simbolik kanë
treguar se kanë zbatime në shumë fusha si: finacë, biologji, biostatistikë, meteorologji,
animacion etj. Teknika SAX (Symbolic Aggregate Approximation) e prezantuar në
vitet e fundit [Keogh et al, 2001b] ka tërhequr vëmendjen e mjaft kërkuesve.
Në këtë pjesë jemi përqëndruar në ndërtimin e një algoritmi në gjuhën e programimit R
i cili bën të mundur afishimin numerik dhe grafik të aplikimit të teknikës PAA
(Piecewise Aggregate Approximation) dhe SAX në një seri numerike. Gjatë punës tonë
zbuluam se algoritmi i ndërtuar në R është më efiçent në kohën e ekzekutimit se ai i
ndërtuar në MATLAB nga autorët. Rezultatet eksperimentale janë afishuar pas
aplikimit të disa serive kohore me përmasa nga 10 në 1 000 000 dhe parametrat e
ndryshuar të numrit të sekuencave dhe numrit të gërmave të alfabetit që mund të
përdoren në përftimin e serisë simbolike. [Dhamo E., Puka Ll., 2012A]
122
Gjithashtu ne modifikuam teknikën SAX për qëllime të zbulimit të ngjashmërive në
sekuenca të ADN-ve. Testet numerike treguan se përdorimi i SAX për zbulimin e
ngjashmërive në sekuenca të ADN-ve është më efektiv se një nga teknikat e njohura
Needleman –Wursch. Koha e ekzekutimit të SAX është më e vogël si dhe algoritmi
SAX është më i lehtë në aplikim sesa Needleman –Wursch. [Dhamo E., Gjeçka A.,
Mano G., 2012; Dhamo E., Puka Ll., 2012A; Dhamo E., Puka Ll., 2012B]
Përdorimi i teknikave të modifikuara ARIMA është një ndër synimet tona për t’u
studiuar dhe aplikuar në seri kohore nga vendi me natyrë demografike, financiare dhe
jo vetëm. Gjithashtu, ndërtimi i algoritmit të modifikuar të SAX për zbulimin e
ngjashmërive në sekuencat e ADN-ve në gjuhën R dhe modifikimin e algoritmit SAX
për qëllime të zbulimit të ngjashmërisë në tekste shqip janë ndër çështjet e studimit tonë
në të ardhmen. Më tej, synohet në aplikim të madhësisë së ngjashmërisë propozuar së
fundmi UMD (Updated Minimum Distance-SAX) [Marwan M., Fuad M., Marteau P.
F., (2010)] në situatat e sekuencave të AND-ve, teksteve shqip e më gjerë. Ndërtimi i
algoritmit UMD (Updated Minimum Distance) dhe efiçenca në R.
© Eralda Gjika (Dhamo)
123
BIBLIOGRAFIA
[1] Abraham B., & Ledolter J., (1983): Statistical methods for forecasting. New
York7 John Wiley and Sons.
[2] Abraham B., & Ledolter J., (1986): Forecast functions implied by
autoregressive integrated moving average models and other related forecast procedures.
International Statistical Review, 54, 51–66.
[3] Adya M., Collopy F., Armstrong J.S., Kennedy M. (2000): An application of
rule-based forecasting to a situation lacking domain knowledge, International Journal
of forecasting , 16:477-484
[4] Agrawal R., Faloutsos C. &Swami, (1993): A.N. Efficient Similarity Search in
Sequence Databases. FODO 1993: 69-84
[5] Ahlburg, D. A., Chatfield, C., Taylor, S. J., Thompson, P. A., Winkler, R. L.,
Murphy A. H., et al. (1992): A commentary on error measures. International Journal of
Forecasting, 8, 99 – 111.
[6] A. Camerra, Th. Palpanas, J. Shieh, E. Keogh, (2010): iSAX 2.0: Indexing and
Mining One Billion Time Series, ICDM 2010.
[7] Andre-Jonsson H., Badal D., (1997): Using signature files for querying time-
series data. In: Proceedings of principles of data mining and knowledge discovery, 1st
European symposium,Trondheim, Norway. June 24–27, pp 211–220
[8] Apostolico A., Bock M.E., Lonardi S., (2002): Monotony of surprise in large-
scale quest for unusual words. In: Proceedings of the 6th International conference on
research in computational molecular biology, Washington, DC, April 18–21, pp 22–31
[10] Archibald, B. C. (1990): Parameter space of the Holt–Winters model.
International Journal of Forecasting, 6, 199–209.
[10] Archibald, B. C., & Koehler, A. B. (2003): Normalization of seasonal factors in
Winters methods. International Journal of Forecasting, 19, 143– 148.
[11] Argjiri K, Dhamo. E, (2012): Një model matematik mbi rastet e sëmundjeve
kardiovaskulare në popullsinë e Shqipërisë ;Buletini i Shkencave te Natyres NR. 13
[12] Armstrong, J. S. (2001): Suggestions for further research.
www.forecastingprinciples.com/researchers.html
[13] Assimakopoulos V., Nikolopoulos K. (2000): The theta model: a decomposition
approach to forecasting, International Journal of Forecasting, Elsevier, vol. 16(4), 521-
530
124
[14] Awartani, B. M. A., & Corradi, V. (2005): Predicting the volatility of the S&P-
500 stock index via GARCH models: The role of asymmetries. International Journal of
Forecasting, 21, 167–183.
[15] Bo Zhou, Dan He;Zhili Sun (2005): Traffic Modeling and Prediction using
ARIMA/GARCH model , http://www.lw20.com/20110308148401937.html
[16] Box G.E.P. , Jenkins G.M. (1970): Time Series Analysis, Holden-Day, San
Francisco
[17] Box, G. E. P. and Jenkins, G. (1976): Time Series Analysis: Forecasting and
Control,Oakland, CA: Holden-Day, (revised edn, 1976).
[18] Box, G. E. P., Jenkins, G. M., & Reinsel, G. C. (1994): Time series analysis:
Forecasting and control (3rd ed.). Englewood Cliffs, NJ7 Prentice Hall.
[19] Chan K., Fu A. W., (1999): Efficient time series matching by wavelets,. In:
Proceedings of the 15th IEEE International conference on data engineering, Sydney,
Australia, March 23– 26, pp 126–133
[20] Chen, C. (1997): Robustness properties of some forecasting methods for
seasonal time series: A Monte Carlo study. International Journal of Forecasting, 13,
269–280."
[21] Chiu, B., Keogh, E. & Lonardi, S. (2003): Probabilistic Discovery of Time
Series Motifs. ACM SIGKDD 2003. pp 493-498.
[22] Cryer J.D., Chan Kung-Sik (2008): Time Series Analysis With Application in
R, Springer, Second edition, ISBN:978-0-387-75958-6
[23] Dhamo, E. Puka, Ll. (2010A): Një vështrim mbi disa kode të paketës forecast
në R, Buletini i Shkencave Natyrore, Tiranë, 10: 5-18.
[24] Dhamo, E. Puka, Ll. (2010B): Using the R-package to forecast time series:
ARIMA models and Application.INTERNATIONAL CONFERENCE Economic &
Social Challenges and Problems 2010 Facing Impact of Global Crisis, Tirana, Albania
[25] Dhamo.E, Xhaja.B, Koci.E,(2011): Modele Matematikore mbi Projeksionin e
Popullsisё Shqipёtare, (parashikimi deri ne vitin 2300); Konferenca kombetare
Universiteti Politeknik I Tiranes
[26] Dhamo E., Puka Ll., (2011 A): An ARIMA birth number per month model for
Albanian population, “1st International Symposium on Computing in Informatics and
Mathematics (ISCIM 2011)” 2-4 June 2011, Tirana, Albania
[27] Dhamo E., Puka Ll., (2011 B): Does the number of marriages affect births
number in Albanian population? “ 2st International Scientific Conference (IFERBR
2011)”, University of Vlora, 17-18, June 2011
125
[28] Dhamo E., Xhaja B., (2011): Projeksioni i popullsisë: Çështjet metodologjike
dhe sfidat në Popullsinë e Shqipërisë; Alb-Shkenca takimi I Gjashte 1-4 shtator 2011
[29] Dhamo E.,Gjecka A., Mano G., (2012): Aplikimi i algoritmeve SAX dhe
Needleman mbi ngjashmerite e dy sekuencave simbolike (Përafrimi më i mirë) [ SAX
and Needleman application for similarity of two symbolic sequences (Best match)] ;
Takimi I VII vjetor Shkencor Nderkombetar, IASH 2012 Shkup, 29-31 Gusht
[30] Dhamo E., Puka Ll., (2012 A): SAX Algorithm Applications and Performance in
R and MATLAB, Information Systems and Technology Innovation: their application
in Economy Conference, Tirana June 8-9 , 2012
[31] Dhamo E., Puka Ll., (2012 B): Zbulimi i ngjashmërive në sekuencat e AND-ve
nëpërmjet teknikës SAX të implementuar në gjuhën R ; Konferencë Shkencore
“Fakulteti i Shkencave Natyrore në 100 vjetorin e pavarësisë”, Tiranë, 22-23 Nëntor
2012
[32] Dhamo E., Xhaja B., Koci E., Asimi A., (2012): Defects of fixed-line network,
Modeling and prediction using ARIMA, GARCH models International Journal of
Science, Innovation and New Technology, (IJSINT) February, Vo.1/ 2012
[33] Dhamo E., Xhaja B., Koci E., Shevroja M., (2012): Zbatime te Modeleve
matematikore mbi projeksionin e popullsise Buletini i Shkencave te Natyres NR. 12,
Janar 2012
[34] Dhamo E., Gjecka A., Mano G., (2013): Utilization of information and
communication technoligies by Albanian youth; http://icrae2013.unishk.edu.al/
[35] Durbin R., Eddy S., Krogh A.,Mitchison G., (1998): Biological sequence
analysis: probabilistic models of proteins and nucleic acids, Cambridge University
Press
David J. Sheskin (2004) Handbook of Parametric and Nonparametric Statistical
Procedures: Third Edition
[36] Engle, R. F. (1982).: Autoregressive conditional heteroscedasticity with
estimates of the variance of the United Kingdom inflation. Econometrica, 50, 987–
1008.
[37] Engle R., (2001): GARCH 101: The use of ARCH/GARCH models in applied
econometrics, Journal of Economic Perspectives, Volume 15, Number 4: 157-168
[38] Engle R., (2002): New frontiers for ARCH models. Manuscript prepared for the
conference bModeling and Forecasting Financial Volatility (Perth, Australia, 2001).
Available at http://pages.stern.nyu.edu/~rengle
[39] Engle R., & Russell, J. R. (1998): Autoregressive conditional duration: A new
model for irregularly spaced transactions data. Econometrica, 66, 1127–1162."
126
[40] Faloutsos C., Ranganathan M., Manolopulos Y. (1994): Fast subsequence
matching in time- series databases ,SIGMOD Record, vol 23, pp 419–429
[41] Fildes R., Hibon M., Makridakis S., & Meade N., (1998): Generalising about
univariate forecasting methods: Further empirical evidence. International Journal of
Forecasting, 14, 339–358.
[42] Gomez V., Maravall A.(1998): Programs TRAMO and SEATS, Instruction for
the Users. Working paper 97001, Ministero de Economia y Hacienda, Direccion
General de Analisis y programacion Presupuestaria
[43] Gustavo E.A.P.A. Batista, Xiaoyue Wang, Eamonn J. Keogh,(2011): A
Complexity-Invariant Distance Measure for Time Series, SDM
[44] Hamilton, J. D. (1994): Time Series Analysis, Princeton, NJ: Princeton Univ.
Press
[45] Holt, C. C. (1957): Forecasting seasonals and trends by exponentially weighted
averages. O.N.R. Memorandum 52/1957, Carnegie Institute of Technology. Reprinted
with discussion in 2004. International Journal of Forecasting, 20, 5 – 13.
[46] http://CRAN.R-project.org/package=forecasting .
[47] http://cran.r-project.org/web/views/TimeSeries.html
[48] http://www.stat.pitt.edu/stoffer/tsa2/Examples.html
[49] http://www.prb.org/Publications/Datasheets/2009/2009wpds.aspx
[50] Hydman R.J., Kostenko A.V. (2007): Minimum sample size requirements for
seasonal forecasting models
[51] Hyndman R. J., Athanasopoulos G., Song H., Wu D.C., (2008): The tourism
forecasting Competition
[52] Hyndman R.J. ,King M.L., Pitrun I., Billah B. (2005): Local linear forecast
using cubic smoothing splines. Australian & New Zealand Journal of Statistics, Volume
47, Issue 1 87-99
[53] Hyndman R.J., Khandakar Y. (2008): Automatic Time Series Forecasting: The
forecast Package for R, Monash University, Journal of Statistical Software, Volume 27,
Issue 3. (http://www.jstatsoft.org )
[54] Hyndman R. J. (2001): ItTs time to move from what to why. International
Journal of Forecasting, 17, 567– 570.
[55] Hyndman R. J. (2004): The interaction between trend and seasonality.
International Journal of Forecasting, 20, 561–563.
127
[56] Hyndman R. J., Koehler, A. B., Snyder, R. D. & Grose, S. (2002): A state space
framework for automatic forecasting using exponential smoothing methods,
International Journal of Forecasting 18, 439–454.
[57] Instat Albania, (www.instat.gov.al )
[58] Jessica Lin , Eamonn Keogh, Li Wei , Stefano Lonardi, (2007): experiencin
SAX: a novel symbolic representation,Data Min Knowl Disc 15:107–144 DOI
10.1007/s10618-007-0064-z
[59] Jessica Lin, Eamonn Keogh, Stefano Lonardi, Bill Chiu (2003): A Symbolic
Representation of Time Series, with Implications for Streaming Algorithms, DMKD'
03, June 13, 2003, San Diego, CA, USA. Copyright 2003 ACM1-58113- 763- x
[60] Keogh E., Chakrabarti K., Pazzani M. (2001a): Locally adaptive dimensionality
reduction for indexing large time series databases. In: Proceedings of ACM SIGMOD
conference on management of data, Santa Barbara, May 21–24, pp 151–162
[61] Keogh E., Chakrabarti K., Pazzani M., Mehrotra S (2001b): Dimensionality
reduction for fast similarity search in large time series databases. J Knowledge Inform
Syst. 3:263–286"
[62] Keogh E., Kasetty S., (2002): On the need for time series data mining
benchmarks: a survey and empirical demonstration. In: Proceedings of the 8th
ACMSIGKDD International conference on knowledge discovery and data mining,
Edmonton, Alberta, Canada, July 23–26, pp 102–111"
[63] Keogh E., Lin J., Fu AW., (2005): HOT SAX: efficiently finding the most
unusual time series subsequence. In: Proceedings of the 5th IEEE international
conference on data mining, Houston, TX, November 27–30, pp 226–233
[64] Keogh E,. Lonardi S., Chiu B., (2002): Finding surprising patterns in a time
series database in linear time and space. In: Proceedings of the 8th ACM SIGKDD
International conference onknowledge discovery and data mining, Edmonton, Alberta,
Canada, July 23–26, pp 550–556
[65] Keogh E., Lonardi S., Ratanamahatana CA., (2004): Towards parameter-free
data mining. In:Proceedings of the 10th ACM SIGKDD international conference on
knowledge discovery and data mining, Seattle. August 22–25, pp 206–215"
[66] Keogh E., Pazzani M., (1998): An enhanced representation of time series which
allows fast and accurate classification, clustering and relevance feedback. In:
Proceedings of the 4th International conference on knowledge discovery and data
mining,NewYork,NY,August 27–31, pp 239–241
[67] Koci E., Beqiri XH., Dhamo E., (2011): Mbi Përdorimin e Ekuacionit
Diferencial me Vonesa në Modelin Matematikor të Projektimit të Popullatës; Revista
Shqiptare Social Ekonomike, Nr.5 (69) fq.147 (2011), ISSN 2222-5846
128
[68] Koci E., Beqiri XH., Dhamo E., (2012): Oscillation Criteria of Nonlinear
Dynamic Equations with a Single Delay International Journal of Science, Innovation
and New Technology, (IJSINT) February, Vo.2/ 2013
[69] Koehler, A. B., Snyder, R. D., & Ord, J. K. (2001): Forecasting models and
prediction intervals for the multiplicative Holt– Winters method. International Journal
of Forecasting, 17,269– 286.
[70] Lin J, Keogh E (2006): Group SAX: extending the notion of contrast sets to
time series and multimedia data. In: Proceedings of the 10th European Conference on
principles and practice of knowledge discovery in databases. Berlin, Germany,
September 18–22, pp 284–296
[71] Lin J., Keogh E., Lonardi S., (2005) :Visualizing and discovering non-trivial
patterns in large time series databases. Inform Visual 4:61–82
[72] Lin J., Keogh E., Lonardi S., Lankford JP., Nystrom DM., (2004): Visually
mining and monitoring massive time series. In: Proceedings of the 10th ACM SIGKDD
international conference on knowledge discovery and data mining, Seattle, WA, August
22–25, pp 460–469
[73] Lin J., Keogh E., Patel P., Lonardi S., (2002): Finding motifs in time series, the
2nd Workshop on Temporal Data Mining, the 8th ACM International conference on
knowledge discovery and data mining, Edmonton, Alberta, Canada, pp 53–68
[74] Ljung G. M. & Box G. E. P. (1978): On a Measure of a Lack of Fit in Time
Series Models Biometrika 65: 297–303.
[75] Lonardi S., (2001): Global Detectors of Unusual Words:
Design,Implementation, and Applications to Pattern Discovery in Biosequences. PhD
thesis, Department of Computer Sciences,Purdue University, August, 2001.
[76] Mahmoud E., (1984): Accuracy in forecasting: A survey. Journal of
Forecasting, 3, 139– 159.
[77] Makridakis S., Hibon M., (2000): The M3-Competition: results, conclusions
and implications, International Journal of Forecasting 16 (2000) 451–476 (
http://www.forecastpro.com )
[78] Makridakis S., & Hibon M.,(1991): Exponential smoothing: The effect of initial
values and loss functions on post-sample forecasting accuracy. International Journal of
Forecasting, 7,317– 330.
[79] Makridakis S., Andersen, A., Carbone, R., Fildes, R., Hibon, M., Lewandowski,
R., et al. (1982): The accuracy of extrapolation (time series) methods: Results of a
forecasting competition. Journal of Forecasting, 1, 111 – 153.
[80] Makridakis S., Wheelwright S. C., & Hyndman R. J. (1998): Forecasting:
Methods and applications (3rd ed.). New York, John Wiley and Sons.
129
[81] Meng Yi, Wang Zizheng, Sia Wai Leng (2011): Study of Mathematical Models
for Population Projection;. Singapore 259 978.
[9] Max Kuhn & Kjell Johnson (2013) Applied Predictive Modeling (2013)
[82] Ord, J. K., A. B. Koehler and R. D. Snyder (1997): Estimation and prediction
for a class of dynamic nonlinear statistical models, Journal of the American Statistical
Association, 92, 1621–1629.
[83] Pegels, C. C. (1969): Exponential smoothing: some new variations,
Management Science, 12, 311–315
[84] Shumway H. R. & Stoffer S. D. (2006): Time Series Analysis and Its
Applications With R examples. Springer Second edition, ISBN: 978-0-387-75958-6
[85] ShumwayR. H., & Stoffer D. S. (1982): An approach to time series smoothing
and forecasting using the EM algorithm.Journal of Time Series Analysis, 3, 253–264.
[86] Tompa M., Buhler J., (2001): Finding motifs using random projections. In:
Proceedings of the 5th International conference on computational molecular biology,
Montreal, Canada, April, 22–25, pp 67–74
[87] Tompa, M. & Buhler, J. (2001): Finding Motifs Using Random Projections. In
proceedings of the 5th Int’l Conference on Computational Molecular Biology.
Montreal, Canada, Apr 22-25.pp 67-74
[88] Ullah T. A. (1993): Forecasting of multivariate periodic autoregressive moving-
average process. Journal of Time Series Analysis, 14, 645– 657.
[89] Wei L, Keogh E, Xi X (2006): SAXually explicit images: finding unusual
shapes. In: Proceedings of the 2006 IEEE international conference on data mining,
Hong Kong, December 18–22
[90] World Population Data Sheet (2009)
[91] Xhaja B., Dhamo E., (2011): Population projections: methodological issues and
challenges in Albanian Population, 6TH ANNUAL MEETING OF INSTITUTE ALB-
SHKENCA, Prishtina, 1-4 September,2011,Kosovo
[92] Yi B. K., Faloutsos C., (2000): Proceedings of the 26th international conference
on very large databases, Cairo, Egypt, September 10–14, pp 385–394
[93] Marwan M., Fuad M., Marteau P. F., (2010): Towards a faster symbolic
aggregate approximation method, ICSOFT 2010 - Fifth International Conference on
Software and Data Technologies, Athens, Greece.
130
SHTOJCA
I) Tabela mbi llogaritjet rekursive dhe parashikimin e 15 modeleve të sheshimit
eksponencial të propozuara nga Hyndman et al (2006).
131
II) Komandat në R për simulimet e modeleve dhe grafikët e ACF-së dhe PACf-së.
(Figura 3.7)
> par(mfrow=c(1,2))
> ar1=arima.sim(list(order=c(1,0,0),ar=0.3),n=100)
> acf(ar1,main="ACF per AR(1), phi=0.3",col="blue")
> pacf(ar1,main="PACF per AR(1), phi=0.3",col="blue")
> ar2=arima.sim(list(order=c(2,0,0),ar=c(0.3,-0.8)),n=100)
> acf(ar2,main="ACF per AR(2), phi1=0.3, phi2=-0.8",col="blue")
> pacf(ar2,main="PACF per AR(2), phi1=0.3, phi2=-0.8",col="blue")
> ma1=arima.sim(list(order=c(0,0,1),ma=0.3),n=100)
> acf(ma1,main="ACF per MA(1), theta=0.3",col="blue")
> pacf(ma1,main="PACF per MA(1), theta=0.3",col="blue")
> ma2=arima.sim(list(order=c(0,0,2),ma=c(0.3,-0.85)),n=100)
> acf(ma2,main="ACF per MA(2), theta1=0.3,theta2=-0.85",col="blue")
> pacf(ma2,main="PACF per MA(2), theta1=0.3,theta2=-0.85",col="blue")
> acf(ma1,main="ACF per MA(1), theta=0.3",col="blue")
> pacf(ma1,main="PACF per MA(1), theta=0.3",col="blue")
> acf(ar2,main="ACF per AR(2), phi1=0.3, phi2=-0.8",col="blue")
> arma11=arima.sim(list(order=c(1,0,1),ar=0.2,ma=-0.85),n=100)
> acf(arma11,main="ACF per ARMA(1,1), phi1=0.2, theta=-0.85",col="blue")
> pacf(arma11,main="PACF per ARMA(1,1), phi1=0.2, theta=-0.85",col="blue")
Komandat në R për të përftuar paraqitjet grafike të ACF-së dhe PACF-së për seritë me
të dhëna mbi Shqipërinë (Figura 3.8)
> acf(Ls,main="ACF e zgjedhjes per serine e lindjeve '85-'08",col="blue")
> pacf(Ls,main="PACF e zgjedhjes per serine e lindjeve '85-'08",col="blue")
> acf(Ms,main="ACF e zgjedhjes per serine e martesave '85-'08",col="blue")
> pacf(Ms,main="PACF e zgjedhjes per serine e martesave '85-'08",col="blue")
> acf(Demets,main="ACF e zgjedhjes per serine e demeve",col="blue")
> pacf(Demets,main="PACF e zgjedhjes per serine e demeve",col="blue")
132
> acf(TFR,main="ACF e zgjedhjes per serine e TFR",col="blue")
> pacf(TFR,main="PACF e zgjedhjes per serine e TFR",col="blue")
III) Koha e ekzekutimit të algoritmit SAX në R. (përmasa e alfabetit = 3
)
Shënim: Parametrat e kompjuterit
CPU 520, 1.60GHz, RAM 1.00 GB,
133
IV) Seria me vrojtimet reale të numrit të lindjeve në Shqipëri 1990- 2008 (INSTAT)
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
1990 6077 6488 7720 7555 8130 7555 7473 7145 6981 6324 5257 5420
1991 6790 6843 7610 7772 7774 7023 7128 6347 5625 5153 4416 4881
1992 6215 6366 6713 6306 6019 6554 6690 6170 6094 5755 5008 5597
1993 5920 5845 6583 5920 5561 5344 5141 4768 4308 4795 5601 7057
1994 5630 5825 7153 7666 7572 7297 7139 5810 4222 4865 5269 3096
1995 5521 5637 6105 6069 6458 6531 6848 6826 6646 5932 4858 4498
1996 5195 4908 5585 5571 5797 6391 7116 6822 6255 5455 4587 4587
1997 4797 4445 4809 4964 5137 5544 5933 5896 5723 5297 4495 4612
1998 4390 4095 4547 4781 5046 5533 6014 6008 5773 5238 4372 4342
1999 4137 3877 4335 4578 4850 5343 5824 5830 5615 5094 4248 4219
2000 3820 3548 3983 4265 4516 4618 5166 4922 4647 4270 3697 3700
2001 4369 3926 4209 4094 4450 4678 5209 5196 5098 4744 4017 4225
2002 4142 3561 3643 3516 3694 3916 3663 3455 3870 4101 3833 4121
2003 3358 3469 3895 3495 4127 4189 4503 4060 4114 4058 3787 3957
2004 3588 3174 3221 3073 3645 3973 3996 3879 4458 3919 3183 2913
2005 3092 2887 2957 2991 3419 3245 3307 3586 4177 3795 3034 3122
2006 3191 2621 2815 2733 3268 3184 3183 2505 3033 2825 2436 2435
2007 2542 2188 2298 2324 2785 2834 3187 3130 3611 3287 2442 2535
2008 2773 2408 2603 2620 3160 3002 3388 3263 3760 3362 2906 3006
Parashikimet për serinë e lindjeve sipas modeleve të propozuara.
A) Parashikimet sipas modelit ETS për serinë e vrojtimeve 1990-2008
Point Forecast Lo 80 Hi 80 Lo 95 Hi 95
Jan 2009 3236.249 2837.3401 3635.158 2626.170326 3846.328
Feb 2009 3033.215 2561.5845 3504.845 2311.918482 3754.511
Mar 2009 3347.079 2737.1351 3957.023 2414.250425 4279.907
Apr 2009 3384.834 2688.7673 4080.901 2320.291681 4449.377
May 2009 3624.962 2802.9759 4446.948 2367.842716 4882.081
Jun 2009 3653.705 2754.2840 4553.126 2278.159204 5029.251
Jul 2009 3842.894 2827.4154 4858.372 2289.853756 5395.934
Aug 2009 3593.960 2583.1288 4604.791 2048.027112 5139.893
Sep 2009 3574.264 2511.3451 4637.183 1948.669748 5199.859
134
Oct 2009 3346.515 2299.8768 4393.154 1745.819937 4947.211
Nov 2009 2930.354 1970.7076 3890.000 1462.701643 4398.006
Dec 2009 3001.725 1976.1706 4027.279 1433.275037 4570.175
Jan 2010 3236.251 2086.2941 4386.209 1477.543384 4994.960
Feb 2010 3033.217 1915.2440 4151.190 1323.424824 4743.009
Mar 2010 3347.081 2070.4182 4623.744 1394.593572 5299.569
Apr 2010 3384.837 2051.4744 4718.199 1345.634978 5424.039
May 2010 3624.965 2152.8705 5097.059 1373.590988 5876.338
Jun 2010 3653.708 2126.5160 5180.899 1318.069570 5989.346
Jul 2010 3842.896 2191.9791 5493.814 1318.036287 6367.756
Aug 2010 3593.962 2009.1146 5178.810 1170.146875 6017.778
Sep 2010 3574.267 1958.2653 5190.268 1102.805788 6045.728
Oct 2010 3346.518 1796.8887 4896.147 976.564617 5716.471
Nov 2010 2930.356 1541.9589 4318.753 806.985901 5053.726
Dec 2010 3001.727 1547.8191 4455.635 778.166720 5225.287
Jan 2011 3236.254 1635.1206 4837.387 787.531871 5684.976
Feb 2011 3033.219 1501.5074 4564.931 690.668166 5375.770
Mar 2011 3347.084 1623.1363 5071.031 710.533674 5983.633
Apr 2011 3384.839 1607.7997 5161.879 667.091833 6102.587
May 2011 3624.967 1686.3077 5563.627 660.043342 6589.891
Jun 2011 3653.710 1664.3004 5643.120 611.170393 6696.250
Jul 2011 3842.899 1713.7213 5972.077 586.602638 7099.196
Aug 2011 3593.965 1568.7368 5619.193 496.645771 6691.284
Sep 2011 3574.269 1526.7313 5621.807 442.830148 6705.708
Oct 2011 3346.520 1398.5064 5294.534 367.290218 6325.750
Nov 2011 2930.358 1197.7781 4662.938 280.605660 5580.110
Dec 2011 3001.729 1199.7562 4803.702 245.849456 5757.609
Jan 2012 3236.256 1264.4477 5208.064 220.635367 6251.877
Feb 2012 3033.221 1158.1532 4908.289 165.552070 5900.890
Mar 2012 3347.086 1248.5014 5445.670 137.577895 6556.594
Apr 2012 3384.842 1233.0147 5536.669 93.906326 6675.777
May 2012 3624.970 1289.0809 5960.859 52.535936 7197.404
Jun 2012 3653.713 1267.8984 6039.527 4.924496 7302.501
Jul 2012 3842.902 1300.7738 6385.030 -44.947538 7730.751
135
Aug 2012 3593.968 1186.0868 6001.848 -88.568304 7276.503
Sep 2012 3574.272 1149.5443 5998.999 -134.028909 7282.573
Oct 2012 3346.522 1048.3628 5644.682 -168.209412 6861.254
Nov 2012 2930.360 893.6956 4967.024 -184.449393 6045.169
Dec 2012 3001.731 890.7351 5112.727 -226.758654 6230.221
Jan 2013 3236.258 933.8296 5538.687 -285.002526 6757.519
Feb 2013 3033.223 850.5634 5215.883 -304.867072 6371.314
Mar 2013 3347.088 911.5015 5782.675 -377.820225 7071.997
Apr 2013 3384.844 894.5586 5875.129 -423.718815 7193.407
May 2013 3624.972 929.0243 6320.920 -498.124408 7748.069
Jun 2013 3653.715 907.3196 6400.111 -546.534524 7853.965
Jul 2013 3842.905 923.8813 6761.928 -621.356212 8307.165
Aug 2013 3593.970 835.7273 6352.213 -624.398191 7812.338
Sep 2013 3574.274 803.1311 6345.418 -663.823489 7812.372
Oct 2013 3346.525 725.8478 5967.202 -661.454817 7354.504
Nov 2013 2930.362 612.8255 5247.899 -614.004349 6474.729
Dec 2013 3001.733 604.5409 5398.926 -664.456144 6667.923
B) Parashikimet sipas modelit ETS për serinë e vrojtimeve 1990-2005
Point Forecast Lo 80 Hi 80 Lo 95 Hi 95
Jan 2006 3298.174 2682.039148 3914.308 2355.87724 4240.470
Feb 2006 3246.924 2375.631499 4118.217 1914.39685 4579.452
Mar 2006 3726.960 2659.869448 4794.050 2094.98608 5358.933
Apr 2006 3722.384 2490.227201 4954.541 1837.96266 5606.806
May 2006 3982.940 2605.355060 5360.525 1876.10555 6089.775
Jun 2006 4099.946 2590.883496 5609.009 1792.03391 6407.859
Jul 2006 4378.943 2748.973566 6008.912 1886.11989 6871.766
Aug 2006 4080.775 2338.268233 5823.282 1415.84084 6745.709
Sep 2006 3888.651 2040.446872 5736.856 1062.06652 6715.236
Oct 2006 3592.625 1644.449383 5540.801 613.14733 6572.103
Nov 2006 3055.692 1012.411135 5098.972 -69.23623 6180.619
Dec 2006 3122.000 987.866237 5256.133 -141.87569 6385.875
Jan 2007 3298.174 1076.900429 5519.447 -98.97058 6695.318
Feb 2007 3246.924 941.803134 5552.046 -278.45440 6772.303
Mar 2007 3726.960 1340.934750 6112.984 77.84953 7376.070
Apr 2007 3722.384 1258.110728 6186.658 -46.39687 7491.165
May 2007 3982.940 1442.827235 6523.053 98.17267 7867.708
Jun 2007 4099.946 1486.193524 6713.699 102.55639 8097.336
136
Jul 2007 4378.943 1693.569020 7064.317 272.01792 8485.868
Aug 2007 4080.775 1325.641115 6835.909 -132.83869 8294.389
Sep 2007 3888.651 1065.480650 6711.822 -429.01564 8206.318
Oct 2007 3592.625 703.019386 6482.231 -826.64560 8011.896
Nov 2007 3055.692 101.131060 6010.252 -1462.91883 7574.302
Dec 2007 3122.000 103.894514 6140.105 -1493.79378 7737.793
Jan 2008 3298.174 217.834754 6378.513 -1412.79816 8009.145
Feb 2008 3246.924 105.584417 6388.265 -1557.34057 8051.190
Mar 2008 3726.960 525.780489 6928.139 -1168.82133 8622.740
Apr 2008 3722.384 462.464468 6982.304 -1263.23282 8708.001
May 2008 3982.940 665.319530 7300.561 -1090.92275 9056.803
Jun 2008 4099.946 725.611315 7474.281 -1060.65372 9260.546
Jul 2008 4378.943 948.831274 7809.055 -866.96017 9624.846
Aug 2008 4080.775 595.779212 7565.771 -1249.06615 9410.616
Sep 2008 3888.651 349.622414 7427.680 -1523.82633 9301.129
Oct 2008 3592.625 0.375964 7184.875 -1901.24598 9086.497
Nov 2008 3055.692 -589.011533 6700.395 -2518.40085 8629.784
Dec 2008 3122.000 -574.402892 6818.402 -2531.16014 8775.159
Jan 2009 3298.174 -449.214869 7045.562 -2432.96252 9029.310
Feb 2009 3246.924 -550.765656 7044.615 -2561.14138 9054.990
Mar 2009 3726.960 -120.374644 7574.294 -2157.03033 9610.949
Apr 2009 3722.384 -173.961472 7618.730 -2236.56230 9681.331
May 2009 3982.940 38.191800 7927.689 -2050.03185 10015.912
Jun 2009 4099.946 107.382011 8092.511 -2006.15385 10206.046
Jul 2009 4378.943 339.128712 8418.757 -1799.41978 10557.306
Aug 2009 4080.775 -5.742904 8167.293 -2169.01484 10330.565
Sep 2009 3888.651 -244.042543 8021.345 -2431.75854 10209.061
Oct 2009 3592.625 -585.734217 7770.985 -2797.62415 9982.875
Nov 2009 3055.692 -1167.848844 7279.232 -3403.65612 9515.039
Dec 2009 3122.000 -1146.234747 7390.234 -3405.70150 9649.701
Jan 2010 3298.174 -1014.291272 7610.639 -3297.17230 9893.520
Feb 2010 3246.924 -1109.321995 7603.171 -3415.37959 9909.229
Mar 2010 3726.960 -672.632866 8126.552 -3001.63639 10455.555
Apr 2010 3722.384 -720.131139 8164.900 -3071.85673 10516.625
May 2010 3982.940 -502.087444 8467.968 -2876.31765 10842.198
Jun 2010 4099.946 -427.194367 8627.087 -2823.71786 11023.610
Jul 2010 4378.943 -189.922561 8947.808 -2608.53387 11366.420
Aug 2010 4080.775 -529.437741 8690.988 -2969.93697 11131.487
Sep 2010 3888.651 -762.541165 8539.844 -3224.73375 11002.036
Oct 2010 3592.625 -1099.188977 8284.440 -3582.88544 10768.136
Nov 2010 3055.692 -1676.403796 7787.787 -4181.42380 10292.807
Dec 2010 3122.000 -1650.029056 7894.028 -4176.18840 10420.187
137
C) Parashikimet sipas modelit ARIMA(1,1,1)(1,0,1)[12] për serinë e
lindjeve 1990- 2008
Point Forecast Lo 80 Hi 80 Lo 95 Hi 95
Jan 2009 2932.194 2375.1169 3489.270 2080.2184 3784.169
Feb 2009 2560.444 1867.3898 3253.499 1500.5089 3620.380
Mar 2009 2645.377 1886.2038 3404.549 1484.3220 3806.431
Apr 2009 2578.757 1783.3317 3374.183 1362.2589 3795.256
May 2009 2926.985 2110.0733 3743.897 1677.6262 4176.344
Jun 2009 2901.449 2070.9064 3731.991 1631.2438 4171.654
Jul 2009 3077.219 2237.4431 3916.995 1792.8926 4361.545
Aug 2009 2929.827 2083.3841 3776.270 1635.3043 4224.350
Sep 2009 3251.426 2399.8695 4102.983 1949.0826 4553.770
Oct 2009 2988.990 2133.2906 3844.688 1680.3110 4297.668
Nov 2009 2519.616 1660.3999 3378.832 1205.5583 3833.674
Dec 2009 2564.050 1701.7283 3426.371 1245.2430 3882.856
Jan 2010 2583.624 1699.4479 3467.800 1231.3934 3935.854
Feb 2010 2296.229 1397.6075 3194.851 921.9059 3670.553
Mar 2010 2420.928 1512.1032 3329.753 1031.0005 3810.855
Apr 2010 2389.695 1473.1990 3306.192 988.0351 3791.356
May 2010 2740.331 1817.7276 3662.935 1329.3306 4151.332
Jun 2010 2732.061 1804.3470 3659.775 1313.2449 4150.877
Jul 2010 2908.953 1976.7807 3841.124 1483.3187 4334.586
Aug 2010 2777.907 1841.7143 3714.101 1346.1235 4209.691
Sep 2010 3086.697 2146.7801 4026.614 1649.2180 4524.176
Oct 2010 2843.241 1899.8059 3786.675 1400.3816 4286.100
Nov 2010 2403.533 1456.7253 3350.340 955.5156 3851.550
Dec 2010 2447.406 1497.3286 3397.482 994.3883 3900.423
Jan 2011 2467.262 1497.1240 3437.399 983.5642 3950.959
Feb 2011 2197.308 1213.2434 3181.373 692.3109 3702.305
Mar 2011 2315.572 1321.1949 3309.949 794.8036 3836.340
Apr 2011 2286.623 1284.1476 3289.099 753.4689 3819.778
May 2011 2617.542 1608.3672 3626.717 1074.1421 4160.943
138
Jun 2011 2609.994 1595.0297 3624.958 1057.7402 4162.248
Jul 2011 2776.937 1756.7901 3797.084 1216.7569 4337.117
Aug 2011 2653.517 1628.5988 3678.435 1086.0400 4220.993
Sep 2011 2944.721 1915.3170 3974.125 1370.3834 4519.059
Oct 2011 2715.261 1681.5706 3748.951 1134.3680 4296.154
Nov 2011 2300.763 1262.9296 3338.597 713.5335 3887.993
Dec 2011 2342.156 1300.2823 3384.030 748.7474 3935.565
Jan 2012 2360.898 1299.5288 3422.268 737.6738 3984.123
Feb 2012 2106.411 1031.0322 3181.789 461.7612 3751.060
Mar 2012 2217.917 1131.8266 3304.007 556.8852 3878.948
Apr 2012 2190.633 1095.8855 3285.380 516.3613 3864.905
May 2012 2502.618 1400.5321 3604.703 817.1233 4188.112
Jun 2012 2495.505 1386.9511 3604.059 800.1180 4190.892
Jul 2012 2652.896 1538.4594 3767.333 948.5123 4357.280
Aug 2012 2536.542 1416.6244 3656.459 823.7760 4249.307
Sep 2012 2811.081 1685.9637 3936.197 1090.3628 4531.798
Oct 2012 2594.754 1464.6370 3724.872 866.3891 4323.119
Nov 2012 2203.981 1069.0070 3338.955 468.1881 3939.774
Dec 2012 2243.005 1103.2801 3382.730 499.9460 3986.064
Jan 2013 2260.675 1102.0449 3419.304 488.7033 4032.646
Feb 2013 2020.753 848.1237 3193.382 227.3713 3814.134
Mar 2013 2125.877 942.2478 3309.506 315.6723 3936.082
Apr 2013 2100.155 907.4221 3292.888 276.0274 3924.283
May 2013 2394.284 1193.6807 3594.886 558.1199 4230.447
Jun 2013 2387.578 1179.9276 3595.229 540.6359 4234.520
Jul 2013 2535.961 1321.8222 3750.100 679.0958 4392.826
Aug 2013 2426.266 1206.0262 3646.506 560.0703 4292.462
Sep 2013 2685.092 1459.0243 3911.160 809.9832 4560.201
Oct 2013 2481.147 1249.4467 3712.847 597.4239 4364.870
Nov 2013 2112.739 875.5487 3349.930 220.6196 4004.859
Dec 2013 2149.530 906.9550 3392.105 249.1755 4049.885
139
D) Parashikimet sipas modelit Holt- Winters për serinë e lindjeve 1990- 2008
Jan Feb Mar Apr May Jun
2009 2628.41999 1928.58075 1946.62761 1947.03053 2568.31855 2726.77941
2010 2138.65600 1438.81676 1456.86362 1457.26655 2078.55456 2237.01543
2011 1648.89202 949.05278 967.09963 967.50256 1588.79057 1747.25144
2012 1159.12803 459.28879 477.33565 477.73858 1099.02659 1257.48746
2013 669.36404 -30.47519 -12.42834 -12.02541 609.26260 767.72347
Jul Aug Sep Oct Nov Dec
2009 3256.54929 3277.87721 3868.79381 3483.31220 2730.74002 2516.23601
2010 2766.78530 2788.11322 3379.02982 2993.54822 2240.97603 2026.47203
2011 2277.02132 2298.34923 2889.26584 2503.78423 1751.21205 1536.70804
2012 1787.25733 1808.58525 2399.50185 2014.02024 1261.44806 1046.94406
2013 1297.49335 1318.82126 1909.73786 1524.25626 771.68407 557.18007
ABSTRAKT: Në pjesën e saj të parë teza e doktoratës prezanton një vështrim të përgjithshëm teorik të
koncepteve dhe natyrës së serive kohore të gërshetuara me praktikën. Janë studiuar disa seri kohore me
të dhëna nga vendi për qëllimet e gjetjes së modelit më të mirë dhe të parashikimit nëpërmjet tij. Modelet
trajtohen në softuerin R. Midis modeleve të shqyrtuara (Holt-Winters, ETS, ARIMA etj) është zgjedhur
më i miri duke përdorur disa kritere informacioni (AIC, AICc, BIC etj). Është përdorur seria e lindjeve
për muaj në Shqipëri për qëllime aplikative. Në pjesën e saj të dytë, kjo tezë prezanton disa nga teknikat
e zbulimit të ngjashmërive të serive kohore dhe reduktimit të përmasave. Janë ndërtuar në programin R
algoritmet për të dy teknikat PAA (Piecewise Aggregate Approximation) dhe SAX (Symbolic Aggregate
Approximation) dhe është krahasuar efektshmëria e tij në raport me algoritmet ekzistuese në MATLAB.
Rezultatet eksperimentale kanë treguar se algoritmi SAX i ndërtuar në R është më efikas në kohën e
ekzekutimit sesa ai i ndërtuar në MATLAB. Më tej është synuar modifikimi i teknikës SAX duke e
aplikuar atë në seri kohore me natyra të ndryshme. Për më tepër rezultatet eksperimentale kanë treguar
se zbulimi i ngjashmërive në sekuencat e ADN-ve, duke aplikuar teknikën SAX, është më i lehtë dhe më
i shpejtë krahasuar me algoritmin Needleman – Wursch.
Fjalët kyçe: seri kohore, parashikim, ARIMA, reduktim, ngjashmëri, R.
ABSTRACT: In the first part, the thesis provides a theoretical overview of the concepts and the nature
of time series combined with practice. We have studied a variety of time series models, construction of
models through R software and forecast. We choose among many models (Holt- Winters, ETS, ARIMA
etc ) the one that best fits our data (time series of birth numbers per month in Albania is at the center of
our attention) based on many accuracy measurements. In the second part, the thesis presents some of the
similarity techniques and size reduction in time series. We have built the PAA (Piecewise Aggregate
Aproximation) and SAX (Symbolic Aggregate Approximation) algorithm in R. Then we compare its
efficiency with the algorithms writen in MATLAB by the authors. The experimental results show that
the algorithm written in R is more efficient in time execution than in MATLAB. Further, it is intended
to modify SAX (Symbolic Aggregate Approximation) technique by applying them to different time
series nature. Moreover, the experimental results show that the detections of the similarities in DNA
sequences applying SAX algorithm is easy and faster than Needleman-Wursch algorithm.
Key words: time series, forecast, ARIMA, reduction, similarity, R.
© Eralda Gjika (Dhamo)