arima mf spss

Прогнозиране с метода ARIMA в SPSS

ARIMA

Основна постановка на казуса Маркетинговият отдел на компания за продажби по каталог е натоварен със задачата да разработи 12-месечна прогноза за продажбите на предлаганите по каталог артикули. Данните за месечните продажби (в стойност) на всички стоки, продавани по каталог (мъжко, дамско облекло и бижутерия), както и предполагаемите фактори, обуславящи тяхната динамика (брой изпратени каталози, брой страници в каталог, брой отворени линии за поръчка, разходи за печатна реклама, брой търговски представители), са обобщени за период от 10 години (от януари 1989 г. до декември 1998 г.). В базата данни се съдържа и променливата “промоции”, която е типична дъми променлива с код 1 за периодите с ценови промоции и код 0 за всички останали периоди. Във връзка с възможността за предварителна оценка на прогностичните способности на различните методи и модели и на тази основа извършване на сравнителен анализ и избор на най-точния от тях, маркетинговите специалисти използват техниката на валидиране, като валидиращият период обхваща последната година от историческия период (от януари 1998 г. до декември 1998 г.). При оценката на прецизността на прогнозите те се основават на показателя среден абсолютен процент на грешка (МАРЕ). Вашите задачи са:

• Да идентифицирате, параметризирате и диагностицирате ендогенен ARIMA модел, като използвате първите 108 момента от наличната база данни.

• Да идентифицирате, параметризирате и диагностицирате екзогенен ARIMA модел, като използвате наличната информация за предполагаемите детерминанти, обуславящи динамиката на продажбите на мъжко облекло.

• Да идентифицирате, параметризирате и диагностицирате екзогенен ARIMA модел, като използвате наличната информация за периодите със специално събитие (в случая организирана ценова промоция).

• Да определите най-точния ARIMA модел, който евентуално да бъде използван за прогнозиране на продажбите за следващата календарна година (от януари 1999 г. до декември 1999 г.).

1. Ендогенно ARIMA моделиране ARIMA моделите са едни от най-популярните представители на ендогенните отворени модели за бизнес прогнозиране. Приложението им се реализира на три фази: (1) идентификациране броя (реда) на параметрите p, d, q и sp, sd, sq (за сезонните модели) въз основа на корелограмите; (2) оценяване на параметрите и изключване на тези от тях, които не са статистически значими; и (3) диагностична проверка на остатъците за наличието на нормално разпределение, хомоскедастичност и случаен характер.

© Доц. д-р Маруся Смокова, Маркетингово прогнозиране 1


Накракто ще бъдат представени някои от основните правила, които трябва да се съблюдават при ендогенното ARIMA моделиране.

(1) Идентификация на ARIMA параметри:

• Авторегресионен параметър (p). Показва паметта на процеса за предходни наблюдения. Обикновено приема стойности 0,1 или 2. При стойност 0 означава, че при фактическите данни не се наблюдава автокорелация. При стойност 1 означава, че фактическите данни, обект на моделиране, си корелират помежду си при лаг 1 (най-често срещаната ситуация). При стойност 2 означава, че фактическите данни, обект на моделиране, си корелират помежду си при лаг 2, т.е. тяхната величина (хt) се определя от величината на двете предходни наблюдения поотделно (хt-1 и хt-2).

• Интегриран параметър, параметър на последователни разлики (d). Свидетелства за наличието на тренд в данните, т.е. нестационарност по отношение на тренда (за справяне с нестационарността по отношение на вариацията се използва например логаритмична трансформация). При интегриран параметър 0 изходните данни, обект на моделиране, са стационарни. Стойности над 0 свидетелстват за нестационарни по отношение на тренда данни. Със стойност 1 например се стабилизира (изолира) линейният тренд (най-типичния случай), а със стойност 2 - както линейният, така и квадратичният тренд. Възможни са ситуации, при които са необходими последователни разлики и от по-висок ред, но те са изключение. ARIMA (0,1,0) е известен в литературата като модел на случайното блуждаене, като чрез него се неутрализира линейния тренд, а оставащата част от вариацията в данните не може да бъде обяснена нито на авторегресионна база, нито на базата на плъзгащи се средни.

• Параметър на плъзгащи средни (q). Показва паметта на процеса за предходни случайни шокове. Обикновено приема стойности 0,1 или 2. Когато е 0, казваме, че в данните не се наблюдават шокове и те могат да бъдат обяснени само на авторегресионна база. При стойност 1 можем да твърдим, че фактическите данни, обект на моделиране, си корелират с шокове на лаг 1, а при стойност 2 - на лаг 2.

• Константа. При авторегресионен процес характеризира трендовия параметър, а при процес на плъзгащи се средни – средното равнище. При наличие на интегриран процес (d>0) тези коментари се отнасят за преобразуваните въз основа на последователни разлики данни. При d=0 моделът най-често има константа и тя е средната на реда. При d=1, ако моделът има константа, то тя ще изразява ненулевия среден тренд (при нулев среден тренд моделът няма константа!). При d=2 моделът няма константа (ако има константа, тя би отразявала стойността на "тренда в тренда").

• Спазвайте правилото за пестеливост на модела (Keep It Simple=KIS)!!!

(2) Оценяване на параметрите – някои правила:



• В един модел трябва да се включат ВСИЧКИ статистически значими параметри.

• Стойността на параметъра Phi показва колко силно всяка стойност зависи от предходните. Неговите величина и знак пряко кореспондират с величината и знака на коефициента на частична авторегресия при лаг 1.

• Стойността на параметъра Theta показва колко силно всяка стойност зависи от предходните остатъци. Величината и знакът на коефицинта пряко кореспондират с величината и знака на коефициента на авторегресия при лаг 1.

• Тъй като в действителност представляват корелации, ВСИЧКИ параметри (Phi за авторегресия и Theta за плъзгащи се средни) трябва да отговорят на следните условия:

при p,q = 1 -> -1 < Phi < +1; -1 < Theta < +1 при p,q = 2 -> Phi1 + Phi2 < 1 и Phi2 - Phi1 < 1 (ГРАНИЦИ ЗА

СТАЦИОНАРНОСТ НА АВТОРЕГРЕСИОННИТЕ ПАРАМЕТРИ); Theta1 + Theta2 < 1 и Theta2 - Theta1 < 1 (ГРАНИЦИ ЗА ПРЕОБРАТИМОСТ НА ПАРАМЕТРИТЕ НА ПЛЪЗГАЩИ СЕ СРЕДНИ).

(3) Диагностична проверка:

• Случаен характер на грешките – анализ на корелограмите, правило на Панкранц, Бокс-Люнг статистики.

• Нормално разпределение на грешките – тест на Колмогоров-Смирноф, тест на Шапиро-Уилк, тест на Жарк-Бера; Р-Р диаграма.

• Хомоскедастичност на грешките – диаграма с абсциса стандаритизирани изгладени стойности и с ордината стандартизирани грешки.

Идентификацията на един ARIMA модел стартира с отговора на въпроса: “Стационарен ли е изучаваният динамичен ред?”. В най-широк смисъл на думата един динамичен ред е стационарен, когато има константна в хода на времето средна и вариация. От тук могат да се разграничат два типа стационарност:

• Стационарност по отношение на средната, която може да бъде постигната чрез разликова (диференчна) трансформация, т.е. чрез изчисляване на последователни разлики от определен порядък.

• Стационарност по отношение на вариацията, която може да бъде постигната чрез логаритмуване, коренуване и др.

Отговорът на този въпрос би могъл да се получи посредством две групи инструменти:

• Графични, т.е. чрез визуален анализ. • Статистически, т.е. чрез проверка на статистически тестове (например

теста на Дикей-Фулер и неговите разновидности). В настоящото изложение специално внимание ще бъде отделено на двата най-популярни графични инструмента за преценка наличието, респ. неналичието на стабилност – корелограмите (и по-конкретно ACF) и диаграма, на която изследваното явление се представя в хода на времето (Sequence charts).



За да построите диаграмата на автокорелационната функция, изпълнете следната команда:

Analyze Time Series Autocorrelations…

Изберете меню Options и задайте максималния брой на лаговете, които да бъдат изобразени на корелограмите (по подразбиране максималният брой на лаговете е 16, който е недостатъчен за преценка наличието на сезонност с периодичност 12). В случая се задава 48, т.е. максимум 4 години, от които да се направи преценка за сезонност. Това меню предлага и една допълнителна настройка, която е особено полезна при преценка изпълнението на изискването за стационарност и наличието на сезонен компонент, а също и при идентифицирането на сезонните компоненти на един ARIMA модел (при установена сезонност). Това е опцията Display autocorrelations at periodic lags, при активирането на която на корелограмите ще се представят единствено периодичните лагове (кои лагове да се изобразят зависи от честотата на изходните данни и от дефинирания им максимален брой; в случая 4 лага – на 12, 24, 36 и 48-ми лаг).

На следващите две фигури са представени диаграмите на автокорелационната функция без и с активирана опция Display autocorrelations at periodic lags.



Непосредствените изводи, които могат да се направят от анализа на ACF корелограмата, са:

Изследваният динамичен ред, описващ динамиката на продажбите на мъжко облекло, се характизира с ясно изразена годишна сезонност. Наблюдава се периодичен компонент с честота на проявление 12 месеца (пикове на 12, 24, 36 и 48 лаг).

Изследваният динамичен ред е нестационарен, тъй като при всеки следващ периодичен лаг коефициентът на автокорелация отбелязва слаб спад в своята величина в сравнение с предходния лаг. За “справяне с нестационарността” е необходима поне сезонна последователна разлика от първи ред.

До същите изводи може да се достигне и чрез графичното изобразяване динамиката на продажбите като функция на времето. За тази цел следва да се изпълни командата:

Analyze Time Series Sequence charts…



За да се улесни преценката относно стабилността на динамичния ред по отношение на средната, би могло върху графиката да се изобрази средната стойност, която да играе ролята на референт. За тази цел кликнете върху бутон Format… и активирайте опция Reference line at the mean of series.

. От непосредствената инспекция на графиката може да се заключи, че:

Изследваният динамичен ред е нестационарен по отношение на средната. Наблюдава се възходящ линеен тренд и периодичен (сезонен) характер на продажбите.



Поради сезонния характер на данните, за да се стабилизира тренда, може да се използва сезонна диференчна трансформация. От фигурата горе вдясно е видно, че за привеждането на данните в стабилен вид е достатъчна сезонна последователна разлика от първи порядък (Yt-Yt-12).

Потвърждение на факта, че сезонната разликова трансформация от първи ред е достатъчна за привеждането на продажбите в стационаред по отношение на средната вид може да бъде направено и чрез анализа на корелограмите.



При ACF плота вече не се наблюдават бавно достигащи нулата коефициенти на автокорелация (при периодичните лагове, поради сезонния характер на данните!). След установяване необходимостта от стабилизиране и определяне броя на последователните разлики (в случая една) се пристъпка и към определяне броя на авторегресионните параметри и параметрите на плъзгащи се средни. При тяхното идентифициране отново се използват корелограмите. Тъй като се установява сезонната част от Бокс-Дженкинс модела, анализът им се основава на периодичните лагове (в случая 12, 24, 36 и т.н.).

От фигурите е видно, че при ACF плота има пик на първи лаг (12 лаг е първи лаг при идентифицирането на сезонната част от сезонните Бокс-Дженкинс модели). При РACF също се наблюдава пик на първи лаг. Тъй като еднозначно не може да се определи дали се наблюдава процес на плъзгащи се средни, на авторегресия или смесен процес, е препоръчително да се оценят и диагностицират няколко алтернативни ARIMA модела:

• авторегресионен процес - ARIMA (0,0,0)(1,1,0)12; • процес на плъзгащи се средни - ARIMA (0,0,0)(0,1,1)12;



• смесен процес - ARIMA (0,0,0)(1,1,1)12. За да оцените параметрите на всеки от ARIMA моделите, изпълнете следната команда:

Analyze Time Series Create models… В таб Variables следва да се дефинира променливата, обект на моделиране (в случая продажби на мъжко облекло), и методът, въз основа на който ще се реализира моделирането и прогнозирането (от падащия списък с методи се избира ARIMA).

За да зададете параметрите на модела, кликнете върху бутон Criteria... Въведете броя на сезонните параметри за всеки от моделите. Тъй като средното равнище на преобразуваните чрез диференчна трансформация данни е около 880 (т.е. е различно от 0), моделът ще има константа.



Тъй като на етапа на оценяване се правят изводи и за величината на параметрите и тяхната статистическа значимост, в таб Statistics трябва да се активира опция Parameter estimates.

След това можете да натиснете бутона ОК и да стартирате процеса на параметризация чрез метода на максималното правдоподобие1. Повторете процедурата, като само променяте редовете в сезонния компонент на модела. В

1 В случай че имате технически проблем с изпълнението на командата, направете всички необ-ходими настройки и натиснете бутона Paste. Изтрийте скобите след DIFFSEASONAL, като вместо DIFFSEASONAL= [1] запишете DIFFSEASONAL=1.



следващите таблици са представени оценките на параметрите за трите класа модел.



Изборът на най-добър сред експериментирания клас модели се основава на критерия минимална стойност на информационния критерий на Бейс (в случай нормализирания му вариант). Изводът, който може да се направи, е, че:

Най-добър сред експериментирания клас модели е ARIMA (0,0,0)(0,1,1)12, който осигурява минимална стойност на нормализиран BIC в размер на 16,627.

След като е идентифициран моделът, даващ най-ниска стойност на BIC, се пристъпва към анализ на оценките на неговите параметри. За тази цел отново може да се параметризира ARIMA (0,0,0)(0,1,1)12, като от таб Save се укаже да се съхрани нова променлива Noise Residual, в която се съдържат остатъците на сезонния модел. При сезонните Бокс-Дженкинс модели тази променлива служи като основа за идентифицирането на несезонната част от модела.



Както се вижда от следващата таблица, и константата в модела, и параметърът Theta са статистически значими. Оценката на параметъра Theta отговаря и на изискването за преобратимост (-1 < 0,818 < +1).

За да се иденфицира несезонната част от модела, отново се използват корелограмите, но този път на остатъците. От тях се съди и доколко правилно е дефинирана сезонната част от модела. (Ако моделът не е правилно идентифициран, ще продължава да се наблюдават автокорелации на сезонните лагове!) Важно е да се внимава никоя от трансформационните опции да не е активна. Към трансформации ще се прибегне едва, когато се установи нестационарност по отношение на средната (бавно достигане на нулеви стойности на автокорелациите при първите лагове – необходимост от диференчна трансформация) и нестационарност по отношение на вариацията (логаритмична трансформация).



На следващите фигури са представени корелограмите на остатъците (с максимален брой лагове 48 – преценка на коректността при дефинирането на сезонната част от модела и с максимален брой 16 – достатъчни за идентифициране на несезоннатата част).



Въз основа анализа на корелограмите могат да се направят следните изводи:

Сезонната част от модела е коректно идентифицирана, тъй като не се съдържат статистически значими пикове на периодичните лагове.

Не се наблюдават бавно достигащи нулата автокорелации, което означава, че процесът е стациорен.

Не се наблюдават и пикове или експоненциално заглъхващата структура, което означава, не са налице нито авторегресионен процес, нито процес на плъзгащи се средни.

Окончателният модел, който ще бъде подложен на диагностика, е ARIMA (0,0,0)(0,1,1)12.

След като се идентифицира и несезонната част от модела се пристъпва към параметризацията на пълния модел, която се реализира по познания начин (Analyze Time Series Create models…). Отново задължително трябва да се активира представянето на таблицата с оценките на параметрите и съхраняване на остатъците. В конкретния пример, поради факта, че несезонната ARIMA е (0,0,0), анализът на параметрите вече е направен. На следващ етап се пристъпва към диагностика на остатъците. За тази цел се анализират корелограмите на грешките и статистиката на Бокс-Люнг. Тъй като не се наблюдават пикове на корелограмите, а също и p-value на теста на Бокс-Люнг е по-голяма от 0,05, може да се направи заключението за случаен характер на остатъците.



Друго изискване, което трябва да се съблюдава, е грешките да следват нормалното разпределение. За проверка на хипотезата за нормалност на разпределението на грешките, могат да се използват познатите тестове на Колмогоров-Смирнов и Шапиро-Уилк (Analyze Descriptive statistics Explore…). Според теста на Шапиро-Уилк, който е подходящ при големи извадки, условието за нормалност е нарушено (p-value на статистиката е по-малка от 0,05, което е основание за отхвърляне на нулевата хипотеза за нормалност). Причината за това може да се търси и в наличието на отдалечени случаи.

В SPSS 16 се съдържа вградена опция за идентифициране и моделиране на отдалечените случаи. Наличието на отдалечени случаи ни връща на етап идентификация на модел. За да не се налага наново да се произграва цялата описана процедура, а и, за да се демонстрира модулът за автоматизирано прогнозиране, ще се използват възможностите на Expert Modeler (извежда автоматично най-доброто решение, като в модела се включват само статистически значимите променливи). За да използвате модула за автоматично прогнозиране, изпълнете командата:

Analyze Time Series Create models…



От падащия списък с методи изберете Expert Modeler.

Кликнете върху бутон Critera… Тъй като целта ви е да се намери най-добрият модел след всички възможни ARIMA модели, в т.ч. и сезонните, в таб Model активирайте ARIMA models only и Expert modeler considers seasonal models.



В таб Outliers изберете да се идентифицират автомативно отдалечените и екстремалните случаи. Относно различните видове отдалечени случаи и подходите за тяхното моделиране, вж. меню Help Topics (ключова дума outliers).

В следващите таблици са представени резултатите от ARIMA моделирането. Както е видно, активирането на опцията за автоматична детекция на отдалечени случаи и съответното им моделиране променя и структурата на основния модел (в сезонната част вместо процос на плъзгащи се средни се наблюдава авторегресионен процес.

Model Description

Model Type

Model ID Monthly sales of men's clothing (value) Model_1 ARIMA(0,0,0)(1,1,0)

Идентифицирани са шест адитивни отдалечени случая, моделирани по подходящия начин, поради което не се налага те да се изключват от изходния динамичен ред. Оценките на параметрите са статистически значими, което означава, че могат да останат в модела.



С оглед реализирането на етапа на диагностична проверка, следва да се съхранят нови променливи – едната с остатъците, а другата с изгладените стойности.

Анализът на корелограмите на остатъците показва, че моделът е коректно идентифициран. От емпиричните стойности на Бокс-Люнг статистиките може да се направи изводът, че грешките имат случаен характер и, че в модела не са пропуснати съществени компоненти.



Освен за липсата на серийна зависимост, грешките се подлагат и на проверка на нормалност на разпределението. След автоматичното справяне с отдалечените случаи чрез тяхното моделиране грешките вече следват нормалното разпределие.



Друго изискване е условието за хомоскедастичност на остатъците. За тази цел, след като предварително са създадени две нови променливи (едната със стандартизираните изгладени стойности, а другата със стандартизираните остатъци)2, трябва да се построи графика, на чиято абсциса се представят стандартизираните изгладени стойности, а по ординатата – стандартизираните остатъци.

Graphs Chart builder… От галерията с типове графики изберете Scatter/Dot (Simple scatter). За да построите графиката, маркирайте, задръжте и влачете стандартизираните променливи до желаното място (абсцисата и ординаната).

2 За да построите тази графика, първо трябва да са съхранени две нови променливи – изгладе-ните чрез най-добрия ARIMA модел стойности и остатъците за този модел. След това трябва да се създадат още две нови променливи – стандартизираните оценки на изгладените стойности и остатъците (Analyze Descriptive statistics Descriptives…, активирайте опция Save standardized values as variables).



От следващата фигура се вижда, че условието на липсата на хетескедастичност е изпълнено. Грешките на модела имат сравнително константна вариация.

За да валидирате идентифицирания модел, отново произграйте неговата параметризация, но този път изберете вместо изглаждане да се направи прогноза до декември 1998 г.



За да изчислите МАРЕ за валидиращия период, променете филтъра (активният период да е от януари 1998 г. до декември 1998 г., вместо от януари 1989 г. до декември 1997 г.). В следващата таблица са представени оценките на МАРЕ за валидиращия период и при двата ендогенни ARIMA модела (с и без справяне с отдалечените случаи). Както се вижда, моделът, при който са идентифицирани и моделирани отдалечените случаи, макар и разлика под 1%, дава по-високо равнище на грешка, въпреки че при оценъчния период разликата в стойностите на МАРЕ са значително по-големи и в полза на модела с отдалечени случаи (14,185% и 23,228%, съответно за ARIMA с и без отдалечени случаи).

Statistics3

MAPEarima_outliers* MAPEarima

N Valid 12 12

Missing 0 0

Mean 11,9740 12,7164 * модел с отдалечени случаи 2. Екзогенно ARIMA моделиране. ARIMAX

3 За да изчислите МАРЕ с SPSS, в Transform Compute variable… въведете следната форму-ла: abs((фактическа стойност на продажбите – изгладена стойност на продажбите) / фактическа стойност на продажбите)*100. След това изберете Analyze Descriptive statistics Frequencies… от Statistics изберете Mean, за да се изчисли средния абсолютен процент на грешка. Преди изпълнението на последната команда в отделните клетки на новосъздадената променлива се съдържат стойностите на абсолютния процент на грешка.



Освен за ендогенно моделиране, ARIMA може да се използва и за каузално моделиране чрез включване на екзогенни променливи. Използването на независими променливи при Бокс-Дженкинс моделирането значително уложнява анализа, тъй като налага установяването на три допълнителни параметъра за всяка от трансферните функции TF(r,s,b)4, чрез които се описва връзката между зависимата и независимата променлива. Процедурата се свежда до идентифицирането на отделен ARIMA модел за всяка от независимите променливи, неговото прилагане за зависимата променлива и изучаване структурата на кроскорелационната функция между остатъците на двойките модели. В случая ще бъде демонстрирана възможността на Expert Modeler в SPSS за автоматично идентифициране на най-добрия ARIMAХ модел. За да оцените параметрите на ARIMAХ модела, изпълнете следната команда:

Analyze Time Series Create models…

В диалогов прозорец Time Series Modeler като зависима променлива задайте продажбите на мъжко облекло, а като независими – броя на изпратените по пощата каталози, броя страници в един каталог, разходите за печатна реклама, броя на отворените телефонни линии за поръчка и броя на търговските представители. От падащия списък с методи изберете Expert Modeler, с който процесът на идентификация и оценка на най-добър модел ще се реализира автоматично. Изрично в меню Criteria посочете да се тестват само ARIMA, в т.ч. и сезонните им варианти.

4 r – ред на знаменателя; s – ред на числителя; b – лагов ефект.



Тъй като стандартно не е зададено да се извежда таблица с оценките на параметрите на модела и тяхната статистическа значимост, изрично активирайте тази опция в таб Statistics. За да извършите диагностична проверка, съхранете остатъците и изгладените стойности на модела.

Най-добрият модел, идентифициран от Expert Modeler, е ARIMAХ (0,0,0)(0,1,1)12 с две статистически значими независими променливи (брой на изпратените каталози по пощата и брой на отворените линии за поръчка). Всички останали предиктори са изключени от анализа поради статистическа незначимост.

Въз основа на таблицата с оценките на параметрите на модела могат да се направят следните по-значими коментари:



Параметърът на плъзгащите се средни отговаря на изискването за преобратимост (принадлежи в интервала от -1 до +1) и е статистически значим.

Броят на изпратените по пощата каталози оказва директен положителен ефект върху продажбите на мъжко облекло през текущия период (s=0, b=0).

Броят на отворените телефонни линии за поръчка също оказват директен положителен ефект върху продажбите на мъжко облекло през текущия период (s=0, b=0). Продажбите на мъжко облекло нарастват средно на месец с 329,53 долара при добавянето на всяка нова открита телефонна линия за поръчка.

С оглед диагностика на модела, следва да се изучи структура на грешката и да се прецени дали има случаен характер. Както е известно, за тази цел се използват корелограмите.

От корелограмите се вижда, че грешките имат случаен характер. Не се наблюдават пикове на периодичните лагове, което дава основание да се твърди, че моделът успешно улавя сезонната структура на изходните данни. Забелязват се два пика (на 35-ти и на 39-ти лаг), но те имат по-скоро случаен характер (p-value на статистиката на Бокс-Люнг и при двата лага е по-висока от критичната стойност 0,05!). Още повече, че няма икономическо основание да се очаква в нормалната фирмена практика 35- или 39-месечна периодичност.



След проверката за случаен характер грешките се проверят и за нормалност на разпределението. За тази цел може да се използва Р-Р плота. За да построите Р-Р плот, изпълнете следната команда:

Analyze Descriptive statistics P-P plots…

От вероятностната диаграма се вижда, че условието за нормалност на разпределението на грешките е нарушено, тъй като не се следва плътно 45°-вата линия.

До аналогични изводи може да се достигне и посредством процедурата по проверка на хипотези.

Analyze Descriptive statistics Explore…



За да получите емпиричните стойности на тестовете за нормалност и тяхната статистическа значимост, задължително в меню Plots активирайте опция Normality plots with tests.

От следващата таблица се потвърждава по-рано изказаното становище, че условието за нормалност на грешките е нарушено и евентуална причина за това е наличието на отдалечени случаи.

Tests of Normality

Kolmogorov-Smirnova Shapiro-Wilk

Statistic df Sig. Statistic df Sig.

Noise residual from men-Model_1 ,155 96 ,000 ,881 96 ,000

a. Lilliefors Significance Correction



Тъй като SPSS разполага с вграден модул за автоматичното разпознаване на различен тип отдалечени случаи и тяхното моделиране, анализът ще бъде повторен, като този път се активира опцията Detect outliers automatically.

В резултат на разкриването и моделирането на отдалечените случаи Expert modeler идентифицира нов ARIMA модел, като вместо процес на плъзгащи се средни се наблюдава авторегресионен процес.

Справянето с отдалечените случаи рефлектира и върху величината на оценките на параметрите. Отново статистически значими ефекти върху продажбите оказват променливите брой изпратени каталози и брой отворени линии за поръчка, но по-малки по магнитуд в сравнение с тези при модела без изолирани и моделирани отдалечени случаи.



Подобно на направения преди малко анализ, и тук следва да се изследва структурата на грешката. Моделът успешно е уловил сезонния характер на данните. На 20-ти лаг обаче се наблюдава авкорелация, която излиза извън доверителния интервал, но тя може да се приеме за неоснователна и случайна, тъй като емпиричната стойност на Бокс-Люнг статистиката е по-ниска от критичната (p-value=0,613>0.05!).



От следващата графика е видно, че условието за нормалност на разпределението на грешкиет също е изпълнено.

Направената констатация може да се потвърди и от статистическите тестове на Колмогоров-Смирнов и Шапиро-Уилк.

Tests of Normality



Noise residual from men-Model_1 ,072 96 ,200* ,979 96 ,116


*. This is a lower bound of the true significance. Третото условие е да е налице константна вариация на грешката.



Както се вижда, условието за хомоскедастичност е изпълнено. След пълната диагностика на модела следва да зададете в основния диалогов прозорец Times Series Modeler (таб Option) дължината на желания валидиращ период (в случая януари-декември 1998 г.). В следващата таблица са докладвани грешките за двата ARIMAX модела (с и без отдалечени случаи).

Statistics

MAPEarimax_outliers* MAPEarimax

N Valid 12 12

Missing 0 0

Mean 8,9286 6,7367 * модел с отдалечени случаи Това, което прави впечатление, е, че:

Идентифицирането и моделирането на отдалечените случаи подобрява прогнозните способности на модела. Грешката с около 2% по-ниска.

Включването на различни метрични променливи в модела подобрява значително неговите прогнозни способности. Грешката е около 2 пъти по-ниска.

3. Моделиране на специални събития с ARIMA

Друга особеност на ARIMA моделите е възможността за моделиране на специални събития (еvents) и извършване на анализ на интервенцията. Специалните съби-тия представляват внезапна промяна в равнището на динамичния ред, за коя-то се очаква да се повтори в определен момент. Моделирането на специални събития се налага, когато не е възможно със сезонния компонент да се отчетат периодичните действия на органазацията (например промоционални актив-ности), тъй като не попадат в един и същ период (седмица) всяка година. За да отчетете ефекта на промоциите върху продажбите на мъжко облекло, следва да изпълните следната команда:

Analyze Time Series Create models… В диалогов прозорец Time Series Modeler като зависима променлива задайте продажбите на мъжко облекло, а като независима – променливата промоции, приемаща код 1 за периодите на промоции и код 0 в периодите без промоционална активност. От падащия списък с методи изберете Expert Modeler, с който процесът на идентификация и оценка на най-добър модел, отчитащ специалните събития, ще се реализира автоматично. Изрично в меню Criteria посочете да се тестват единствено ARIMA модели, в т.ч. и сезонните им варианти. За съжаление в SPSS 16 единствената възможност за моделирането на специални събития е чрез ARIMA моделите и то само чрез Expert Modeler. Тъй като в списъка с независими променливи могат да се посочат променливи с различно равнище на скалиране, ако случайно има променлива специално



събития (какъвто е случаят с настоящия пример) задължително трябва да я обозначите (поставете отметка пред променливата).



Останалите настройки са същите както при досега разглежданите модели5. Не забравяйте да укажете да се съхрани нова променлива с остатъците, въз основа на които ще се реализира диагностичната проверка на модела. Най-добрият ARIMA модел е от типа ARIMA(0,0,0)(0,1,1)12, характеризиращ се сезонна нестационарност и наличие на сезонен процес на плъзгащи се средни.

Model Description

Model Type


Както е видно, всички параметри са статистически значими, в т.ч. и сезонната theta, която отговаря и на изискването на преобратимост. Статистически значими ефекти върху продажбите на мъжко облекло оказват и промоционалните активности, предприети от фирмата. През периодите на промоции продажбите на мъжко облекло са средно с около 10547 долара повече в сравнение с месеците без промоциите.

По подобен начин на досега разгледаните модела на анализ се подлагат и корелограмите на остатъците.

5 При наличие на технически проблем с изпълнението на командата, след като сте направили всички необходими настройки в различните табове (НО БЕЗ ДА ОБОЗНАЧАВАТЕ С ОТМЕТКА ПРОМЕНЛИВАТА СПЕЦИАЛНО СЪБИТИЕ) изберете бутона Paste. В заредения синтаксис файл, непосредствено след променливата специално събитие (или променливите специални събития), символа Е в скоби. /MODEL DEPENDENT=men INDEPENDENT=promotions [E]



От корелограмите и статистиките на Бокс-Люнг се вижда, че грешките имат случаен характер и че не са пропуснати съществени компоненти на реда.



Наличието на отдалечени случаи обаче по всяка вероятност е причината за нарушеността на условието остатъците да следват нормалното разпределиние.

Tests of Normality



Noise residual from men-Model_1 ,110 96 ,006 ,937 96 ,000

a. Lilliefors Significance Correction Тъй като софтуерът има и вграден модул за автоматично справяне с отдалечени и екстремални случаи, ще бъде използвана тази негова функция и при отчитането на ефекта на промоциите върху продабжите на мъжко облекло. Моделирането на отдалечените случаи видоизменя структурата на модела и вместо процес на плъзгащи средни се наблюдава авторегресионен процес.



Model Description

Model Type


Идентифицирани и успешно са моделирани три адитивни отдалечени случая, в резултат на което се получава и малко по-слаб ефект на промоциите (в сравнение със ситуацията без изолирането и моделирането на отдалечените случаи). В периодите на промоции продажбите са средно със 10077 долара повече в сравнение с периодите без промоции. Параметрите на модела са статистически значими, като авторегресионният параметър отговаря и на изискването за стационарност.

От корелаграмите на остатъците се вижда, че моделът адекватно е моделирал сезонната структура на данните. При лаг 42 обаче се наблюдава коефициент на автокорелация, който излиза извън доверителните интервали. Няма причина обаче този пик да се приеме за основателен, тъй като Бокс-Люнг тестът показва статистическа незначимост и случаен характер на грешката при този лаг.



Подобно на досега разгледаните примери, и тук решаването на проблема с отдалечените случаи води до установяването на модел, чиито остатъци отговарят на условието за нормалност на разпределението и хомоскедастичност.

Tests of Normality



Noise residual from men-Model_1 ,055 96 ,200* ,991 96 ,798


*. This is a lower bound of the true significance.



Накрая, за да валидирате модела, като си служите с данни, които не са използвани при идентифицирането и оценката на параметрите на модела, задайте да се разработи прогноза до декември 1998 г. и съхраненете изгладените стойности. След това променете филтъра, като за активен използвайте валидиращия период. Изчислете стойността на МАРЕ и за двата ARIMA модела, с и без отдалечени случаи, по познатия ви начин.

Statistics

MAPEevent_outlier* MAPEevent

N Valid 12 12

Missing 0 0

Mean 10,7143 10,3308 * модел с отдалечени случаи Основните изводи, които могат да се направят, се свеждат до следните:

Идентифицирането и моделирането на отдалечените случаи подобрява прогнозните способности на модела. Грешката с около 0,4% по-ниска.

Включването на променлива, която да отчита ефекта на промоциите, подобрява прогнозните способности на модела в сравнение с ендогенния ARIMA, при който се отчитат единствено данните за продажбите.

Най-добрият кандидат за прогнозиране на бъдещите продажби на мъжко облекло сред експериментирания клас ARIMA модели е сезонен ARIMAХ модел, при който автоматично са идентифицирани и моделирани отдалечените случаи. Последният осигурява МАРЕ в размер на 6,7367 %!

Задачи за самостоятелна работа:

• Да идентифицирате, параметризирате и диагностицирате екзогенен ARIMA модел, като използвате наличната информация за периодите със специално събитие (в случая организирана ценова промоция) и предполагаемите детерминанти, обуславящи динамиката на мъжко облекло.


arima mf spss

Documents