ai&bigdata lab 2016. Ярослав Притула: data are never good but they are good...

Post on 17-Jan-2017

163 Views

Category:

Technology

3 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Data are never good but they are good enough:

або пробуємо прогнозувати непрогнозованеЯрослав Притула, керівник CS@UCU

Про що будем говорити Економічне/бізнес прогнозування та його різновиди Проект побудови довготермінових демографічних та

економічних прогнозів в США: Задача Рішення

Проект надбудови над існуючим проектом: Задача Рішення

Висновки

Прогнозиста образити може кожен

Рим, 357 д.н.е. : Імператор Константіус заборонив консультуватись з віщунами, математиками та прогнозистами….. щоб цікавість передбачень замовкла назавжди.

В наші дні роль Константіуса виконують юристи, є кейси судових розглядів (і засуджень!) через погані передбаченя погоди, землетрусів, ураганів, паводків, засух, снігопадів.

Економічні прогнози Тенденція до усереднення The Economist: I never forecast a recession. If I’m right, no-one

will thank me; if I’m wrong, I’ll be fired

Прогнозиста образити може кожен

Короткострокові v.s. довгострокові прогнози

Прогнозиста образити може кожен

Гібрид І типу

Гібрид ІІ типу

Рівень теоретичної обґрунтованості

Рівень емпіричної обґрунтованості

DSGE

IDSGE

VAR

Класифікація Пагана макроекономічних моделей за ступенем теоретичної та емпіричної обґрунтованості. Джерело: Pagan, A. (2003). Report on Modelling and Forecasting at the Bank of England. Bank of England Quarterly Bulletin (Spring), 1-29.

Різниця між Projection та Forecasting Projections – це прогноз зроблений на основі

заявленої моделі та заявлених припущень. Він вірний настільки, наскільки вірна модель прогнозування та зроблені припущення.

Forecasting не вимагає оприлюднення детальної моделі, на основі якої робиться прогноз.

Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030 Коротко про економічну географію США

Країна США – одна 9 Multi-State Regions, 51 States (including DC), 179 Multi-County U.S. Economic Areas, 361 Multi-County Metropolitan Statistical Areas 29 Multi-County Metropolitan Divisions, and 3099 (or 3142) Counties or County Equivalents. Разом 3729 географічних одиниць.

Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030 Задача проекту

Побудувати прогнози для 3729 географічних одиниць На 2005-2030 роки По 54 економічній та 51 демографічній змінній

Іншими словами На основі понад 21 млн одиниць інформації Видати близько 2.5 млн одиниць інформації З яких понад 1 млн - прогнози

Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030 Кому це потрібно

Державні контрактори Рітейл Будівельні компанії Бібліотеки/університети Власне використання для побудови інших прогнозів

Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030 Коротко про статистичну інформацію в США:

problems & opportunities Розподіл сфер та відповідальностей – Census, BEA,

Department of Justice, OFHEO, Office of the President…. Різні терміни виходу нових даних Різні географічні поділи у різних агентствах

Доступні стандартизовані дані з 1969 року, але Різні географічні поділи і класифікації Різні означення галузей: SIC vs NAICS Згрупована (схована) частина даних, через законодавство

Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030 Етапи прогнозу: макрорівень

Макро прогноз базового року, як правило базується на даних від Chief Economic Advisor to the President

Будуємо економічний прогноз до 2030 року виходячи з припущень (прогнозів) зростання продуктивності –

Productivity isn't everything, but in the long run it is almost everything @Paul Krugman

Прогноз демографічний залежить від коефіцієнтів народжуваності, смертності та чистої імміграції, що в свою чергу залежить від економічних чинників, на які впливає продуктивність і демографія.

Отже маємо систему одночасних рівнянь, яка дає нам макропрогноз, до якого можна буде підтасовувати все інше.

Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030 Етапи прогнозу: мікрорівень – ми любимо проблеми!

Згідно законодавства США, не можна розголошувати дані по тих галузях, де є менше рівно трьох компаній – Gap-filling algorithm

Gap-filling algorithm - the iterative proportion fitting (IPF) algorithm (a.k.a. RAS algorithm), застосовується для контролю сумування даних, як по галузі, так і по географічній одиниці. Робимо це на рівні штатів, потім на рівні county.

Деталі тут: M.H. Schneider and S.A. Zenios (1990), “A Comparative Study of Algorithms for Matrix Balancing,” Operations Research, 38: 439-455.

Проблеми/покращення: IPF\RAS алгоритм передбачає внесення початкових даних, що суттєво впливає на час та точність кінцевого результату. Експериментування з різними початковими даними!

Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030 Етапи прогнозу: мікрорівень – ми любимо проблеми!

Зміни з галузевій класифікації, уніфікація географічних одиниць на рівні county. Переводимо всі грошові дані в сталі долари

Прогнозуємо основні економічні змінні (дохід та кількість працюючих) виходячи з (і) темпів зростання County, (іі) темпів зростання Economic Area, (iii) національного зростання. Прогнозуємо та балансуємо дохід та кількість працюючих по галузях.

Демографія залежить від економіки, народжуваності/ смертності та внутрішньої міграції. Частина counties мають специфічний прогноз (військові бази, великі тюрми, тощо)

Далі округлюються дані по людях – Rounding algorithm. Агрегуємо до бажаного рівня.

Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030 Який output очікує клієнт (+/- 2005 рік)?

Дані на сайті? Диск з даними? Дані надіслані емейлом? Дані надіслані факсом? Дані надіслані друкованим листом? Надрукована книжка з прогнозами? Графіки та візуалізації даних?

Використання базових прогнозів для творення більш специфічних продуктів Construction Economics projections:

Number of new housing units authorized by permits Number of new single-family units Average cost of construction of new housing unit

Median Prices of Houses projections Projections of Building Permit Activity by Category of

Construction Специфічні прогнози для індивідуального замовника

Median Prices of Houses projections

Початок проекту – 2004 рік, початок housing boom. Пошук даних Чи добрі дані? Case–Shiller Home Price Indices для порівняння Пошук замовників

Median Prices of Houses projections

Median Prices of Houses projections

Панельна регресія з фіксованими ефектами

HPRICEP = Ci

+ 3.69 YHH (high skew) + 1.55 YHH (medium skew) + 1.40 YHH (low skew)

- 3.42 MGRATE * valueSF/UnitsSF - 0.24 surplus 5 year

+ 270 899.30 Pop/Density, R2 = .95, DW =.60YHH – income per householdMGRATE – monthly mortgage rate per single family unitSurplus 5 year - surplus of new houses cumulated over the past five years (comes as a difference between actual and estimates number of new housing units available)Pop/Density - indicator of limitations of building land availability.

Як вимірювати якість прогнозу при мільйоні зроблених прогнозів?

Якщо вибрана методика залежить від побажань/преференцій споживача, то точність прогнозу не варто вимірювати звичними методами.

Окрім того, як виміряти якість прогнозу на 2020 чи 2030 рік?

Пропозиція 1: якщо клієнт задоволений і прийшов знову (за наявності конкурентів), то якість є задовільною.

Пропозиція 2: якщо ви можете переконати муніципального регулятора зменшити ваш податок виходячи з ваших оцінок (прогнозів), то якість є задовільною.

Висновки

Data are never good but they are good enough Бажаю всім працювати в information rich environment Data Science є (чи має бути) настільки Science в

прикладних дослідженнях, наскільки замовники цього бажають

Якщо ви працюєте з економічними даними, то важко переносити методику прогнозу з однієї країни на іншу, оскільки інститути, соціум та культура сильно впливають як на економіку, так і на самі дані. Є приємні виключення.

Питання? Відповіді!

11 червня 2016 – День відкритих дверей, Львів, вул. Козельницька 2а, 13.00.

csds.ucu.edu.ua, cs.ucu.edu.ua

top related