ai&bigdata lab 2016. Ярослав Притула: data are never good but they are good...

21
Data are never good but they are good enough: або пробуємо прогнозувати непрогнозоване Ярослав Притула, керівник CS@UCU

Upload: geekslab

Post on 17-Jan-2017

163 views

Category:

Technology


3 download

TRANSCRIPT

Page 1: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое

Data are never good but they are good enough:

або пробуємо прогнозувати непрогнозованеЯрослав Притула, керівник CS@UCU

Page 2: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое

Про що будем говорити Економічне/бізнес прогнозування та його різновиди Проект побудови довготермінових демографічних та

економічних прогнозів в США: Задача Рішення

Проект надбудови над існуючим проектом: Задача Рішення

Висновки

Page 3: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое

Прогнозиста образити може кожен

Рим, 357 д.н.е. : Імператор Константіус заборонив консультуватись з віщунами, математиками та прогнозистами….. щоб цікавість передбачень замовкла назавжди.

В наші дні роль Константіуса виконують юристи, є кейси судових розглядів (і засуджень!) через погані передбаченя погоди, землетрусів, ураганів, паводків, засух, снігопадів.

Економічні прогнози Тенденція до усереднення The Economist: I never forecast a recession. If I’m right, no-one

will thank me; if I’m wrong, I’ll be fired

Page 4: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое

Прогнозиста образити може кожен

Короткострокові v.s. довгострокові прогнози

Page 5: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое

Прогнозиста образити може кожен

Гібрид І типу

Гібрид ІІ типу

Рівень теоретичної обґрунтованості

Рівень емпіричної обґрунтованості

DSGE

IDSGE

VAR

Класифікація Пагана макроекономічних моделей за ступенем теоретичної та емпіричної обґрунтованості. Джерело: Pagan, A. (2003). Report on Modelling and Forecasting at the Bank of England. Bank of England Quarterly Bulletin (Spring), 1-29.

Page 6: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое

Різниця між Projection та Forecasting Projections – це прогноз зроблений на основі

заявленої моделі та заявлених припущень. Він вірний настільки, наскільки вірна модель прогнозування та зроблені припущення.

Forecasting не вимагає оприлюднення детальної моделі, на основі якої робиться прогноз.

Page 7: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое

Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030 Коротко про економічну географію США

Країна США – одна 9 Multi-State Regions, 51 States (including DC), 179 Multi-County U.S. Economic Areas, 361 Multi-County Metropolitan Statistical Areas 29 Multi-County Metropolitan Divisions, and 3099 (or 3142) Counties or County Equivalents. Разом 3729 географічних одиниць.

Page 8: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое

Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030 Задача проекту

Побудувати прогнози для 3729 географічних одиниць На 2005-2030 роки По 54 економічній та 51 демографічній змінній

Іншими словами На основі понад 21 млн одиниць інформації Видати близько 2.5 млн одиниць інформації З яких понад 1 млн - прогнози

Page 9: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое

Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030 Кому це потрібно

Державні контрактори Рітейл Будівельні компанії Бібліотеки/університети Власне використання для побудови інших прогнозів

Page 10: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое

Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030 Коротко про статистичну інформацію в США:

problems & opportunities Розподіл сфер та відповідальностей – Census, BEA,

Department of Justice, OFHEO, Office of the President…. Різні терміни виходу нових даних Різні географічні поділи у різних агентствах

Доступні стандартизовані дані з 1969 року, але Різні географічні поділи і класифікації Різні означення галузей: SIC vs NAICS Згрупована (схована) частина даних, через законодавство

Page 11: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое

Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030 Етапи прогнозу: макрорівень

Макро прогноз базового року, як правило базується на даних від Chief Economic Advisor to the President

Будуємо економічний прогноз до 2030 року виходячи з припущень (прогнозів) зростання продуктивності –

Productivity isn't everything, but in the long run it is almost everything @Paul Krugman

Прогноз демографічний залежить від коефіцієнтів народжуваності, смертності та чистої імміграції, що в свою чергу залежить від економічних чинників, на які впливає продуктивність і демографія.

Отже маємо систему одночасних рівнянь, яка дає нам макропрогноз, до якого можна буде підтасовувати все інше.

Page 12: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое

Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030 Етапи прогнозу: мікрорівень – ми любимо проблеми!

Згідно законодавства США, не можна розголошувати дані по тих галузях, де є менше рівно трьох компаній – Gap-filling algorithm

Gap-filling algorithm - the iterative proportion fitting (IPF) algorithm (a.k.a. RAS algorithm), застосовується для контролю сумування даних, як по галузі, так і по географічній одиниці. Робимо це на рівні штатів, потім на рівні county.

Деталі тут: M.H. Schneider and S.A. Zenios (1990), “A Comparative Study of Algorithms for Matrix Balancing,” Operations Research, 38: 439-455.

Проблеми/покращення: IPF\RAS алгоритм передбачає внесення початкових даних, що суттєво впливає на час та точність кінцевого результату. Експериментування з різними початковими даними!

Page 13: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое

Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030 Етапи прогнозу: мікрорівень – ми любимо проблеми!

Зміни з галузевій класифікації, уніфікація географічних одиниць на рівні county. Переводимо всі грошові дані в сталі долари

Прогнозуємо основні економічні змінні (дохід та кількість працюючих) виходячи з (і) темпів зростання County, (іі) темпів зростання Economic Area, (iii) національного зростання. Прогнозуємо та балансуємо дохід та кількість працюючих по галузях.

Демографія залежить від економіки, народжуваності/ смертності та внутрішньої міграції. Частина counties мають специфічний прогноз (військові бази, великі тюрми, тощо)

Далі округлюються дані по людях – Rounding algorithm. Агрегуємо до бажаного рівня.

Page 14: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое

Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030 Який output очікує клієнт (+/- 2005 рік)?

Дані на сайті? Диск з даними? Дані надіслані емейлом? Дані надіслані факсом? Дані надіслані друкованим листом? Надрукована книжка з прогнозами? Графіки та візуалізації даних?

Page 15: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое

Використання базових прогнозів для творення більш специфічних продуктів Construction Economics projections:

Number of new housing units authorized by permits Number of new single-family units Average cost of construction of new housing unit

Median Prices of Houses projections Projections of Building Permit Activity by Category of

Construction Специфічні прогнози для індивідуального замовника

Page 16: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое

Median Prices of Houses projections

Початок проекту – 2004 рік, початок housing boom. Пошук даних Чи добрі дані? Case–Shiller Home Price Indices для порівняння Пошук замовників

Page 17: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое

Median Prices of Houses projections

Page 18: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое

Median Prices of Houses projections

Панельна регресія з фіксованими ефектами

HPRICEP = Ci

+ 3.69 YHH (high skew) + 1.55 YHH (medium skew) + 1.40 YHH (low skew)

- 3.42 MGRATE * valueSF/UnitsSF - 0.24 surplus 5 year

+ 270 899.30 Pop/Density, R2 = .95, DW =.60YHH – income per householdMGRATE – monthly mortgage rate per single family unitSurplus 5 year - surplus of new houses cumulated over the past five years (comes as a difference between actual and estimates number of new housing units available)Pop/Density - indicator of limitations of building land availability.

Page 19: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое

Як вимірювати якість прогнозу при мільйоні зроблених прогнозів?

Якщо вибрана методика залежить від побажань/преференцій споживача, то точність прогнозу не варто вимірювати звичними методами.

Окрім того, як виміряти якість прогнозу на 2020 чи 2030 рік?

Пропозиція 1: якщо клієнт задоволений і прийшов знову (за наявності конкурентів), то якість є задовільною.

Пропозиція 2: якщо ви можете переконати муніципального регулятора зменшити ваш податок виходячи з ваших оцінок (прогнозів), то якість є задовільною.

Page 20: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое

Висновки

Data are never good but they are good enough Бажаю всім працювати в information rich environment Data Science є (чи має бути) настільки Science в

прикладних дослідженнях, наскільки замовники цього бажають

Якщо ви працюєте з економічними даними, то важко переносити методику прогнозу з однієї країни на іншу, оскільки інститути, соціум та культура сильно впливають як на економіку, так і на самі дані. Є приємні виключення.

Page 21: AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое

Питання? Відповіді!

11 червня 2016 – День відкритих дверей, Львів, вул. Козельницька 2а, 13.00.

csds.ucu.edu.ua, cs.ucu.edu.ua