Открытыеданныемуниципальныхобразований...

38
Обзор данных Вызовы данных Открытые данные муниципальных образований России Дмитрий Скугаревский Институт проблем проблем правоприменения, Европейский университет в СПб & Institut de hautes ´ etudes internationales et du d´ eveloppement International Open Data Day 4–5 марта 2017 Москва, Россия 1 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Upload: others

Post on 20-Aug-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

Открытые данные муниципальных образованийРоссии

Дмитрий СкугаревскийИнститут проблем проблем правоприменения,

Европейский университет в СПб &Institut de hautes etudes internationales et du developpement

International Open Data Day4–5 марта 2017Москва, Россия

1 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 2: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

Мотивация

В России свыше 2000 муниципальных районов (и городскихокругов)Прежде их стат. индикаторы были доступны в машиночитаемомвиде только через веб-интерфейс Базы данных показателеймуниципальных образований1 РосстатаСегодня я представляю эти данные в формате плоскогоRData/CSV файла2

дружественен: структура данных должна быть понятна человеку,знающему только Excelненавязчив: почти все данные дампа собраны в одном плоскомфайлепонятен: все коды полей сопровождаются текстовым описанием

1http://www.gks.ru/dbscripts/munst/munst.htm2Благодарю Росстат за предоставление данных, Ивана Бегтина за их

получение, коллег из NextGIS за первичный экспорт дампа.2 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 3: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

Мотивация

В России свыше 2000 муниципальных районов (и городскихокругов)Прежде их стат. индикаторы были доступны в машиночитаемомвиде только через веб-интерфейс Базы данных показателеймуниципальных образований1 РосстатаСегодня я представляю эти данные в формате плоскогоRData/CSV файла2

дружественен: структура данных должна быть понятна человеку,знающему только Excelненавязчив: почти все данные дампа собраны в одном плоскомфайлепонятен: все коды полей сопровождаются текстовым описанием

1http://www.gks.ru/dbscripts/munst/munst.htm2Благодарю Росстат за предоставление данных, Ивана Бегтина за их

получение, коллег из NextGIS за первичный экспорт дампа.2 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 4: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

Мотивация

В России свыше 2000 муниципальных районов (и городскихокругов)Прежде их стат. индикаторы были доступны в машиночитаемомвиде только через веб-интерфейс Базы данных показателеймуниципальных образований1 РосстатаСегодня я представляю эти данные в формате плоскогоRData/CSV файла2

дружественен: структура данных должна быть понятна человеку,знающему только Excelненавязчив: почти все данные дампа собраны в одном плоскомфайлепонятен: все коды полей сопровождаются текстовым описанием

1http://www.gks.ru/dbscripts/munst/munst.htm2Благодарю Росстат за предоставление данных, Ивана Бегтина за их

получение, коллег из NextGIS за первичный экспорт дампа.2 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 5: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

Мотивация

В России свыше 2000 муниципальных районов (и городскихокругов)Прежде их стат. индикаторы были доступны в машиночитаемомвиде только через веб-интерфейс Базы данных показателеймуниципальных образований1 РосстатаСегодня я представляю эти данные в формате плоскогоRData/CSV файла2

дружественен: структура данных должна быть понятна человеку,знающему только Excelненавязчив: почти все данные дампа собраны в одном плоскомфайлепонятен: все коды полей сопровождаются текстовым описанием

1http://www.gks.ru/dbscripts/munst/munst.htm2Благодарю Росстат за предоставление данных, Ивана Бегтина за их

получение, коллег из NextGIS за первичный экспорт дампа.2 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 6: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

Мотивация

В России свыше 2000 муниципальных районов (и городскихокругов)Прежде их стат. индикаторы были доступны в машиночитаемомвиде только через веб-интерфейс Базы данных показателеймуниципальных образований1 РосстатаСегодня я представляю эти данные в формате плоскогоRData/CSV файла2

дружественен: структура данных должна быть понятна человеку,знающему только Excelненавязчив: почти все данные дампа собраны в одном плоскомфайлепонятен: все коды полей сопровождаются текстовым описанием

1http://www.gks.ru/dbscripts/munst/munst.htm2Благодарю Росстат за предоставление данных, Ивана Бегтина за их

получение, коллег из NextGIS за первичный экспорт дампа.2 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 7: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

Мотивация

В России свыше 2000 муниципальных районов (и городскихокругов)Прежде их стат. индикаторы были доступны в машиночитаемомвиде только через веб-интерфейс Базы данных показателеймуниципальных образований1 РосстатаСегодня я представляю эти данные в формате плоскогоRData/CSV файла2

дружественен: структура данных должна быть понятна человеку,знающему только Excelненавязчив: почти все данные дампа собраны в одном плоскомфайлепонятен: все коды полей сопровождаются текстовым описанием

1http://www.gks.ru/dbscripts/munst/munst.htm2Благодарю Росстат за предоставление данных, Ивана Бегтина за их

получение, коллег из NextGIS за первичный экспорт дампа.2 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 8: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

Содержание

1 Обзор данныхВ чем их польза?Формат данных

2 Вызовы данныхПроблемы с даннымиРабота завтра

Литература

3 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 9: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

В чем их польза?Формат данных

Outline

1 Обзор данныхВ чем их польза?Формат данных

2 Вызовы данныхПроблемы с даннымиРабота завтра

Литература

4 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 10: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Рис. 1: О России принято думать в разрезе регионов

Прим: Чукотка обрезана по антимеридиану (https://bl.ocks.org/mbostock/3788999)

Page 11: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Рис. 2: Но множество информации скрывается на районном уровне

Прим: Чукотка обрезана по антимеридиану (https://bl.ocks.org/mbostock/3788999)

Page 12: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

В чем их польза?Формат данных

Скрытая на районном уровне информация

Что происходит с бюджетами районов и муниципальнымуправлением?Исследования бедности: бедные становятся беднее, абогатые — богаче? Конвергенция доходов на районномуровне?«4 России» Zubarevich (2011, 2016) — от классификациистраны по регионам к классификации по районамНеакадемическая польза: районные данные позволятлучше таргетировать ваши продукты... и многое другое

7 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 13: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

В чем их польза?Формат данных

Скрытая на районном уровне информация

Что происходит с бюджетами районов и муниципальнымуправлением?Исследования бедности: бедные становятся беднее, абогатые — богаче? Конвергенция доходов на районномуровне?«4 России» Zubarevich (2011, 2016) — от классификациистраны по регионам к классификации по районамНеакадемическая польза: районные данные позволятлучше таргетировать ваши продукты... и многое другое

7 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 14: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

В чем их польза?Формат данных

Скрытая на районном уровне информация

Что происходит с бюджетами районов и муниципальнымуправлением?Исследования бедности: бедные становятся беднее, абогатые — богаче? Конвергенция доходов на районномуровне?«4 России» Zubarevich (2011, 2016) — от классификациистраны по регионам к классификации по районамНеакадемическая польза: районные данные позволятлучше таргетировать ваши продукты... и многое другое

7 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 15: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

В чем их польза?Формат данных

Скрытая на районном уровне информация

Что происходит с бюджетами районов и муниципальнымуправлением?Исследования бедности: бедные становятся беднее, абогатые — богаче? Конвергенция доходов на районномуровне?«4 России» Zubarevich (2011, 2016) — от классификациистраны по регионам к классификации по районамНеакадемическая польза: районные данные позволятлучше таргетировать ваши продукты... и многое другое

7 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 16: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

В чем их польза?Формат данных

Скрытая на районном уровне информация

Что происходит с бюджетами районов и муниципальнымуправлением?Исследования бедности: бедные становятся беднее, абогатые — богаче? Конвергенция доходов на районномуровне?«4 России» Zubarevich (2011, 2016) — от классификациистраны по регионам к классификации по районамНеакадемическая польза: районные данные позволятлучше таргетировать ваши продукты... и многое другое

7 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 17: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

В чем их польза?Формат данных

Outline

1 Обзор данныхВ чем их польза?Формат данных

2 Вызовы данныхПроблемы с даннымиРабота завтра

Литература

8 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 18: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Базовая операция в R data.tablemunr01_flat[variable_id == "8112022" & rosstat_region == "01" & oktmo =="1626000"][1:3]variable_id

variable_id_desc

rosstat_region

munr munr_desc tippos tippos_desc

oktmo god

8112022 Числовыбывших

01 5 Муниципальныерайоны Алтайскогокрая

20 Муниципальныйрайон

1626000 2011

8112022 Числовыбывших

01 5 Муниципальныерайоны Алтайскогокрая

20 Муниципальныйрайон

1626000 2012

8112022 Числовыбывших

01 5 Муниципальныерайоны Алтайскогокрая

20 Муниципальныйрайон

1626000 2013

8112022 Числовыбывших

01 5 Муниципальныерайоны Алтайскогокрая

20 Муниципальныйрайон

1626000 2014

...period period

_descqualifier1 qualifier1

_descqualifier2 qualifier2

_descqualifier3

900 значениепоказателяза год

10 Всего 1 Миграция- всего

10

900 значениепоказателяза год

10 Всего 1 Миграция- всего

400

900 значениепоказателяза год

10 Всего 1 Миграция- всего

400

900 значениепоказателяза год

10 Всего 1 Миграция- всего

400

...qualifier3_desc

value unit

Всего 1023 человек20-24 182 человек20-24 162 человек20-24 12 человек...

Page 19: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

То же самое, но без колонок _desc

munr01_flat_flat[variable_id == "8112022" & rosstat_region == "01" & oktmo

== "1626000", names(munr01_flat)[!grepl("_desc", names(munr01_flat))],

with = F][1:3]

variable_id

rosstat_region

munr tippos oktmo god period qualifier1

qualifier2

qualifier3

value unit

8112022 01 5 20 1626000 2011 900 10 1 10 1023 человек8112022 01 5 20 1626000 2012 900 10 1 400 182 человек8112022 01 5 20 1626000 2013 900 10 1 400 162 человек8112022 01 5 20 1626000 2014 900 10 1 400 12 человек... ...

Page 20: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

В чем их польза?Формат данных

Ключевые поля

Упрощая, каждая точка данных (value) определяется:

показателем (variable_id или variable_desc)ОКТМО (oktmo)годом (god)«квалифицирующими признаками» или«подпоказателями» (qualifier1, qualifier2,qualifier3)

Иными словами, перед нами несбалансированная панельпеременная×регион×район×год×подпоказатель

11 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 21: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Пример подпоказателейДля переменной variable_id=8112022 (или variable_desc=Числовыбывших) мы должны задать нужный возраст (qualifier3 в примереранее), направление (внутри страны, СНГ, дальнее зарубежье,qualifier2) и пол (qualifier2):

unique(munr01_flat[variable_id == "8112022" & rosstat_region== "01" & oktmo == "1626000"]$qualifier1_desc)Всего | Женщины | Мужчины

unique(munr01_flat[variable_id == "8112022" & rosstat_region== "01" & oktmo == "1626000"]$qualifier2_desc)Миграция - всего | в пределах России | внутрирегиональная |

межрегиональная международная | со странами СНГ и Балтии | Внешняя(для региона) миграция с другими зарубежными странами

unique(munr01_flat[variable_id == "8112022" & rosstat_region== "01" & oktmo == "1626000"]$qualifier3_desc)Всего | 20-24 | 25-29 | 30-34 | 35-39 | 40-44 | 45-49 | 50-54 |

55-59 | 70-74 | 75-79 | 80 и старше | 0-15 | 0-4 | 5-9 | 10-14 |15-19 | 60-64 | 65-69 | трудоспособный возраст

munr01_flat[variable_id == "8112022" & rosstat_region == "01" & oktmo =="1626000" & qualifier1_desc = "Мужчины" & qualifier2_desc == "в пределахРоссии"]

Page 22: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Пример подпоказателейДля переменной variable_id=8112022 (или variable_desc=Числовыбывших) мы должны задать нужный возраст (qualifier3 в примереранее), направление (внутри страны, СНГ, дальнее зарубежье,qualifier2) и пол (qualifier2):

unique(munr01_flat[variable_id == "8112022" & rosstat_region== "01" & oktmo == "1626000"]$qualifier1_desc)Всего | Женщины | Мужчины

unique(munr01_flat[variable_id == "8112022" & rosstat_region== "01" & oktmo == "1626000"]$qualifier2_desc)Миграция - всего | в пределах России | внутрирегиональная |

межрегиональная международная | со странами СНГ и Балтии | Внешняя(для региона) миграция с другими зарубежными странами

unique(munr01_flat[variable_id == "8112022" & rosstat_region== "01" & oktmo == "1626000"]$qualifier3_desc)Всего | 20-24 | 25-29 | 30-34 | 35-39 | 40-44 | 45-49 | 50-54 |

55-59 | 70-74 | 75-79 | 80 и старше | 0-15 | 0-4 | 5-9 | 10-14 |15-19 | 60-64 | 65-69 | трудоспособный возраст

munr01_flat[variable_id == "8112022" & rosstat_region == "01" & oktmo =="1626000" & qualifier1_desc = "Мужчины" & qualifier2_desc == "в пределахРоссии"]

Page 23: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Пример подпоказателейДля переменной variable_id=8112022 (или variable_desc=Числовыбывших) мы должны задать нужный возраст (qualifier3 в примереранее), направление (внутри страны, СНГ, дальнее зарубежье,qualifier2) и пол (qualifier2):

unique(munr01_flat[variable_id == "8112022" & rosstat_region== "01" & oktmo == "1626000"]$qualifier1_desc)Всего | Женщины | Мужчины

unique(munr01_flat[variable_id == "8112022" & rosstat_region== "01" & oktmo == "1626000"]$qualifier2_desc)Миграция - всего | в пределах России | внутрирегиональная |

межрегиональная международная | со странами СНГ и Балтии | Внешняя(для региона) миграция с другими зарубежными странами

unique(munr01_flat[variable_id == "8112022" & rosstat_region== "01" & oktmo == "1626000"]$qualifier3_desc)Всего | 20-24 | 25-29 | 30-34 | 35-39 | 40-44 | 45-49 | 50-54 |

55-59 | 70-74 | 75-79 | 80 и старше | 0-15 | 0-4 | 5-9 | 10-14 |15-19 | 60-64 | 65-69 | трудоспособный возраст

munr01_flat[variable_id == "8112022" & rosstat_region == "01" & oktmo =="1626000" & qualifier1_desc = "Мужчины" & qualifier2_desc == "в пределахРоссии"]

Page 24: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Поставка данныхОписанный CSV для всех регионов содержит 114 млн. строк, 30ГБ+RAM. Поэтому я предоставляю и подмножества по регионам илипеременным

output/combined_flat.rdata # Общий файл данныхoutput/combined_flat.csv.gz # Общий файл данныхoutput/variable_labels.csv # Описание показателейoutput/variable_qualifiers.csv # Описание подпоказателейoutput/byregion # Подмножества данных по rosstat_regionoutput/byregion/munr01_flat.rdataoutput/byregion/munr01_flat.csv.gzoutput/byvariable # Подмножества данных по variable_idoutput/byvariable/variable_id8112022.rdataoutput/byvariable/variable_id8112022.csv.gzinput/ # Исходные .zip TSV таблиц базы Росстатаinput/munst01.zipprocessing/ # Код , превращающий input -> outputprocessing /1 convert_per -region_db_tsvs_to_flat_files.rpresentation_opendataday17_district -level

_data_Skougarevskiy.pdf # Эта презентация

Page 25: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

В чем их польза?Формат данных

Поставка данных

Данные доступны по адресуhttp://cdn2.sdlabs.ru/preservation/rosstat/

14 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 26: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

Проблемы с даннымиРабота завтра

Outline

1 Обзор данныхВ чем их польза?Формат данных

2 Вызовы данныхПроблемы с даннымиРабота завтра

Литература

15 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 27: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

Проблемы с даннымиРабота завтра

Текущие проблемы

Показатели могут быть не унифицированы междурегионами из-за федерализации учетаКрайне много пропущенных значений (см. AMELIA(Honaker et al., 2011))

из-за отсутствия версионности ряды данных обрываются изаменяются новыми похожими с введением новыхпеременных

Нет архитектурного различия между пропущеннымзначением и нулемГраницы районов сильно менялись во времениПоказатели иногда меняют логику во времени:

8013007: «За 2008 г. по муниципальным районамприведены данные консолидированного бюджета. С 2009 г.данные по муниципальным районам формируются безучета свода по бюджетам поселений, входящих в ихсостав.»

16 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 28: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

Проблемы с даннымиРабота завтра

Текущие проблемы

Показатели могут быть не унифицированы междурегионами из-за федерализации учетаКрайне много пропущенных значений (см. AMELIA(Honaker et al., 2011))

из-за отсутствия версионности ряды данных обрываются изаменяются новыми похожими с введением новыхпеременных

Нет архитектурного различия между пропущеннымзначением и нулемГраницы районов сильно менялись во времениПоказатели иногда меняют логику во времени:

8013007: «За 2008 г. по муниципальным районамприведены данные консолидированного бюджета. С 2009 г.данные по муниципальным районам формируются безучета свода по бюджетам поселений, входящих в ихсостав.»

16 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 29: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

Проблемы с даннымиРабота завтра

Текущие проблемы

Показатели могут быть не унифицированы междурегионами из-за федерализации учетаКрайне много пропущенных значений (см. AMELIA(Honaker et al., 2011))

из-за отсутствия версионности ряды данных обрываются изаменяются новыми похожими с введением новыхпеременных

Нет архитектурного различия между пропущеннымзначением и нулемГраницы районов сильно менялись во времениПоказатели иногда меняют логику во времени:

8013007: «За 2008 г. по муниципальным районамприведены данные консолидированного бюджета. С 2009 г.данные по муниципальным районам формируются безучета свода по бюджетам поселений, входящих в ихсостав.»

16 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 30: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

Проблемы с даннымиРабота завтра

Текущие проблемы

Показатели могут быть не унифицированы междурегионами из-за федерализации учетаКрайне много пропущенных значений (см. AMELIA(Honaker et al., 2011))

из-за отсутствия версионности ряды данных обрываются изаменяются новыми похожими с введением новыхпеременных

Нет архитектурного различия между пропущеннымзначением и нулемГраницы районов сильно менялись во времениПоказатели иногда меняют логику во времени:

8013007: «За 2008 г. по муниципальным районамприведены данные консолидированного бюджета. С 2009 г.данные по муниципальным районам формируются безучета свода по бюджетам поселений, входящих в ихсостав.»

16 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 31: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

Проблемы с даннымиРабота завтра

Текущие проблемы

Показатели могут быть не унифицированы междурегионами из-за федерализации учетаКрайне много пропущенных значений (см. AMELIA(Honaker et al., 2011))

из-за отсутствия версионности ряды данных обрываются изаменяются новыми похожими с введением новыхпеременных

Нет архитектурного различия между пропущеннымзначением и нулемГраницы районов сильно менялись во времениПоказатели иногда меняют логику во времени:

8013007: «За 2008 г. по муниципальным районамприведены данные консолидированного бюджета. С 2009 г.данные по муниципальным районам формируются безучета свода по бюджетам поселений, входящих в ихсостав.»

16 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 32: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

Проблемы с даннымиРабота завтра

Текущие проблемы

Показатели могут быть не унифицированы междурегионами из-за федерализации учетаКрайне много пропущенных значений (см. AMELIA(Honaker et al., 2011))

из-за отсутствия версионности ряды данных обрываются изаменяются новыми похожими с введением новыхпеременных

Нет архитектурного различия между пропущеннымзначением и нулемГраницы районов сильно менялись во времениПоказатели иногда меняют логику во времени:

8013007: «За 2008 г. по муниципальным районамприведены данные консолидированного бюджета. С 2009 г.данные по муниципальным районам формируются безучета свода по бюджетам поселений, входящих в ихсостав.»

16 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 33: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

Проблемы с даннымиРабота завтра

Текущие проблемы

Показатели могут быть не унифицированы междурегионами из-за федерализации учетаКрайне много пропущенных значений (см. AMELIA(Honaker et al., 2011))

из-за отсутствия версионности ряды данных обрываются изаменяются новыми похожими с введением новыхпеременных

Нет архитектурного различия между пропущеннымзначением и нулемГраницы районов сильно менялись во времениПоказатели иногда меняют логику во времени:

8013007: «За 2008 г. по муниципальным районамприведены данные консолидированного бюджета. С 2009 г.данные по муниципальным районам формируются безучета свода по бюджетам поселений, входящих в ихсостав.»

16 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 34: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

Проблемы с даннымиРабота завтра

Outline

1 Обзор данныхВ чем их польза?Формат данных

2 Вызовы данныхПроблемы с даннымиРабота завтра

Литература

17 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 35: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

Проблемы с даннымиРабота завтра

Возможный план работы на завтра

1 Выбрать из output/variable_labels.csv интересующиепеременные

2 Понять логику подпоказателей в соответствующихoutput/byvariable/variable_id*.csv.gz c помощьюoutput/variable_qualifiers.csv

3 Создать ad hoc панель данных с интересующимипеременными (подпоказатели показателей) в удобном виде

4 Поиск ошибок, анализ, выводы, представление результатов

18 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 36: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных
Page 37: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

Проблемы с даннымиРабота завтра

Список литературы — I

Honaker, J., G. King, M. Blackwell, et al. (2011). Amelia II: A programfor missing data. Journal of Statistical Software 45(7), 1–47.

Zubarevich, N. (2011). Четыре России. Ведомости, http://www.vedomosti.ru/opinion/articles/2011/12/30/chetyre_rossii.

Zubarevich, N. (2016). Четыре России. Полит.Ру,http://polit.ru/article/2016/01/17/four_russians/.

20 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России

Page 38: Открытыеданныемуниципальныхобразований Россииcdn2.sdlabs.ru/preservation/rosstat/presentation... · 2017. 3. 5. · Обзор данных

Обзор данныхВызовы данных

Проблемы с даннымиРабота завтра

Благодарю за внимание!

21 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России