Открытыеданныемуниципальныхобразований...
TRANSCRIPT
Обзор данныхВызовы данных
Открытые данные муниципальных образованийРоссии
Дмитрий СкугаревскийИнститут проблем проблем правоприменения,
Европейский университет в СПб &Institut de hautes etudes internationales et du developpement
International Open Data Day4–5 марта 2017Москва, Россия
1 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
Мотивация
В России свыше 2000 муниципальных районов (и городскихокругов)Прежде их стат. индикаторы были доступны в машиночитаемомвиде только через веб-интерфейс Базы данных показателеймуниципальных образований1 РосстатаСегодня я представляю эти данные в формате плоскогоRData/CSV файла2
дружественен: структура данных должна быть понятна человеку,знающему только Excelненавязчив: почти все данные дампа собраны в одном плоскомфайлепонятен: все коды полей сопровождаются текстовым описанием
1http://www.gks.ru/dbscripts/munst/munst.htm2Благодарю Росстат за предоставление данных, Ивана Бегтина за их
получение, коллег из NextGIS за первичный экспорт дампа.2 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
Мотивация
В России свыше 2000 муниципальных районов (и городскихокругов)Прежде их стат. индикаторы были доступны в машиночитаемомвиде только через веб-интерфейс Базы данных показателеймуниципальных образований1 РосстатаСегодня я представляю эти данные в формате плоскогоRData/CSV файла2
дружественен: структура данных должна быть понятна человеку,знающему только Excelненавязчив: почти все данные дампа собраны в одном плоскомфайлепонятен: все коды полей сопровождаются текстовым описанием
1http://www.gks.ru/dbscripts/munst/munst.htm2Благодарю Росстат за предоставление данных, Ивана Бегтина за их
получение, коллег из NextGIS за первичный экспорт дампа.2 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
Мотивация
В России свыше 2000 муниципальных районов (и городскихокругов)Прежде их стат. индикаторы были доступны в машиночитаемомвиде только через веб-интерфейс Базы данных показателеймуниципальных образований1 РосстатаСегодня я представляю эти данные в формате плоскогоRData/CSV файла2
дружественен: структура данных должна быть понятна человеку,знающему только Excelненавязчив: почти все данные дампа собраны в одном плоскомфайлепонятен: все коды полей сопровождаются текстовым описанием
1http://www.gks.ru/dbscripts/munst/munst.htm2Благодарю Росстат за предоставление данных, Ивана Бегтина за их
получение, коллег из NextGIS за первичный экспорт дампа.2 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
Мотивация
В России свыше 2000 муниципальных районов (и городскихокругов)Прежде их стат. индикаторы были доступны в машиночитаемомвиде только через веб-интерфейс Базы данных показателеймуниципальных образований1 РосстатаСегодня я представляю эти данные в формате плоскогоRData/CSV файла2
дружественен: структура данных должна быть понятна человеку,знающему только Excelненавязчив: почти все данные дампа собраны в одном плоскомфайлепонятен: все коды полей сопровождаются текстовым описанием
1http://www.gks.ru/dbscripts/munst/munst.htm2Благодарю Росстат за предоставление данных, Ивана Бегтина за их
получение, коллег из NextGIS за первичный экспорт дампа.2 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
Мотивация
В России свыше 2000 муниципальных районов (и городскихокругов)Прежде их стат. индикаторы были доступны в машиночитаемомвиде только через веб-интерфейс Базы данных показателеймуниципальных образований1 РосстатаСегодня я представляю эти данные в формате плоскогоRData/CSV файла2
дружественен: структура данных должна быть понятна человеку,знающему только Excelненавязчив: почти все данные дампа собраны в одном плоскомфайлепонятен: все коды полей сопровождаются текстовым описанием
1http://www.gks.ru/dbscripts/munst/munst.htm2Благодарю Росстат за предоставление данных, Ивана Бегтина за их
получение, коллег из NextGIS за первичный экспорт дампа.2 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
Мотивация
В России свыше 2000 муниципальных районов (и городскихокругов)Прежде их стат. индикаторы были доступны в машиночитаемомвиде только через веб-интерфейс Базы данных показателеймуниципальных образований1 РосстатаСегодня я представляю эти данные в формате плоскогоRData/CSV файла2
дружественен: структура данных должна быть понятна человеку,знающему только Excelненавязчив: почти все данные дампа собраны в одном плоскомфайлепонятен: все коды полей сопровождаются текстовым описанием
1http://www.gks.ru/dbscripts/munst/munst.htm2Благодарю Росстат за предоставление данных, Ивана Бегтина за их
получение, коллег из NextGIS за первичный экспорт дампа.2 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
Содержание
1 Обзор данныхВ чем их польза?Формат данных
2 Вызовы данныхПроблемы с даннымиРабота завтра
Литература
3 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
В чем их польза?Формат данных
Outline
1 Обзор данныхВ чем их польза?Формат данных
2 Вызовы данныхПроблемы с даннымиРабота завтра
Литература
4 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Рис. 1: О России принято думать в разрезе регионов
Прим: Чукотка обрезана по антимеридиану (https://bl.ocks.org/mbostock/3788999)
Рис. 2: Но множество информации скрывается на районном уровне
Прим: Чукотка обрезана по антимеридиану (https://bl.ocks.org/mbostock/3788999)
Обзор данныхВызовы данных
В чем их польза?Формат данных
Скрытая на районном уровне информация
Что происходит с бюджетами районов и муниципальнымуправлением?Исследования бедности: бедные становятся беднее, абогатые — богаче? Конвергенция доходов на районномуровне?«4 России» Zubarevich (2011, 2016) — от классификациистраны по регионам к классификации по районамНеакадемическая польза: районные данные позволятлучше таргетировать ваши продукты... и многое другое
7 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
В чем их польза?Формат данных
Скрытая на районном уровне информация
Что происходит с бюджетами районов и муниципальнымуправлением?Исследования бедности: бедные становятся беднее, абогатые — богаче? Конвергенция доходов на районномуровне?«4 России» Zubarevich (2011, 2016) — от классификациистраны по регионам к классификации по районамНеакадемическая польза: районные данные позволятлучше таргетировать ваши продукты... и многое другое
7 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
В чем их польза?Формат данных
Скрытая на районном уровне информация
Что происходит с бюджетами районов и муниципальнымуправлением?Исследования бедности: бедные становятся беднее, абогатые — богаче? Конвергенция доходов на районномуровне?«4 России» Zubarevich (2011, 2016) — от классификациистраны по регионам к классификации по районамНеакадемическая польза: районные данные позволятлучше таргетировать ваши продукты... и многое другое
7 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
В чем их польза?Формат данных
Скрытая на районном уровне информация
Что происходит с бюджетами районов и муниципальнымуправлением?Исследования бедности: бедные становятся беднее, абогатые — богаче? Конвергенция доходов на районномуровне?«4 России» Zubarevich (2011, 2016) — от классификациистраны по регионам к классификации по районамНеакадемическая польза: районные данные позволятлучше таргетировать ваши продукты... и многое другое
7 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
В чем их польза?Формат данных
Скрытая на районном уровне информация
Что происходит с бюджетами районов и муниципальнымуправлением?Исследования бедности: бедные становятся беднее, абогатые — богаче? Конвергенция доходов на районномуровне?«4 России» Zubarevich (2011, 2016) — от классификациистраны по регионам к классификации по районамНеакадемическая польза: районные данные позволятлучше таргетировать ваши продукты... и многое другое
7 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
В чем их польза?Формат данных
Outline
1 Обзор данныхВ чем их польза?Формат данных
2 Вызовы данныхПроблемы с даннымиРабота завтра
Литература
8 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Базовая операция в R data.tablemunr01_flat[variable_id == "8112022" & rosstat_region == "01" & oktmo =="1626000"][1:3]variable_id
variable_id_desc
rosstat_region
munr munr_desc tippos tippos_desc
oktmo god
8112022 Числовыбывших
01 5 Муниципальныерайоны Алтайскогокрая
20 Муниципальныйрайон
1626000 2011
8112022 Числовыбывших
01 5 Муниципальныерайоны Алтайскогокрая
20 Муниципальныйрайон
1626000 2012
8112022 Числовыбывших
01 5 Муниципальныерайоны Алтайскогокрая
20 Муниципальныйрайон
1626000 2013
8112022 Числовыбывших
01 5 Муниципальныерайоны Алтайскогокрая
20 Муниципальныйрайон
1626000 2014
...period period
_descqualifier1 qualifier1
_descqualifier2 qualifier2
_descqualifier3
900 значениепоказателяза год
10 Всего 1 Миграция- всего
10
900 значениепоказателяза год
10 Всего 1 Миграция- всего
400
900 значениепоказателяза год
10 Всего 1 Миграция- всего
400
900 значениепоказателяза год
10 Всего 1 Миграция- всего
400
...qualifier3_desc
value unit
Всего 1023 человек20-24 182 человек20-24 162 человек20-24 12 человек...
То же самое, но без колонок _desc
munr01_flat_flat[variable_id == "8112022" & rosstat_region == "01" & oktmo
== "1626000", names(munr01_flat)[!grepl("_desc", names(munr01_flat))],
with = F][1:3]
variable_id
rosstat_region
munr tippos oktmo god period qualifier1
qualifier2
qualifier3
value unit
8112022 01 5 20 1626000 2011 900 10 1 10 1023 человек8112022 01 5 20 1626000 2012 900 10 1 400 182 человек8112022 01 5 20 1626000 2013 900 10 1 400 162 человек8112022 01 5 20 1626000 2014 900 10 1 400 12 человек... ...
Обзор данныхВызовы данных
В чем их польза?Формат данных
Ключевые поля
Упрощая, каждая точка данных (value) определяется:
показателем (variable_id или variable_desc)ОКТМО (oktmo)годом (god)«квалифицирующими признаками» или«подпоказателями» (qualifier1, qualifier2,qualifier3)
Иными словами, перед нами несбалансированная панельпеременная×регион×район×год×подпоказатель
11 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Пример подпоказателейДля переменной variable_id=8112022 (или variable_desc=Числовыбывших) мы должны задать нужный возраст (qualifier3 в примереранее), направление (внутри страны, СНГ, дальнее зарубежье,qualifier2) и пол (qualifier2):
unique(munr01_flat[variable_id == "8112022" & rosstat_region== "01" & oktmo == "1626000"]$qualifier1_desc)Всего | Женщины | Мужчины
unique(munr01_flat[variable_id == "8112022" & rosstat_region== "01" & oktmo == "1626000"]$qualifier2_desc)Миграция - всего | в пределах России | внутрирегиональная |
межрегиональная международная | со странами СНГ и Балтии | Внешняя(для региона) миграция с другими зарубежными странами
unique(munr01_flat[variable_id == "8112022" & rosstat_region== "01" & oktmo == "1626000"]$qualifier3_desc)Всего | 20-24 | 25-29 | 30-34 | 35-39 | 40-44 | 45-49 | 50-54 |
55-59 | 70-74 | 75-79 | 80 и старше | 0-15 | 0-4 | 5-9 | 10-14 |15-19 | 60-64 | 65-69 | трудоспособный возраст
munr01_flat[variable_id == "8112022" & rosstat_region == "01" & oktmo =="1626000" & qualifier1_desc = "Мужчины" & qualifier2_desc == "в пределахРоссии"]
Пример подпоказателейДля переменной variable_id=8112022 (или variable_desc=Числовыбывших) мы должны задать нужный возраст (qualifier3 в примереранее), направление (внутри страны, СНГ, дальнее зарубежье,qualifier2) и пол (qualifier2):
unique(munr01_flat[variable_id == "8112022" & rosstat_region== "01" & oktmo == "1626000"]$qualifier1_desc)Всего | Женщины | Мужчины
unique(munr01_flat[variable_id == "8112022" & rosstat_region== "01" & oktmo == "1626000"]$qualifier2_desc)Миграция - всего | в пределах России | внутрирегиональная |
межрегиональная международная | со странами СНГ и Балтии | Внешняя(для региона) миграция с другими зарубежными странами
unique(munr01_flat[variable_id == "8112022" & rosstat_region== "01" & oktmo == "1626000"]$qualifier3_desc)Всего | 20-24 | 25-29 | 30-34 | 35-39 | 40-44 | 45-49 | 50-54 |
55-59 | 70-74 | 75-79 | 80 и старше | 0-15 | 0-4 | 5-9 | 10-14 |15-19 | 60-64 | 65-69 | трудоспособный возраст
munr01_flat[variable_id == "8112022" & rosstat_region == "01" & oktmo =="1626000" & qualifier1_desc = "Мужчины" & qualifier2_desc == "в пределахРоссии"]
Пример подпоказателейДля переменной variable_id=8112022 (или variable_desc=Числовыбывших) мы должны задать нужный возраст (qualifier3 в примереранее), направление (внутри страны, СНГ, дальнее зарубежье,qualifier2) и пол (qualifier2):
unique(munr01_flat[variable_id == "8112022" & rosstat_region== "01" & oktmo == "1626000"]$qualifier1_desc)Всего | Женщины | Мужчины
unique(munr01_flat[variable_id == "8112022" & rosstat_region== "01" & oktmo == "1626000"]$qualifier2_desc)Миграция - всего | в пределах России | внутрирегиональная |
межрегиональная международная | со странами СНГ и Балтии | Внешняя(для региона) миграция с другими зарубежными странами
unique(munr01_flat[variable_id == "8112022" & rosstat_region== "01" & oktmo == "1626000"]$qualifier3_desc)Всего | 20-24 | 25-29 | 30-34 | 35-39 | 40-44 | 45-49 | 50-54 |
55-59 | 70-74 | 75-79 | 80 и старше | 0-15 | 0-4 | 5-9 | 10-14 |15-19 | 60-64 | 65-69 | трудоспособный возраст
munr01_flat[variable_id == "8112022" & rosstat_region == "01" & oktmo =="1626000" & qualifier1_desc = "Мужчины" & qualifier2_desc == "в пределахРоссии"]
Поставка данныхОписанный CSV для всех регионов содержит 114 млн. строк, 30ГБ+RAM. Поэтому я предоставляю и подмножества по регионам илипеременным
output/combined_flat.rdata # Общий файл данныхoutput/combined_flat.csv.gz # Общий файл данныхoutput/variable_labels.csv # Описание показателейoutput/variable_qualifiers.csv # Описание подпоказателейoutput/byregion # Подмножества данных по rosstat_regionoutput/byregion/munr01_flat.rdataoutput/byregion/munr01_flat.csv.gzoutput/byvariable # Подмножества данных по variable_idoutput/byvariable/variable_id8112022.rdataoutput/byvariable/variable_id8112022.csv.gzinput/ # Исходные .zip TSV таблиц базы Росстатаinput/munst01.zipprocessing/ # Код , превращающий input -> outputprocessing /1 convert_per -region_db_tsvs_to_flat_files.rpresentation_opendataday17_district -level
_data_Skougarevskiy.pdf # Эта презентация
Обзор данныхВызовы данных
В чем их польза?Формат данных
Поставка данных
Данные доступны по адресуhttp://cdn2.sdlabs.ru/preservation/rosstat/
14 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
Проблемы с даннымиРабота завтра
Outline
1 Обзор данныхВ чем их польза?Формат данных
2 Вызовы данныхПроблемы с даннымиРабота завтра
Литература
15 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
Проблемы с даннымиРабота завтра
Текущие проблемы
Показатели могут быть не унифицированы междурегионами из-за федерализации учетаКрайне много пропущенных значений (см. AMELIA(Honaker et al., 2011))
из-за отсутствия версионности ряды данных обрываются изаменяются новыми похожими с введением новыхпеременных
Нет архитектурного различия между пропущеннымзначением и нулемГраницы районов сильно менялись во времениПоказатели иногда меняют логику во времени:
8013007: «За 2008 г. по муниципальным районамприведены данные консолидированного бюджета. С 2009 г.данные по муниципальным районам формируются безучета свода по бюджетам поселений, входящих в ихсостав.»
16 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
Проблемы с даннымиРабота завтра
Текущие проблемы
Показатели могут быть не унифицированы междурегионами из-за федерализации учетаКрайне много пропущенных значений (см. AMELIA(Honaker et al., 2011))
из-за отсутствия версионности ряды данных обрываются изаменяются новыми похожими с введением новыхпеременных
Нет архитектурного различия между пропущеннымзначением и нулемГраницы районов сильно менялись во времениПоказатели иногда меняют логику во времени:
8013007: «За 2008 г. по муниципальным районамприведены данные консолидированного бюджета. С 2009 г.данные по муниципальным районам формируются безучета свода по бюджетам поселений, входящих в ихсостав.»
16 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
Проблемы с даннымиРабота завтра
Текущие проблемы
Показатели могут быть не унифицированы междурегионами из-за федерализации учетаКрайне много пропущенных значений (см. AMELIA(Honaker et al., 2011))
из-за отсутствия версионности ряды данных обрываются изаменяются новыми похожими с введением новыхпеременных
Нет архитектурного различия между пропущеннымзначением и нулемГраницы районов сильно менялись во времениПоказатели иногда меняют логику во времени:
8013007: «За 2008 г. по муниципальным районамприведены данные консолидированного бюджета. С 2009 г.данные по муниципальным районам формируются безучета свода по бюджетам поселений, входящих в ихсостав.»
16 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
Проблемы с даннымиРабота завтра
Текущие проблемы
Показатели могут быть не унифицированы междурегионами из-за федерализации учетаКрайне много пропущенных значений (см. AMELIA(Honaker et al., 2011))
из-за отсутствия версионности ряды данных обрываются изаменяются новыми похожими с введением новыхпеременных
Нет архитектурного различия между пропущеннымзначением и нулемГраницы районов сильно менялись во времениПоказатели иногда меняют логику во времени:
8013007: «За 2008 г. по муниципальным районамприведены данные консолидированного бюджета. С 2009 г.данные по муниципальным районам формируются безучета свода по бюджетам поселений, входящих в ихсостав.»
16 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
Проблемы с даннымиРабота завтра
Текущие проблемы
Показатели могут быть не унифицированы междурегионами из-за федерализации учетаКрайне много пропущенных значений (см. AMELIA(Honaker et al., 2011))
из-за отсутствия версионности ряды данных обрываются изаменяются новыми похожими с введением новыхпеременных
Нет архитектурного различия между пропущеннымзначением и нулемГраницы районов сильно менялись во времениПоказатели иногда меняют логику во времени:
8013007: «За 2008 г. по муниципальным районамприведены данные консолидированного бюджета. С 2009 г.данные по муниципальным районам формируются безучета свода по бюджетам поселений, входящих в ихсостав.»
16 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
Проблемы с даннымиРабота завтра
Текущие проблемы
Показатели могут быть не унифицированы междурегионами из-за федерализации учетаКрайне много пропущенных значений (см. AMELIA(Honaker et al., 2011))
из-за отсутствия версионности ряды данных обрываются изаменяются новыми похожими с введением новыхпеременных
Нет архитектурного различия между пропущеннымзначением и нулемГраницы районов сильно менялись во времениПоказатели иногда меняют логику во времени:
8013007: «За 2008 г. по муниципальным районамприведены данные консолидированного бюджета. С 2009 г.данные по муниципальным районам формируются безучета свода по бюджетам поселений, входящих в ихсостав.»
16 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
Проблемы с даннымиРабота завтра
Текущие проблемы
Показатели могут быть не унифицированы междурегионами из-за федерализации учетаКрайне много пропущенных значений (см. AMELIA(Honaker et al., 2011))
из-за отсутствия версионности ряды данных обрываются изаменяются новыми похожими с введением новыхпеременных
Нет архитектурного различия между пропущеннымзначением и нулемГраницы районов сильно менялись во времениПоказатели иногда меняют логику во времени:
8013007: «За 2008 г. по муниципальным районамприведены данные консолидированного бюджета. С 2009 г.данные по муниципальным районам формируются безучета свода по бюджетам поселений, входящих в ихсостав.»
16 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
Проблемы с даннымиРабота завтра
Outline
1 Обзор данныхВ чем их польза?Формат данных
2 Вызовы данныхПроблемы с даннымиРабота завтра
Литература
17 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
Проблемы с даннымиРабота завтра
Возможный план работы на завтра
1 Выбрать из output/variable_labels.csv интересующиепеременные
2 Понять логику подпоказателей в соответствующихoutput/byvariable/variable_id*.csv.gz c помощьюoutput/variable_qualifiers.csv
3 Создать ad hoc панель данных с интересующимипеременными (подпоказатели показателей) в удобном виде
4 Поиск ошибок, анализ, выводы, представление результатов
18 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
Проблемы с даннымиРабота завтра
Список литературы — I
Honaker, J., G. King, M. Blackwell, et al. (2011). Amelia II: A programfor missing data. Journal of Statistical Software 45(7), 1–47.
Zubarevich, N. (2011). Четыре России. Ведомости, http://www.vedomosti.ru/opinion/articles/2011/12/30/chetyre_rossii.
Zubarevich, N. (2016). Четыре России. Полит.Ру,http://polit.ru/article/2016/01/17/four_russians/.
20 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России
Обзор данныхВызовы данных
Проблемы с даннымиРабота завтра
Благодарю за внимание!
21 / 21 Дмитрий Скугаревский, ИПП & IHEID Данные муниципальных образований России