Гринчук Александр - Практическое применение data mining...
DESCRIPTION
Александр дал общую характеристику рынка бизнес-аналитики в Беларуси. На примере реальных бизнес-задач он рассказал о проблемах, с которыми сталкиваются специалисты при внедрении Data Mining, и о том, как эти проблемы можно решить при помощи программного обеспеченияTRANSCRIPT
![Page 1: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/1.jpg)
Практическое применение Data Mining-технологий
Гринчук Александр
ООО «Нанотех»
ИБМТ БГУ
![Page 2: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/2.jpg)
2
Текущее состояние дел Точно знаем надо Примерно знаем почему Плохо знаем как
![Page 3: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/3.jpg)
3
Национальные особенности Банки – в аутсайдерах Лидеры: телеком и игровая
индустрия Торговые сети: сдержанный
интерес
![Page 4: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/4.jpg)
4
Данные Собираются не для анализа Собираются не всегда, когда
можно Собираются некачественно
![Page 5: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/5.jpg)
5
Проблемы Малая выборка Несоблюдение чистоты Недооценка динамики Недоверие к первым результатам
![Page 6: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/6.jpg)
6
«Малые» данные Много для статистики Мало для автоматизации Пример: прогнозирование
![Page 7: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/7.jpg)
7
«Ручное» прогнозирование Много для статистики Мало для DataMining
![Page 8: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/8.jpg)
8
«Ручное» прогнозирование Много для статистики Мало для DataMining
![Page 9: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/9.jpg)
9
«Ручное» прогнозирование Стратегия:
выявить шаблоны «вручную» применить автоматически
![Page 10: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/10.jpg)
10
Несоблюдение чистоты Сложность выявления Сложность обработки Последствия серьезнее, чем
кажутся на первый взгляд
![Page 11: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/11.jpg)
11
Примеры (реальные случаи) ошибки при вводе марки автомобиля: 14 (!)
вариантов написания марки “Mercedes”. DEU указано вместо DAEWOO в 6-ти анкетах, все заемщики рассчитались с кредитом. Ошибочный вывод: наличие автомобиля марки DEU свидетельствует о высокой надежности клиента;
указана область проживания как БРЕСЦКАЯ (4 случая – все «плохие»). На практике выяснилось, что значимость региона не столь высока;
количество не столь очевидных примеров велико. Доля строк хотя бы с одной ошибкой, опечаткой или пропуском может достигать 70%.
![Page 12: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/12.jpg)
12
Сравним Между прочим: алгоритмы
разрабатывались для первой ситуации!Требования теории Банковская практика
Образцы для исследования берутся в одинаковых условиях
Клиенты приходят в разное время и их качественный состав меняется
Измерения производятся точно, результаты тщательно регистрируются
Работают люди: ошибаются, пропускают, путают
Отбираются образцы в пропорциях, отражающих реальное положение дел
Есть сведения только о клиентах, получивших одобрение на выдачу кредита
![Page 13: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/13.jpg)
13
Способ решения Предобработка данных Модификация алгоритмов
![Page 14: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/14.jpg)
14
Пример: квантование
![Page 15: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/15.jpg)
15
Недооценка динамики Банки: старение кредитов Отток: смешивание групп Причина: из-за недостатка данных
объединяются наблюдения за относительно большой промежуток времени
![Page 16: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/16.jpg)
16
Эффект старения Ложное ощущение опасности, из-
за роста доли «старых»
0%
1%
2%
3%
4%
5%
6%
7%
8%
0 2 4 6 8 10 12 14 16
янв.10
фев.10
мар.10
апр.10
![Page 17: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/17.jpg)
17
Отток клиентов Три группы, не одна Остались «упрямые», а не
улучшилась ситуация
1 2 3 4 5
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0 2 4 6 8 10
0.1
0.2
0.3
0.4
0.5
![Page 18: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/18.jpg)
18
Недоверие к результатам Требование «обзорности» Требование «привычности» Результат должен «выражаться в
денежных единицах»
![Page 19: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/19.jpg)
19
Ошибки Заранее задаются:
вид результата ограничения по набору данных
Ошибки бывают в разные стороны
![Page 20: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/20.jpg)
20
Пример: успеваемость Факторный анализ: 2 фактора
№ Фамилия
МЕНЕДЖ
МАТЕМ_1
ОСЕ ЭКОН_1
ИТ МАТЕМ_2
БУХУЧЕТ
ЭКОН_2
77 … 7 2 6 4 7 6 6 778 … 8 4 7 4 5 6 7 779 … 6 6 7 3 5 4 7 780 … 7 9 7 7 8 8 9 981 … 10 5 5 7 8 9 8 882 … 6 4 5 4 6 4 6 683 … 7 8 6 7 8 7 10 884 … 9 4 8 7 8 4 8 885 … 9 10 9 9 9 9 9 986 … 4 2 4 2 4 2 5 5
Входные поля Корреляция с выходными полями
№ Поле Фактор 1 Фактор 21 МЕНЕДЖ 0,842 0,0832 МАТЕМ_1 0,881 0,2493 ОСЕ 0,804 0,3964 ЭКОН_1 0,951 -0,1725 ИТ 0,784 -0,5366 МАТЕМ_2 0,901 -0,1857 БУХУЧЕТ 0,846 0,0588 ЭКОН_2 0,92 0,101
![Page 21: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/21.jpg)
21
Отслеживание динамики
-3
-2,5
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
-2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5
![Page 22: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/22.jpg)
22
Игнорирование известного Результаты отличаются от соседей и
аналогичных организаций? Причина ошибка или особенности? Пример: продажи мобильных телефонов,
особенности для категории «Образование среднее специальное»
![Page 23: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/23.jpg)
23
Доведение до результата
![Page 24: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/24.jpg)
24
Ограничения по алгоритмам Интерпретируемые Проверяемые Необходимость взаимопроверки
![Page 25: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/25.jpg)
25
Пример: деревья решений
![Page 26: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/26.jpg)
26
Пример: карты Кохонена
![Page 27: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/27.jpg)
27
Взаимная подстраховка
![Page 28: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/28.jpg)
28
Кластеризация и деревья решений
![Page 29: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/29.jpg)
29
«Госзаказ» Тестирование Складские задачи
![Page 30: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/30.jpg)
30
Тестирование Применение ассоциативного
анализа
![Page 31: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/31.jpg)
31
Платформа Требования
Гибкость в работе Удобство вместо наворотов Возможность маневра
![Page 32: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/32.jpg)
32
Алгоритмы Дерево решений Логистическая регрессия Самоорганизующиеся сети Apriory Линейная регрессия Возможности комбинирования
![Page 33: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/33.jpg)
33
Варианты ПО Deductor Studio RExcel
![Page 34: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/34.jpg)
34
Deductor Простота в освоении и
«промышленная мощность»
![Page 35: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/35.jpg)
35
RExcel Привычный интерфейс и
алгоритмы R
![Page 36: Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ](https://reader034.vdocuments.pub/reader034/viewer/2022052600/558404d5d8b42a126e8b472e/html5/thumbnails/36.jpg)
36
Заключение Часто наблюдается: недостаток
данных и их неготовность к непосредственному анализу
В такой ситуации предпочтительнее использование комбинации простых и прозрачных алгоритмов вместо разработки и применения сложных
Поэтому удобное ПО хотя бы с минимальным «джентельменским набором» лучше неудобных «комбайнов»