Практика машинного обучения: вопросы и проблемы при...
TRANSCRIPT
Практика машинного обученияЕвгений ГригоренкоTech. Evangelist | Microsoft DX
Цели
#m3community
Стандартный процесс
MLВажные
замечания Мой опытУкажу на вещи, на
которые стоит обращать внимание, при
разработке алгоритмов
Расскажу про то, что я сделал в итоге
Поговорим о глобальном процессе ML и его
интерпретации
#m3community
Стандартный процесс
Глобальный процесс MLОпредел
ение задачи
Подготовка
данных
Обучение
модели
Проверка результа
та
Работа
Обучающая выборка (training sample) — выборка, по которой производится настройка (оптимизация параметров) модели зависимости.
Тестовая (или контрольная) выборка (test sample) — выборка, по которой оценивается качество построенной модели.
Внутренний процесс MLОпредел
ение гипотезы
Подготовка
признаков
Обучение
модели
Проверка результа
та
Обучающая выборка (training sample) — выборка, по которой производится настройка (оптимизация параметров) модели зависимости.
Тестовая (или контрольная) выборка (test sample) — выборка, по которой оценивается качество построенной модели.
Это не каскад, это итерация
100 120 140 160 180 200 220 240-0.6
-0.5
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0 200 400 600 800 1000 1200 1400 1600 1800 2000-0.1
0
0.1
0.2
0.3
0.4
0.5
0.6
33503450355036503750385039504050415042504350445045504650475048504950505051505250535054505550565057505850595060506150625063506450655066506750
-0.6
-0.5
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
335034503550365037503850395040504150425043504450455046504750485049505050515052505350545055505650575058505950605061506250635064506550665067500
20
40
60
80
100
120
140
Постановка задачи
По возможности сводите задачу к классической и хорошо изученной. Так вы сузите область поиска.
Чем точнее поставлена задача/гипотеза, тем измеримее итоговый результат.Жаль, что это не всегда возможно.
Если уже есть готовое решение, а сроки горят, используйте его! Не стоит стесняться и экономить.
Предобработка данныхУ каждого алгоритма или подхода есть свои предположения о входных данных.Не забывайте предобрабатывать их и, в принципе, проверять на соответствие заявленным требованиям.
Структурный анализ/выбор моделиВизуализируйте данные на каждом шаге, не доверяйте слепо алгоритмам!
Проверяйте результат
100 120 140 160 180 200 220 240-0.6
-0.5
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
ожидаемый выход
вход
выход сети
Недоказуемость результата лежит в основе нейронных сетей, используйте их осторожно
Отличный MSE или AUC мало говорят о реальном качестве модели. Использайте многофакторные методы проверки, обязательно визуализируйте результат
#m3community
Мои результаты
Постановка задачиИсходные данные: анализ КЩС крови пациентов реанимации НИИ НДХиТ.
Глобальная задача: выявление скрытой информации о состоянии пациента, поиск метода поддержки принятия решений
Метод проверки результатов: ретроспективное сравнение с историями болезней/онлайн мониторинг с попытками предсказания
Первые результатыВизуализация 16-мерного пространства исходных данныхВыборка: данные за последний день перед выпиской из реанимации, окрашенные исходомГипотеза: данные разделимы
Финальные результаты
1 2 3 4 5 6 7 8 9 10 11 12 13
-10
-5
0
5
10
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15
-10
-5
0
5
10
Q&A
#m3community
Практика ML в медицинеЕвгений Григоренко [email protected]
@evgri243https://github.com/evgri243