Практика машинного обучения: вопросы и проблемы при...

Практика машинного обученияЕвгений ГригоренкоTech. Evangelist | Microsoft DX

Цели

#m3community

Стандартный процесс

MLВажные

замечания Мой опытУкажу на вещи, на

которые стоит обращать внимание, при

разработке алгоритмов

Расскажу про то, что я сделал в итоге

Поговорим о глобальном процессе ML и его

интерпретации

#m3community

Стандартный процесс

Глобальный процесс MLОпредел

ение задачи

Подготовка

данных

Обучение

модели

Проверка результа

та

Работа

Обучающая выборка (training sample) — выборка, по которой производится настройка (оптимизация параметров) модели зависимости.

Тестовая (или контрольная) выборка (test sample) — выборка, по которой оценивается качество построенной модели.

Внутренний процесс MLОпредел

ение гипотезы

Подготовка

признаков

Обучение

модели

Проверка результа

та

Обучающая выборка (training sample) — выборка, по которой производится настройка (оптимизация параметров) модели зависимости.

Тестовая (или контрольная) выборка (test sample) — выборка, по которой оценивается качество построенной модели.

Это не каскад, это итерация

100 120 140 160 180 200 220 240-0.6

-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0 200 400 600 800 1000 1200 1400 1600 1800 2000-0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

33503450355036503750385039504050415042504350445045504650475048504950505051505250535054505550565057505850595060506150625063506450655066506750

-0.6

-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

335034503550365037503850395040504150425043504450455046504750485049505050515052505350545055505650575058505950605061506250635064506550665067500

20

40

60

80

100

120

140

Постановка задачи

По возможности сводите задачу к классической и хорошо изученной. Так вы сузите область поиска.

Чем точнее поставлена задача/гипотеза, тем измеримее итоговый результат.Жаль, что это не всегда возможно.

Если уже есть готовое решение, а сроки горят, используйте его! Не стоит стесняться и экономить.

Предобработка данныхУ каждого алгоритма или подхода есть свои предположения о входных данных.Не забывайте предобрабатывать их и, в принципе, проверять на соответствие заявленным требованиям.

Структурный анализ/выбор моделиВизуализируйте данные на каждом шаге, не доверяйте слепо алгоритмам!

Проверяйте результат

100 120 140 160 180 200 220 240-0.6

-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

ожидаемый выход

вход

выход сети

Недоказуемость результата лежит в основе нейронных сетей, используйте их осторожно

Отличный MSE или AUC мало говорят о реальном качестве модели. Использайте многофакторные методы проверки, обязательно визуализируйте результат

#m3community

Мои результаты

Постановка задачиИсходные данные: анализ КЩС крови пациентов реанимации НИИ НДХиТ.

Глобальная задача: выявление скрытой информации о состоянии пациента, поиск метода поддержки принятия решений

Метод проверки результатов: ретроспективное сравнение с историями болезней/онлайн мониторинг с попытками предсказания

Первые результатыВизуализация 16-мерного пространства исходных данныхВыборка: данные за последний день перед выпиской из реанимации, окрашенные исходомГипотеза: данные разделимы

Финальные результаты

1 2 3 4 5 6 7 8 9 10 11 12 13

-10

-5

0

5

10

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15

-10

-5

0

5

10

Q&A

#m3community

Практика ML в медицинеЕвгений Григоренко [email protected]

@evgri243https://github.com/evgri243

mailto:[email protected]

Практика машинного обучения: вопросы и проблемы при...

Data & Analytics