Критерии выбора моделей в задачах таксонометрии и...

Оценивание и выбор моделей

Максим Казанцевгруппа 7204

• Задачи:– классификации,– регрессии,– прогнозирования.

• Вопросы:

– какие признаки использовать?– нужно ли преобразовывать исходные признаки?

– какую модель зависимости применить?

Есть ответы — настраиваем параметры по обучающей выборке

Проблема отбора признаков

• Бесполезные, дублирующие• Избыточные (шумовые)

• Переобучение

• Стоимость сбора информации

• Более простые и понятные модели• Повышение скорости выполнения алгоритмов

Синтез признаков

Размерность N

Размерность M

M ≪ N

Синтез признаков

Без потери информации

Выбор модели

• Чаще всего — из нескольких моделей-претендентов

Выбор структуры модели

• Структура — описание искомого алгоритма как суперпозиции элементарных функций

Основные обозначения

Объекты Ответы

целеваязависимость

алгоритм

Требуется построить алгоритм a, аппроксимирующий y* на всем множестве X

• Q(a, X) — средняя ошибка алгоритма a на выборке X

• Модель алгоритмов — семейство отображений А, из которых выбирается искомый алгоритм а

• Метод обучения — μ: Xm ⟶ a

• Xm — произвольная обучающая выборка

• а — алгоритм из заданной модели алгоритмов А

Основные обозначенияЗадача выбора метода

Искомый метод μ выдает алгоритмы с наилучшей обобщающей способностью

Критерии выбора моделиВнутренний критерий (Qint)

• Характеризует качество метода μ по обучающей выборке Xm

• Нельзя использовать — поощряет переобучение

Критерии выбора моделиВнешние критерии (Qext)

• Характеризует качество метода μ по данным, не исползовавшимся в процессе обучения

• А.Г. Ивахненко, метод группового учета аргументов (МГУА)

Критерии выбора модели

Чем меньше значение критерия Q(μ),тем выше качество метода μ

Критерии выбора моделиКритерий средней ошибки на контрольных данных

Контрольная частьXm

Обучающая часть

y* определена и на Xk

Критерии выбора моделиКритерий средней ошибки на контрольных данных

Контрольная частьXm

Обучающая часть

Qext(μ, XL) = Q( μ(Xm), Xk )

Критерии выбора моделиКритерий скользящего контроля

Контрольная Xm

Обучающая

Результат не зависит от способа разбиения

Обучающая N × CV(μ, XL) =

Cross-Validation

Обучающая N ×

Критерии выбора моделиКонтроль по отдельным объектам

xXL \ {x}N ×

Leave-One-Out CV

Критерии выбора моделиКонтроль по отдельным объектам

Плюсы:

• каждый объект ровно один раз участвует в контроле,• длина обучающей выборки на единицу меньше длины полной выборки.

Критерии выбора моделиКритерии непротиворечивости

Если модель алгоритмов А и метод обучения μ подобраны правильно, то настройка параметров модели должна приводить к одинаковым алгоритмам.

Qext(μ, XL) = r(α1, α2)

α — вектор параметров алгоритмов

Критерии выбора моделиКритерии регуляризации

Идея: наложить ограничения на вектор параметров алгоритма α либо ввести штраф за выход α из допустимой области.

Qext(μ, XL) = Qint(μ, XL) + τ||α||

τ — параметр регуляризации

Критерии выбора моделиКритерии регуляризации

В отличие от скользящего контроля, нет необходимости многократно обучаться.

Основная проблема — подбор параметра регуляризации.

Критерии выбора моделиКритерии, основанные

на оценках обобщающей способности

Информационный критерий Акаике:

σ2 — оценка дисперсии величины[y*(x) - a*(x)], где a* — наилучший в рамках используемой модели алгоритм

Байесовский информационный критерий:

При m≥8 критерий BIC склонен сильнее штрафовать сложные модели, чем AIC.

Критерий BIC не только позволяет выбрать лучшую модель, но и дает оценку апостериорной вероятности каждой модели.

Если выбор производился из Tмоделей A1, ..., AT, то вероятность pt, что данные Xm были порождены моделью At, определяется формулой Байеса:

Критерии выбора моделей в задачах таксонометрии и...

Technology

« Модели бинарного выбора »

Новые инструменты мониторинга и...

Развитие технологий...

Модели прогнозирования объемов...

Семантические сети для...

Краудсорсинг в задачах медицины

симметрия в задачах с...

колывань православная в задачах

СХЕМА ПРОГНОЗИРОВАНИЯ ПОЖАРА

Методы и модели анализа...

УДК 81:1 doi 10.17223/19986645/35/10 - · pdf fileили...

факторы выбора платформы

Стратегия выбора профессии

Современные методы...

Математика в играх и задачах

Методы и модели анализа...

Территория выбора (Май 2014)

Развитие технологий ...

Методы прогнозирования основных...

Проблема выбора ЕГЭ