Критерии выбора моделей в задачах таксонометрии и...

Post on 14-Jul-2015

1.336 Views

Category:

Technology

7 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Оценивание и выбор моделей

Максим Казанцевгруппа 7204

• Задачи:– классификации,– регрессии,– прогнозирования.

• Вопросы:

– какие признаки использовать?– нужно ли преобразовывать исходные признаки?

– какую модель зависимости применить?

Есть ответы — настраиваем параметры по обучающей выборке

Проблема отбора признаков

• Бесполезные, дублирующие• Избыточные (шумовые)

Проблема отбора признаков

• Переобучение

Проблема отбора признаков

• Стоимость сбора информации

Проблема отбора признаков

• Более простые и понятные модели• Повышение скорости выполнения алгоритмов

Синтез признаков

Размерность N

Размерность M

M ≪ N

Синтез признаков

Без потери информации

Выбор модели

• Чаще всего — из нескольких моделей-претендентов

Выбор структуры модели

• Структура — описание искомого алгоритма как суперпозиции элементарных функций

Основные обозначения

X Y

Объекты Ответы

целеваязависимость

y*

a

алгоритм

Xm

Основные обозначения

X Y

y*

a

Xm

Требуется построить алгоритм a, аппроксимирующий y* на всем множестве X

Основные обозначения

• Q(a, X) — средняя ошибка алгоритма a на выборке X

Основные обозначения

• Модель алгоритмов — семейство отображений А, из которых выбирается искомый алгоритм а

Основные обозначения

• Метод обучения — μ: Xm ⟶ a

• Xm — произвольная обучающая выборка

• а — алгоритм из заданной модели алгоритмов А

Основные обозначенияЗадача выбора метода

М

Искомый метод μ выдает алгоритмы с наилучшей обобщающей способностью

Критерии выбора моделиВнутренний критерий (Qint)

• Характеризует качество метода μ по обучающей выборке Xm

• Нельзя использовать — поощряет переобучение

Критерии выбора моделиВнешние критерии (Qext)

• Характеризует качество метода μ по данным, не исползовавшимся в процессе обучения

• А.Г. Ивахненко, метод группового учета аргументов (МГУА)

Критерии выбора модели

Чем меньше значение критерия Q(μ),тем выше качество метода μ

Критерии выбора моделиКритерий средней ошибки на контрольных данных

Xk

Контрольная частьXm

Обучающая часть

y* определена и на Xk

XL

Критерии выбора моделиКритерий средней ошибки на контрольных данных

Xk

Контрольная частьXm

Обучающая часть

Qext(μ, XL) = Q( μ(Xm), Xk )

Критерии выбора моделиКритерий скользящего контроля

Xk

Контрольная Xm

Обучающая

Результат не зависит от способа разбиения

N ×

Критерии выбора моделиКритерий скользящего контроля

Xk

Контрольная Xm

Обучающая N × CV(μ, XL) =

Cross-Validation

Критерии выбора моделиКритерий скользящего контроля

Xk

Контрольная Xm

Обучающая N ×

Критерии выбора моделиКонтроль по отдельным объектам

xXL \ {x}N ×

Leave-One-Out CV

Критерии выбора моделиКонтроль по отдельным объектам

Плюсы:

• каждый объект ровно один раз участвует в контроле,• длина обучающей выборки на единицу меньше длины полной выборки.

Критерии выбора моделиКритерии непротиворечивости

Если модель алгоритмов А и метод обучения μ подобраны правильно, то настройка параметров модели должна приводить к одинаковым алгоритмам.

Qext(μ, XL) = r(α1, α2)

α — вектор параметров алгоритмов

Критерии выбора моделиКритерии регуляризации

Идея: наложить ограничения на вектор параметров алгоритма α либо ввести штраф за выход α из допустимой области.

Qext(μ, XL) = Qint(μ, XL) + τ||α||

τ — параметр регуляризации

Критерии выбора моделиКритерии регуляризации

В отличие от скользящего контроля, нет необходимости многократно обучаться.

Основная проблема — подбор параметра регуляризации.

Критерии выбора моделиКритерии, основанные

на оценках обобщающей способности

Информационный критерий Акаике:

σ2 — оценка дисперсии величины[y*(x) - a*(x)], где a* — наилучший в рамках используемой модели алгоритм

Критерии выбора моделиКритерии, основанные

на оценках обобщающей способности

Байесовский информационный критерий:

При m≥8 критерий BIC склонен сильнее штрафовать сложные модели, чем AIC.

Критерии выбора моделиКритерии, основанные

на оценках обобщающей способности

Критерий BIC не только позволяет выбрать лучшую модель, но и дает оценку апостериорной вероятности каждой модели.

Критерии выбора моделиКритерии, основанные

на оценках обобщающей способности

Если выбор производился из Tмоделей A1, ..., AT, то вероятность pt, что данные Xm были порождены моделью At, определяется формулой Байеса:

top related