«Введение в компьютерное зрение»
DESCRIPTION
«Введение в компьютерное зрение». Владимир Вежневец, Антон Конушин Александр Вежневец. МГУ ВМК, Graphics & Media Lab, Осень 200 6. План лекции. Деревья классификации Байесовский подход к классификации «Наивный» Байесовский классификатор ( Idiot Bayes ) Нормальный дискриминантный анализ - PowerPoint PPT PresentationTRANSCRIPT
«Введение в компьютерное «Введение в компьютерное зрение» зрение»
Владимир Вежневец, Антон КонушинАлександр Вежневец
МГУ ВМК, Graphics & Media Lab, Осень 2006
План лекцииПлан лекции
Деревья классификацииДеревья классификации
Байесовский подход к классификацииБайесовский подход к классификации «Наивный» Байесовский классификатор («Наивный» Байесовский классификатор (Idiot BayesIdiot Bayes))
Нормальный дискриминантный анализНормальный дискриминантный анализ
Нейронные сетиНейронные сети
Метод опорных векторовМетод опорных векторов
Комитетные методыКомитетные методы BaggingBagging BoostingBoosting
Вопросы с предыдущей Вопросы с предыдущей лекциилекции
Почему не рассказываем про обучение «на лету»?Почему не рассказываем про обучение «на лету»?
Почему же скользящий контроль лучше повторного Почему же скользящий контроль лучше повторного удерживания?удерживания?
Обучение на летуОбучение на лету
Модель:Модель: Множество состояний Множество состояний SS Множество действийМножество действий AA Скалярный «выигрыш»Скалярный «выигрыш» rr
В каждый момент времени В каждый момент времени tt : : Агент получает свое состояние Агент получает свое состояние и набор возможных действий и набор возможных действий Агент выбирает действие Агент выбирает действие и получает «выигрыш»и получает «выигрыш»
Требуется максимизировать выигрышТребуется максимизировать выигрыш Ясно, что выигрыш можно оптимизировать «жадно» и «дальне-Ясно, что выигрыш можно оптимизировать «жадно» и «дальне-
срочно» - определяется задачейсрочно» - определяется задачей
)( tsASst
)( tsAa tr
ОсобенностиОсобенности
Нет готовых ответов, есть «запоздалый выигрышНет готовых ответов, есть «запоздалый выигрыш»» Требует от системы возможности постоянно получать отклик о Требует от системы возможности постоянно получать отклик о
качестве работы (выигрыш);качестве работы (выигрыш); Зачастую, невозможное требование для коммерческих систем Зачастую, невозможное требование для коммерческих систем
компьютерного зрения;компьютерного зрения;
ПрименениеПрименение Игры;Игры; Робот в лабиринте;Робот в лабиринте; Частичная видимость среды;Частичная видимость среды;
Для задач допускающих формулировку в виде задач Для задач допускающих формулировку в виде задач обучения с учителем применение обучения «на лету» обучения с учителем применение обучения «на лету» дает заведомо худший результат!дает заведомо худший результат!
Почему же скользящий контроль лучше Почему же скользящий контроль лучше повторного удерживания?повторного удерживания?
Основной довод скользящего контроля:Основной довод скользящего контроля: Каждый элемент гарантированно попадет в контрольную Каждый элемент гарантированно попадет в контрольную
выборку хотя бы один развыборку хотя бы один раз
Довод 5-2 контроля:Довод 5-2 контроля: Тренировочные выборки абсолютно декоррелированы (не Тренировочные выборки абсолютно декоррелированы (не
пересекаются)пересекаются) КаждыйКаждый прецедент учувствует в тренировке и контроля прецедент учувствует в тренировке и контроля ровноровно по 5 раз по 5 раз
Почему же скользящий контроль лучше Почему же скользящий контроль лучше повторного удерживания?повторного удерживания?
Вероятность пропустить хотя бы один прецедент при Вероятность пропустить хотя бы один прецедент при повторном удерживании:повторном удерживании: - доля прецедентов в контрольной выборке- доля прецедентов в контрольной выборке - количество прецедентов всего- количество прецедентов всего - количество итераций- количество итераций
ПриПри
Вероятность, что прецеденты будут выбраны в Вероятность, что прецеденты будут выбраны в равных долях еще меньше!!!равных долях еще меньше!!!
kP n )1( kn
10;1000;5.0 nk 9766.010005.0 10
)1log(
log
k
Pn
Деревья классификацииДеревья классификацииМодель алгоритмаМодель алгоритма
Двоичное деревоДвоичное дерево Узлы:Узлы:
Помечены некоторым Помечены некоторым предикатом предикатом
Связи:Связи: ПомеченыПомечены
Листья:Листья: Помечены ответами из Помечены ответами из YY
x0
x1 1y
1y 1y
boolX :
false
true
true
false
false
true
*Вопрос: кто помнит, что такое предикат?
Деревья классификацииДеревья классификацииМодель алгоритмаМодель алгоритма
Выходом классификатора Выходом классификатора является значение листа, является значение листа, полученного при обходе:полученного при обходе:
Начинаем от корняНачинаем от корня Переходим в тот узел, в Переходим в тот узел, в
который ведет связь который ведет связь помеченная значением помеченная значением предиката в текущем узлепредиката в текущем узле
Заканчиваем, попав в листЗаканчиваем, попав в лист
x0
x1 1y
1y 1y
true
false
false
true
xay
Деревья классификацииДеревья классификацииПример работыПример работы
?6x
?3x 1y
1y 1y
true
false
false
true
5x
1)( xa
Деревья классификацииДеревья классификацииМодель алгоритма: пространство поискаМодель алгоритма: пространство поиска
Количество ветвлений - сильно влияет на сложность алгоритма Количество ветвлений - сильно влияет на сложность алгоритма и соответственно на размерность Вапника-Червоненкиса и и соответственно на размерность Вапника-Червоненкиса и склонность к переобучениюсклонность к переобучению
Предикаты – обычно, используются пороги по проекциям на оси Предикаты – обычно, используются пороги по проекциям на оси координат (на элементы вектора признаков)координат (на элементы вектора признаков)
j
jm
xfalse
xtruexxx
,
,),...( 0
Деревья классификацииДеревья классификацииМетод обученияМетод обучения
Введем меру «неоднородности» для листа дереваВведем меру «неоднородности» для листа дерева Пусть, при обходе дерева до вершины Пусть, при обходе дерева до вершины m m из тренировочной из тренировочной
выборке «доходят» выборке «доходят» NNmm прецедентов;прецедентов;
Из них Из них NNmmyy прецедентов принадлежат классу прецедентов принадлежат классу yy
Пусть, Пусть,
Тогда «неоднородность» листа Тогда «неоднородность» листа mm - -
y
ym
ymm pp 2logI
m
ymy
m N
NpmyP ,| x
Деревья классификацииДеревья классификацииМетод обученияМетод обучения
Пусть, дана обучающая выборка Пусть, дана обучающая выборка
Строим от корня:Строим от корня: Если текущая вершина однородная, то она лист; алгоритм Если текущая вершина однородная, то она лист; алгоритм
останавливаетсяостанавливается Если же нет, делаем разбиение, минимизирующие Если же нет, делаем разбиение, минимизирующие
«неоднородность»«неоднородность» Для каждой из получившихся вершин повторяем процедуруДля каждой из получившихся вершин повторяем процедуру
N
iii yxT 1),(
ОсобенностиОсобенности
ПлюсыПлюсы Просто и наглядноПросто и наглядно
Легко анализируемоЛегко анализируемо
Быстро работаетБыстро работает
Легко применяется для Легко применяется для задач со множеством задач со множеством классов и к регрессииклассов и к регрессии
МинусыМинусы Плохо аппроксимирует Плохо аппроксимирует
сложные поверхностисложные поверхности
В общем случае, требует В общем случае, требует сложных алгоритмов сложных алгоритмов «обрезания» для контроля «обрезания» для контроля сложностисложности
Байесовская стратегия Байесовская стратегия классификацииклассификации
Bayesian classificationBayesian classification
Статистическая формулировкаСтатистическая формулировка
Пусть – вероятностное пространствоПусть – вероятностное пространство Пусть мера пространства Пусть мера пространства PP
Множество прецедентов выбрано случайно и Множество прецедентов выбрано случайно и независимо согласно распределению независимо согласно распределению PP (случайная (случайная выборка); для них известны ответывыборка); для них известны ответы
Требуется построить отображениеТребуется построить отображение
X
lX
YXa :
Статистическая формулировкаСтатистическая формулировкаБинарная классификацияБинарная классификация
Эмпирический риск:Эмпирический риск:
Общий риск:Общий риск:
рассчитать невозможнорассчитать невозможно требуется минимизироватьтребуется минимизировать
l
i
llEmp yxa
lXyxaPXaR
1
])([1
|)(),(
X
dxyxaxPXyxaPXaR )()(|)(),(
Байесовский Байесовский классификаторклассификатор Предположения:Предположения:
Известна функция правдоподобия:Известна функция правдоподобия: Известны априорные вероятности:Известны априорные вероятности:
Принцип максимума апостериорной вероятности:Принцип максимума апостериорной вероятности:
yxP |)(),( xPyP
)(
)()|(|maxarg)(
xP
yPyxPxyPxa
Yy
Вероятность класса
Вероятность наблюдения
Правдоподобие – условная вероятность
наблюдения
Формула Байеса
Пример:Пример:Какова вероятность увидеть на Какова вероятность увидеть на улице динозавра?улице динозавра?
Идя по улице вы видите такую сцену:Идя по улице вы видите такую сцену:
)(
)()|(|
xP
yPyxPxyP
Правдоподобие – Правдоподобие – вероятность того, что будь вероятность того, что будь это действительно это действительно динозавр наблюдение динозавр наблюдение было бы такимбыло бы таким
Априорная Априорная вероятность встретить вероятность встретить динозаврадинозавра
Априорная Априорная вероятность увидеть вероятность увидеть такую сценутакую сцену
(это и есть наблюдение х)(это и есть наблюдение х)
Вычислим вероятность того, Вычислим вероятность того, что наблюдая такую сцены что наблюдая такую сцены мы действительно видим мы действительно видим динозаврадинозавра
Пример:Пример:Какова вероятность увидеть на Какова вероятность увидеть на улице динозавра?улице динозавра?
)(
)()|(|
xP
yPyxPxyP
Правдоподобие – Правдоподобие – вероятность того, что будь вероятность того, что будь это действительно это действительно динозавр наблюдение динозавр наблюдение было бы такимбыло бы таким
Априорная Априорная вероятность встретить вероятность встретить динозаврадинозавра
Априорная Априорная вероятность увидеть вероятность увидеть такую сценутакую сцену
Пусть : 1.0xP 000001.0yP 7.0| yxP
%10000
7000007.0
1.0
0000001.07.0|
xyP
Свойства классификатораСвойства классификатора
Модель алгоритма и метод обучение строго не Модель алгоритма и метод обучение строго не определены (не нужны даже обучающая выборка) – определены (не нужны даже обучающая выборка) – классификатор строится непосредственно по классификатор строится непосредственно по функциям априорных вероятностей и правдоподобия функциям априорных вероятностей и правдоподобия данным «свыше»данным «свыше»
Дает Дает наименьший наименьший общий риск (состоятелен)общий риск (состоятелен) при при выполнении предположенийвыполнении предположений
Практическое применениеПрактическое применение
На практике, функция правдоподобия и априорные На практике, функция правдоподобия и априорные вероятности обычно не известны;вероятности обычно не известны;
Для применения Байесвокого подхода на практике Для применения Байесвокого подхода на практике требуется каким либо образом их оценитьтребуется каким либо образом их оценить Зачастую, предполагается что объекты принадлежат какому-Зачастую, предполагается что объекты принадлежат какому-
то статистическому распределению, параметры которого то статистическому распределению, параметры которого оцениваются на обучающей выборке;оцениваются на обучающей выборке;
Априорные оценки так же вычисляются на обучающей Априорные оценки так же вычисляются на обучающей выборкевыборке
«Наивный» Байесовский «Наивный» Байесовский классификаторклассификатор
Пусть, множество Пусть, множество X X является конечнымявляется конечным Множество цветов в системе Множество цветов в системе RGBRGB Набор логических атрибутов (наличие в письме того или Набор логических атрибутов (наличие в письме того или
иного слова)иного слова)
Для каждого значения из Для каждого значения из XX по обучающей выборке по обучающей выборке оценим функцию правдоподобияоценим функцию правдоподобия
Так же, оценим априорную вероятности Так же, оценим априорную вероятности
yxP |
)(yP
1)1()1|(
)1()1|(,1
1)1()1|(
)1()1|(,1
)(
PxP
PxPPxP
PxP
xa
«Наивный» Байесовский «Наивный» Байесовский классификаторклассификаторСегментация кожиСегментация кожи
Для всех возможных Для всех возможных цветов по обучающей цветов по обучающей выборке строится выборке строится таблица правдоподобия таблица правдоподобия и рассчитывается и рассчитывается априорная вероятностьаприорная вероятность
Нормальный Нормальный дискриминантный анализдискриминантный анализ
Normal discriminant analyzesNormal discriminant analyzes
Нормальный Нормальный дискриминантный анализдискриминантный анализ Предположения:Предположения:
Функции правдоподобия имеют нормальное распределение:Функции правдоподобия имеют нормальное распределение:
Дана обучающая выборка прецедентов (случайных и Дана обучающая выборка прецедентов (случайных и независимых)независимых)
yy
Ty
y
n
yy
xx
NyxP
1
21
2 2
1exp
2
1
),()|(
lX
Нормальное распределениеНормальное распределение
Поверхность, на которой Поверхность, на которой точки имеют равную точки имеют равную вероятность представляет вероятность представляет собой эллипсоидсобой эллипсоид
Мат. ожидание – центр Мат. ожидание – центр эллипса, ковариационная эллипса, ковариационная матрица – матрица матрица – матрица поворота и растяжения поворота и растяжения (задает оси эллипса)(задает оси эллипса)
Расчет разделяющей Расчет разделяющей поверхностиповерхности Обозначим:Обозначим:
Запишем уравнение разделяющей поверхности (на Запишем уравнение разделяющей поверхности (на этой поверхности вероятности равны):этой поверхности вероятности равны):
Распишем:Распишем:
yxPxpyPP yy |)();(
0)/ln()(ln)(ln
);()(
1111
1111
PPxpxp
xpPxpP
С=const(x)
yyT
yyy xxn
xp 1ln2
12ln
2)(ln
Расчет разделяющей Расчет разделяющей поверхностиповерхности
yyT
yyy xxn
xp 1ln2
12ln
2)(ln
1
1
11
11 PP 11 PP)(2
1ˆ
,)()ˆ(
11
111
Cx yT
Расчет разделяющей Расчет разделяющей поверхностиповерхности
yyT
yyy xxn
xp 1ln2
12ln
2)(ln
11
Поверхность становится квадратичной!
Модель алгоритмаМодель алгоритма
Классификатор строится в виде некоторой Классификатор строится в виде некоторой поверхности, отвечающей принципу максимума поверхности, отвечающей принципу максимума апостериорной вероятностиапостериорной вероятности
Поверхность зависит только от параметров Поверхность зависит только от параметров распределений – пространство поиска распределений – пространство поиска
)(
)()|(|maxarg)(
xP
yPyxPxyPxa
Yy
xN yyy
),(maxarg}1,1{
1111 ,,,
Метод обученияМетод обучения
Для построения классификатора требуется по Для построения классификатора требуется по обучающей выборке оценить параметры обучающей выборке оценить параметры распределенийраспределений
С учётом их случайности и независимости, можно С учётом их случайности и независимости, можно применять стандартный механизм оценки применять стандартный механизм оценки параметров из математической статистикипараметров из математической статистики Например, метод максимального правдоподобияНапример, метод максимального правдоподобия
Свойства классификатораСвойства классификатора
В случае точной оценки параметров распределений В случае точной оценки параметров распределений и априорных вероятностей является Байесовским и априорных вероятностей является Байесовским (дает минимум общего риска);(дает минимум общего риска);
Строит простую для вычисления поверхность Строит простую для вычисления поверхность (линейную или квадратичную);(линейную или квадратичную);
Делает сильное предположение о нормальности Делает сильное предположение о нормальности распределенийраспределений В случае невыполнения предположений даёт В случае невыполнения предположений даёт
непредсказуемый результатнепредсказуемый результат
Советы по практическому Советы по практическому применениюприменению Проверить классы на нормальность!Проверить классы на нормальность!
Хи-квадрат статистикаХи-квадрат статистика
В случае наличия выбросов использовать робастные В случае наличия выбросов использовать робастные оценкиоценки MLESAC MLESAC
Аккуратно оценить априорные вероятностиАккуратно оценить априорные вероятности
Развитие методаРазвитие метода
Обобщение на множество классовОбобщение на множество классов
Введение рискаВведение риска
Нейоронные сетиНейоронные сети
Предпосылка:Предпосылка: Известно, что биологические системы (люди, животные) Известно, что биологические системы (люди, животные)
прекрасно справляются со сложными задачами прекрасно справляются со сложными задачами распознавания образов;распознавания образов;
Основная идея:Основная идея: Применить знания о работе мозга (людей, животных) для Применить знания о работе мозга (людей, животных) для
решения задач распознавания образов;решения задач распознавания образов;
Биологические нейронные Биологические нейронные сетисети 1872-1895 гг.1872-1895 гг.
Понятие нейрона и Понятие нейрона и нейронной сети;нейронной сети;
Первые предположения о Первые предположения о принципе работы;принципе работы;
Биологический нейронБиологический нейронПередача импульсаПередача импульса
ДендритыНапример, могут
быть присоединены к рецепторам Аксон
Может быть присоединен к
мышцам
Нейронная сетьНейронная сеть
Совокупность соединенных Совокупность соединенных между собой нейронов;между собой нейронов;
Сеть осуществляет Сеть осуществляет преобразование входного преобразование входного сигнала с рецепторов в сигнала с рецепторов в выходной, являющейся выходной, являющейся реакцией организма на реакцией организма на внешнюю средувнешнюю среду
Модель кибернетического Модель кибернетического нейронанейрона
McCulloch, W. and Pitts, W. (1943)
1x2x
...
dx
1w
2w
...
dw
fy
Вхо
дно
й с
игн
ал
Синаптическиевеса
Блок суммирования
Блокпреобразования
Выходнойсигнал
d
i
ii xwfy
1
Персептрон РозенблатаПерсептрон РозенблатаМодель алгоритмаМодель алгоритма
...
Вхо
дно
й с
игн
ал
Слой нейронов
1y
y
3y
4y
10 x
1x
dx
Функция преобразования - линейная
Порог
Выходной сигнал
2y
Кибернетический нейрон
Rosenblatt (1962) *Вопрос: зачем x0 ?
Персептрон РозенблатаПерсептрон РозенблатаМодель алгоритмаМодель алгоритма
СвойстваСвойства Линейная классификацияЛинейная классификация
Легко обобщается на Легко обобщается на множество классовмножество классов
?
d
i
ii xwwy
10
Персептрон РозенблатаПерсептрон РозенблатаМетодМетод обученияобучения
Пусть дана обучающая выборка Пусть дана обучающая выборка Пусть, матрица есть матрица весов, где элемент есть вес Пусть, матрица есть матрица весов, где элемент есть вес
связи нейрона связи нейрона jj и входа и входа ii Проинициализируем, случайными малыми значениямиПроинициализируем, случайными малыми значениями
Для Для Пусть, на входной образ сеть дает ответ Пусть, на входной образ сеть дает ответ Вычисляем ошибкуВычисляем ошибку Правим весаПравим веса Повторяем, пока ошибка не будет меньше некоторого Повторяем, пока ошибка не будет меньше некоторого
малого числамалого числа
W ijW
)0( tW
,...2,1t
N
iii yxT 1),(
Txi iyy ~
yyi~
ixtWtW )()1(
Персептрон РозенблатаПерсептрон РозенблатаМетодМетод обученияобучения
Особенности обученияОсобенности обучения Прецеденты выучиваются по очередиПрецеденты выучиваются по очереди Оптимизируется эмпирический рискОптимизируется эмпирический риск Процесс сходится к некоторому локальному минимумуПроцесс сходится к некоторому локальному минимуму Зависит от начальной точкиЗависит от начальной точки
Многослойный персептронМногослойный персептрон
10 x jx dx
10 z
hz
ihv
iy
hjw
d
j hj
hj
Thh
H
hi
hih
Tii
wxw
z
vzvy
1 0
10
exp1
1
sigmoid xw
zv
Rumelhart et al. (1986)
Настройка методом обратного Настройка методом обратного распространения ошибкираспространения ошибкиОсновная идеяОсновная идея
Ошибку на последнем слое можно рассчитать явноОшибку на последнем слое можно рассчитать явно
Ошибку на промежуточном слое, распространим с Ошибку на промежуточном слое, распространим с последнего с текущими весамипоследнего с текущими весами
Фактически, сеть запускается «наоборот» и вместо сигнала Фактически, сеть запускается «наоборот» и вместо сигнала распространяется ошибкараспространяется ошибка
Для её минимизации применяется градиентный спускДля её минимизации применяется градиентный спуск
Подробнее http://cgm.graphicon.ru/content/view/57/66/Подробнее http://cgm.graphicon.ru/content/view/57/66/
Многослойный персептронМногослойный персептрон
10 x jx dx
10 z
hz
ihv
iy
hjw
d
j hj
hj
Thh
H
hi
hih
Tii
wxw
z
vzvy
1 0
10
exp1
1
sigmoid xw
zv
Rumelhart et al. (1986)
hj
h
h
i
ihj w
z
z
y
y
E
w
E
Производная ошибки по весу
Проблема локальных Проблема локальных минимумовминимумов
Идеальный классификатор(глобальный минимум)
Локально оптимальны классификатор(локальный минимум)
ОсобенностиОсобенности
ПлюсыПлюсы УниверсальностьУниверсальность
Возможность решать Возможность решать задачи со множеством задачи со множеством классов, регрессии и т.д.классов, регрессии и т.д.
Высокая степень Высокая степень параллельностипараллельности
Почти неограниченный Почти неограниченный простор для модификацийпростор для модификаций
МинусыМинусы Грубая минимизация Грубая минимизация
эмпирического рискаэмпирического риска
Проблема локальных Проблема локальных минимумовминимумов
Очень большая Очень большая склонность к склонность к переобучениюпереобучению
Где почитать подробней:Где почитать подробней:
Вежневец А. «Популярные нейросетевые архитектуры» сетевой Вежневец А. «Популярные нейросетевые архитектуры» сетевой журнал «Графика и Мультимедиа»журнал «Графика и Мультимедиа» http://cgm.graphicon.ru/content/view/57/66/http://cgm.graphicon.ru/content/view/57/66/
Вежневец А. «Нестандартные нейросетевые архитектуры» Вежневец А. «Нестандартные нейросетевые архитектуры» сетевой журнал «Графика и Мультимедиа»сетевой журнал «Графика и Мультимедиа» http://cgm.graphicon.ru/content/view/62/66/http://cgm.graphicon.ru/content/view/62/66/
Ресурс Сергея Терехова посвященный нейронным сетям Ресурс Сергея Терехова посвященный нейронным сетям http://alife.narod.ru/lectures/index.htmlhttp://alife.narod.ru/lectures/index.html
Нейронные сетиНейронные сетиПрактическое применениеПрактическое применение
В свое время, пользовались большой популярностью за счет В свое время, пользовались большой популярностью за счет универсальности и простоты примененияуниверсальности и простоты применения ( (фактически, первое фактически, первое семейство универсальных методовсемейство универсальных методов)) Фактически, нейронной сети можно было скормить все что угодно и Фактически, нейронной сети можно было скормить все что угодно и
она что-то выдавалаона что-то выдавала
Однако, нейронные сети во многом являются «дилетантским» Однако, нейронные сети во многом являются «дилетантским» подходом к машинному обучению и с точки зрения теории (и подходом к машинному обучению и с точки зрения теории (и экспериментальных замеров) представляют собой очень экспериментальных замеров) представляют собой очень ненадежный и неточный механизмненадежный и неточный механизм
SVMSVM1. Максимизация отступа1. Максимизация отступа
Прямых, разделяющих точки,может быть множество
А почему бы не брать ту, которая равно и максимально удалена от обоих классов?
SVMSVM2. Опорные вектора2. Опорные вектора
Измениться ли разделяющаяповерхность?
Прецеденты, которые нельзя убратьбез изменения поверхности
SVMSVMСлучай линейной разделимостиСлучай линейной разделимости
Задача формулируется как поиск Задача формулируется как поиск гиперплоскости максимально от гиперплоскости максимально от выпуклой оболочки классоввыпуклой оболочки классов
Как выяснилось, такую Как выяснилось, такую гиперплоскость всегда можно гиперплоскость всегда можно записать в виде линейной записать в виде линейной комбинации «опорных векторов» комбинации «опорных векторов» - прецедентов, принадлежащих - прецедентов, принадлежащих выпуклой оболочкевыпуклой оболочке
SVMSVMСлучай линейной разделимостиСлучай линейной разделимости
Задачу поиска такой Задачу поиска такой гиперплоскости можно гиперплоскости можно записать как задачу записать как задачу оптимизации:оптимизации:
2
2
1minarg ww
1 bxwy ii
Чисто геометрическая задача
Глобальный минимумнаходится методом
квадратичного программирования
SVMSVMСлучай линейной разделимостиСлучай линейной разделимости
ПлюсыПлюсы Глобальный минимумГлобальный минимум
Теоретически доказана Теоретически доказана минимальность оценки минимальность оценки общего риска (Вапник)общего риска (Вапник)
Требует знания только Требует знания только скалярных произведенийскалярных произведений
МинусыМинусы Работает только для Работает только для
линейно разделимых линейно разделимых классовклассов
SVMSVMСлучай шумаСлучай шума
Просто переформулируем Просто переформулируем оптимизационную задачу, оптимизационную задачу, допустив ошибку, но штрафуя допустив ошибку, но штрафуя за неё:за неё:
i
iCww 2
21minarg
iii bxwy 1
Регулирует баланс точности и толерантности
SVMSVMСлучай нелинейной разделимостиСлучай нелинейной разделимости
Идея «ядровых» Идея «ядровых» преобразований:преобразований: Отобразить данные в Отобразить данные в
пространство, в котором пространство, в котором разделяющая поверхность разделяющая поверхность будет линейной (или близкой будет линейной (или близкой к линейной)к линейной)
Ядровые преобразования Ядровые преобразования можно быстро вычислять для можно быстро вычислять для скалярных произведений, скалярных произведений, даже при бесконечной даже при бесконечной размерности целевого размерности целевого пространствапространства
0),'exp()',(
)'()',(2
xxxxK
xxxxK d
SVMSVM
ПлюсыПлюсы Однозначность решения Однозначность решения
(глобальный минимум)(глобальный минимум)
Теоретически доказана Теоретически доказана минимальность оценки минимальность оценки общего риска (Вапник)общего риска (Вапник)
При помощи ядровых При помощи ядровых преобразований преобразований обобщается на случай обобщается на случай сложных поверхностейсложных поверхностей
МинусыМинусы Требует подбора Требует подбора
множества параметров множества параметров (ядро, параметры ядра, (ядро, параметры ядра, штраф за ошибки)штраф за ошибки)
Теор. оценки верны Теор. оценки верны только для случая только для случая разделимости (схема со разделимости (схема со штрафами - эвристика)штрафами - эвристика)
Очень чувствителен к Очень чувствителен к нормализации данных!нормализации данных!
SVMSVMПрактическое применениеПрактическое применение
Метод являлся наилучшим методом классификации до, Метод являлся наилучшим методом классификации до, примерно, 2000 года наголову обгоняя нейронные сети и т.п.примерно, 2000 года наголову обгоняя нейронные сети и т.п.
Фактически, метод опорных векторов – практический выход Фактически, метод опорных векторов – практический выход теории Вапника-Червоненкисатеории Вапника-Червоненкиса
Однако, необходимость подбора большого числа не Однако, необходимость подбора большого числа не интуитивных параметров сильно снижала его применение в интуитивных параметров сильно снижала его применение в простых разработках (требовала наличия эксперта)простых разработках (требовала наличия эксперта)