Машинное обучение 1, осень 2014: compressed sensing, elastic net. Обзор...
TRANSCRIPT
Линейные модели: жатые чувства,SVM (начнем)
И. Куралёнок, Н. Поваров
Яндекс
СПб, 2013
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 1 из 30
План1 Постановка задачи восстановления сигнала
ПримерРазложение сигнала в Фурье и постановка в нахождениикоэффициентов
2 LASSO для восстановления сигналаТеорема о качестве восстановленного сигнала (Candes et al.2006)Стабильность решения: RIP, RRfND (Candes et al. 2006)LASSO persistency theorem (Bickel et al., 2009)
3 Support vector machinesИдея методаКоэффициенты Лагранжа для решения задачи промаксимальное расстояние
4 Домашнее задание
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 1 из 30
Пример
Сергей Юрьевич любит смотреть телевизор ирассуждать. Есть мнение, что в основном потелевизору "льют воду". Надо понять как часто надообращать внимание на то, что проиходит на экране,чтобы не упустить "нить".
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 2 из 30
Пример: постановка задачи
В телевизоре хотят сказать x0 (β∗)Матрица A (X ) — язык передачиy 0 (y) — то, что мы видим
⇒ Хотим устроить язык передачи так, чтобы минимизировать количествонаблюдений, для восстановления β как можно ближе к правде β∗
Картинка из Tutorial ICML2010 by Irina Rish & Genady Grabarnik
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 3 из 30
Сюрприз compressed sensing
y = Xβ + ε
Если компоненты матрицы X независимые, одинаковораспределенные, нормальные, то β можно восстановить точно сбольшой вероятностью:
из O(klog(mk )) измерений;
решив оптимизацию
argminβ ‖β‖1‖y − Xβ‖ < ε
⇒ где-то мы уже такое видели
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 4 из 30
Линейная регрессия vs. восстановлениесигнала
Решают одну и ту же задачуОдни и те же алгоритмыУчиться сложнее:
нету влияния на построение матрицы X ;в частности нет гарантий на свойства матрицы X ;наличие в β большого количество нулей – лишь нашепредположение.
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 5 из 30
Постановка в терминах RFP IБудем рассматривать множество возможных наблюдений какось времени, тогда можно рассматривать передачу информациио загаданном β∗ как моделирование сигнала через разложение вФурье. При этом, для простоты, будем считать, что количествовозможных наблюдений совпадает с размерностью вектора β∗, вэтом случае мы можем рассматривать преобразование каклинейную систему DFT:
y = Fβ∗
=∑n
t=1 βte−2πiωt
n
Возвращаясь к примеру, для Сергея Юрьевича ситуациявыглядит как-то так:
β∗ = F−1Fβ∗ =1nF∗Fβ∗
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 6 из 30
План1 Постановка задачи восстановления сигнала
ПримерРазложение сигнала в Фурье и постановка в нахождениикоэффициентов
2 LASSO для восстановления сигналаТеорема о качестве восстановленного сигнала (Candes et al.2006)Стабильность решения: RIP, RRfND (Candes et al. 2006)LASSO persistency theorem (Bickel et al., 2009)
3 Support vector machinesИдея методаКоэффициенты Лагранжа для решения задачи промаксимальное расстояние
4 Домашнее задание
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 6 из 30
Постановка в терминах RFP II
arg minβ ‖β‖1‖y − Xβ‖ < ε
В новых обозначениях:
arg minβ ‖β‖1‖(Fβ)Ω − (Fβ∗)Ω‖ < ε
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 7 из 30
LASSO для восстановления сигнала
Для начала решим задачу в которой наблюденияточные:
y = (Fβ∗)k , k ∈ Ω
При этом будем решать
arg minβ ‖β‖1(Fβ)k = (Fβ∗)k , k ∈ Ω
с равными размерностями β∗ и Fβ∗.
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 8 из 30
Теорема о качестве восстановленногосигнала для RFP
Theorem (Candes et al. (2006))β ∈ Cn, |i ∈ Zn|β∗i 6= 0| = S
Ω ⊂ Zn — одно из равновероятных множеств размера n
зафиксируем точность B
⇒ c вероятностью P ≥ 1− O(n−B) мы можем точновосстановить β∗, если:
|Ω| ≥ C′
BS log n
где C ′B ' 23(B + 1)
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 9 из 30
Выводы из теоремы
Теорема рассказывает о свойствах случайной DFTпроекцииЗагаданный вектор x может быть восстановлен:
с высокой вероятностьюиспользуя LASSOколичество наблюдений пропорционально количествуненулей в “загаданном” сигнале
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 10 из 30
Упрощение рандома
В теореме Ω равномерно распределена по всеммножествам размера n. Такое сложно генерировать.Значительно проще Ω
′: ∀j ∈ Zn,P(j ∈ Ω) = τ .
⇒ Для таких проекций вероятность восстановитьсигнал примерно такая же.
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 11 из 30
Стабильно ли решение?Интересны два вида “стабильности”:
стабильность: маленькие изменения в решении при маломизменении в наблюдениях (изменения взагаданном);
робастность: устойчивость к шуму в данных (неточно померялиотлик x).
Если мы уже решили проблему построения T , то решениестабильно:
β = (F∗T ,ΩFT ,Ω)−1F∗T ,Ωy
Из доказательства теоремы о восстановлении сигналаF∗T ,ΩFT ,Ω > δE c высокой вероятностью при условии на Ω. Авот с робастностью все сложнее...
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 12 из 30
А что же с произвольно построенным X ?
Пока Сергей Юрьевич получал закодированный вФурье сигнал и раскодировал его обратным Фурье. Ачто, если кодировани и раскодирование сигналапроисходит как-то иначе. Положим, что так:
β∗ = Φ−1Φβ∗ = ΨΦβ∗
Будем рассматривать ортонормированные Φ,Ψ
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 13 из 30
Когерентность базисов
DefinitionДля пары ортонормированных базисов назовем
µ(Φ,Ψ) =√nmax
i ,j|(φi , ψj)|
когерентностью.
Заметим, что 1 ≤ µ(Φ,Ψ) ≤√n
В случае Фурье получается экстремально хороший случай:µ(DFT , IDFT ) = 1
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 14 из 30
Теорема о качестве восстановленногосигнала для произвольных базисов
Theorem (Candes and Romberg (2006))Для фиксированной δ > 0 и x ∈ Rn, |i |β∗i 6= 0| < S. ВыберемΩ точек для наблюдения равномерно из Zn без повторений. Если
|Ω| ≥ Cµ2(Φ,Ψ)S lognδ
тогда решение LASSO:
argminβ∈Rn ‖β‖1(Φβ)Ω = (Ψx)Ω
восстановит x с вероятностью 1− δ
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 15 из 30
Возвращаемся к случаю шумныхнаблюденийВоспользовавшись построенной теорией для точныхнаблюдений, введем ряд дополнительных ограничений:
1 Вводим ограничение на модельную матрицу (RestrictedIsomenry Property):
∃δ(S = |i |x 6= 0|) :(1− δ(S))‖x‖2 ≤ ‖Ax‖2 ≤ (1 + δ(S))‖x‖2
2 В введенных условиях получаем ограничение наробастность в рамках восстановления сигнала
3 Переходим от когерентности к условиям на собственныечисла модельной матрицы
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 16 из 30
LASSO persistency theorem
Во введенных условиях оказывается, что (LASSOpersistency theorem, Bickel et al., 2009):
‖β − β∗‖ ≤ O
(√log nm
)
Сравним полученное с условиями на несмещенноерешение, где мы могли легко убежать бесконечнодалеко от заданного β∗.
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 17 из 30
Что мы узнали про CS1 Можно ставить задачу по восстановлению сигнала
2 Для решения задачи нам понадобится рандомно выбиратьточки наблюдения
3 Оказывается, что решать подобные задачи нужно тем жесамым LASSO
4 Эффективность решения зависит от того, как построить“язык передачи информации”
5 Одним из самых хороших универсальных языков (cминимально возможной когерентностью) являетсяDFT/IDFT
6 C помощью механизма CS можно доказать устойчивостьрешения LASSO
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 18 из 30
План1 Постановка задачи восстановления сигнала
ПримерРазложение сигнала в Фурье и постановка в нахождениикоэффициентов
2 LASSO для восстановления сигналаТеорема о качестве восстановленного сигнала (Candes et al.2006)Стабильность решения: RIP, RRfND (Candes et al. 2006)LASSO persistency theorem (Bickel et al., 2009)
3 Support vector machinesИдея методаКоэффициенты Лагранжа для решения задачи промаксимальное расстояние
4 Домашнее задание
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 18 из 30
SVM(воспоминания о былом)
Последний из линейных методов, который мырассмотрим подробно.Rocket science до конца 90-х, по крайней мере взадачах классификации.
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 19 из 30
SVM на пальцах
Максимальный зазор.Нелинейные преобразования.
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 20 из 30
Мысли вслух
Почему большой зазор это хорошо?Какая β максимизирует зазор?
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 21 из 30
Найдем ширину “зазора”: геометрияЕсть две параллельные плоскости:
βTx = aβTx = b
проведем прямую, перпендикулярную этой плоскости:y = ‖β‖ β
‖β‖t. Пересечет она наши плоскости вот так:βT (‖β‖ β
‖β‖ta) = aβT (‖β‖ β
‖β‖tb) = bta = a
‖β‖tb = b
‖β‖
тогда расстояние по полученной прямой: |ta − tb| = |a−b|‖β‖
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 22 из 30
Найдем ширину “зазора”: мат. анализ
Решим оптимизацией:
min12‖x − y‖2
βT x = aβT y = b
Перейдем к коэффициентам Лагранжа:
min12‖x − y‖2 + λ1(βT x − a) + λ2(βT y − b)
Найдем нули производных по всем переменным:βT x = aβT y = bx − y + λ1β = 0x − y + λ2β = 0
βT (x − y) = a− bλ1 = λ2‖β‖λ1 = b − a
λ1 = λ2 = b−a
‖β‖2
x − y = b−a‖β‖2 ‖β‖
(β‖β‖
)
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 23 из 30
Возвращаясь к SVM
Теперь мы знаем что оптимизировать. Отнормируемразделяющие плоскости так:
βTx = b − 1βTx = b + 1
В этих терминах нас |a − b| фиксированы и оптимизировать мыбудем только β:
arg min‖β‖2
Вот в таких условиях (yi ∈ −1, 1):
yi(βTxi − b) ≥ 1
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 24 из 30
По методу Лагранжа
По теореме Куна-Таккера:
L =12‖β‖2 −
m∑i=1
λi(yi(βxi − β0)− 1), λi ≥ 0
−L = −∑m
i=1 λi + 12
∑mi=1∑m
j=1 λiλjyiyj(xixj)λi ≥ 0∑m
i=1 λiyi = 0
Тогда:β =
∑mi=1 λiyixi
β0 = βxi − yi , λi > 0
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 25 из 30
Чем стало легче?
Адовые условия сменились простым λi > 0У нас получился квадрат количества точекИнтересны только (xi , xj) с которыми мы можемиграться (kernel trick)!
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 26 из 30
План1 Постановка задачи восстановления сигнала
ПримерРазложение сигнала в Фурье и постановка в нахождениикоэффициентов
2 LASSO для восстановления сигналаТеорема о качестве восстановленного сигнала (Candes et al.2006)Стабильность решения: RIP, RRfND (Candes et al. 2006)LASSO persistency theorem (Bickel et al., 2009)
3 Support vector machinesИдея методаКоэффициенты Лагранжа для решения задачи промаксимальное расстояние
4 Домашнее задание
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 26 из 30
Результаты ДЗ про придумать таргет
1 c8a9ac - 1
2 1f7d2b - 1
3 4da958 - 2
4 64d24a - 2
5 d3905c - 2
6 2b2904 - 2
7 6af9f9 - 3
8 4afcbe - 3
9 dcd1b7 - 3
10 d1393f - 3
11 b764ae - 4
12 5266fc - 4
13 2dd08e - 4
14 326690 - 4
15 620441 - 4
16 e7d20b - 4
17 2f1218 - 4
18 9b423e - 4
19 7a3ccc - 5
20 93203b - 6
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 27 из 30
Результаты ДЗ (комментарий)
1 Про диагностику насморка - всё просто и решили!!почти!! все
2 Про диагностику рака - многие вспомнили пробесконечные штрафы, но про то, что лечение отрака для здоровья небесплатно не вспомнил никто
3 Про кризисное состояние - только некоторыепоняли, что в кризисном состоянии некоторыедиагнозы не имеют смысла, так как неизлечимы
4 Про пребывание в больнице - у всех простое инеинтересное решение
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 28 из 30
Результаты ДЗ (советы)
1 Надо помнить про бесконечные штрафы2 Надо помнить про эксплуатацию, а не только
формально считать число ошибок3 Кроме точности/полноты/аккуратности у которых
есть проблема в случае перекошенной выборкиесть такие штуки, какчувствительность/специфичность/AUC
4 Целевая функция != факторы и целевая функция!= решающая функция
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 29 из 30
Домашнее задание
так как svm сегодня рассказан не полностью, тодомашнее задание по нему будет на следующейлекции;хинт - задание будет по svm, датасет будет тот же;дедлайн будет - 28 ноября.
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 30 из 30