Машинное обучение 1, осень 2014: compressed sensing, elastic net. Обзор...

Линейные модели: жатые чувства,SVM (начнем)

И. Куралёнок, Н. Поваров

Яндекс

СПб, 2013

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 1 из 30

План1 Постановка задачи восстановления сигнала

ПримерРазложение сигнала в Фурье и постановка в нахождениикоэффициентов

2 LASSO для восстановления сигналаТеорема о качестве восстановленного сигнала (Candes et al.2006)Стабильность решения: RIP, RRfND (Candes et al. 2006)LASSO persistency theorem (Bickel et al., 2009)

3 Support vector machinesИдея методаКоэффициенты Лагранжа для решения задачи промаксимальное расстояние

4 Домашнее задание


Пример

Сергей Юрьевич любит смотреть телевизор ирассуждать. Есть мнение, что в основном потелевизору "льют воду". Надо понять как часто надообращать внимание на то, что проиходит на экране,чтобы не упустить "нить".


Пример: постановка задачи

В телевизоре хотят сказать x0 (β∗)Матрица A (X ) — язык передачиy 0 (y) — то, что мы видим

⇒ Хотим устроить язык передачи так, чтобы минимизировать количествонаблюдений, для восстановления β как можно ближе к правде β∗

Картинка из Tutorial ICML2010 by Irina Rish & Genady Grabarnik


Сюрприз compressed sensing

y = Xβ + ε

Если компоненты матрицы X независимые, одинаковораспределенные, нормальные, то β можно восстановить точно сбольшой вероятностью:

из O(klog(mk )) измерений;

решив оптимизацию

argminβ ‖β‖1‖y − Xβ‖ < ε

⇒ где-то мы уже такое видели


Линейная регрессия vs. восстановлениесигнала

Решают одну и ту же задачуОдни и те же алгоритмыУчиться сложнее:

нету влияния на построение матрицы X ;в частности нет гарантий на свойства матрицы X ;наличие в β большого количество нулей – лишь нашепредположение.


Постановка в терминах RFP IБудем рассматривать множество возможных наблюдений какось времени, тогда можно рассматривать передачу информациио загаданном β∗ как моделирование сигнала через разложение вФурье. При этом, для простоты, будем считать, что количествовозможных наблюдений совпадает с размерностью вектора β∗, вэтом случае мы можем рассматривать преобразование каклинейную систему DFT:

y = Fβ∗

=∑n

t=1 βte−2πiωt

n

Возвращаясь к примеру, для Сергея Юрьевича ситуациявыглядит как-то так:

β∗ = F−1Fβ∗ =1nF∗Fβ∗


Постановка в терминах RFP II

arg minβ ‖β‖1‖y − Xβ‖ < ε

В новых обозначениях:

arg minβ ‖β‖1‖(Fβ)Ω − (Fβ∗)Ω‖ < ε


LASSO для восстановления сигнала

Для начала решим задачу в которой наблюденияточные:

y = (Fβ∗)k , k ∈ Ω

При этом будем решать

arg minβ ‖β‖1(Fβ)k = (Fβ∗)k , k ∈ Ω

с равными размерностями β∗ и Fβ∗.


Теорема о качестве восстановленногосигнала для RFP

Theorem (Candes et al. (2006))β ∈ Cn, |i ∈ Zn|β∗i 6= 0| = S

Ω ⊂ Zn — одно из равновероятных множеств размера n

зафиксируем точность B

⇒ c вероятностью P ≥ 1− O(n−B) мы можем точновосстановить β∗, если:

|Ω| ≥ C′

BS log n

где C ′B ' 23(B + 1)


Выводы из теоремы

Теорема рассказывает о свойствах случайной DFTпроекцииЗагаданный вектор x может быть восстановлен:

с высокой вероятностьюиспользуя LASSOколичество наблюдений пропорционально количествуненулей в “загаданном” сигнале


Упрощение рандома

В теореме Ω равномерно распределена по всеммножествам размера n. Такое сложно генерировать.Значительно проще Ω

′: ∀j ∈ Zn,P(j ∈ Ω) = τ .

⇒ Для таких проекций вероятность восстановитьсигнал примерно такая же.


Стабильно ли решение?Интересны два вида “стабильности”:

стабильность: маленькие изменения в решении при маломизменении в наблюдениях (изменения взагаданном);

робастность: устойчивость к шуму в данных (неточно померялиотлик x).

Если мы уже решили проблему построения T , то решениестабильно:

β = (F∗T ,ΩFT ,Ω)−1F∗T ,Ωy

Из доказательства теоремы о восстановлении сигналаF∗T ,ΩFT ,Ω > δE c высокой вероятностью при условии на Ω. Авот с робастностью все сложнее...


А что же с произвольно построенным X ?

Пока Сергей Юрьевич получал закодированный вФурье сигнал и раскодировал его обратным Фурье. Ачто, если кодировани и раскодирование сигналапроисходит как-то иначе. Положим, что так:

β∗ = Φ−1Φβ∗ = ΨΦβ∗

Будем рассматривать ортонормированные Φ,Ψ


Когерентность базисов

DefinitionДля пары ортонормированных базисов назовем

µ(Φ,Ψ) =√nmax

i ,j|(φi , ψj)|

когерентностью.

Заметим, что 1 ≤ µ(Φ,Ψ) ≤√n

В случае Фурье получается экстремально хороший случай:µ(DFT , IDFT ) = 1


Теорема о качестве восстановленногосигнала для произвольных базисов

Theorem (Candes and Romberg (2006))Для фиксированной δ > 0 и x ∈ Rn, |i |β∗i 6= 0| < S. ВыберемΩ точек для наблюдения равномерно из Zn без повторений. Если

|Ω| ≥ Cµ2(Φ,Ψ)S lognδ

тогда решение LASSO:

argminβ∈Rn ‖β‖1(Φβ)Ω = (Ψx)Ω

восстановит x с вероятностью 1− δ


Возвращаемся к случаю шумныхнаблюденийВоспользовавшись построенной теорией для точныхнаблюдений, введем ряд дополнительных ограничений:

1 Вводим ограничение на модельную матрицу (RestrictedIsomenry Property):

∃δ(S = |i |x 6= 0|) :(1− δ(S))‖x‖2 ≤ ‖Ax‖2 ≤ (1 + δ(S))‖x‖2

2 В введенных условиях получаем ограничение наробастность в рамках восстановления сигнала

3 Переходим от когерентности к условиям на собственныечисла модельной матрицы


LASSO persistency theorem

Во введенных условиях оказывается, что (LASSOpersistency theorem, Bickel et al., 2009):

‖β − β∗‖ ≤ O

(√log nm

)

Сравним полученное с условиями на несмещенноерешение, где мы могли легко убежать бесконечнодалеко от заданного β∗.


Что мы узнали про CS1 Можно ставить задачу по восстановлению сигнала

2 Для решения задачи нам понадобится рандомно выбиратьточки наблюдения

3 Оказывается, что решать подобные задачи нужно тем жесамым LASSO

4 Эффективность решения зависит от того, как построить“язык передачи информации”

5 Одним из самых хороших универсальных языков (cминимально возможной когерентностью) являетсяDFT/IDFT

6 C помощью механизма CS можно доказать устойчивостьрешения LASSO


SVM(воспоминания о былом)

Последний из линейных методов, который мырассмотрим подробно.Rocket science до конца 90-х, по крайней мере взадачах классификации.


SVM на пальцах

Максимальный зазор.Нелинейные преобразования.


Мысли вслух

Почему большой зазор это хорошо?Какая β максимизирует зазор?


Найдем ширину “зазора”: геометрияЕсть две параллельные плоскости:

βTx = aβTx = b

проведем прямую, перпендикулярную этой плоскости:y = ‖β‖ β

‖β‖t. Пересечет она наши плоскости вот так:βT (‖β‖ β

‖β‖ta) = aβT (‖β‖ β

‖β‖tb) = bta = a

‖β‖tb = b

‖β‖

тогда расстояние по полученной прямой: |ta − tb| = |a−b|‖β‖


Найдем ширину “зазора”: мат. анализ

Решим оптимизацией:

min12‖x − y‖2

βT x = aβT y = b

Перейдем к коэффициентам Лагранжа:

min12‖x − y‖2 + λ1(βT x − a) + λ2(βT y − b)

Найдем нули производных по всем переменным:βT x = aβT y = bx − y + λ1β = 0x − y + λ2β = 0

βT (x − y) = a− bλ1 = λ2‖β‖λ1 = b − a

λ1 = λ2 = b−a

‖β‖2

x − y = b−a‖β‖2 ‖β‖

(β‖β‖

)


Возвращаясь к SVM

Теперь мы знаем что оптимизировать. Отнормируемразделяющие плоскости так:

βTx = b − 1βTx = b + 1

В этих терминах нас |a − b| фиксированы и оптимизировать мыбудем только β:

arg min‖β‖2

Вот в таких условиях (yi ∈ −1, 1):

yi(βTxi − b) ≥ 1


По методу Лагранжа

По теореме Куна-Таккера:

L =12‖β‖2 −

m∑i=1

λi(yi(βxi − β0)− 1), λi ≥ 0

−L = −∑m

i=1 λi + 12

∑mi=1∑m

j=1 λiλjyiyj(xixj)λi ≥ 0∑m

i=1 λiyi = 0

Тогда:β =

∑mi=1 λiyixi

β0 = βxi − yi , λi > 0


Чем стало легче?

Адовые условия сменились простым λi > 0У нас получился квадрат количества точекИнтересны только (xi , xj) с которыми мы можемиграться (kernel trick)!


Результаты ДЗ про придумать таргет

1 c8a9ac - 1

2 1f7d2b - 1

3 4da958 - 2

4 64d24a - 2

5 d3905c - 2

6 2b2904 - 2

7 6af9f9 - 3

8 4afcbe - 3

9 dcd1b7 - 3

10 d1393f - 3

11 b764ae - 4

12 5266fc - 4

13 2dd08e - 4

14 326690 - 4

15 620441 - 4

16 e7d20b - 4

17 2f1218 - 4

18 9b423e - 4

19 7a3ccc - 5

20 93203b - 6


Результаты ДЗ (комментарий)

1 Про диагностику насморка - всё просто и решили!!почти!! все

2 Про диагностику рака - многие вспомнили пробесконечные штрафы, но про то, что лечение отрака для здоровья небесплатно не вспомнил никто

3 Про кризисное состояние - только некоторыепоняли, что в кризисном состоянии некоторыедиагнозы не имеют смысла, так как неизлечимы

4 Про пребывание в больнице - у всех простое инеинтересное решение


Результаты ДЗ (советы)

1 Надо помнить про бесконечные штрафы2 Надо помнить про эксплуатацию, а не только

формально считать число ошибок3 Кроме точности/полноты/аккуратности у которых

есть проблема в случае перекошенной выборкиесть такие штуки, какчувствительность/специфичность/AUC

4 Целевая функция != факторы и целевая функция!= решающая функция


Домашнее задание

так как svm сегодня рассказан не полностью, тодомашнее задание по нему будет на следующейлекции;хинт - задание будет по svm, датасет будет тот же;дедлайн будет - 28 ноября.


Машинное обучение 1, осень 2014: compressed sensing, elastic net. Обзор...

Documents