Машинное обучение 1, осень 2014: compressed sensing, elastic net. Обзор...

34
Линейные модели: жатые чувства, SVM (начнем) И. Куралёнок, Н. Поваров Яндекс СПб, 2013 И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 1 из 30

Upload: cs-center

Post on 15-Jun-2015

287 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

Линейные модели: жатые чувства,SVM (начнем)

И. Куралёнок, Н. Поваров

Яндекс

СПб, 2013

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 1 из 30

Page 2: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

План1 Постановка задачи восстановления сигнала

ПримерРазложение сигнала в Фурье и постановка в нахождениикоэффициентов

2 LASSO для восстановления сигналаТеорема о качестве восстановленного сигнала (Candes et al.2006)Стабильность решения: RIP, RRfND (Candes et al. 2006)LASSO persistency theorem (Bickel et al., 2009)

3 Support vector machinesИдея методаКоэффициенты Лагранжа для решения задачи промаксимальное расстояние

4 Домашнее задание

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 1 из 30

Page 3: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

Пример

Сергей Юрьевич любит смотреть телевизор ирассуждать. Есть мнение, что в основном потелевизору "льют воду". Надо понять как часто надообращать внимание на то, что проиходит на экране,чтобы не упустить "нить".

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 2 из 30

Page 4: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

Пример: постановка задачи

В телевизоре хотят сказать x0 (β∗)Матрица A (X ) — язык передачиy 0 (y) — то, что мы видим

⇒ Хотим устроить язык передачи так, чтобы минимизировать количествонаблюдений, для восстановления β как можно ближе к правде β∗

Картинка из Tutorial ICML2010 by Irina Rish & Genady Grabarnik

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 3 из 30

Page 5: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

Сюрприз compressed sensing

y = Xβ + ε

Если компоненты матрицы X независимые, одинаковораспределенные, нормальные, то β можно восстановить точно сбольшой вероятностью:

из O(klog(mk )) измерений;

решив оптимизацию

argminβ ‖β‖1‖y − Xβ‖ < ε

⇒ где-то мы уже такое видели

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 4 из 30

Page 6: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

Линейная регрессия vs. восстановлениесигнала

Решают одну и ту же задачуОдни и те же алгоритмыУчиться сложнее:

нету влияния на построение матрицы X ;в частности нет гарантий на свойства матрицы X ;наличие в β большого количество нулей – лишь нашепредположение.

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 5 из 30

Page 7: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

Постановка в терминах RFP IБудем рассматривать множество возможных наблюдений какось времени, тогда можно рассматривать передачу информациио загаданном β∗ как моделирование сигнала через разложение вФурье. При этом, для простоты, будем считать, что количествовозможных наблюдений совпадает с размерностью вектора β∗, вэтом случае мы можем рассматривать преобразование каклинейную систему DFT:

y = Fβ∗

=∑n

t=1 βte−2πiωt

n

Возвращаясь к примеру, для Сергея Юрьевича ситуациявыглядит как-то так:

β∗ = F−1Fβ∗ =1nF∗Fβ∗

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 6 из 30

Page 8: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

План1 Постановка задачи восстановления сигнала

ПримерРазложение сигнала в Фурье и постановка в нахождениикоэффициентов

2 LASSO для восстановления сигналаТеорема о качестве восстановленного сигнала (Candes et al.2006)Стабильность решения: RIP, RRfND (Candes et al. 2006)LASSO persistency theorem (Bickel et al., 2009)

3 Support vector machinesИдея методаКоэффициенты Лагранжа для решения задачи промаксимальное расстояние

4 Домашнее задание

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 6 из 30

Page 9: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

Постановка в терминах RFP II

arg minβ ‖β‖1‖y − Xβ‖ < ε

В новых обозначениях:

arg minβ ‖β‖1‖(Fβ)Ω − (Fβ∗)Ω‖ < ε

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 7 из 30

Page 10: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

LASSO для восстановления сигнала

Для начала решим задачу в которой наблюденияточные:

y = (Fβ∗)k , k ∈ Ω

При этом будем решать

arg minβ ‖β‖1(Fβ)k = (Fβ∗)k , k ∈ Ω

с равными размерностями β∗ и Fβ∗.

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 8 из 30

Page 11: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

Теорема о качестве восстановленногосигнала для RFP

Theorem (Candes et al. (2006))β ∈ Cn, |i ∈ Zn|β∗i 6= 0| = S

Ω ⊂ Zn — одно из равновероятных множеств размера n

зафиксируем точность B

⇒ c вероятностью P ≥ 1− O(n−B) мы можем точновосстановить β∗, если:

|Ω| ≥ C′

BS log n

где C ′B ' 23(B + 1)

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 9 из 30

Page 12: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

Выводы из теоремы

Теорема рассказывает о свойствах случайной DFTпроекцииЗагаданный вектор x может быть восстановлен:

с высокой вероятностьюиспользуя LASSOколичество наблюдений пропорционально количествуненулей в “загаданном” сигнале

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 10 из 30

Page 13: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

Упрощение рандома

В теореме Ω равномерно распределена по всеммножествам размера n. Такое сложно генерировать.Значительно проще Ω

′: ∀j ∈ Zn,P(j ∈ Ω) = τ .

⇒ Для таких проекций вероятность восстановитьсигнал примерно такая же.

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 11 из 30

Page 14: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

Стабильно ли решение?Интересны два вида “стабильности”:

стабильность: маленькие изменения в решении при маломизменении в наблюдениях (изменения взагаданном);

робастность: устойчивость к шуму в данных (неточно померялиотлик x).

Если мы уже решили проблему построения T , то решениестабильно:

β = (F∗T ,ΩFT ,Ω)−1F∗T ,Ωy

Из доказательства теоремы о восстановлении сигналаF∗T ,ΩFT ,Ω > δE c высокой вероятностью при условии на Ω. Авот с робастностью все сложнее...

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 12 из 30

Page 15: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

А что же с произвольно построенным X ?

Пока Сергей Юрьевич получал закодированный вФурье сигнал и раскодировал его обратным Фурье. Ачто, если кодировани и раскодирование сигналапроисходит как-то иначе. Положим, что так:

β∗ = Φ−1Φβ∗ = ΨΦβ∗

Будем рассматривать ортонормированные Φ,Ψ

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 13 из 30

Page 16: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

Когерентность базисов

DefinitionДля пары ортонормированных базисов назовем

µ(Φ,Ψ) =√nmax

i ,j|(φi , ψj)|

когерентностью.

Заметим, что 1 ≤ µ(Φ,Ψ) ≤√n

В случае Фурье получается экстремально хороший случай:µ(DFT , IDFT ) = 1

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 14 из 30

Page 17: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

Теорема о качестве восстановленногосигнала для произвольных базисов

Theorem (Candes and Romberg (2006))Для фиксированной δ > 0 и x ∈ Rn, |i |β∗i 6= 0| < S. ВыберемΩ точек для наблюдения равномерно из Zn без повторений. Если

|Ω| ≥ Cµ2(Φ,Ψ)S lognδ

тогда решение LASSO:

argminβ∈Rn ‖β‖1(Φβ)Ω = (Ψx)Ω

восстановит x с вероятностью 1− δ

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 15 из 30

Page 18: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

Возвращаемся к случаю шумныхнаблюденийВоспользовавшись построенной теорией для точныхнаблюдений, введем ряд дополнительных ограничений:

1 Вводим ограничение на модельную матрицу (RestrictedIsomenry Property):

∃δ(S = |i |x 6= 0|) :(1− δ(S))‖x‖2 ≤ ‖Ax‖2 ≤ (1 + δ(S))‖x‖2

2 В введенных условиях получаем ограничение наробастность в рамках восстановления сигнала

3 Переходим от когерентности к условиям на собственныечисла модельной матрицы

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 16 из 30

Page 19: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

LASSO persistency theorem

Во введенных условиях оказывается, что (LASSOpersistency theorem, Bickel et al., 2009):

‖β − β∗‖ ≤ O

(√log nm

)

Сравним полученное с условиями на несмещенноерешение, где мы могли легко убежать бесконечнодалеко от заданного β∗.

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 17 из 30

Page 20: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

Что мы узнали про CS1 Можно ставить задачу по восстановлению сигнала

2 Для решения задачи нам понадобится рандомно выбиратьточки наблюдения

3 Оказывается, что решать подобные задачи нужно тем жесамым LASSO

4 Эффективность решения зависит от того, как построить“язык передачи информации”

5 Одним из самых хороших универсальных языков (cминимально возможной когерентностью) являетсяDFT/IDFT

6 C помощью механизма CS можно доказать устойчивостьрешения LASSO

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 18 из 30

Page 21: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

План1 Постановка задачи восстановления сигнала

ПримерРазложение сигнала в Фурье и постановка в нахождениикоэффициентов

2 LASSO для восстановления сигналаТеорема о качестве восстановленного сигнала (Candes et al.2006)Стабильность решения: RIP, RRfND (Candes et al. 2006)LASSO persistency theorem (Bickel et al., 2009)

3 Support vector machinesИдея методаКоэффициенты Лагранжа для решения задачи промаксимальное расстояние

4 Домашнее задание

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 18 из 30

Page 22: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

SVM(воспоминания о былом)

Последний из линейных методов, который мырассмотрим подробно.Rocket science до конца 90-х, по крайней мере взадачах классификации.

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 19 из 30

Page 23: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

SVM на пальцах

Максимальный зазор.Нелинейные преобразования.

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 20 из 30

Page 24: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

Мысли вслух

Почему большой зазор это хорошо?Какая β максимизирует зазор?

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 21 из 30

Page 25: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

Найдем ширину “зазора”: геометрияЕсть две параллельные плоскости:

βTx = aβTx = b

проведем прямую, перпендикулярную этой плоскости:y = ‖β‖ β

‖β‖t. Пересечет она наши плоскости вот так:βT (‖β‖ β

‖β‖ta) = aβT (‖β‖ β

‖β‖tb) = bta = a

‖β‖tb = b

‖β‖

тогда расстояние по полученной прямой: |ta − tb| = |a−b|‖β‖

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 22 из 30

Page 26: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

Найдем ширину “зазора”: мат. анализ

Решим оптимизацией:

min12‖x − y‖2

βT x = aβT y = b

Перейдем к коэффициентам Лагранжа:

min12‖x − y‖2 + λ1(βT x − a) + λ2(βT y − b)

Найдем нули производных по всем переменным:βT x = aβT y = bx − y + λ1β = 0x − y + λ2β = 0

βT (x − y) = a− bλ1 = λ2‖β‖λ1 = b − a

λ1 = λ2 = b−a

‖β‖2

x − y = b−a‖β‖2 ‖β‖

(β‖β‖

)

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 23 из 30

Page 27: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

Возвращаясь к SVM

Теперь мы знаем что оптимизировать. Отнормируемразделяющие плоскости так:

βTx = b − 1βTx = b + 1

В этих терминах нас |a − b| фиксированы и оптимизировать мыбудем только β:

arg min‖β‖2

Вот в таких условиях (yi ∈ −1, 1):

yi(βTxi − b) ≥ 1

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 24 из 30

Page 28: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

По методу Лагранжа

По теореме Куна-Таккера:

L =12‖β‖2 −

m∑i=1

λi(yi(βxi − β0)− 1), λi ≥ 0

−L = −∑m

i=1 λi + 12

∑mi=1∑m

j=1 λiλjyiyj(xixj)λi ≥ 0∑m

i=1 λiyi = 0

Тогда:β =

∑mi=1 λiyixi

β0 = βxi − yi , λi > 0

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 25 из 30

Page 29: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

Чем стало легче?

Адовые условия сменились простым λi > 0У нас получился квадрат количества точекИнтересны только (xi , xj) с которыми мы можемиграться (kernel trick)!

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 26 из 30

Page 30: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

План1 Постановка задачи восстановления сигнала

ПримерРазложение сигнала в Фурье и постановка в нахождениикоэффициентов

2 LASSO для восстановления сигналаТеорема о качестве восстановленного сигнала (Candes et al.2006)Стабильность решения: RIP, RRfND (Candes et al. 2006)LASSO persistency theorem (Bickel et al., 2009)

3 Support vector machinesИдея методаКоэффициенты Лагранжа для решения задачи промаксимальное расстояние

4 Домашнее задание

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 26 из 30

Page 31: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

Результаты ДЗ про придумать таргет

1 c8a9ac - 1

2 1f7d2b - 1

3 4da958 - 2

4 64d24a - 2

5 d3905c - 2

6 2b2904 - 2

7 6af9f9 - 3

8 4afcbe - 3

9 dcd1b7 - 3

10 d1393f - 3

11 b764ae - 4

12 5266fc - 4

13 2dd08e - 4

14 326690 - 4

15 620441 - 4

16 e7d20b - 4

17 2f1218 - 4

18 9b423e - 4

19 7a3ccc - 5

20 93203b - 6

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 27 из 30

Page 32: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

Результаты ДЗ (комментарий)

1 Про диагностику насморка - всё просто и решили!!почти!! все

2 Про диагностику рака - многие вспомнили пробесконечные штрафы, но про то, что лечение отрака для здоровья небесплатно не вспомнил никто

3 Про кризисное состояние - только некоторыепоняли, что в кризисном состоянии некоторыедиагнозы не имеют смысла, так как неизлечимы

4 Про пребывание в больнице - у всех простое инеинтересное решение

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 28 из 30

Page 33: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

Результаты ДЗ (советы)

1 Надо помнить про бесконечные штрафы2 Надо помнить про эксплуатацию, а не только

формально считать число ошибок3 Кроме точности/полноты/аккуратности у которых

есть проблема в случае перекошенной выборкиесть такие штуки, какчувствительность/специфичность/AUC

4 Целевая функция != факторы и целевая функция!= решающая функция

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 29 из 30

Page 34: Машинное обучение 1, осень 2014: Compressed sensing, Elastic net. Обзор имплементаций LASSO

Домашнее задание

так как svm сегодня рассказан не полностью, тодомашнее задание по нему будет на следующейлекции;хинт - задание будет по svm, датасет будет тот же;дедлайн будет - 28 ноября.

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2013 Стр. 30 из 30