l13: Заключительная

Post on 02-Jul-2015

181 Views

Category:

Software

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Введение в Data ScienceЗанятие 13. Заключительное

Николай Анохин Михаил Фирулик

31 мая 2014 г.

Предобработка данных

Заключение

Выбор параметров модели

Предобработка данных

I выбор признаков / feature selectionI дискретизация признаков / feature discretizationI очистка данных / data cleansingI уменьшение размерности / dimensionality reduction

Зачем выбирать признаки?

1. Качествоподвержены влиянию случайных признаков: DT, KNN, ...

2. Скоростьхотя отбор признаков на практике медленный

3. Интерпретируемость

Подходы к выбору признаков

I Ручнойлучше, если вы знаете, что делаете

I АвтоматизированныйI Схемо-независимый / Scheme-independentI Схемо-зависимый / Scheme-specific

Схемо-независимый подход

I Выбрать столько, чтобыидентифицировать каждыйобъект

I Техника near-hit, near-missI С помощью выбранного

критерия качестваI С помощью алгоритма

машинного обученияDecision Tree, Linear Model

Критерии качества признаков

Сколько?I Фиксированное количество

Пример: лучшие 100 признаковI Percentile

Пример: лучшие 20 процентовКак?

I Mutual Information

I (X ,Y ) =∑x

∑y

p(x , y) log

(p(x , y)

p(x)p(y)

)I Statistical Tests

Chi2, binomial , ...

Схемо-зависимый поиск в пространстве признаков

I Forward-selectionI Backward-elimination

Что мы рассмотрели: классификация

Что мы рассмотрели: кластеризация

Что мы рассмотрели: технологии

Что мы не рассмотрели

I neural networksI genetic algorithmsI dimensionality reductionI semi-supervised learningI reinforcement learningI NLP, SNAI и еще много чего

Что делать дальше

I Kaggle http://blog.kaggle.com/I Hilary Mason http://www.hilarymason.com/I Alex Holmes http://grepalex.com/I Cloudera http://blog.cloudera.com/I CourseraI Аспирантура (+PhD)I ТрудоустройствоI Собственный проект

m.firulik@corp.mail.ru n.anokhin@corp.mail.ru

На самом деле, еще не совсем все

Результаты (17 июня 00.00)I Код на bbI Проклассифицированные

пользователиПрезентация (17 июня 09.30)

I Использованные признакиI Выбранная модельI Результаты классификации

Время: 10 + 5 мин

top related