Случайный лес - isp rasseminar.at.ispras.ru/wp-content/uploads/2012/09/forest.pdf ·...

Случайный лес

Докладчик: Гомзин Андрей (528 гр.)Руководитель: Недумов Я.

План

1. Введение2. Случайный лес

2.1 Описание алгоритма2.2 Пример2.3 Оценка качества (out-of-bag)

3. Применение и результаты4. Заключение

Введение. Задача классификации

Введение. Дерево принятия решенийI Дерево принятия решений – направленное дерево

I Нелистовая вершина – один из признаковI Ребро – значение признакаI Листовая вершина – значение целевой функции (класс)

Введение. Общая схема построения дерева принятиярешения

1. Выбрать очередной признак P, поместить его втекущую вершину

2. Для каждого значения выбранного признака v :I Из тестовых данных оставить только те, у которых P = vI Рекурсивно построить дерево на выбранных данных,

рассматривая оставшихся признаки

3. Останановиться, если все тестовые объекты принадлежатодному классу, если закончились признаки, или по другимкритериям

Введение. Алгоритмы построения дерева принятиярешения

I ID3I C4.5I CARTI CHAIDI MARS

Введение. Случайный лес

I Использование комитета деревьевI Обработка данных с большой размерностьюI Встроенная оценка качества предсказанияI Высокая параллелизуемость и масштабируемость

Случайный лес. Определение

I Случайный лес – ансамбль B деревьев:{T1(X ),T2(X ), ...,TB(X )}X – вектор размерности p

I Ансамбль возвращает B предсказаний:{Y1 = T1(X ), ..., YB = TB(X )}Yb – возвращаемый класс

I Из Yb выбирается самый часто встречаемый класс

Случайный лес. Обучение

Дано: D = {(X1,Y1), (X2,Y2), ..., (Xn,Yn)} – тренировочныйнабор:Xi – вектор признаков, Yi – метка класса1. Взять из D n случайных объектов с повторениями

(bootstrap sample) – Di

2. Построить для Di дерево, используя какой-либо алгоритмпостроения решающего дерева. Причем для каждойвершины признак выбирается из m случайно выбранных(m – параметр, 1 ≤ m < p).

3. Дерево строится до конца, без отсечения ветвей4. Повторить предыдущие шаги B раз

Таким образом, будет построено B деревьев

Случайный лес. Пример дереваТренировочный набор:{(X1,A), (X2,A), (X3,B), (X4,B), (X5,C ), (X6,C )}

Случайный лес. Пример леса

Тренировочный набор:{(X1,A), (X2,A), (X3,B), (X4,B), (X5,C ), (X6,C )}

Случайный лес. Встроенная оценка качестваOut-of-Bag Estimate of Performance

I При выборе Di в среднем в него входят ≈ 23 исходных

объектовI Оставшие объекты (≈ 1

3) обозначим OOB (out-of-bag)

I Для каждого Xi : Y OOB(Xi ) – предсказание комитетадеревьев, для которых Xi входит в OOB

I Error rate:

ER ≈ EROOB = n−1n∑

i=1

I (Y OOB(Xi ) 6= Yi )

I Mean square error:

MSE ≈ MSEOOB = n−1n∑

i=1

(Y OOB(Xi )− Yi )2

Случайный лес. Применение

Источник: scholar.google.ru. Запрос: Random forestI QSAR (Quantitative structure–activity relationship)I Classification of real and pseudo microRNAI Tumor classificationI Protein-protein interaction predictionI Imaging Atmospheric Cherenkov Telescope MAGICI ...

Экспериментальные результаты. QSAR (1)

I accuracy – пропорция правильно классифицированныхобъектов

I медиана для 50 5-кратных кросс-валидаций

Источник: Svetnik, Liaw, Tong, Culberson, Sheridan, Feuston. Random Forest: A Classification and

Regression Tool for Compound Classification and QSAR Modeling

Экспериментальные результаты. QSAR (2)

I RMSE – Root Mean Square Error:√

E ((θ − θ)2)I корреляцияI медиана для 50 5-кратных кросс-валидаций



Недостатки случайного леса

I Алгоритм склонен к переобучению на некоторых задачах,особенно на зашумленных

I Большой размер получающихся моделей

Выводы

I Случайный лес – ансамбль решающих деревьевI Решает задачи классификации и регрессииI Является модификацией метода bagging (bootstrap

aggregating)I Хорошо параллелитсяI Имеет встроенную оценку качестваI Показывает хорошие результаты при работе с большим

количеством признаков (например, в химии, биологии)

Спасибо за вниманиеВопросы?

Экспериментальные результаты. QSAR

Используемые датасеты:



Случайный лес - isp rasseminar.at.ispras.ru/wp-content/uploads/2012/09/forest.pdf ·...

Documents