Случайный лес - isp rasseminar.at.ispras.ru/wp-content/uploads/2012/09/forest.pdf ·...
TRANSCRIPT
Случайный лес
Докладчик: Гомзин Андрей (528 гр.)Руководитель: Недумов Я.
План
1. Введение2. Случайный лес
2.1 Описание алгоритма2.2 Пример2.3 Оценка качества (out-of-bag)
3. Применение и результаты4. Заключение
Введение. Задача классификации
Введение. Дерево принятия решенийI Дерево принятия решений – направленное дерево
I Нелистовая вершина – один из признаковI Ребро – значение признакаI Листовая вершина – значение целевой функции (класс)
Введение. Общая схема построения дерева принятиярешения
1. Выбрать очередной признак P, поместить его втекущую вершину
2. Для каждого значения выбранного признака v :I Из тестовых данных оставить только те, у которых P = vI Рекурсивно построить дерево на выбранных данных,
рассматривая оставшихся признаки
3. Останановиться, если все тестовые объекты принадлежатодному классу, если закончились признаки, или по другимкритериям
Введение. Алгоритмы построения дерева принятиярешения
I ID3I C4.5I CARTI CHAIDI MARS
Введение. Случайный лес
I Использование комитета деревьевI Обработка данных с большой размерностьюI Встроенная оценка качества предсказанияI Высокая параллелизуемость и масштабируемость
Случайный лес. Определение
I Случайный лес – ансамбль B деревьев:{T1(X ),T2(X ), ...,TB(X )}X – вектор размерности p
I Ансамбль возвращает B предсказаний:{Y1 = T1(X ), ..., YB = TB(X )}Yb – возвращаемый класс
I Из Yb выбирается самый часто встречаемый класс
Случайный лес. Обучение
Дано: D = {(X1,Y1), (X2,Y2), ..., (Xn,Yn)} – тренировочныйнабор:Xi – вектор признаков, Yi – метка класса1. Взять из D n случайных объектов с повторениями
(bootstrap sample) – Di
2. Построить для Di дерево, используя какой-либо алгоритмпостроения решающего дерева. Причем для каждойвершины признак выбирается из m случайно выбранных(m – параметр, 1 ≤ m < p).
3. Дерево строится до конца, без отсечения ветвей4. Повторить предыдущие шаги B раз
Таким образом, будет построено B деревьев
Случайный лес. Пример дереваТренировочный набор:{(X1,A), (X2,A), (X3,B), (X4,B), (X5,C ), (X6,C )}
Случайный лес. Пример леса
Тренировочный набор:{(X1,A), (X2,A), (X3,B), (X4,B), (X5,C ), (X6,C )}
Случайный лес. Встроенная оценка качестваOut-of-Bag Estimate of Performance
I При выборе Di в среднем в него входят ≈ 23 исходных
объектовI Оставшие объекты (≈ 1
3) обозначим OOB (out-of-bag)
I Для каждого Xi : Y OOB(Xi ) – предсказание комитетадеревьев, для которых Xi входит в OOB
I Error rate:
ER ≈ EROOB = n−1n∑
i=1
I (Y OOB(Xi ) 6= Yi )
I Mean square error:
MSE ≈ MSEOOB = n−1n∑
i=1
(Y OOB(Xi )− Yi )2
Случайный лес. Применение
Источник: scholar.google.ru. Запрос: Random forestI QSAR (Quantitative structure–activity relationship)I Classification of real and pseudo microRNAI Tumor classificationI Protein-protein interaction predictionI Imaging Atmospheric Cherenkov Telescope MAGICI ...
Экспериментальные результаты. QSAR (1)
I accuracy – пропорция правильно классифицированныхобъектов
I медиана для 50 5-кратных кросс-валидаций
Источник: Svetnik, Liaw, Tong, Culberson, Sheridan, Feuston. Random Forest: A Classification and
Regression Tool for Compound Classification and QSAR Modeling
Экспериментальные результаты. QSAR (2)
I RMSE – Root Mean Square Error:√
E ((θ − θ)2)I корреляцияI медиана для 50 5-кратных кросс-валидаций
Источник: Svetnik, Liaw, Tong, Culberson, Sheridan, Feuston. Random Forest: A Classification and
Regression Tool for Compound Classification and QSAR Modeling
Недостатки случайного леса
I Алгоритм склонен к переобучению на некоторых задачах,особенно на зашумленных
I Большой размер получающихся моделей
Выводы
I Случайный лес – ансамбль решающих деревьевI Решает задачи классификации и регрессииI Является модификацией метода bagging (bootstrap
aggregating)I Хорошо параллелитсяI Имеет встроенную оценку качестваI Показывает хорошие результаты при работе с большим
количеством признаков (например, в химии, биологии)
Спасибо за вниманиеВопросы?
Экспериментальные результаты. QSAR
Используемые датасеты:
Источник: Svetnik, Liaw, Tong, Culberson, Sheridan, Feuston. Random Forest: A Classification and
Regression Tool for Compound Classification and QSAR Modeling