Н аивный байесовский классификатор

17
Наивный байесовский классификатор к.х.н. Варламова Екатерина Владимировна

Upload: ishmael-dawson

Post on 30-Dec-2015

56 views

Category:

Documents


7 download

DESCRIPTION

Н аивный байесовский классификатор. к.х.н . Варламова Екатерина Владимировна. Задача про рак груди. Только 15%(!) врачей отвечают правильно. 1% женщин в возрасте 40 лет, участвовавших в регулярных обследованиях, имеют рак груди.  - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Н аивный  байесовский классификатор

Наивный байесовский

классификаторк.х.н. Варламова Екатерина

Владимировна

Page 2: Н аивный  байесовский классификатор

Задача про рак груди

1% женщин в возрасте 40 лет, участвовавших в регулярных обследованиях, имеют рак груди. 

80% женщин с раком груди имеют положительный результат маммографии. 

9.6% здоровых женщин также получают положительный результат (маммография, как любые измерения, не дает 100% результатов). 

Женщина-пациент из этой возрастной группы получила положительный результат на регулярном обследовании. 

Какова вероятность того, что она фактически больна раком груди?

Только 15%(!) врачей отвечают правильно

Page 3: Н аивный  байесовский классификатор

Решение задачи про рак грудиВозьмем 10 000 женщин.

До маммографии женщин можно разделить на 2 группы:

Группа 1:  100 женщин больных раком груди.

Группа 2:  9,900 женщин не больных раком груди.

После маммографии женщин можно разделить на 4 группы:

Группа A:  80 женщин больных раком груди, и с положительной маммограммой.

Группа B:  20 женщин больных раком груди, и с отрицательной маммограммой.

Группа C:  950 женщин не больных  раком груди, и с положительной маммограммой.

Группа D:  8,950 женщин не больных раком груди, и с отрицательной маммограммой.

Группа A:  80 женщин больных раком груди, и с положительной маммограммой.

Группа C:  950 женщин не больных  раком груди, и с положительной маммограммой.

Вероятность того, что женщина с положительной маммограммой фактически больна раком груди:

Доля (A) в (A + C)

80 / (80 + 950) = 80 / 1030 = 7.8%. 

Page 4: Н аивный  байесовский классификатор

Термины теоремы Байеса

Исходная доля пациенток с раком груди называется в статистике априорной вероятностью. 

Шанс, что пациентка с раком груди получить положительную маммограмму, и шанс, что пациентка без рака получит положительную маммограмму, называются условными вероятностями. 

  Результат - ожидаемая вероятность, что пациентка больна раком груди, если ее маммограмма положительна, - называется апостериорной вероятностью. 

Априорная информация

Page 5: Н аивный  байесовский классификатор

Обозначения теоремы Байеса

p(положительный): 0.103p(~положительный): 0.897

p(рак): 0.01p(~рак): 0.99

p(положительный|рак): 80.0% p(~положительный|рак):

20.0%

p(положительный|~рак):

9.6%

p(~положительный|~рак):

90.4% p(рак&положительный):

0.008

p(рак&~положительный):

0.002

p(~рак&положительный):

0.095

p(~рак&~положительный):

0.895

p(рак|положительный): 7.80%p(~рак|положительный):

92.20%

p(рак|~положительный):

0.22%

p(~рак|~положительный):

99.78%

Page 6: Н аивный  байесовский классификатор

Теорема Байеса

где

 — априорная вероятность гипотезы A;

 — вероятность гипотезы A при наступлении события B (апостериорная

вероятность);

 — вероятность наступления события B при истинности гипотезы A;

 — полная вероятность наступления события B.

,

Page 7: Н аивный  байесовский классификатор

Доказательство теоремы Байеса

Вероятность совместного события  AB двояко выражается через условные вероятности:

Следовательно

Page 8: Н аивный  байесовский классификатор

Задача для тренировки ума

Предположим, что в бочке находится множество маленьких пластиковых капсул. 

Некоторые капсулы окрашены в красный цвет, некоторые - в синий. 

У 40% от всех капсул внутри жемчужина, 60% пусты.

В синий цвет окрашены 30% капсул, содержащих жемчужины, и 10% пустых капсул.

Какова вероятность, что синяя капсула содержит жемчужину? 

Page 9: Н аивный  байесовский классификатор

И еще одна задачка

У Вас есть большой контейнер, содержащий кучу пластиковых капсул. 

Некоторые из них содержат жемчужины, остальные пусты.  Некоторые капсулы окрашены в синий цвет, остальные в красный. 

Предположим, что 40% капсул синие,

5/13 от капсул, содержащих жемчужины, синие,

и 20% капсул одновременно пустые и красные.  

Какова вероятность, что синяя капсула содержит жемчужину?

Page 10: Н аивный  байесовский классификатор

Наивный байесовский классификатор

Множество объектов D = {d1, d2, ..., dm},

Признаки объектов F = {f1, f2, ..., fq},

Множество меток C = {c1, c2, ..., cr}.

Признаки не зависят друг от друга

Page 11: Н аивный  байесовский классификатор

Размытие по Лапласу

где z >= 0 — коэффициент размытия, q — это количество параметров.

Page 12: Н аивный  байесовский классификатор

Наивный байесовский классификатор для непрерывных параметров

𝑐𝑀𝐴𝑃=𝑎𝑟𝑔𝑚𝑎𝑥𝑐∈𝐶 ( ln λ𝑐 𝑃𝑐+∑𝑖=1

𝑛

ln𝑝 ( 𝑓 𝑖∨𝑐 )), - величина потери при отнесении объекта к неправильному классу, - плотность вероятности признака объекта.

𝑝 ( 𝑓 𝑖∨𝑐 )=∑𝑖=1

𝑚1

𝑚𝑉 (h )𝐾 ( 𝜌 (𝑑 ,𝑑𝑖 )

h )где m – количество элементов выборки D ∋ di, ρ – мера на D, h – окрестность di (”ширина окна”), K – функция ядра, V (h) – нормирующий множитель.

Page 13: Н аивный  байесовский классификатор

Наивный байесовский классификатор для непрерывных параметров

В качестве функции ядра используется ядро Епанечникова:

𝐾 (𝑟 )=34

(1−𝑟2 ), 𝑟 ≤1

𝑉 (h )=∫𝐷

𝐾 ( 𝜌 (𝑑 ,𝑑𝑖 )h )𝑑(𝑑)

Для определения меры используется Евклидова метрика:

𝜌 (𝑑 ,𝑑𝑖 )=√∑𝑖=1

𝑛

(𝑑−𝑑𝑖 )2

Page 14: Н аивный  байесовский классификатор

Преимущества и недостатки Простота реализации и низкие

вычислительные затраты при обучении и классификации;

В тех редких случаях, когда признаки (почти) независимы, наивный байесовский классификатор (почти) оптимален;

Относительная простота интерпретации.

Преимущества

Недостатки Низкое качество классификации. Он

используется как эталон при экспериментальном сравнении алгоритмов;

Неспособность учитывать зависимость результата от сочетания признаков.

Ограничения Пригоден для выборок с независимыми параметрами.

Page 15: Н аивный  байесовский классификатор

Применение метода

Оценка надежности банка,

Классификация структурированной информации,

Фильтрация спама,

Классификация налогоплательщиков и заемщиков по группам риска,

Оценка реализации продукции,

Обнаружение корпоративного мошенничества.

Page 16: Н аивный  байесовский классификатор

Построение модели в R

Построение модели в R хорошо описано в следующем источнике:

http://habrahabr.ru/post/184574/

Page 17: Н аивный  байесовский классификатор

Спасибо завнимание