Пословна интелигенција (ПИ)
Откривање законитости у подацима - завршна разматрања
Универзитет у Београду Факултет организационих наука
Циљеви предавања
• Разумевање сложености процеса ОЗП
• Разумевање итеративног процеса ОЗП
• Коришћење техника визуализације код:
– Разумевања података
– Разумевање и унапређивање модела
2
CRISP-DM Cross Industry Standard Process for Data Mining
• Разумевање пословања
• Разумевање података
• Припрема података
• Развој модела
• Евалуација процеса ОЗП
• Примена процеса ОЗП
3
Слојевитост процеса ОЗП
4
Референтни модел и корисничко упутство
• Референтни модел даје брзи увид у цео процес
• Корисничко упутство даје детаљан преглед за вођење ОЗП пројеката
5
Откривање законитости у подацима
• Законитост је основна јединица коју тражимо у подацима.
• Постоје различити модели који говоре из различитог угла о истој законитости.
• Визуални алати су најједноставнији алати за уочавање законитости.
6
Визуализација података
• Део припреме података?
• Може да се користи и за визуализацију података, али и за визуализацију модела.
• Разлика између визуелизације података и визуализације модела.
– Алати су исти
– Разлика између података и модела?
7
Визуализација података
• Једнодимензионална (униваријабилна)
– Distribution, Box Plot
• Дводимензионална (бибаријабилна)
– Scatter Plot, Sieve Diagram
• Вишедимензионална (мултиваријабилна)
– Mosaic Display, Linear Projection
8
Визуализација модела
• Визуализација кластера
• Визуализација ОЗП модела
– Стабло одлучивања
– Линеарна, логистичка регресија (параметри модела)
• Визуализација асоцијативних правила
9
Расподела променљиве
10
График кутија
11
График распршености • Приказује корелацију између двe променљиве
12
Левак дијаграм
13
Мозаик дијаграм
14
PCA (Principal component analysis) АГК (Анализа главних компонената) • Техника која прави компоненте од линеарне
комбинације атрибута тако да: – Су компоненте међусобно некорилисане – Имају појачан варијабилитет (сигнал)
• Компоненти има колико и атрибута, али прва компонента узима највише варијабилитета, па друга, итд. (Постоји хијерархијско устројство)
• Очекује се да се уз помоћ свега пар компоненти може успешно представити цео скуп података
• Компоненте могу да имају и “значење”.
15
АГК
16
Линеарна пројекција
17
Визуализација кластера
• Помоћу стабла одлучивања
• Визуализација центроида
• Визуализација мере квалитета кластеровања
– График силуета
18
Кластери + стабла одлучивања
• Сваки кластер модела производи атрибут припадности кластеру, који може да се посматра као излазни атрибут.
• Потом може да се примени класификација (асоцијативна правила, стабло одлучивања, логистичка регресија, итд.) са циљем да се боље објасни добијени кластер.
19
Визуализација мера квалитета кластера
20
w(i))max(b(i),
w(i)-b(i)=s(i)
График силуета
21
Кластеровање може и да се поправи
22
Кластери + стабла одлучивања
• Кластер се описује преко атрибута DayMins.
23
Визуализација центроида
24
Визуализација линеарних модела
• Логистичка регресија
– Визуализација параметера модела
– Визуализација целог модела преко стабла одлучивања
25
Визуализација преко номограма
26
Фреквентни скупови података
27
А приори правило
• Сваки надскуп {јабука, банана} има мању или једнаку подршку (фреквенцију заступљености) у скупу као његови подскупови {јабука}, {банана}
• Нпр. Ако је P({јабука, банана}) = 50%, тада или {јабука} и/или {банана} има већу или једнаку подршку од 50%.
• Исто тако сваки надскуп {јабука, банана, јагода} има мању или једнаку подршку од 50%.
28
Фреквентни скупови и асоцијативна правила
• Асоцијативна правила АКО => ТАДА се рачунају из фреквентних скупова података.
• За разлику од фреквентних скупова података, они намећу релацију импликације => између подскупова.
• За претрагу асоцијативних правила дефинисане подршке, потребно је дефинисати и поузданост тј. P(ТАДА|АКО).
29
Асоцијативна правила
30
Да ли је асоцијативно правило заиста статистички значајно?
31
Пословна интелигенција (ПИ)
Откривање законитости у подацима - завршна разматрања
Универзитет у Београду Факултет организационих наука