algoritmi de clasificare · 2019-03-19 · inducţiaunui arbore de decizie algoritmul lui hunt fie...
TRANSCRIPT
![Page 1: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/1.jpg)
Algoritmi de clasificareARBORI DE DECIZIE
1
![Page 2: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/2.jpg)
Clasificarea❑Se dă o mulțime de antrenare: o mulțime de instanțe (vectori de antrenare, obiecte) ❑Datele de antrenare
❑Instanțele au atribute
❑Fiecare instanță are atribute cu anumite valori
❑De obicei, ultimul atribut este clasa
2
![Page 3: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/3.jpg)
Tipuri de atributeExistă patru tipuri de atribute, organizate pe două coordonate:
❑ Atribute simbolice (calitative): de tip nominal (ex. culoareaochilor, nume, sex, CNP ca obiect, nu număr) şi ordinal(înălțime (mică, medie, mare), ranguri, calificative)
❑ Atribute numerice (cantitative): de tip interval (Temperatura în °C, date calendaristice) şi raţional (lungime, distanță, prețuri)
3
![Page 4: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/4.jpg)
Inducţia unui arbore de decizieAlgoritmul lui Hunt❑Fie Dn mulțimea instanțelor de antrenare care ajung la un nod n
❑Algoritmul lui Hunt (Hunt 1962; Tan, Steinbach & Kumar, 2006): ❑Dacă Dn conține instanțe din aceeași clasă yn , atunci n este o frunză
etichetată yn
❑Dacă Dn este o mulțime vidă, atunci n este o frunză etichetată cu clasaimplicită (default) yd
❑Dacă Dn conține instanțe care aparțin mai multor clase, se utilizează un test de atribute pentru a partiționa datele în mulțimi mai mici
❑Se aplică recursiv procedura pentru fiecare submulțime
4
![Page 5: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/5.jpg)
Testul de atribute
❑Urmează o strategie greedy: se partiționează mulțimea de instanțecu un test care maximizează un anumit criteriu
❑Depinde de tipul atributului: nominal, ordinal sau continuu
❑Depinde de numărul de posibilități de partiționare: binar saumultiplu
5
![Page 6: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/6.jpg)
Atribute nominale
❑ Partiționarea multiplă❑Numărul de partiții = numărul de
valori distincte❑Partiționarea binară❑Se împart valorile în două submulțimi❑Trebuie descoperită partiționarea
optimă
6
![Page 7: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/7.jpg)
Atribute ordonale❑ Partiționarea multiplă❑Numărul de partiții = numărul de valori
distincte❑Partiționarea binară❑Se împart valorile în două submulțimi❑Trebuie descoperită partiționarea optimă
7
![Page 8: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/8.jpg)
Atribute continue❑Se discretizează datele pentru a le transforma în atribute ordinale ❑Cu interval egal (histograma)
❑Cu frecvență egală (mulțimi cu numere egale de instanțe)
❑Grupare (clustering)
❑Decizie binară: (Ai < v) sau (Ai > v) ❑Trebuie considerate toate partiționările posibile
❑Necesită un efort de calcul mai mare
8
![Page 9: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/9.jpg)
Discretizarea❑Cu interval egal – de exemplu, 3 intervale ❑[65, 75], (75, 85], (85, 95]
9
![Page 10: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/10.jpg)
Discretizarea
❑Cu frecvență egală❑ de exemplu, 3 intervale
10
![Page 11: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/11.jpg)
Discretizarea
❑Binară❑ de exemplu, 85
11
![Page 12: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/12.jpg)
Partiţionarea optimă❑Euristică: se preferă nodurile cu cele mai omogene distribuții de clasă❑Necesită o măsură a „impurității” nodurilor
12
![Page 13: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/13.jpg)
Măsuri de impuritateEntropia
Shannon, 1948
Graficul entropiei pentru 2 clase
13
![Page 14: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/14.jpg)
Măsuri de impuritateEntropia
Shannon, 1948
Graficul entropiei pentru 3 clase
14
![Page 15: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/15.jpg)
Măsuri de impuritateIndexul Gini
Breinman et al., 1984
Graficul indexului Gini pentru 2 clase
15
![Page 16: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/16.jpg)
Măsuri de impuritate Exemplu
16
![Page 17: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/17.jpg)
Partiţionarea❑Când un nod părinte p este partiționat în k fii, calitatea partiționării
(de exemplu, entropia) se calculează astfel:
❑unde ni este numărul de instanțe din fiul i și n este numărul de instanțe din nodul p
❑s este o partiţionare (engl. “split”) din mulţimea tuturor partiţionărilorposibile
❑Formulă similar pentru indexul Gini
17
![Page 18: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/18.jpg)
Câştigul informaţional
❑Calitatea unei partiționări este determinată de creșterea omogenității submulțimilor rezultate
❑ Trebuie maximizat câștigul informațional:
❑ Deoarece nodului părinze este același pentru toți fiii se preferă valoarea minimă
❑ Termenul de „câștig informațional” se utilizează când se folosește entropia ca măsură de impuritate, dar principiul este același pentru indexul Gini sau orice altă măsură de impuritate
18
![Page 19: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/19.jpg)
Inducţia unui arbore de decizieAlgoritmul lui Hunt❑Fie Dn mulțimea instanțelor de antrenare care ajung la un nod n
❑Algoritmul lui Hunt (Hunt 1962; Tan, Steinbach & Kumar, 2006): ❑Dacă Dn conține instanțe din aceeași clasă yn , atunci n este o frunză
etichetată yn
❑Dacă Dn este o mulțime vidă, atunci n este o frunză etichetată cu clasaimplicită (default) yd
❑Dacă Dn conține instanțe care aparțin mai multor clase, se utilizează un test de atribute pentru a partiționa datele în mulțimi mai mici
❑Se aplică recursiv procedura pentru fiecare submulțime
19
![Page 20: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/20.jpg)
ExempluClasificarea folosind un arbore de decizie❑Datele de antrenare
❑Instanțele au atribute
❑Fiecare instanță are atribute cu anumite valori
❑Ultimul atribut este clasa
20
![Page 21: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/21.jpg)
Exemplu: Construirea unui arbore de deciziePartiţionare după atributul Starea vremii
21
![Page 22: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/22.jpg)
Exemplu: Construirea unui arbore de deciziePartiţionare după atributul Temperatură
22
![Page 23: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/23.jpg)
Exemplu: Construirea unui arbore de deciziePartiţionare după atributul Umiditate
23
![Page 24: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/24.jpg)
Exemplu: Construirea unui arbore de deciziePartiţionare după atributul Vânt
24
![Page 25: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/25.jpg)
Exemplu: Construirea unui arbore de deciziePartiţionare❑Valoarea maximă a câştigului informaţional este corespunzătoareminimului entropiei ponderate şi deci prima partiţionare se va face după atributul Starea vremii.
25
![Page 26: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/26.jpg)
Exemplu: Construirea unui arbore de decizie
❑Pentru nodul N1 se repetă procedura, eliminând atributulStarea vremii şipăstrând doarinstanţele care au ca valoare a acestuia
Soarele (5 instanţe).
26
![Page 27: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/27.jpg)
Exemplu: Construirea unui arbore de deciziePartiţionare
27
![Page 28: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/28.jpg)
Exemplu: Construirea unui arbore de deciziePartiţionare
28
![Page 29: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/29.jpg)
Exemplu: Construirea unui arbore de deciziePartiţionarePentru nodul N2, avem următoarea mulţime de date
Nodul este omogen şi deci va fi la rândul său frunză, fără a mai trebui
partiţionat
29
![Page 30: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/30.jpg)
Exemplu: Construirea unui arbore de deciziePartiţionarePentru nodul N3, avem următoarea mulţime de date
30
![Page 31: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/31.jpg)
Exemplu: Construirea unui arbore de decizieArborele final
Temperatura este un atribut irelevant pentru această clasificare.
31
![Page 32: Algoritmi de clasificare · 2019-03-19 · Inducţiaunui arbore de decizie Algoritmul lui Hunt Fie Dn mulțimeainstanțelorde antrenare care ajung la un nod n Algoritmul lui Hunt](https://reader030.vdocuments.pub/reader030/viewer/2022040300/5e62cf5da070cf3d7c5889e6/html5/thumbnails/32.jpg)
Bibliografie❑Florin Leon (2012). Inteligenta artificiala: rationament probabilistic, tehnici de clasificare Tehnopress, Iasi, ISBN 978-973-702-932-4, Capitolul 6 şi Capitolul 7
32