![Page 2: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/2.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.2
Zašto redukcija podataka
• Neke karakteristike mogu da budu nevažne zakonkretan problem
• Stvarana dimenzionalnost može da budemanja od broja karakteristka
• Potrebno je vizuelno predstavitimultidimenzione podatke
• Manja kolicina podataka - efikasnija primenaalgoritama
• Manja kolicina podataka - mogucnost primeneveceg broja algoritama
• ...
![Page 3: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/3.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.3
Podela tehnika za redukciju podataka
• Dimenziona redukcija• Smanjenje brojnosti uzorka• Smanjenje kardinalnosti
razvrstavanjem
![Page 4: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/4.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.4
Dimenziona redukcija
Smanuje broj atributa/slucajnih promenljivihu ulaznom materijalu
• Transformacija i projekcija podataka u manjiprostor
• PCA (eng. Principal Component Analysis)• Analiza faktora (eng. Factor Analysis)• Multidimenziono skaliranje (eng.
MultiDimensional Scaling)• Lokalno linearno ugnježdenje (eng.
Locally Linear Embedding)
• Izbor karakteristika (eng. Feature Selection)
![Page 5: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/5.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.5
Smanjenje brojnosti uzorkaOriginalni podaci se zamenjuju sa manjimbrojem reprezentativnih uzoraka• Parametarske metode
• Vrše procenu kako se model uklapa uoriginalne podatke koristeci parametre zapredstavljanje podataka umestokorišcenja originalnih podataka
• Bliske su tehnikama Istraživanja podataka(regresiji i logaritamskim linearnimmodelima)
• Neparametarske metode - rade direktno sapodacima i vracaju reprezentativne podatke saslicnom strukturom• Uzorkovanje podataka• Grupisanje podataka• Izbor (izdvajanje) instanci
![Page 6: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/6.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.6
Smanjenje kardinalnosti razvrstavanjem
Razlicite vrste transformacija za dobijanjesmanjenog skupa reprezentativnihpodataka• Razvrstavanje u kolekcije (eng.
binning)• Diskretizacija
![Page 7: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/7.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.7
Prokletstvo dimenzionalnosti
• Dimenzionalnost - broj atributa kojeposeduje objekat iz skupa podataka
• Prokletstvo dimenzionalnosti – teškocepri analizi podataka sa velikim brojemdimenzija
Metode za dimenzionu redukciju• Linearne (PCA, Analiza faktora)• Nelinearne (LLE, ISOMAP (eng.
ISOmetric MAPping)
![Page 8: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/8.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.8
Principal Component Analysis
• Osnovna ideja: naci skup linearnihtransformacija koji opisuje najveci deo varijansiu originalnim podacima upotrebom što jemoguce manjeg broja promenljivih
• Traži se k n-dimenzionih ortogonalnih vektorakoji najbolje predstavljaju podatke
• Novi sistem sa osama zavisi od korelacijeizmedju atributra
• PCA se (najcešce ) primenjuje posleoduzimanja srednje vrednosti od svake tacke
![Page 9: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/9.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.9
Principal Component Analysis (nastavak)
Željena transformacija treba da ima sledeceosobine:
1 Svaki par novodobijenih atributa imakovarijansu 0
2 Atributi su uredjeni u odnosu na velicinuvarijanse (u opadajucem redosledu) koja jepokrivena od strane atributa
3 Zahteva se ortogonalnost izmedju atributa,tako da svaki naredni atribut pokriva što jemoguce veci broj preostalih varijansi
![Page 10: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/10.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.10
Principal Component Analysis (nastavak)
• Za matricu podataka D reda m × n može da seformira matrica kovarijansi C sa elementimacij = cov(d∗i ,d∗j) (cij je kovarijansa i-te i j-tekolone (atributa) podataka)
• Kovarijansa je mera kako se atributi menjaju uparu. Ako je i = j tada je kovarijnsa jednakavarijansi atributa.
• Ako se matrica D prethodno pripremi tako da jesrednja vrednost svakog od atributa jednaka 0,tada je C = DT D
![Page 11: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/11.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.11
Principal Component Analysis (nastavak)
Transformacija se vrši upotrebomsopstvenih vrednosti matrice kovarijansi
1 Neka su λi (nenegativne) sopstvene vrednostiCm uredjene u redosleduλ1 ≥ λ2 ≥ ...λm−1 ≥ λm
2 Neka je U = [u1, ...,un] matrica sopstvenihvektora od C uredjena tako da i-ti vektorodgovara i-toj najvecoj sopstvenoj vrednosti
3 Neka je matrica D prethodno pripremljena takoda je srednja vrednost svakog od atributajednaka 0
![Page 12: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/12.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.12
Principal Component Analysis (nastavak)
1 Matrica D′ = DU je tražena transformisanamatrica podataka
2 Novi atribut je linearna kombinacija starihatributa: težine linearne kombinacije i-togatributa su komponenete i-tog sopstvenogvektora.
3 Varijansa novog i-tog atributa je λi . Zbirvarijansi originalnih atributa je jednak zbiruvarijansi novih atributa
![Page 13: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/13.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.13
Principal Component Analysis (nastavak)
1 Novi atributi se nazivaju glavne komponente;prvi novi atribut je prva glavna komponenta, itd.
2 Prvih nekoliko komponenti obicno sadrže bar95% varijansi pocetnog skupa podataka
3 Umesto varijani može da se koristi i korelacijaatributa
4 Graficka reprezentacija algoritama redukcije -https://www.renecutura.eu/viscoder/
![Page 14: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/14.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.14
Principal Component Analysis (nastavak)
![Page 15: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/15.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.15
Singular Value Decomposition
1 Identican je PCA ako je srednja vrednostsvakog atributa matrice jednaka 0
2 Formalno, matrica D dimenzije m × n može dase predstavi kao D = UΣPT , gde je U matricareda n × n levo singularnih vektora ui , Σ jen ×m dijagonalna matrica singularnihvrednosti, i P je m ×m matrica desnosingularnih vektora.
3 SVD dekompozicija matrice podatakazadovoljava sledece osobine
![Page 16: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/16.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.16
Singular Value Decomposition (nastavak)
1 Obrasci u atributima su obuhvaceni desnosingularnim vektorima. Kolone matrice Q suortonormirani sopstveni vektori od DDT .
2 Obrasci u objektima su obuhvaceni levosingularnim vektorima. Kolone matrice P suortonormirani sopstveni vektori od DT D.
3 Neka su podaci na dijagonali u Σ uredjeni uopadajucem redosledu, a kolone u P i Q suuredjene u skladu sa tim.
![Page 17: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/17.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.17
Singular Value Decomposition (nastavak)
4 Neka su Pk i Qk skracene m× k i n× k matriceizdvajanjem prvioh k kolona, i neka je Σkmatrica reda k × k koja sadrži k najvecihsingularnih vrednosti.
5 Tada SVD faktorizacija aproksimirareprezentaciju m dimenzionalnih podatakapocetnog skupa D formulom D ≈ Qk ΣkPT
k
![Page 18: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/18.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.18
Analiza faktora
• Slicno kao i PCA teži otkrivanju manjeg skupapromenljivih koje dovoljno dobro opisujuponašanje pocetnog skupa
• Ne rade se transformacije podataka vec setraže skirveni faktori u postojecim promenljivim
• Pretpostavka je da u originalnim podacimapostoje neotkriveni faktori zj , j = 1, .., k , kojiudruženi mogu linearnim transformacijama dagenerišu originalne podatke
• Cilj je odrediti zavisnosti izmedu promenljivihpomocu što je moguce manjeg broja faktora.
![Page 19: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/19.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.19
Analiza faktora (nastavak)
Za dati skup atributa a1,a2, ...,am i njihove srednje vrednostiµ1, µ2, ..., µm analiza faktora pokušava da odredi skupzajednickih faktora f1, f2, ..., fk tako da važi
a1 − µ1 = l11f1 + l12f2 + ...+ l1k fk + εa2 − µ2 = l21f1 + l22f2 + ...+ l2k fk + ε... ...am − µm = lm1f1 + lm2f2 + ...+ lmk fk + ε
gde su
• ε1, ε2, ..., εm, do sada neuoceni delovi atributa nazvanispecificni faktori
• Termi lij , i = 1, ...,m, j1, ...k predstavljaju opterecenja(eng. loadings)
![Page 20: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/20.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.20
Analiza faktora (nastavak)
• Zapis prethodnog sistema jednacina u matricnom oblikuje A− µ = LF + ε
• Ogranicenja za L i F
• Svi faktori su nezavisni sa srednjom vrednošcu ivarijansom 0
• Svi termi koji oznacavaju grešku su takodenezavisni sa sa srednjom vrednošcu 0 ikonstantnom varijansom
• Greške su nezavisne od faktora
• Više metoda za rešavanje: metodom maksimalneverovatnoce (ocekivanja, (eng.likelihood)), metodomglavnih komponenti
![Page 21: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/21.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.21
Poredenje PCA i AF
• Analiza faktora podrazumeva pastojanje skrivenestrukture u podacima
• PCA linearnim transformacijama rotira originalni skuppromenljivih. AF formira nove promenljive zapredstavljanje kovarijanse i korelacije posmatranihpromenljivih
• U FA modeli za razlicit skup promenljivih su razliciti; uPCA su slicni (pocetne promenljive suidenticne)
• PCA je brži i pravolinijski se izvršava. AF ima razlicitealternative koje se izvršavaju razlicitom brzinom i imajurazlicite zahteve za resursima
• Primer: SPSS modeler
![Page 22: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/22.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.22
Multidimenzionalno skaliranje
Osnovne pretpostavke
• Za n tacaka poznata su rastojanja dij ,∀i , j = 1, ...n
• Nisu poznate precizne koordinate tacaka
• Nije poznata dimenzionalnost tacaka
• Nije poznat nacin kako su rastojanja izracunata
Multidimenzionalno skaliranje (MDS) je metoda koja smeštaovakve tacke u prostor manje dimenzije tako da je rastojanjeizmedu slika tacaka mereno nekom od klasicnih mera zarastojanje (npr. Ekulidskim rastojanjem) što je moguce bliže dij
Detalje metode pogledati u literaturi
![Page 23: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/23.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.23
Lokalno linearno ugnježdenje
Osnovna ideja
• Globalna nelinearna struktura se posmatra kao unijakomponenti (žakrpa") koje se lokalno uklapaju ustrukturu
• Intuitivna geometrijska interpretacija: svaka površ(mnogostrukost) može da se aproksimira malimdelovima u kojima svaka tacka i njeni bliski susedi leže ilisu jako blizu površien sa linearnom strukturom
• Za dovoljan broj tacaka svaka tacka može da sepredstavi kao težinska linearna kombinacija suseda
![Page 24: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/24.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.24
Lokalno linearno ugnježdenje (nastavak)
• Neka se podaci sastoje od N realnih vektora Xi ,dimenzije D koji su izdvojeni iz nekog glatkog dela površii predstavljaju jednu zakrpu
• Lokalna geometrija zakrpe je predstavljena prekolinearnih koeficijenata koje rekonstruišu svaku tackupreko njenih suseda
• U najprostijoj varijanti, za tacku se procenjuje KNNpomocu Euklidskog rastojanja
• Greška rekonstrukcije se odreduje pomocu funkcije
ε(W ) =∑
i
|Xi −∑
j
WijXj |2
gde težine Wij predstavljaju doprinos tacke j urekonstrukciji tacke i
![Page 25: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/25.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.25
Lokalno linearno ugnježdenje (nastavak)
Za odredivanje Wij potrebno je minimizovati funkciju greške uzigranicenja
• Svaka tacka Xi se rekonstruiše iskljucivo pomocu njenihsuseda forsiranjem Wij = 0 ako Xj nije u skupu suseda
• Zbir svakog reda matrice težina je jednak 1:∑
jWij = 1
Optimalne vrednosti Wij uz prethodna ogranicenja se odreduju
rešavanjem problema najmanjih kvadrata.
![Page 26: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/26.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.26
Lokalno linearno ugnježdenje (nastavak)
• Ovako odredene težine su invarijantne u odnosu narotaciju, sklairanje i translaciju tacaka i njihovih suseda
• Ako podaci leže na glatkoj linearnoj mnogostrukostidimenzionalnosti d � D da bi aproksimacija bila dobramora da postoji linearno preslikavanje svake tacke injenih suseda u koordinate na mnogostrukosti sa vecomdimenzijom
• Prema konstrukciji Wij reflektuju geometrijske osobinepodataka koje su invarijantne na takve transformacije ikarakteristike lokalne geometrije u originalnom prostorupodataka su važece i za zakrpe u mnogostrukostima
• Iste težine Wij koje se koriste za rekonstrukciju i-te tackeu D dimenzionom prostoru mogu da se koriste i zarekonstrukciju u delovima mnogostrukosti dimenzije d
![Page 27: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/27.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.27
Lokalno linearno ugnježdenje (nastavak)
U drugoj fazi algoritma
• Svaki višedimenzioni vektor Xi se preslikava u vektormanje dimenzije Yi koji predstavlja globalnu internukoordinatu na mnogostrukosti
• Yi u d dimnzionom prostoru se odreduje minimizacijomugnježdene funkcije
Φ(Y ) =∑
i
|Yi −∑
j
WijYj |2
gde su težine Wij i izracunate u prethodnom koraku
• Minimizacija se vrši rešavanjem problema retke N × Nmatrice gde donjih d ne-nula sopstvenih vektorapredstavljaju skup ortogonalnih koordinata centriranih uodnosu na pocetne podatke
![Page 28: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/28.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.28
Smanjenje brojnosti uzorka
• Uzorkovanje se koristi radi olakšavanja analizei modeliranja velikih skupova podataka.
• U IP se koristi za
• Smanjenje broja instanci u IP algoritmima• Podrška za izdvajanje samo onih karakteristika za
koje je odgovor relativno homogen• Balansiranje podataka u slucaju retkih
podskupova• Podelu skupa na delove radi kasnije analize IP
aloritmima
![Page 29: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/29.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.29
Nacini uzimanja uzoraka
• Jednostavan slucajni uzorak (jednakaverovatnoca za izbor bilo koje slucajne stavke)
• Sa i bez vracanja (duplikata iz originalnogskupa)
• Pristrasno uzorkovanje (neki podaci su važnijiod drugih)
• Blanasirano uzorkovanje
• Stratifikovano uzorkovanje (uzorkovanje saraslojavanjem)
• Uzorkovanje na osnovu klasterovanja
![Page 30: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/30.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.30
Grupisanje podataka
1 Kondenzacija podataka (smanjivanje brojaatributa ili objekata)
2 Agregiranje podataka i primena statistickeanalize na komprimovane podatke
3 ’Stabilniji’ podaci (agregirani podaci imajutendenciju da imaju manja odstupanja)
4 Klasterovanje i uzimanje reprezentativnihpodataka za klastere
5 ...
![Page 31: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/31.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.31
Smanjenje kardinalnosti razvrstavanjem
• Razvrstavanje u kolekcije (eng. binning) jeproces konvertovanja neprekidnih promenljivihu interval
• Sve vrednosti u intervalu se posmatraju kaokategorija, uz mogucnost njihovog uredenja uželjeni redosled
• Smanjenje kardinalnosti nominalnih i rednihatributa se satoji u kombinovanju dve ili višekategorija u novu kategoriju
![Page 32: Redukcija podataka - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip2/redukcija_podataka.pdfatributa: težine linearne kombinacije i-tog atributa su komponenete i-tog sopstvenog](https://reader035.vdocuments.pub/reader035/viewer/2022070621/5e39780ddc0d5122f7662444/html5/thumbnails/32.jpg)
UvodZašto redukcija podataka
Podela tehnika zaredukciju podataka
Dimenziona redukcija
Smanjenje brojnosti uzorka
Smanjenje kardinalnostirazvrstavanjem
DimenzionaredukcijaProkletstvodimenzionalnosti
Analiza glavnih komponenti
Analiza faktora
Multidimenzionalnoskaliranje
Lokalno linearnougnježdenje
Smanjenjebrojnosti uzorkaUzorkovanje podataka
Grupisanje podataka
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
SmanjenjekardinalnostirazvrstavanjemRazvrstavanje u kolekcije
7.32
Smanjenje kardinalnosti razvrstavanjem
Obe vrste transformacija imaju za cilj
• Smanjenje složenosti odnoca nezavisnih i mogucezavisnih atributa
• Povecanje prediktivne mocui atributa pažljivimgrupisanjem kategorija radi modeliranja zavisnosti ciljnepromenljive u klasifikacionim problemima
Cesto se razvrstavanje svrstava u diskretizaciju; usuštini to je samo jedan od oblika diskretizacije kojivrši diskretizaciju promenljivih na jednostavan nacin
Razvrstavanje u SPSS modeleru?