klastrování - kti.mff.cuni.czkti.mff.cuni.cz/~marta/nove8.pdf · klastrování (učení bez...

25

Upload: hacong

Post on 30-Apr-2019

225 views

Category:

Documents


0 download

TRANSCRIPT

Klastrování(učení bez učitele)

● Barvu určujeme my, není předem známá.● Chceme: blízké body označit stejnou barvou.

K-means (průměry)

!

K úvaze o vážení atributů● ponožky/počítače

● a) počet prodaných, b) normalizované, c) $

Po normalizaci přirozené klastry „zmizely“

GAP pro opt. počet klastrů● GAP(k)=oček.nez.data W'(k)-pozorované W(k)

medoid,

Příklad: (ne)podobnost zemí

Hierarchické klastrování

Interpretace dendrogramu

9 a 2 si nejsou moc blízké(!)

Blízkost dle korelace

Hlavní komponenty (křivky, povrchy)

Hlavní komponenty, vlastní čísla, ...

● Analýza hlavních komponent dat Rp vydá nejlepší lineární aproximace pro všechny řády q<r.

● lin. model řádu q: – μ: pozice nadroviny, – V ortogonální matice jednotkových sloupcových vektorů

qxq, – λ parametry, tj. projekce datových příkladů.

● Minimalizujeme chybu rekonstrukce

● částečnou optimalizací

Rozklad matice● Pro jednoduchost předpokládáme

jinak posuneme● Data poskládáme jako řádky Nxp matice X.● Matici X rozložíme:

● levé vlastní vektory● vlastní čísla

na diagonále diag. matice● pravé vlastní vektory: sloupce

● pro dané q bereme prvních q sloupců V.

● Sloupce UD se nazývají hlavní komponenty,● optimální jsou určeny prvními q hlavními

komponentami

● U q=1● směrnice přímky v

1

● nejbližší bod projekce na přímce● vzdálenost od počátku po přímce