wedt klasyfikacja dokumentów

28
WUT TWG 2005 WEDT Klasyfikacja dokumentów Wykład 8 Piotr Gawrysiak [email protected] 2005

Upload: vaughan

Post on 13-Jan-2016

74 views

Category:

Documents


0 download

DESCRIPTION

WEDT Klasyfikacja dokumentów. Wykład 8 Piotr Gawrysiak [email protected]. 2005. Grupowanie (clustering). Klasa B. Klasa A. Klasa C. Klasyfikacja (categorization). DB. DB – baza dokumentów. dr – dokumenty relewantne. ds. ds – dokumenty uznane przez system za relewantne. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: WEDT Klasyfikacja dokumentów

WUTTWG

2005

WEDT

Klasyfikacja dokumentów

Wykład 8

Piotr [email protected]

2005

Page 2: WEDT Klasyfikacja dokumentów

WUTTWG

2005

Grupowanie (clustering)

Page 3: WEDT Klasyfikacja dokumentów

WUTTWG

2005

Klasa A

Klasa B

Klasa C

Klasyfikacja (categorization)

Page 4: WEDT Klasyfikacja dokumentów

WUTTWG

2005

DB

dr

dsdr – dokumenty relewantneds – dokumenty uznane przez system za relewantne

DB – baza dokumentów

ds

drdsPR

dr

drdsR

DB

drdsDBdrdsA

drDB

drdsFO

Ocena efektywności algorytmów kategoryzacji

PR – precision, R – recall, A – accuracy, FO – fallout

kategoryzacja jest problemem zbliżonym do wyszukiwania informacji (IR)

Page 5: WEDT Klasyfikacja dokumentów

WUTTWG

2005

 

1),(0;),(

gfPRbaba

agfPR1),(0;),(

gfRca

ca

agfR

dcba

dagfA

),(1),(0;),(

gfFOdbdb

bgfFO

 

RPR

F1

)1(1

1

Kategoryzacja binarna

•Wartość wskaźnika dokładności określa prawdopodobieństwo dokonania poprawnej klasyfikacji, dla losowo wybranego dokumentu ze zbioru D. •Wartość wskaźnika precyzji określa prawdopodobieństwo, iż losowy dokument wybrany z dokumentów uznanych za relewantne, jest rzeczywiście dokumentem relewantnym.•Zupełność odpowiada prawdopodobieństwu tego, iż dokument faktycznie relewantny, zostanie za taki uznany przez system. •Zaszumienie określa z kolei prawdopodobieństwo niepoprawnego uznania za relewantny dokumentu, który faktycznie relewantny nie jest.

Page 6: WEDT Klasyfikacja dokumentów

WUTTWG

2005

l

PRgfPR

l

ii

ma

1),(

Rozszerzenie dla wielu klas

Mk

M={M1, M2,...,Ml}

Makro-uśrednianie Mikro-uśrednianie

PR={PR1, PR2, ..., PRl}

Page 7: WEDT Klasyfikacja dokumentów

WUTTWG

2005Przykład oceny

Wyniki działania czterech systemów kategoryzacji:

Ocena systemów według przedstawionych wskaźników:

Page 8: WEDT Klasyfikacja dokumentów

WUTTWG

2005

Zliczanie słów

Zliczanie sekwencji słów

Rozkłady prawdopodobieństwa wyst. słów

Reprezentacje dokumentów

• reprezentacje unigramowe (bag-of-words)• binarne• częstościowe

•reprezentacja n-gramowe• reprezentacje mieszane (Katz backoff style)

•reprezentacje pozycyjne

w istocie są niemal tożsame z modelami języka

Page 9: WEDT Klasyfikacja dokumentów

WUTTWG

2005

.0

,;1

wpw

VvvwjgdyR iij

i

Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Unigramową reprezentacją częstościową dokumentu D nazywamy wektor R taki, że:

n

j

iiji wpw

VvvwgdyR

1 .0

,1

Reprezentacje unigramowe

Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Unigramową reprezentacją binarną dokumentu D nazywamy wektor R taki, że:

Page 10: WEDT Klasyfikacja dokumentów

WUTTWG

2005

• n-gramowe• mieszane

no

j

ynjxnjjjyx wpw

vwrwwwgdyM

1

11, .0

),...,,(1

Reprezentacje bazujące na modelu Markowa

„I would like to make phone...”

Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wo, zm). Reprezentacją n-gramową dokumentu D nazywamy macierz M taką, że: 1) kolejne wiersze x macierzy odpowiadają kolejnym wariacjom rx obejmującym n-1 słów ze słownika V 2) kolejne kolumny y macierzy odpowiadają kolejnym słowom vy ze słownika V3) elementy macierzy przyjmują wartości:

Page 11: WEDT Klasyfikacja dokumentów

WUTTWG

2005

Budowanie reprezentacji n-gramowej

Przykład – bigram dla tekstu:

Twas brillig, and the slithy tovesDid gyre and gimble in the wabe

Page 12: WEDT Klasyfikacja dokumentów

WUTTWG

2005

0

5000

10000

15000

20000

25000

30000

35000

0 10 20 30 40 50 60

Posit

ion

Occurence

AnyDumpty

Reprezentacja pozycyjna

Page 13: WEDT Klasyfikacja dokumentów

WUTTWG

2005

i

rk

rkj

iij

v

wpw

Vvvwgdy

kfi

.0

,1

)(

11

n

vif

2r

Wystąpienia słów

f(k)=2 (przed norm.)k

Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Reprezentacją pozycyjną dokumentu D nazywamy dwójkę (F, S) gdzie F jest zbiorem funkcji gęstości rozkładu słów fVi o następujących własnościach:1) dziedziną funkcji fVi jest zbiór {1...n}2) wartości funkcji fVi określone są następująco:

Budowanie reprezentacji pozycyjnej

Page 14: WEDT Klasyfikacja dokumentów

WUTTWG

2005

0

5e-005

0.0001

0.00015

0.0002

0.00025

f any

any

r=500r=5000

0

5e-005

0.0001

0.00015

0.0002

0.00025

0.0003

0.00035

0.0004

f d

um

pty

dumpty

r=500r=5000

Prz

ykła

dy f

un

kcji g

ęsto

ści

Page 15: WEDT Klasyfikacja dokumentów

WUTTWG

2005

• Powiększanie rozmiaru reprezentacji

• Różne metody wygładzania

• Ograniczanie rozmiaru reprezentacji

• Funkcje istotności atrybutów

• Wybór atrybutów

• Przekształcanie przestrzeni atrybutów

Przetwarzanie reprezentacji dokumentów

Page 16: WEDT Klasyfikacja dokumentów

WUTTWG

2005

1

10

100

1000

10000

0 500 1000 1500 2000 2500 3000 3500

Fre

quency

Word ID

Prawo Zipfa

Po co ograniczać rozmiar reprezentacji?

„Hapax legomena”

Page 17: WEDT Klasyfikacja dokumentów

WUTTWG

2005

Attribute selection

WUTDMGNOV 2001

Statistical tests can be also applied to check if a feature – class correlation exists

AA A C

C A

B C B

C B

Class 1 and A – significantClass 2 and B – significant

C – not important for class separation problem

Page 18: WEDT Klasyfikacja dokumentów

WUTTWG

2005

)log()log(1),(i

ijjilln df

Ntfdw

00)log(1)log()log(1),( ijijjilln tfN

Ntfdw

)log()log()log()log(1),( ijijjilln tfNNtfdw

Ograniczanie wielkości reprezentacji„Uniwersalne” funkcje istotności atrybutów

Funkcje istotności atrybutów – rodzina TF/IDF

term frequency tfi,j – określa częstość wystąpień atrybutu wi w dokumencie djdocument frequency dfi – określa liczbę dokumentów w których występuje atrybut wiN – określa liczbę wszystkich dokumentów w systemie

Atrybut w jednym dokumencie

Atrybut we wszystkich dokumentach

Funkcje istotności atrybutów - analiza funkcji gęstości

Np. wartość takiej funkcji równa 0 oznacza całkowicie równomierny rozkład wystąpień słowa, zaś dla maksymalnej koncentracji (tj. dla pojedynczego wystąpienia słowa w dokumencie) wartość równa jest 1.

Page 19: WEDT Klasyfikacja dokumentów

WUTTWG

2005

Korelacja atrybut-klasaTesty statystyczne mogą być zastosowane

AA A C

C A

B C B

C B

Klasa 1 i A – istotnyKlasa 2 i B – istotny

C – nieistotny dla separacji klas

Page 20: WEDT Klasyfikacja dokumentów

WUTTWG

2005

)|(log)|()(

)|(log)|()()(log)()(

1

11

ij

l

j iji

ij

l

j iji

l

j jji

wkPwkPwP

wkPwkPwPkPkPwIG

Information Gain określa, które atrybuty są tymi, które w najlepszy sposób różnicują klasy ze zbioru trenującego

Funkcje istotności atrybutów – Information Gain

Page 21: WEDT Klasyfikacja dokumentów

WUTTWG

2005

Grupowanie atrybutów

Przekształcanie przestrzeni atrybutów

Grupowanie wg zależności atrybut-klasa

Grupowanie semantyczne

Bezpośrednia analiza macierzy reprezentacji

(SVD)

Grupowanie wg podobieństwa

funkcji gęstości

Przekształcanie przestrzeni atrybutów

Page 22: WEDT Klasyfikacja dokumentów

WUTTWG

2005

XEROX Web Categorisation• topologia• metadane• podobieństwo tekstów

(klasyczny model dokumentów)• częstość odwiedzin

Przykład:

Atrybuty nie muszą być wyłącznie częstościami słów/sekwencji słów

Kategoryzacja dokumentów o bogatej strukturze

Tekst Elementy medialne

(obraz, dźwięk itp.)

Osadzone aplikacje

Kroje pisma

Hiperpołączenia z innymi dokumentami

Układ stron i paginacja

Node Type Size Number Number Depth Similari Freq. Entry Precision Inlinks Outlinks of ty to Point Children Children Index - + 0.67Source Index - + + 0.53Reference + - - - 0.64Destination + - - - - 0.53Head + + + + 0.70Org. Home Page + + + + 0.30Personal Home >1k&<3k - - 0.51Content + - - 0.99

Page 23: WEDT Klasyfikacja dokumentów

WUTTWG

2005Kategoryzacja oparta o formatowanie dokumentów

Page 24: WEDT Klasyfikacja dokumentów

WUTTWG

2005

Klasyfikacja - przykład

Słownik bunga-unga• bunga• unga

bungaungaBunga bunga bungaUnga unga ungaBunga unga bunga

11

UngaBunga

Binary unigram

12

UngaBunga

Multivariate unigram

Page 25: WEDT Klasyfikacja dokumentów

WUTTWG

2005

Przestrzeń

Unga

Bunga

0 1 2

0

1

2

Bunga unga bunga

Page 26: WEDT Klasyfikacja dokumentów

WUTTWG

2005

Drzewo decycyjne - uczenie

Unga

Bunga

0 1 2

0

1

2

Unga > 0Unga 0

Bunga < 2 Bunga 2

Bunga 0

Bunga > 0

Unga 1 Unga > 1

Page 27: WEDT Klasyfikacja dokumentów

WUTTWG

2005Kategoryzacja nowego dokumentu

Unga > 0Unga 0

Bunga < 2 Bunga 2

Bunga 0

Bunga > 0

Unga 1 Unga > 1

Bunga unga bunga

Bunga unga bunga

Page 28: WEDT Klasyfikacja dokumentów

WUTTWG

2005

Zastosowania

• Klasyczne

• Analiza wiadomości email (spam, routing etc.)

• Event tracking

• Internet related

• Web Content Mining, Web Farming

• Focused crawling, assisted browsing itd.

WUTDMGNOV 2001