wedt klasyfikacja dokumentów

WUTTWG

2005

WEDT

Klasyfikacja dokumentów

Wykład 8

Piotr [email protected]

2005

WUTTWG

2005

Grupowanie (clustering)

WUTTWG

2005

Klasa A

Klasa B

Klasa C

Klasyfikacja (categorization)

WUTTWG

2005

DB

dr

dsdr – dokumenty relewantneds – dokumenty uznane przez system za relewantne

DB – baza dokumentów

ds

drdsPR

dr

drdsR

DB

drdsDBdrdsA

drDB

drdsFO

Ocena efektywności algorytmów kategoryzacji

PR – precision, R – recall, A – accuracy, FO – fallout

kategoryzacja jest problemem zbliżonym do wyszukiwania informacji (IR)

WUTTWG

2005

1),(0;),(

gfPRbaba

agfPR1),(0;),(

gfRca

ca

agfR

dcba

dagfA

),(1),(0;),(

gfFOdbdb

bgfFO

RPR

F1

)1(1

1

Kategoryzacja binarna

•Wartość wskaźnika dokładności określa prawdopodobieństwo dokonania poprawnej klasyfikacji, dla losowo wybranego dokumentu ze zbioru D. •Wartość wskaźnika precyzji określa prawdopodobieństwo, iż losowy dokument wybrany z dokumentów uznanych za relewantne, jest rzeczywiście dokumentem relewantnym.•Zupełność odpowiada prawdopodobieństwu tego, iż dokument faktycznie relewantny, zostanie za taki uznany przez system. •Zaszumienie określa z kolei prawdopodobieństwo niepoprawnego uznania za relewantny dokumentu, który faktycznie relewantny nie jest.

WUTTWG

2005

l

PRgfPR

l

ii

ma

1),(

Rozszerzenie dla wielu klas

Mk

M={M1, M2,...,Ml}

Makro-uśrednianie Mikro-uśrednianie

PR={PR1, PR2, ..., PRl}

WUTTWG

2005Przykład oceny

Wyniki działania czterech systemów kategoryzacji:

Ocena systemów według przedstawionych wskaźników:

WUTTWG

2005

Zliczanie słów

Zliczanie sekwencji słów

Rozkłady prawdopodobieństwa wyst. słów

Reprezentacje dokumentów

• reprezentacje unigramowe (bag-of-words)• binarne• częstościowe

•reprezentacja n-gramowe• reprezentacje mieszane (Katz backoff style)

•reprezentacje pozycyjne

w istocie są niemal tożsame z modelami języka

WUTTWG

2005

.0

,;1

wpw

VvvwjgdyR iij

i

Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Unigramową reprezentacją częstościową dokumentu D nazywamy wektor R taki, że:

n

j

iiji wpw

VvvwgdyR

1 .0

,1

Reprezentacje unigramowe

Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Unigramową reprezentacją binarną dokumentu D nazywamy wektor R taki, że:

WUTTWG

2005

• n-gramowe• mieszane

no

j

ynjxnjjjyx wpw

vwrwwwgdyM

1

11, .0

),...,,(1

Reprezentacje bazujące na modelu Markowa

„I would like to make phone...”

Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wo, zm). Reprezentacją n-gramową dokumentu D nazywamy macierz M taką, że: 1) kolejne wiersze x macierzy odpowiadają kolejnym wariacjom rx obejmującym n-1 słów ze słownika V 2) kolejne kolumny y macierzy odpowiadają kolejnym słowom vy ze słownika V3) elementy macierzy przyjmują wartości:

WUTTWG

2005

Budowanie reprezentacji n-gramowej

Przykład – bigram dla tekstu:

Twas brillig, and the slithy tovesDid gyre and gimble in the wabe

WUTTWG

2005

0

5000

10000

15000

20000

25000

30000

35000

0 10 20 30 40 50 60

Posit

ion

Occurence

AnyDumpty

Reprezentacja pozycyjna

WUTTWG

2005

i

rk

rkj

iij

v

wpw

Vvvwgdy

kfi

.0

,1

)(

11

n

vif

2r

Wystąpienia słów

f(k)=2 (przed norm.)k

Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Reprezentacją pozycyjną dokumentu D nazywamy dwójkę (F, S) gdzie F jest zbiorem funkcji gęstości rozkładu słów fVi o następujących własnościach:1) dziedziną funkcji fVi jest zbiór {1...n}2) wartości funkcji fVi określone są następująco:

Budowanie reprezentacji pozycyjnej

WUTTWG

2005

0

5e-005

0.0001

0.00015

0.0002

0.00025

f any

any

r=500r=5000

0

5e-005

0.0001

0.00015

0.0002

0.00025

0.0003

0.00035

0.0004

f d

um

pty

dumpty

r=500r=5000

Prz

ykła

dy f

un

kcji g

ęsto

ści

WUTTWG

2005

• Powiększanie rozmiaru reprezentacji

• Różne metody wygładzania

• Ograniczanie rozmiaru reprezentacji

• Funkcje istotności atrybutów

• Wybór atrybutów

• Przekształcanie przestrzeni atrybutów

Przetwarzanie reprezentacji dokumentów

WUTTWG

2005

1

10

100

1000

10000

0 500 1000 1500 2000 2500 3000 3500

Fre

quency

Word ID

Prawo Zipfa

Po co ograniczać rozmiar reprezentacji?

„Hapax legomena”

WUTTWG

2005

Attribute selection

WUTDMGNOV 2001

Statistical tests can be also applied to check if a feature – class correlation exists

AA A C

C A

B C B

C B

Class 1 and A – significantClass 2 and B – significant

C – not important for class separation problem

WUTTWG

2005

)log()log(1),(i

ijjilln df

Ntfdw

00)log(1)log()log(1),( ijijjilln tfN

Ntfdw

)log()log()log()log(1),( ijijjilln tfNNtfdw

Ograniczanie wielkości reprezentacji„Uniwersalne” funkcje istotności atrybutów

Funkcje istotności atrybutów – rodzina TF/IDF

term frequency tfi,j – określa częstość wystąpień atrybutu wi w dokumencie djdocument frequency dfi – określa liczbę dokumentów w których występuje atrybut wiN – określa liczbę wszystkich dokumentów w systemie

Atrybut w jednym dokumencie

Atrybut we wszystkich dokumentach

Funkcje istotności atrybutów - analiza funkcji gęstości

Np. wartość takiej funkcji równa 0 oznacza całkowicie równomierny rozkład wystąpień słowa, zaś dla maksymalnej koncentracji (tj. dla pojedynczego wystąpienia słowa w dokumencie) wartość równa jest 1.

WUTTWG

2005

Korelacja atrybut-klasaTesty statystyczne mogą być zastosowane

AA A C

C A

B C B

C B

Klasa 1 i A – istotnyKlasa 2 i B – istotny

C – nieistotny dla separacji klas

WUTTWG

2005

)|(log)|()(

)|(log)|()()(log)()(

1

11

ij

l

j iji

ij

l

j iji

l

j jji

wkPwkPwP

wkPwkPwPkPkPwIG

Information Gain określa, które atrybuty są tymi, które w najlepszy sposób różnicują klasy ze zbioru trenującego

Funkcje istotności atrybutów – Information Gain

WUTTWG

2005

Grupowanie atrybutów

Przekształcanie przestrzeni atrybutów

Grupowanie wg zależności atrybut-klasa

Grupowanie semantyczne

Bezpośrednia analiza macierzy reprezentacji

(SVD)

Grupowanie wg podobieństwa

funkcji gęstości

Przekształcanie przestrzeni atrybutów

WUTTWG

2005

XEROX Web Categorisation• topologia• metadane• podobieństwo tekstów

(klasyczny model dokumentów)• częstość odwiedzin

Przykład:

Atrybuty nie muszą być wyłącznie częstościami słów/sekwencji słów

Kategoryzacja dokumentów o bogatej strukturze

Tekst Elementy medialne

(obraz, dźwięk itp.)

Osadzone aplikacje

Kroje pisma

Hiperpołączenia z innymi dokumentami

Układ stron i paginacja

Node Type Size Number Number Depth Similari Freq. Entry Precision Inlinks Outlinks of ty to Point Children Children Index - + 0.67Source Index - + + 0.53Reference + - - - 0.64Destination + - - - - 0.53Head + + + + 0.70Org. Home Page + + + + 0.30Personal Home >1k&<3k - - 0.51Content + - - 0.99

WUTTWG

2005Kategoryzacja oparta o formatowanie dokumentów

WUTTWG

2005

Klasyfikacja - przykład

Słownik bunga-unga• bunga• unga

bungaungaBunga bunga bungaUnga unga ungaBunga unga bunga

11

UngaBunga

Binary unigram

12

UngaBunga

Multivariate unigram

WUTTWG

2005

Przestrzeń

Unga

Bunga

0 1 2

0

1

2

Bunga unga bunga

WUTTWG

2005

Drzewo decycyjne - uczenie

Unga

Bunga

0 1 2

0

1

2

Unga > 0Unga 0

Bunga < 2 Bunga 2

Bunga 0

Bunga > 0

Unga 1 Unga > 1

WUTTWG

2005Kategoryzacja nowego dokumentu

Unga > 0Unga 0

Bunga < 2 Bunga 2

Bunga 0

Bunga > 0

Unga 1 Unga > 1

Bunga unga bunga

Bunga unga bunga

WUTTWG

2005

Zastosowania

• Klasyczne

• Analiza wiadomości email (spam, routing etc.)

• Event tracking

• Internet related

• Web Content Mining, Web Farming

• Focused crawling, assisted browsing itd.

WUTDMGNOV 2001

wedt klasyfikacja dokumentów

Documents