adaptacyjność a skalowalność map dokumentów

36
Adaptacyjność a skalowalność map dokumentów M.A. Kłopotek, S.T.Wierzchoń, K.Ciesielski, M.Dramiński, D.Czerski Instytut Podstaw Informatyki Zakopane, 6- 8.12.2005.

Upload: dana

Post on 19-Mar-2016

58 views

Category:

Documents


0 download

DESCRIPTION

Zakopane, 6-8.12.2005. Adaptacyjność a skalowalność map dokumentów. M.A. Kłopotek, S.T.Wierzchoń, K.Ciesielski, M.Dramiński, D.Czerski Instytut Podstaw Informatyki Polskiej Akademii Nauk. Agenda. Motywacja Charakterystyka nowej wyszukiwarki Architektura Interfejs użytkownika - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Adaptacyjność a skalowalność map dokumentów

Adaptacyjność a skalowalność map dokumentów

M.A. Kłopotek, S.T.Wierzchoń, K.Ciesielski, M.Dramiński,

D.CzerskiInstytut Podstaw Informatyki

Polskiej Akademii Nauk

Zakopane, 6-8.12.2005.

Page 2: Adaptacyjność a skalowalność map dokumentów

Agenda

Motywacja Charakterystyka nowej

wyszukiwarki Architektura Interfejs użytkownika Pomiary jakości Eksperymenty Wyniki Wnioski

Page 3: Adaptacyjność a skalowalność map dokumentów

MotywacjaCelem projektu było stworzenie narzędzia do wspomagania

eksploracji baz dokumentów tekstowych poprzez generowanie nawigowalnych map, na których odległość geometryczna odzwierciedla odległość konceptualną dokumentów, zaś trzeci wymiar odzwierciedla rozkład gęstości dokumentów.

Specyfika analizowanych danych: Bardzo duża liczba obserwacji oraz wymiar przestrzeni. Dokumenty są połączone linkami (związki semantyczne). Zmienność danych w czasie (modyfikowane, usuwane, dodawane) Trudności ze zdefiniowaniem obiektywnej miary jakości wyników. Szum w dancyh (np. grupy dyskusyjne)

Page 4: Adaptacyjność a skalowalność map dokumentów

BEATCA – nowa koncepcja wyszukiwarki o interfejsie mapowym

osobiste narzędzie do wspomagania zadania eksploracji pełnotekstowych baz dokumentów

nawigacyjne mapy dokumentów, na których bliskość geometryczna odzwierciedla bliskość koncepcyjną

Do zadań miękkiej klasyfikacji dokumentów oraz do stworzenia grafu bliskości pojęć, będącego podstawą kreowania nieostrych miar bliskości dokumentów zastosowano sieci bayesowskie.

Do poszukiwania optymalnej mapy dokumentów i ich grupowania stosowane są metody: samoorganizxujących się map Kohonnena sztucznych systemów immunologicznych wzrastającego gazu neuronowego

Page 5: Adaptacyjność a skalowalność map dokumentów

Zbiór dokumentów

Punkty w przestrzeni dokumentów

Grupy w przestrzeni dokumentów

Mapa dokumentów

Etapy tworzenia mapy

Page 6: Adaptacyjność a skalowalność map dokumentów

BEATCA – nowa koncepcja wyszukiwarki o interfejsie mapowym

Nowa koncwepcja wyszukiwarki mapowej Pełen cykl przetwarzania miliona dokumentów - 48 godz. współistnienie wielu koncepcji map (SOM, GNG,

Immunologiczne) współistnienie wielu koncepcji reprezentacji map (czwotokątne,

sześciokątne, dwuwymiarowe euklidesowskie, hiperboliczne "rybie oko", prezentacja na kuli, torusie, walcu)

Możliwość przyrostowego generowania mapy Środowisko do badań eksperymentalnych nad nowymi

koncepcjami map

Page 7: Adaptacyjność a skalowalność map dokumentów

BEATCA – nowa koncepcja wyszukiwarki o interfejsie mapowym

Nowe koncepcje pająka (quasi-inteligencja) Wyszukiwanie tematyczne w oparciu o sieci Bayesowskie

Nowe koncepcje indeksera Nowa metoda tzw. blokowych list inwersyjnych Nowe metody redukcji słownika Nowa metoda identyfikacji fraz

Nowe koncepcje analizatora - konstruktora map lokalno-globalne metody wyszukiwania zwycięzcy dla SOM oraz dla

GNG Nowe metody tematycznej inicjalizacji mapy (SVD, PLSA w wersji z

naiwną siecią Bayesowską, siecią ETC, metodą HAL) Nowe metody grupowania obszarów mapy (w oparciu m.in. o Fuzzy-c-

means)

Page 8: Adaptacyjność a skalowalność map dokumentów

BEATCA – nowa koncepcja wyszukiwarki o interfejsie mapowym

Nowe koncepcje informatora Mapowo-sieciowa reprezentacja GNG automatyczny dobór najlepszej mapy spośród szeregu

wcześniej przygotowanych mapy wielowarstwowe (mapy kontekstowe) Kompaktowe obszary tematyczne identyfikowane

Page 9: Adaptacyjność a skalowalność map dokumentów

BEATCA – nowa koncepcja wyszukiwarki o interfejsie mapowym

Poza tym: Wyniki wyszukiwania prezentowane na mapie dokumentów Streszczenia związane z zapytaniem generowane on-line Automatyczna generacja tezaurusa przy użyciu GNG Uzupełnianie kwerend przy użyciu sieci bayesowskich (sieci ETC lub

Chow.Liu) lub modelu HAL (z normalizowanymi lub nienormalizowanymi wektorami)

Pająk sieciowy i dyskowy Możliwość ograniczenia domen dla pająka, głębokości podkatalogów

jak i liczby ściąganych dokumentów Pająk wielowątkowy Przetwarzanie dokumentów HTML, tekstowych i PDF Rozpoznawanie języka dokumentu (polski, niemiecki, angielski)

Page 10: Adaptacyjność a skalowalność map dokumentów

BEATCA – nowa koncepcja wyszukiwarki o interfejsie mapowym

Oraz Inteligentne priorytetowanie kolejki pająka Wybór strategii przeszukiwania sieci przez pająka, metoda

przypisująca priorytety adresowm umieszczanym w kolejce. 1 – Wykorzystanie miary kosinusowej do określenia wagi linków, 2 – Wykorzystanie sieci bayesa do określenia wagi linków, 3 – Wykorzystanie HALa do określenia wagi linków.

Określenie tematyki zbieranych dokumentów (termy z z wagami) Listy inwersyjne ze statycznymi lub dynamicznymi blokami Automatyczny dobór stemmera (polski, angielski, niemiecki) Cztery metody optymalizacji słownika termów Automatyczny dobór progów jakości termów przy optymalizacji

słownika

Page 11: Adaptacyjność a skalowalność map dokumentów

BEATCA architektura

........

INTERNET

DBREGISTRY

HT-Base

HT-Base

VEC-Base MAP-Base

DocGR-Base

Search Engine

Indexing +Optimizing

SpiderDownloading MappingClustering

of docs

........

CellGR-Base

Clusteringof cells

........

........ ........ ........

Processing Flow Diagram - BEATCA

Page 12: Adaptacyjność a skalowalność map dokumentów

Interfejs użytkownika

Page 13: Adaptacyjność a skalowalność map dokumentów

Tradycyjna płaska mapa sześciokątna

Page 14: Adaptacyjność a skalowalność map dokumentów

Tradycyjna kwadratowa mapa płaska

Page 15: Adaptacyjność a skalowalność map dokumentów

Trójwymiarowe wizualizacje mapy

Page 16: Adaptacyjność a skalowalność map dokumentów

Środowisko eksperymentalneMożliwość pomiarów jakości generowanych map – Możliwość pomiarów jakości generowanych map – wykorzystane miary obiektywnej jakościwykorzystane miary obiektywnej jakości

4001 = Average Map Cosine Quantization (cellErr): - pomiar ciągłości topologicznej mapy

4002 = Average Document Cosine Quantization (docErr) - pomiar jakości grup dokumentów na poziomie komórki

Page 17: Adaptacyjność a skalowalność map dokumentów

Miary zgodności klasteryzacji z intencją (na bazie z Miary zgodności klasteryzacji z intencją (na bazie z góry zadanej klasyfikacji)góry zadanej klasyfikacji)

4003 = Cluster Purity: - „czystość” pojedynczej komórki 4004 = Cluster Entropy: - entropia pojedynczej komórki 4005 = Average Weighted Cluster Purity: - średnia czystość komórek mapy 4006 = Average Weighted Cluster Entropy: - średnia entropia komórek mapy 4007 = Normalized Mutual Information (NMI): - relacja między entropią klas a entropią klastrów (stosunek faktycznej entropiii do entropii oczekiwanej przy niezależności klastrów i klas)

Pomiary jakości

Page 18: Adaptacyjność a skalowalność map dokumentów

Eksperymenty Experiment #12: GNG with 64 gas cells Experiment #13: SOM - 8*8 cell map Experiment #22: GNG with 16 gas cells Experiment #23: SOM - 4*4 cell map

Porównanie Porównanie SOM SOM i i GNG GNG

Page 19: Adaptacyjność a skalowalność map dokumentów

EksperymentyObjaśnienia skrótów: docGroup – metoda grupowania dokumntów ETC – (Edge Tree construction algorithm), init kernel – rozmiar sąsiedztwa do nauki SOM IDComponent – faza uczenia

init – początkowa, 0 – po 1 iteracji 63 – po 63 iteracji final – na końcu

Porównanie Porównanie SOM SOM i i GNG GNG

Page 20: Adaptacyjność a skalowalność map dokumentów

Wyniki

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

Mea

sure

Valu

e

12 13 22 23

IDExperiment

IDMeasre 4001

init 0 12 / 22 - 63; 13 - 12; 23 - 10

4001 = cellErr experiments settings (12 / 13 ) settings (22 / 23)

4002 = docErr 12 / 22 = GNG 64 cells 16 cells

13 / 23 = SOM init kernel = 2 init kernel = 1

docGroup = ETC docGroup = ETC

Porównanie SOM i GNGH Porównanie SOM i GNGH

00,10,20,30,40,50,60,70,80,9

Mea

sure

Valu

e

12 13 22 23

IDExperiment

IDMeasure 4002

init 0 12 / 22 - 63; 13 - 12; 23 - 10

4002 = Average Document Cosine Quantization (docErr)

Page 21: Adaptacyjność a skalowalność map dokumentów

Wyniki

00,10,20,30,40,50,60,70,80,9

1

Mea

usre

Valu

e

12 13 22 23

IDExperiment

IDMeasure 4005

init final

4005 = AvgPurity experiments settings (12 / 13 ) settings (22 / 23)

4006 = AvgEntropy 12 / 22 = GNG 64 cells 16 cells

13 / 23 = SOM init kernel = 2 init kernel = 1

docGroup = ETC docGroup = ETC

Porównanie SOM i GNGPorównanie SOM i GNG

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

Mea

sure

Valu

e

12 13 22 23

IDExperiment

IDMeasure 4006

init final

4006 = Average Weighted Cluster Entropy: - średnia entropia komórek mapy

Page 22: Adaptacyjność a skalowalność map dokumentów

Wyniki4007 = NMI experiments settings (12 / 13 ) settings (22 / 23)

12 / 22 = GNG 64 cells 16 cells

13 / 23 = SOM init kernel = 2 init kernel = 1

docGroup = ETC docGroup = ETC

Porównanie SOM i GNGPorównanie SOM i GNG

0

0,1

0,2

0,3

0,4

0,5

0,6

Mea

sure

Valu

e

12 13 22 23

IDExperiment

IDMeasure 4007

init final

4007 = Normalized Mutual Information (NMI): - relacja między entropią klas a entropią klastrów

Page 23: Adaptacyjność a skalowalność map dokumentów

EksperymentySkrótyNB – naïve Bayes, SVD – Singular Value Decomposition, ETC – Edge Tree construction algorithm IDComponent – faza uczenia

init – początkowa, 0 – po 1 iteracji 63 – po 63 iteracji final – na końcu

Porównanie parametrów i inicjalizacji SOMPorównanie parametrów i inicjalizacji SOM

Page 24: Adaptacyjność a skalowalność map dokumentów

WynikiCZ i. Duże sąsiedztwa

measures experiments settings

4001 = cellErr 11 = NB SOM

4002 = docErr 12 = ETC 64 cells

13 = SVD init kernel = 3 (49 cells)

00,05

0,10,15

0,20,25

0,30,35

0,4

Mea

sure

Valu

e

11 12 13

IDExperiment

IDMeasure 4001

init 0 11 / 12 - 62; 13 - 63

0

0,2

0,4

0,6

0,8

1

Mea

sure

Valu

e

11 12 13

IDExperiment

IDMeasure 4002

init 0 11 / 12 - 62; 13 - 63

Porównanie parametrów i inicjalizacji SOMPorównanie parametrów i inicjalizacji SOM

4002 = Average Document Cosine Quantization (docErr)

Page 25: Adaptacyjność a skalowalność map dokumentów

CZ i. Duże sąsiedztwa

measures experiments settings

4005 = AvgPurity 11 = NB SOM

4006 = AvgEntropy 12 = ETC 64 cells

13 = SVD init kernel = 3 (49 cells)

0

0,2

0,4

0,6

0,8

1

Mea

sure

Valu

e

11 12 13

IDExperiment

IDMeasure 4005

init final

0

0,002

0,004

0,006

0,008

0,01

0,012

0,014

0,016

0,018

Mea

sure

Valu

e

11 12 13

IDExperiment

IDMeasure 4006

init final

WynikiPorównanie parametrów i inicjalizacji SOMPorównanie parametrów i inicjalizacji SOM

4006 = Average Weighted Cluster Entropy: - średnia entropia komórek mapy

Page 26: Adaptacyjność a skalowalność map dokumentów

CZ i. Duże sąsiedztwa

measures experiments settings

4005 = AvgPurity 11 = NB SOM

4006 = AvgEntropy 12 = ETC 64 cells

13 = SVD init kernel = 3 (49 cells)

0

0,1

0,2

0,3

0,4

0,5

0,6

Mea

sure

Valu

e

11 12 13

IDExperiment

IDMeasure 4007

init final

WynikiPorównanie parametrów i inicjalizacji SOMPorównanie parametrów i inicjalizacji SOM

4007 = Normalized Mutual Information (NMI): - relacja między entropią klas a entropią klastrów

Page 27: Adaptacyjność a skalowalność map dokumentów

Cz.ii Małe sąsiedztwa

measures experiments settings

4001 = cellErr 11 = NB SOM

4002 = docErr 12 = ETC 64 cells

13 = SVD init kernel = 3 (25 cells)

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

Mea

sure

Valu

e

11 12 13

IDExperiment

IDMeasure 4001

init 0 11 / 12 - 11; 13 - 12

00,10,20,30,40,50,60,70,80,9

Mea

sure

Valu

e

11 12 13

IDExperiment

IDMeasure 4002

init 0 11 / 12 - 11; 13 - 12

WynikiPorównanie parametrów i inicjalizacji SOMPorównanie parametrów i inicjalizacji SOM

Page 28: Adaptacyjność a skalowalność map dokumentów

Cz.ii Małe sąsiedztwa

measures experiments settings

4005 = AvgPurity 11 = NB SOM

4006 = AvgEntropy 12 = ETC 64 cells

13 = SVD init kernel = 3 (25 cells)

0

0,2

0,4

0,6

0,8

1

Mea

sure

Valu

e

11 12 13

IDExperiment

IDMeasure 4005

init final

00,0020,0040,0060,0080,01

0,0120,0140,0160,018

Mea

sure

Valu

e

11 12 13

IDExperiment

IDMeasure 4006

init final

WynikiPorównanie parametrów i inicjalizacji SOMPorównanie parametrów i inicjalizacji SOM

Page 29: Adaptacyjność a skalowalność map dokumentów

Cz.ii Małe sąsiedztwa

measures experiments settings

4007 = NMI 11 = NB SOM

12 = ETC 64 cells

13 = SVD init kernel = 3 (25 cells)

0

0,1

0,2

0,3

0,4

0,5

0,6

Mea

sure

Valu

e

11 12 13

IDExperiment

IDMeasure 4007

init final

WynikiPorównanie parametrów i inicjalizacji SOMPorównanie parametrów i inicjalizacji SOM

4007 = Normalized Mutual Information (NMI): - relacja między entropią klas a entropią klastrów

Page 30: Adaptacyjność a skalowalność map dokumentów

Adaptacyjność Pająk

Możliwość szukania wg profili tematycznych Dopasowanie do profilu dotychczas wyszukanych dokumentów

Indekser Przyrostowa konstrukcja indeksuListy inwersyjne z dynamicznymi blokami

Maper GNG – uczenie struktury powiązań z „zapominaniem” grup i

powiązań nieaktywnych Fleksybilnna inicjalizacja mapy, przewidująca uuczenieprzyrostowe

Page 31: Adaptacyjność a skalowalność map dokumentów

Gładkość modelu

- nieadaptacyjna i adaptacyjna konstrukcja

Page 32: Adaptacyjność a skalowalność map dokumentów

Przemieszczanie dokumentu między komórkami

- nieadaptacyjna i adaptacyjna konstrukcja

Page 33: Adaptacyjność a skalowalność map dokumentów

Średni błąd kwantyzacji

- nieadaptacyjna i adaptacyjna konstrukcja

Page 34: Adaptacyjność a skalowalność map dokumentów

Jakość lokalnej metody w konstrukcji GNG

- metoda klasyczna (globalna) a nowa (drzewiasta

Page 35: Adaptacyjność a skalowalność map dokumentów

Czas obliczeń

- metoda klasyczna (globalna) a nowa (drzewiasta

Page 36: Adaptacyjność a skalowalność map dokumentów

Dziękuję