analiza danych nieustrukturyzowanych: text miningkuligowska.com/wne/textmining/tm2.pdf · przykład...

122
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS” Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska Wydział Nauk Ekonomicznych Uniwersytet Warszawski

Upload: phunganh

Post on 28-Feb-2019

226 views

Category:

Documents


0 download

TRANSCRIPT

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Analiza danych nieustrukturyzowanych: Text Mining

dr Karolina Kuligowska

Wydział Nauk Ekonomicznych

Uniwersytet Warszawski

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 2 SAS Text Miner

1) Krótka charakterystyka narzędzia

2) Etapy procesu text mining

3) Komponenty

4) Makro % tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 2 SAS Text Miner

1) Krótka charakterystyka narzędzia

2) Etapy procesu text mining

3) Komponenty

4) Makro % tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

49

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

SAS Institute na polskim rynku od 1992 r.

SAS Enterprise Miner

analizy data mining

interaktywna wizualizacja danych

SAS Text Miner

przetwarzanie tekstu

wydobywanie wiedzy z dokumentów tekstowych

interaktywna wizualizacja danych

SAS

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

50

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Komponent wewnątrz SAS Enterprise Miner

Umożliwia wydobywanie informacji oraz dotarcie do tematów i konceptów zawartych w dużym zbiorze dokumentów

Obsługiwane formaty dokumentów: PDF, ASCII, Corel Presentations, HTML, Lotus Word Pro, WordPerfect, MS Excel, MS PowerPoint, MS Word, MS Outlook, MS Outlook Express

SAS Text Miner

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

51

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

SAS Text Miner zawiera makro %tmfilter, które:

wydobywa tekst z plików o różnym formacie lub

wydobywa tekst ze stron internetowych

a następnie

tworzy bazę danych SAS gotową do dalszych analiz

Funkcjonalności

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

52

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

SAS Text Miner może wydobywać tekst z plików w formacie PDF, ale nie obraz tekstu z pliku PDF

Jeśli plik zawiera zeskanowany tekst (tj. obraz tekstu), należy go przekonwertować na dokument tekstowy za pomocą dowolnego programu OCR (Optical Character Recognition)

Uwaga!

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 2 SAS Text Miner

1) Krótka charakterystyka narzędzia

2) Etapy procesu text mining

3) Komponenty

4) Makro % tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

54

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

1. Wstępna analiza plików tekstowych (file preprocessing)

przetworzenie zbioru dokumentów w jedną bazę danych SAS - input dla Text Miner

2. Parsowanie - rozbiór struktury tekstu (text parsing)

a) dekompozycja danych tekstowych

b) ilościowa reprezentacja zbioru dokumentów

Etapy procesu text mining

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

55

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

3. Transformacja i redukcja wymiarów (transformation, dimension reduction)

a) transformacja reprezentacji ilościowej tekstu

b) redukcja wymiarów do zwartego formatu informacyjnego

4. Analiza (document analysis)

klastrowanie, klasyfikacja, predykcja

Etapy procesu text mining

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 2 SAS Text Miner

1) Krótka charakterystyka narzędzia

2) Etapy procesu text mining 1. Wstępna analiza plików tekstowych

2. Parsowanie - rozbiór struktury tekstu a) dekompozycja danych tekstowych b) ilościowa reprezentacja zbioru dokumentów

3. Transformacja i redukcja wymiarów a) transformacja reprezentacji ilościowej tekstu b) redukcja wymiarów do zwartego formatu informacyjnego

4. Analiza

3) Komponenty

4) Makro % tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

57

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Wstępna analiza plików tekstowych (file preprocessing)

Makro %tmfilter

tworzy bazę danych SAS, która zawiera tekst wydobyty z plików o różnym formacie

Źródła danych tekstowych

lokalne pliki tekstowe

bazy danych SAS

tabele w zewnętrznych bazach danych

pliki dostępne w sieci internetowej

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 2 SAS Text Miner

1) Krótka charakterystyka narzędzia

2) Etapy procesu text mining 1. Wstępna analiza plików tekstowych

2. Parsowanie - rozbiór struktury tekstu a) dekompozycja danych tekstowych b) ilościowa reprezentacja zbioru dokumentów

3. Transformacja i redukcja wymiarów a) transformacja reprezentacji ilościowej tekstu b) redukcja wymiarów do zwartego formatu informacyjnego

4. Analiza

3) Komponenty

4) Makro % tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

59

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Termin wielowyrazowy to grupa wyrazów rozpatrywana jako pojedynczy termin

Zazwyczaj jest to czasownik złożony lub nazwa własna, rzadziej zwrot idiomatyczny

due to, because of

Web browser, interest rate

Terminy wielowyrazowe są obsługiwane w językach: angielski, francuski, niemiecki, włoski, portugalski, hiszpański

Terminy wielowyrazowe

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

60

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

SAS Text Miner identyfikuje części mowy

W rezultacie każde wyrażenie jest przyporządkowane do gramatycznej kategorii, bazując na kontekście użycia w danym zdaniu

Analiza ta jest obsługiwana w językach: angielski, francuski, niemiecki, hiszpański

Części mowy

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

61

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Dokumenty z reguły zawierają pewne szczególne jednostki tekstu, takie jak:

adres, firma, organizacja, kwota, waluta, data, godzina, adres internetowy, lokalizacja, miara, procent, osoba, tytuł naukowy, telefon, produkt

SAS Text Miner identyfikuje jednostki specjalne dla języków: angielski, francuski, niemiecki, hiszpański

Jednostki specjalne

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

62

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Stop lista: słowa o mało znaczącej treści zebrane w formie tabeli

Umożliwia pominięcie konkretnych słów, co przyspiesza analizę tekstu i prowadzi do uzyskania lepszych rezultatów

SAS Text Miner posiada stop listy dla języków: angielski, francuski, niemiecki

Stop lista

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

63

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Przykład stop listy

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

64

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Start lista: słowa o znaczącej treści zebrane w formie tabeli

Umożliwia włączenie konkretnych słów do analizy i zbadanie tylko wybranych słów

SAS Text Miner nie posiada domyślnej start listy

Start lista

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

65

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

SAS Text Miner może zostać skonfigurowany w celu znajdowania podstawy fleksyjnej słów (stemming, lematyzacja)

Jedno słowo może grupować różne części mowy np. słowo „nauka” może grupować „uczyć” oraz „nauczyciel”

Jednocześnie SAS Text Miner rozróżnia te słowa jako czasownik i rzeczownik w grupie „nauka”

Znajdowanie podstawy fleksyjnej

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

66

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Podstawa fleksyjna

Wyrażenia

reach reaches, reached, reaching

big bigger, biggest

aller (francuski) vais, vas, va, allons, allez, vont

Przykłady podstawy fleksyjnej

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

67

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

SAS Text Miner korzysta z listy synonimów w celu pogrupowania słów

Synonimy nie mają wspólnej podstawy fleksyjnej, ale niosą tę samą informację

Np: „uczyć” ma synonimy: instruować, edukować, kształcić

Synonimy

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

68

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Oprócz synonimów słów istnieją także formy kanoniczne („synonimy”) jednostek specjalnych

Jednostki specjalne, pomimo różnych nazw, są traktowane przez SAS Text Miner tak samo jak ich bazowa forma kanoniczna

Forma kanoniczna

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

69

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

DATA i rok 07/03/07

7 marzec

7 marzec 2007

’07

Procent 50%

Pięćdziesiąt procent

Pięćdziesiąt pt. proc

Forma kanoniczna

2007-03-07

-03-07

2007-03-07

2007

Forma kanoniczna

50%

Przykłady formy kanonicznej

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

70

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

SAS Text Miner umożliwia stworzenie własnych synonimów oraz form kanonicznych

W tym celu należy stworzyć zbiór danych SAS zawierający listę synonimów, która uwzględnia min. trzy zmienne:

słowo (term)

baza fleksyjna (parent)

kategoria części mowy (category)

Własne ustawienia

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

71

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Słowo Baza Kategoria

wiele dużo liczebnik synonim

pracownicy pracować czasownik stemming

EM Enterprise Miner SAS

produkt forma kanoniczna

Przykłady własnych synonimów

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 2 SAS Text Miner

1) Krótka charakterystyka narzędzia

2) Etapy procesu text mining 1. Wstępna analiza plików tekstowych

2. Parsowanie - rozbiór struktury tekstu a) dekompozycja danych tekstowych b) ilościowa reprezentacja zbioru dokumentów

3. Transformacja i redukcja wymiarów a) transformacja reprezentacji ilościowej tekstu b) redukcja wymiarów do zwartego formatu informacyjnego

4. Analiza

3) Komponenty

4) Makro % tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

73

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Oparta o zbiór słów kluczowych („bag of words” document representation) dokument tekstowy reprezentowany jest przez zbiór

słów kluczowych opisujących dokument (wypisywanych najczęściej ręcznie przez osobę tworzącą dokument). Wyszukiwanie dokumentów realizowane jest poprzez podanie słów kluczowych

Oparta o przestrzeń wektorową (vector space document representation) dokument tekstowy reprezentowany jest przez

wektor częstości występowania słów kluczowych, a całość zebrana jest w macierzy Term_Frequency_Matrix

Reprezentacja dokumentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

74

dr Karolina Kuligowska

[email protected]

Doc 1 Coca-Cola announced earnings on Tuesday, Jan 12, 2017

Doc 2 Coca-Cola’s profits are down as of 12/01/2017

powyższy zbiór dwóch jednozdaniowych dokumentów SAS Text Miner przekształci do postaci macierzy częstości (term-by-document frequency matrix)

Zbiór dokumentów

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

75

dr Karolina Kuligowska

[email protected]

Parsed term ID D1 D2

Coca-cola 1 1 1

+announce 2 1 0

+earnings 3 1 0

on 4 1 0

Tuesday 5 1 0

+profit 6 0 1

down 7 0 1

as of 8 0 1

‘s 9 0 1

+be 10 0 1

+[12/01/2017] 11 1 1

Macierz częstości występowania terminów w dokumencie

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

76

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

wiersze reprezentują rozłożone wyrażenia (rdzenie oraz formy kanoniczne)

w kolumnach odnoszących się do dokumentów przedstawiona jest liczba wystąpień (częstość) danego wyrażenia w tym dokumencie

niektóre wyrażenia zostały usunięte przez stop listę

macierz częstości służy jako podstawa analizy zbioru dokumentów

Macierz częstości występowania terminów w dokumencie

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

77

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Macierz częstości jest olbrzymia, zawiera tysiące wyrażeń

Jak polepszyć macierz?

transformacja (funkcje ważące)

redukcja wymiarów macierzy do znacznie mniejszych rozmiarów (poprawia wydajność i efektywność procesu text mining)

Dopiero później: analiza

Ilościowa reprezentacja to za mało...

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 2 SAS Text Miner

1) Krótka charakterystyka narzędzia

2) Etapy procesu text mining 1. Wstępna analiza plików tekstowych

2. Parsowanie - rozbiór struktury tekstu a) dekompozycja danych tekstowych b) ilościowa reprezentacja zbioru dokumentów

3. Transformacja i redukcja wymiarów a) transformacja reprezentacji ilościowej tekstu b) redukcja wymiarów do zwartego formatu informacyjnego

4. Analiza

3) Komponenty

4) Makro % tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

79

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Tematyka większości dokumentów jest zazwyczaj wystarczająco dobrze określona przez niewielką ilość słów

Pozostałe informacje słowne - zbędny „balast”

Celowość transformacji

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

80

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Występowanie słów w tekście

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

81

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Prawo Zipfa

częstotliwość występowania słowa w tekście jest odwrotnie proporcjonalna do jego rangi (pozycji w rankingu)

Prawo Zipfa

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

82

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Słowa o największej mocy dyskryminacyjnej mają od niskiej do średniej częstotliwości

Prawo Zipfa i moc dyskryminacyjna

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

83

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Potrzebna jest funkcja wybierająca słowa najbardziej istotne dla zbioru dokumentów

dziedzina - elementy reprezentacji (słowa)

wartości - określać będą przydatność tych elementów dla dalszej analizy

Transformacja reprezentacji ilościowej tekstu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

84

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Macierz częstości występowania terminów w dokumencie (term-by-document frequency matrix) jest podstawą analizy zbioru dokumentów, lecz nie uwzględnia siły dyskryminacyjnej słów/terminów

Funkcje ważące ulepszają macierz częstości: im rzadsze słowo, tym większa jego waga i tym bardziej dokumenty zawierające to słowo są do siebie podobne (dzięki temu można tworzyć podzbiory podobnych dokumentów)

Funkcje ważące

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

85

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Waga częstości (lokalna) Lij

Informacje o 1 dokumencie, jakie niesie dane słowo/termin

Waga wyrażenia (globalna) Gi

Informacje o zbiorze dokumentów, jakie niesie dane słowo/termin

Wzór ogólny całkowitej wagi danej pozycji w macierzy częstości: âij = LijGi

Funkcje ważące

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

86

dr Karolina Kuligowska

[email protected]

Są to funkcje częstości występowania słowa i w dokumencie j

Dostępne funkcje:

Binarna (binary)

Logarytmiczna (log)

Pusta (none)

Wagi częstości (Lij)

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

87

dr Karolina Kuligowska

[email protected]

Binarna (0-1), używana dla prostych dokumentów o nieskomplikowanej składni

Logarytmiczna, obniża efekt często

powtarzanego pojedynczego słowa

Pusta, wszystkie wagi mają wartość 1

)1(log 2 ijij aL

1ijL

0

1

ij

ij

L

L - gdy słowo i występuje w dokumencie j

- w przeciwnym przypadku

Wagi częstości (Lij)

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

88

dr Karolina Kuligowska

[email protected]

Są to funkcje zliczające wystąpienia słowa i w całym zbiorze dokumentów

Dostępne funkcje:

Entropia (entropy)

GF-IDF (Global Frequency x Inverse Document Frequency)

IDF (Inverse Document Frequency)

Normalna (normal)

Pusta (none)

Wagi wyrażenia (Gi)

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

89

dr Karolina Kuligowska

[email protected]

Entropia, kładzie nacisk na słowa, które występują tylko w kilku dokumentach z całego zbioru. Największą wagę otrzymują słowa rzadkie w zbiorze dokumentów

-liczba dokumentów w zbiorze

-częstość występowania słowa i w dokumencie j

j

ijij

in

ppG

)(log

)(log1

2

2n

ijf

i

ij

ijg

fP ig -liczba wystąpień słowa i w całym zbiorze

Wagi wyrażenia (Gi)

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

90

dr Karolina Kuligowska

[email protected]

GF-IDF, podobnie jak Entropia, kładzie nacisk na słowa, które występują tylko w kilku dokumentach w całym zbiorze. Największą wagę otrzymują słowa rzadkie w zbiorze dokumentów

i

i

id

gG

id -liczba dokumentów, w których pojawia się słowo i

-liczba wystąpień słowa i w całym zbiorze ig

Wagi wyrażenia (Gi)

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

91

dr Karolina Kuligowska

[email protected]

IDF, tzw. odwrotna częstość, podkreśla słowa występujące tylko w kilku dokumentach

Normalna, podkreśla bardziej proporcję ilości pojawień słowa w zbiorze dokumentów, niż samą liczbę wystąpień

Pusta, wszystkie wagi mają wartość 1

1iG

1log 2

i

id

nG

j

ij

i

fG

2

1

Wagi wyrażenia (Gi)

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

92

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Funkcje ważące – przykład ważenia

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 2 SAS Text Miner

1) Krótka charakterystyka narzędzia

2) Etapy procesu text mining 1. Wstępna analiza plików tekstowych

2. Parsowanie - rozbiór struktury tekstu a) dekompozycja danych tekstowych b) ilościowa reprezentacja zbioru dokumentów

3. Transformacja i redukcja wymiarów a) transformacja reprezentacji ilościowej tekstu b) redukcja wymiarów do zwartego formatu informacyjnego

4. Analiza

3) Komponenty

4) Makro % tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

94

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Modelowanie oraz obliczenia wykonywane na wielowymiarowych przestrzeniach słów są kosztowne i trudne do przeprowadzenia

Duża ilość wymiarów oznacza rozrzedzone dane wejściowe (sparse data)

dziesiątki tysięcy wyodrębnionych słów

niewielki procent istotnych słów (prawo Zipfa)

Redukcja wymiarów macierzy zwiększa efektywność analizy

Celowość redukcji wymiarów

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

95

dr Karolina Kuligowska

[email protected]

Singular Value Decomposition -rozkład macierzy według wartości szczególnych

Metoda ta generuje k wymiarów, które najlepiej przybliżają macierz częstości

parametr k określany jest przez użytkownika mała wartość k (2 - 50) jest przydatna

w dalszej klasteryzacji duża wartość k (30 - 200) jest przydatna

w dalszej predykcji lub klasyfikacji

Redukcja wymiarów: Dekompozycja SVD

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

96

dr Karolina Kuligowska

[email protected]

Rozkład macierzy Am*n na iloczyn macierzy:

A=U S VT

Dekompozycja SVD

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

97

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Zastosowanie dekompozycji SVD pozwala na redukcję wymiaru macierzy częstości bez utraty informacji

Szczególnie ważna, gdy dokumenty są długie i jest w nich wiele homonimów

Homonimy – wyrazy wieloznaczne, mają tę samą postać, ale różne znaczenie np. zamek/zamek, granat/granat, itp.

Dekompozycja SVD

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Przebieg dekompozycji SVD - przykład

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

99

dr Karolina Kuligowska

[email protected]

Document 1: deposit the cash and check in the bank

Document 2: the river boat is on the bank

Document 3: borrow based on credit

Document 4: river boat floats up the river

Document 5: boat is by the dock near the bank

Document 6: with credit, I can borrow cash from the bank

Document 7: boat floats by dock near the river bank

Document 8: check the parade route to see the floats

Document 9: along the parade route

Przykład dekompozycji SVD

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

100

dr Karolina Kuligowska

[email protected]

Zbiór 9 dokumentów

dokumenty 1,3,6 dotyczą bankowości i pożyczek

dokumenty 2,4,5,7 dotyczą brzegu rzeki

dokumenty 8, 9 dotyczą trasy defilady

Niektóre z dokumentów zawierają homonimy

„bank” jako instytucja finansowa lub brzeg rzeki

„check” jako rzeczownik w dokumencie 1 lub jako czasownik w dokumencie 8

„float” jako czasownik w dokumencie 4 lub jako rzeczownik w dokumencie 8

Przykład dekompozycji SVD

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

101

dr Karolina Kuligowska

[email protected]

d1 d2 d3 d4 d5 d6 d7 d8 d9

the 2 2 0 1 2 1 1 2 1

cash 1 0 0 0 0 1 0 0 0

check 1 0 0 0 0 0 0 1 0

bank 1 1 0 0 1 1 1 0 0

river 0 1 0 2 0 0 1 0 0

boat 0 1 0 1 1 0 1 0 0

+ be 0 1 0 0 1 0 0 0 0

on 0 1 1 0 0 0 0 0 0

borrow 0 0 1 0 0 1 0 0 0

credit 0 0 1 0 0 1 0 0 0

+ floats 0 0 0 1 0 0 1 1 0

by 0 0 0 0 1 0 1 0 0

dock 0 0 0 0 1 0 1 0 0

near 0 0 0 0 1 0 1 0 0

parade 0 0 0 0 0 0 0 1 1

route 0 0 0 0 0 0 0 1 1

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

102

dr Karolina Kuligowska

[email protected]

Obserwując elementy macierzy można zauważyć na pierwszy rzut oka, że:

dokumenty 1 i 2 są do siebie bardziej podobne niż dokumenty 1 i 3, gdyż dokumenty 1 i 2 zawierają słowo „bank”, podczas gdy dokumenty 1 i 3 nie mają wspólnych wyrazów

W rzeczywistości dokumenty 1 i 2 nie są wcale ze sobą powiązane; to dokumenty 1 i 3 dotyczą tych samych zagadnień

Dekompozycja SVD pozwala przezwyciężyć powyższe problemy

Przykład dekompozycji SVD

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

103

dr Karolina Kuligowska

[email protected]

W wyniku dekompozycji SVD macierz częstości została zredukowana do 2 wymiarów

Przestrzeń semantyczna staje się 2-wymiarowa

Przewidywany rozkład dokumentów można zobrazować w 2-wymiarowej przestrzeni

Przykład dekompozycji SVD

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

104

dr Karolina Kuligowska

[email protected]

2-wymiarowy rozkład dokumentów

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

105

dr Karolina Kuligowska

[email protected]

Dokument 1 jest bliżej dokumentu 3 niż 2 (jest to zgodne z prawdą, chociaż dokumenty 1 i 3 nie zawierają takich samych słów)

Dokument 5 jest ściśle powiązany z dokumentami 2,4,7

Przewidywania umiejscawiają podobne dokumenty obok siebie, nawet jeśli zawierają one niewiele wspólnych słów

2-wymiarowy rozkład dokumentów

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 2 SAS Text Miner

1) Krótka charakterystyka narzędzia

2) Etapy procesu text mining 1. Wstępna analiza plików tekstowych

2. Parsowanie - rozbiór struktury tekstu a) dekompozycja danych tekstowych b) ilościowa reprezentacja zbioru dokumentów

3. Transformacja i redukcja wymiarów a) transformacja reprezentacji ilościowej tekstu b) redukcja wymiarów do zwartego formatu informacyjnego

4. Analiza

3) Komponenty

4) Makro % tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

107

dr Karolina Kuligowska

[email protected]

Celem analiz Text Mining jest określenie tematyki zbioru dokumentów bez konieczności czytania każdego słowa

Text Mining opisowy (descriptive text mining) – klastrowanie, klasyfikacja (wykrycie konceptów, wzorców i powiązań tematycznych w zbiorze dokumentów)

Text Mining predykcyjny (predictive text mining) – predykcja (wykorzystanie wykrytych konceptów, wzorców i powiązań tematycznych w zbiorze dokumentów do formułowania prognoz)

Analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

108

dr Karolina Kuligowska

[email protected]

Metoda hierarchiczna

jeden klaster może zawierać inny

brak innych rodzajów nałożeń klastrów

Klastrowanie

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

109

dr Karolina Kuligowska

[email protected]

Metoda EM (Expectation Maximization)

oblicza prawdopodobieństwa przynależności do skupień przy założeniu jednego lub wielu rozkładów prawdopodobieństwa

dozwolona różna wielkość i kształt klastrów

Klastrowanie

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

110

dr Karolina Kuligowska

[email protected]

Sortowanie dokumentów tekstowych wg wcześniej zdefiniowanych kategorii

Wymaga zbioru treningowego

Opiera się na

wnioskowaniu pamięciowym

sieciach neuronowych

drzewach decyzyjnych

Klasyfikacja

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

111

dr Karolina Kuligowska

[email protected]

Ogólne nieautomatyczne wnioskowanie na podstawie wykrytych konceptów, wzorców i powiązań tematycznych w zbiorze dokumentów

Przykłady

przewidywanie wystąpienia problemu na podstawie zapisów rozmów z call center

prognozowanie kosztów usługi, bazujące na tekstowym opisie problemu

przewidywanie poziomu satysfakcji klientów na podstawie ich komentarzy i opinii

prognozowanie wahań cen akcji na podstawie wiadomości prasowych i ogłoszeń biznesowych

Predykcja

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 2 SAS Text Miner

1) Krótka charakterystyka narzędzia

2) Etapy procesu text mining

3) Komponenty

4) Makro % tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

113

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Text Parsing - parsowanie zbioru dokumentów w celu stworzenia ilościowej reprezentacji tekstu i macierzy częstości

Text Filter - czyszczenie danych przez redukcję całkowitej liczby analizowanych słów i/lub dokumentów

Text Topic - eksploracja zbioru dokumentów przez wyznaczenie kategorii tematycznych

Komponenty

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

114

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Text Cluster - klastrowanie dokumentów, bazując na macierzy częstości (Text Parsing) z oczyszczonymi danymi (Text Filter)

Text Rule Builder - tworzenie reguł do opisywania zmiennej celu

Text Profile - profilowanie zmiennej celu na podstawie słów odkrytych w dokumentach

Text Import - import tekstu źródłowego

Komponenty

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 2 SAS Text Miner

1. Krótka charakterystyka narzędzia

2. Etapy procesu text mining

3. Komponenty Text Parsing

Text Filter

Text Topic

Text Cluster

Text Rule Builder

Text Profile

Text Import

4. Makro % tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

116

dr Karolina Kuligowska

[email protected]

Text Parsing

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

117

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Język: ENGLISH / POLISH

Wykryj wyrażenia

to samo słowo jako różne części mowy

grupy rzeczowników

terminy wielowyrazowe

jednostki specjalne

Ustawienia Text Parsing

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

118

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Ignoruj części mowy

Ignoruj typy jednostek specjalnych

Ignoruj typy atrybutów

liczby

interpunkcja

Ustawienia Text Parsing

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

119

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Rozpoznawane części mowy:

Det – rodzajnik (a, an), zaimek wskazujący (this, that...)

Conj – spójnik

Aux – czasownik posiłkowy

Prep – przyimek

Pron – zaimek

Part – bezokolicznik, partykuła przecząca (not, ain’t), zaimki dzierżawcze (my, your, her, his…)

Interj – wykrzyknik

Noun – rzeczownik

Verb – czasownik

Prop – nazwa własna (proper noun)

Adj – przymiotnik

Adv – przysłówek

Abbr – skrót

Num – liczby i liczebniki (napisane słownie)

Ustawienia Text Parsing

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

120

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Synonimy

Słowa mające wspólną podstawę fleksyjną sprowadź do formy rdzenia (stem terms)

Lista synonimów

SASHELP.ENGSYNMS (angielski)

Ustawienia Text Parsing

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

121

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Filtruj listy słów włączonych do/wyłączonych z analizy

Start lista

Stop lista

SASHELP.ENGSTOP (angielski)

SASHELP.FRCHSTOP (francuski)

SASHELP.GRMNSTOP (niemiecki)

Liczba słów do wyświetlenia

Ustawienia Text Parsing

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 2 SAS Text Miner

1. Krótka charakterystyka narzędzia

2. Etapy procesu text mining

3. Komponenty Text Parsing

Text Filter

Text Topic

Text Cluster

Text Rule Builder

Text Profile

Text Import

4. Makro % tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

123

dr Karolina Kuligowska

[email protected]

Text Filter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

124

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Funkcje ważące wagi częstości

Binarna

Logarytmiczna [domyślnie]

Pusta

wagi wyrażenia Entropia [domyślnie]

GF-IDF

IDF

Normalna

Pusta

Chi-kwadrat

MI

IG

Ustawienia Text Filter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

125

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Interactive Filter Viewer

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

126

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Concept Linking

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 2 SAS Text Miner

1. Krótka charakterystyka narzędzia

2. Etapy procesu text mining

3. Komponenty Text Parsing

Text Filter

Text Topic

Text Cluster

Text Rule Builder

Text Profile

Text Import

4. Makro % tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

128

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Text Topic

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

129

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Tematy użytkownika

Liczba tematów jednowyrazowych

Liczba tematów wielowyrazowych

Tematy skorelowane

Ustawienia Text Topic

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

130

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Zmienna Opis Topic ID Liczba porządkowa danego topicu Document Cutoff Minimalny próg odcięcia, jaki musi przekroczyć

dokument, żeby należeć do danego topicu

Term Cutoff Minimalny próg odcięcia, jaki musi przekroczyć termin, żeby należeć do danego topicu.

Każdy termin, którego waga jest niższa niż dany próg odcięcia, ma przypisaną wartość 0

Topic Wyrażenia opisujące dany topic Category User jeśli topic jest zdefiniowany przez

użytkownika, Single jeśli topic jest opisany przez jeden termin, Multiple jeśli topic jest

opisany przez wiele terminów Number of Terms Liczba terminów w danym topicu # Docs Liczba dokumentów w danym topicu

Topics

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 2 SAS Text Miner

1. Krótka charakterystyka narzędzia

2. Etapy procesu text mining

3. Komponenty Text Parsing

Text Filter

Text Topic

Text Cluster

Text Rule Builder

Text Profile

Text Import

4. Makro % tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

132

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Text Cluster

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

133

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Dekompozycja SVD wielkość wymiaru macierzy do jakiego ma być

przeskalowana dekompozycją SVD [low, medium, high]

maksymalna liczba wymiarów (>1)

Ustawienia Text Cluster

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

134

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Liczba klastrów: dokładna lub maksymalna

Algorytm klastrowania

metoda hierarchiczna

metoda EM (Expectation Maximization)

Obserwacje nietypowe

hierarchiczna: outliers nie są brane pod uwagę

EM: tworzone są osobne jednoelementowe klastry

Liczba terminów opisujących klaster

Ustawienia Text Cluster

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 2 SAS Text Miner

1. Krótka charakterystyka narzędzia

2. Etapy procesu text mining

3. Komponenty Text Parsing

Text Filter

Text Topic

Text Cluster

Text Rule Builder

Text Profile

Text Import

4. Makro % tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

136

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Text Rule Builder

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

137

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Błąd uogólnienia wyznacza przewidywane prawdopodobieństwo wykrycia reguł na nietrenowanym zbiorze danych (wyznaczany w celu uniknięcia przetrenowania modelu)

very low

low

medium [domyślnie]

high

very high

Ustawienia Text Rule Builder

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

138

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Klarowność reguł wyznacza maksymalny poziom p-value niezbędny, by dodać termin do reguły (wartości - medium, high i very high - dają mniej liczne, "czystsze" reguły)

very low (p<0.17)

low (p<0.05)

medium (p<0.005) [domyślnie]

high (p<0.0005)

very high (p<0.00005)

Ustawienia Text Rule Builder

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

139

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Kompletność wyznacza kompletność procesu szukania reguł, czyli ile potencjalnych reguł jest branych pod uwagę w każdym kroku (wyższe wartości powodują wzrost czasu potrzebnego do pracy węzła oraz mogą powodować przetrenowanie modelu)

very low

low

medium [domyślnie]

high

very high

Ustawienia Text Rule Builder

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 2 SAS Text Miner

1. Krótka charakterystyka narzędzia

2. Etapy procesu text mining

3. Komponenty Text Parsing

Text Filter

Text Topic

Text Cluster

Text Rule Builder

Text Profile

Text Import

4. Makro % tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

141

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Text Profile

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

142

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Ustawienia Text Profile

Zmienne

Maksymalna liczba słów

Przedział czasu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 2 SAS Text Miner

1. Krótka charakterystyka narzędzia

2. Etapy procesu text mining

3. Komponenty Text Parsing

Text Filter

Text Topic

Text Cluster

Text Rule Builder

Text Profile

Text Import

4. Makro % tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

144

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Text Import

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

145

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Importuje tekst źródłowy i przetwarza go w bazę danych SAS używaną jako input w dalszej analizie tekstu

Text Import to zamiennik Data Source

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 2 SAS Text Miner

1) Krótka charakterystyka narzędzia

2) Etapy procesu text mining

3) Komponenty

4) Makro % tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

147

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Rozbiór struktury tekstu (text parsing) wymaga użycia tekstu zakodowanego w ASCII lub Latin1

Makro %tmfilter umożliwia:

odczyt plików tekstowych o różnym formacie

przetworzenie ich w bazę danych SAS

Pozwala to na użycie bazy danych SAS jako input w dalszej analizie tekstu

Makro %tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

148

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

HOST

określa nazwę hosta lub adresu IP komputera, na którym działa makro [domyślnie: localhost]

DATASET

określa nazwę tworzonej bazy danych [domyślnie: WORK.DATA]

Atrybuty konfiguracji %tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

149

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

DIR

określa ścieżkę dostępu do folderu z oryginalnymi plikami tekstowymi

EXT

określa rozszerzenie plików. Tylko pliki o wskazanym formacie, znajdujące się w folderze DIR, będą przetwarzane w bazę danych SAS. Pusta wartość oznacza, że będą przetwarzane wszystkie formaty plików

Atrybuty konfiguracji %tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

150

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

NUMCHARS

określa liczbę bajtów z każdego pliku umieszczoną w zmiennej tekstowej TEXT.

Ustawienie domyślne: 100 B Wartość maksymalna: 32 000 (=32KB)

LANUGAGE

określa języki, które mają być rozpoznane w tekście.

Dla krótkich tekstów <256 znaków rozpoznanie języka jest mniej dokładne

Atrybuty konfiguracji %tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

151

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

URL

określa adres URL w dowolnej formie: http://www.sas.com lub www.sas.com, ale nie dłuższy niż 255 znaków

DEPTH

określa liczbę poziomów URL [domyślnie: 2, tj. dana strona i wszystkie linki w niej zawarte oraz linki w tych linkach]

DESTDIR

określa ścieżkę dostępu do folderu, w którym pliki z folderu DIR zostaną przekonwertowane na html

Atrybuty konfiguracji %tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

152

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

NORESTRICT

określa czy przetwarzać pliki poza wskazaną domeną. Pusta wartość oznacza ograniczenie tylko do danej domeny

USERNAME

określa nazwę użytkownika dla domeny chronionej hasłem

PASSWORD

określa hasło użytkownika dla domeny chronionej hasłem

Atrybuty konfiguracji %tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

153

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Utworzona przez makro baza danych SAS zawiera tekst każdego pliku [TEXT]

Jeśli analizowane pliki są większe niż 32KB, utworzona baza danych obejmuje ścieżkę dostępu do każdego pliku [URI], a zmienna tekstowa [TEXT] zawiera wówczas fragment tekstu każdego pliku

Output %tmfilter

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

154

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

TEXT

tekst każdego pliku [domyślnie: 100B ustawione w NUMCHARS]

NAME

nazwa oryginalnego pliku

URI

ścieżka do oryginalnego pliku

FILTERED

ścieżka do pliku html, który powstał po przekonwertowaniu oryginalnego pliku do formatu html. Zmienna nie powstaje, gdy nie ma określonego folderu DESTDIR

Zmienne generowane przez makro

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

155

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

LANGUAGE

rozpoznany język oryginalnego pliku

TRUNCATED

wskazuje, czy tekst pliku został obcięty (>32KB). Wartość 1 oznacza obcięcie tekstu

OMITTED

wskazuje, czy plik został pominięty podczas próby ekstrakcji tekstu. Wartość 1 oznacza pominięcie pliku

Zmienne generowane przez makro

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

156

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

CREATED

data i czas utworzenia pliku

ACCESSED

data i czas ostatniego otwarcia pliku

MODIFIED

data i czas ostatniej modyfikacji pliku

SIZE

wielkość pliku w bajtach

Zmienne generowane przez makro

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 2 SAS Text Miner

1. Krótka charakterystyka narzędzia

2. Etapy procesu text mining

3. Komponenty

4. Makro % tmfilter Pliki tekstowe

Strony WWW

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

158

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Najprostsze makro zawiera nazwę tworzonej bazy danych oraz ścieżkę dostępu do folderu z oryginalnymi plikami

%tmfilter(dataset=mylib.pliki1, dir=C:\sasuser\pliki1);

Makro %tmfilter – przykład 1

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

159

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Makro odczytuje folder źródłowy oraz podfoldery (jeśli są)

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

160

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Plik jest obrazkiem, dlatego nie wyłuskano z niego tekstu

Powstaje baza danych MYLIB.PLIKI1

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

161

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Makro zawiera nazwę tworzonej bazy danych, ścieżkę dostępu do folderu z oryginalnymi plikami oraz określa liczbę bajtów z każdego pliku umieszczoną w zmiennej TEXT

%tmfilter(dataset=mylib.pliki2, dir=C:\sasuser\pliki2, numchars=32000);

Makro %tmfilter – przykład 2

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

162

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Makro określa języki, które mają być rozpoznane w tekście

%tmfilter (dataset=mylib.pliki3, dir=C:\sasuser\pliki3, language=english german dutch french swedish italian spanish portuguese);

Makro %tmfilter – przykład 3

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

163

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Powstaje baza danych MYLIB.PLIKI3

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 2 SAS Text Miner

1. Krótka charakterystyka narzędzia

2. Etapy procesu text mining

3. Komponenty

4. Makro % tmfilter Pliki tekstowe

Strony WWW

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

165

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Makro %tmfilter używane do odczytania tekstu ze stron WWW powinno zawierać atrybuty: URL, DEPTH, DATASET, DIR, DESTDIR

Jeśli adres internetowy zawiera ampersandę &, wówczas należy zastosować funkcję %NRSTR() w specyfikacji adresu URL

Odczytanie danych ze stron WWW

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

166

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Najprostsze makro określa adres URL, liczbę poziomów DEPTH oraz ścieżkę dostępu do folderu DESTDIR, gdzie zostaną zapisane pliki z DIR przekonwertowane na html

%tmfilter(url=http://www.sas.com, depth=1, dataset=mylib.plikihtml, dir=C:\sasuser\dir, destdir=C:\sasuser\destdir);

Makro %tmfilter – przykład WWW

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

167

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Powstaje baza danych MYLIB.PLIKIHTML