analiza danych nieustrukturyzowanych: text mining · statystyka, uczenie ... analiza struktury...

45
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS” Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska Wydział Nauk Ekonomicznych Uniwersytet Warszawski

Upload: duongduong

Post on 27-Feb-2019

236 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Analiza danych nieustrukturyzowanych: Text Mining

dr Karolina Kuligowska

Wydział Nauk Ekonomicznych

Uniwersytet Warszawski

Page 2: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 1 Analiza danych nieustrukturyzowanych

1) Przetwarzanie informacji

2) Text Mining

3) Zastosowania Text Mining

4) Web Mining

5) Zastosowania Web Mining

Page 3: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 1 Analiza danych nieustrukturyzowanych

1) Przetwarzanie informacji

2) Text Mining

3) Zastosowania Text Mining

4) Web Mining

5) Zastosowania Web Mining

Page 4: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

4

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Ogrom publikacji (książki, czasopisma, artykuły, raporty, dokumenty)

Elektroniczny format zapisu (minimalne koszty powielania informacji)

Internet (kanał błyskawicznej dystrybucji i wymiany informacji)

Big Data – nadmiar informacji

Page 5: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

5

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Dostęp do informacji – spory problem

80% wiedzy znajduje się tylko w artykułach naukowych

Ludzka zdolność do przyswajania informacji

jeśli czytasz ok. 60 artykułów tygodniowo…

a jedynie 10% z nich jest merytorycznie istotnych…

to przyswajasz wiedzę w tempie 6 artykułów na tydzień (=ok. 300/rok)

Sama baza MedLine dodaje ok. 10 tys. abstraktów nowych artykułów miesięcznie!

Przykład - przemysł biotechnologiczny

Page 6: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

6

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Cybernetyka

Informatyka

Technologia komputerowa

ogromna moc obliczeniowa (liczba działań arytmetycznych wykonywanych przez komputer w danym czasie)

możliwość przetwarzania tekstu

możliwość porozumiewania się z maszyną w języku naturalnym (sztuczna inteligencja)

Przetwarzanie informacji

Page 7: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

7

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

jest wytworem historycznego rozwoju, w przeciwieństwie do języków sztucznych

ma złożoną składnię, wiele dwuznaczności, wciąż zmienia się i ewoluuje

posługiwanie się nim wymaga posiadania wiedzy o świecie

nośnik ludzkiej wiedzy, informacji i komunikacji

Język naturalny

Page 8: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

8

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Przetwarzanie informacji zapisanej w języku naturalnym - Natural Language Processing (NLP)

inne nazwy: Computational Linguistics (CL), Human Language Technology (HLT), Natural Language Engineering (NLE)

Rozwój NLP analiza gramatyczna

stoicy (III w p.n.e.), Grimm, Rask (XIX w.), Chomsky (XX w.)

analiza statystyczna metody stochastyczne, modele prawdopodobieństwa, korpusy językowe, uczenie maszynowe

Przetwarzanie języka naturalnego

Page 9: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

9

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

3 maja 1997

pojedynek obliczeniowy superkomputera IBM Deep Blue z arcymistrzem szachowym Garrym Kasparovem (wygrywa Deep Blue)

16 lutego 2011

pojedynek słowny superkomputera IBM Watson z mistrzami teleturnieju słownego „Jeopardy” Kenem Jenningsem i Bradem Rutterem (wygrywa Watson)

Człowiek kontra komputer

Page 10: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

10

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Człowiek

wysoka precyzja

szeroki zakres dziedzin

analiza „zdanie po zdaniu”

wysoki stopień zrozumienia

szersza wiedza i kontekst

jeden język w danej chwili

bardzo wolno

Komputer

niska precyzja (zaszumienie)

ograniczony zakres dziedzin

analiza słownikowo-korpusowa

niski stopień zrozumienia

reguły wnioskowania

wiele języków równocześnie

bardzo szybko

Przetwarzanie tekstu - czytanie

Page 11: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

11

dr Karolina Kuligowska

[email protected]

Trzy podejścia do analizy tekstu

Page 12: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

12

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Text Mining Proces automatycznego uzyskiwania znaczącej i przydatnej, nie znanej wcześniej wiedzy ze zbiorów dokumentów tekstowych

inne nazwy: Text Data Mining, Text Analytics, Knowledge Discovery in Text (KDT), Intelligent Text Analysis

Text Mining

Page 13: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

13

dr Karolina Kuligowska

[email protected]

DATA MINING

TEXT MINING

Źródło danych

baza danych

zbiór dokumentów

Typ danych

dane sformalizowane

nieustrukturyzowany tekst

Przetwarzanie

oczyszczanie danych i normalizacja

identyfikacja jednostek tekstu i zliczanie

Powiązane dziedziny

statystyka, uczenie maszynowe

wydobywanie informacji, selekcja informacji, lingwistyka obliczeniowa

Data Mining vs Text Mining

Page 14: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 1 Analiza danych nieustrukturyzowanych

1) Przetwarzanie informacji

2) Text Mining

3) Zastosowania Text Mining

4) Web Mining

5) Zastosowania Web Mining

Page 15: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

15

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Text Mining i powiązane dziedziny

Page 16: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

16

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Drzewo decyzyjne metod Text Mining

Page 17: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

17

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Rynek Text Mining - Text Analytics

Page 18: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

18

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Firmy na rynku Text Analytics

Page 19: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

19

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

SAS Text Analytics: Text Mining, Sentiment Analysis i Content Categorization

Page 20: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

20

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Dostępne informacje - luźne zbiory dokumentów tekstowych

Ustrukturyzowanie informacji nadaje im postać tekstowej bazy danych

Tekst wczytywany do tekstowej bazy danych

różne systemy zapisu (angielski, francuski, polski, grecki, rosyjski, arabski, japoński, sanskryt, ...)

różne formaty dokumentów tekstowych

Tekstowa baza danych

Page 21: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

21

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Formaty dokumentów tekstowych

Page 22: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

22

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

• "kodowanie" informacji zawartych w tekście

Wstępna obróbka tekstu

• zastosowanie różnych metod w celu wykrycia zależności między cechami

Analiza kolekcji tekstowej • graficzna

reprezentacja wyników

Wizualizacja

Proces Text Mining

Page 23: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

23

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

1. Identyfikacja jednostek tekstu: paragrafy, zdania, wyrazy, frazy.

2. Pomijanie nieistotnych słów i fraz, które często występują, ale są bezużyteczne w danej analizie, gdyż nie niosą żadnego znaczenia – użycie stoplisty.

3. Redukcja do rdzenia (stemming, lematyzacja) - sprowadzanie wyrazów do podstawowej formy gramatycznej.

4. Normalizacja – określenie, jaką część mowy stanowi dane słowo.

5. Wykorzystanie synonimów.

Wstępna obróbka tekstu

Page 24: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

24

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Zliczenie wystąpień wyrazów, wyznaczenie miar i wag bogactwa słownictwa

Uzyskane w ten sposób dane są podstawą do dalszych analiz

opis zbioru dokumentów

klastrowanie dokumentów

klasyfikacja dokumentów

Analiza kolekcji tekstowej

Page 25: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

25

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Wizualizacja

Page 26: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 1 Analiza danych nieustrukturyzowanych

1) Przetwarzanie informacji

2) Text Mining

3) Zastosowania Text Mining

4) Web Mining

5) Zastosowania Web Mining

Page 27: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

27

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Zarządzanie relacjami z klientem (CRM) Źródła danych: reklamacje, opinie, zapisy call center

Cele analiz: podniesienie jakości produktów i usług, zarządzanie produktem (product management), routing połączeń i automatyzacja działań CRM

Finanse i zgodność z prawem (legal compliance) Źródła danych: raporty finansowe, newsy finansowe,

dokumenty firmowe, rejestry handlowe

Cele analiz: wykrywanie nieprawidłowości, prania pieniędzy i nielegalnych transakcji, raportowanie anomalii cenowych

Zastosowania

Page 28: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

28

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Bezpieczeństwo publiczne Źródła danych: raporty i rekordy baz danych ruchu lotniczego,

policji, opieki lekarskiej

Cele analiz: lepsza identyfikacja przyczyn w celu uniknięcia przyszłych błędów

Wywiad i antyterroryzm Źródła danych: notatki i raporty śledczych, przechwycone

dokumenty

Cele analiz: stowarzyszenia i siatki niebezpiecznych organizacji, wzorce behawioralne, wzorce ataku, rozwój strategii

Zastosowania

Page 29: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

29

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Zarządzanie opieką zdrowotną Źródła danych: badania kliniczne, rekordy bazy danych pacjentów,

regulacje prawno-medyczne, artykuły medyczne

Cele analiz: lepsza diagnostyka i leczenie, promowanie wysokiej jakości usług, kontrola kosztów, projektowanie leków

Projektowanie leków – sztandarowy przykład Szukając przyczyn bólów migrenowych, dokonano Text Miningu

artykułów medycznych, uzyskując następujące wzorce: stres jest związany z migrenami

stres może prowadzić do niedoborów magnezu

blokery kanału wapniowego mogą zapobiegać migrenom

magnez jest naturalnym blokerem kanału wapniowego

rozszerzająca się depresja korowa (ang. CSD) jest związana z niektórymi migrenami

wysoki poziom magnezu hamuje rozwój CSD

pacjenci migrenowi mają nadmierną agregację płytek krwi

magnez może powstrzymać nadmierną agregację płytek krwi

Zastosowania

Page 30: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

30

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Predictive Analytics & text mining – 90%

Search & Search-based Apps – 86%

Business Intelligence – 84%

Voice of the Customer – 82%, Social Media – 75%

Decision Support, KM – 81%

Big Data - other – 70%, Finance – 61%

Call Center, Tech Support – 63%

Risk, Compliance, Governance – 61%

Security, Fraud Detection - 54%

Zastosowania

Page 31: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 1 Analiza danych nieustrukturyzowanych

1) Przetwarzanie informacji

2) Text Mining

3) Zastosowania Text Mining

4) Web Mining

5) Zastosowania Web Mining

Page 32: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

32

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Największe na Ziemi publicznie dostępne źródło informacji i danych

portale (wiadomości, artykuły, pliki)

fora i blogi (komentarze, opinie, oceny)

instytucje i urzędy publiczne (dane, statystyki)

sklepy internetowe (produkty, opisy, katalogi)

elektroniczna wymiana danych, bankowość, telekomunikacja, e-learning itp. (usługi)

Ogromny zbiór nieustrukturyzowanych dokumentów powiązanych hiperłączami

Sieć WWW

Page 33: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

33

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Web Mining

Proces automatycznego odnajdywania i wydobywania istotnych informacji z zasobów internetowych, tj. z danych „ukrytych” w dokumentach (hiper)tekstowych

Web Mining

Page 34: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

34

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Pozyskiwanie danych

Selekcja wybranych informacji z danych

Wstępna obróbka tekstu

Analiza kolekcji

tekstowej Wizualizacja

Proces Web Mining

Page 35: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

35

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Web Mining

Page 36: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

36

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Web content

wydobywanie informacji z zasobów WWW (tekst, rysunki, liczby, audio i video itp.)

Web structure

analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.)

Web usage

analiza sposobu korzystania z WWW przez użytkowników (logi serwerów, identyfikacja użytkownika itp.)

Web Mining

Page 37: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 1 Analiza danych nieustrukturyzowanych

1) Przetwarzanie informacji

2) Text Mining

3) Zastosowania Text Mining

4) Web Mining

5) Zastosowania Web Mining

Page 38: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

38

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Identyfikacja tematów poruszanych przez użytkowników na danej stronie

Filtrowanie stron w poszukiwaniu informacji i wzorców powiązań

Bezpieczeństwo w Internecie: nadzór czatów (dzieci), identyfikacja spamu w wiadomościach e-mail

Zastosowania Web Content Mining

Page 39: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

39

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Opinion mining

wiele stron zawierających ogromne ilości komentarzy oraz opinie klientów, np. Ceneo, Skąpiec, Opineo

jednakże informacji jest zbyt wiele, a nie chcesz spędzić więcej czasu na czytaniu recenzji o książce, niż na czytaniu samej książki

firmom jest trudno śledzić wszystkie opinie pojawiające się w sieci i dotyczące ich produktów

Zastosowania Web Content Mining cd.

Page 40: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

40

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Zastosowania Web Content Mining cd.

Page 41: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

41

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Poznawanie jakości stron WWW

ranking stron, rzetelność źródeł informacji na stronie

Odkrywanie interesujących struktur stron WWW

graficzne modele, najczęściej odwiedzane strony

Klasyfikacja stron WWW

strony podobne tematycznie

Zastosowania Web Structure Mining

Page 42: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

42

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Web Mining w e-commerce

Oszacowanie „długotrwałości” klientów (lifetime value of clients)

Ścisłe określenie grupy docelowej i dotarcie do niej

Opracowanie skutecznych strategii reklamowych dotyczących konkretnych produktów

Przewidywanie zachowania użytkowników na podstawie ich profili/IP/geolokalizacji

Przedstawianie personalizowanych informacji

Zastosowania Web Usage Mining

Page 43: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

43

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Web Mining w marketingu

Kim są odwiedzający dany serwis WWW?

Dlaczego jedni użytkownicy powracają na ten serwis, a inni nie?

Czy powracający różnią się od tych, którzy odwiedzają serwis sporadycznie lub przypadkowo?

Czy kolejność odwiedzania stron jest związana np. ze skłonnością do kupowania w e-sklepie?

Czym różnią się kupujący w e-sklepie od tych, którzy odwiedzają serwis i nic nie kupują?

Na jakiej podstronie użytkownicy kończą odwiedziny serwisu WWW?

Zastosowania Web Usage Mining cd.

Page 44: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

44

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Analiza wzorców korzystania ze strony www (adres każdej odwiedzonej strony,

strona wcześniej odwiedzona, czas przebywania na danej stronie, adres następnej strony, do której przeszedł użytkownik)

Zastosowania Web Usage Mining cd.

Page 45: Analiza danych nieustrukturyzowanych: Text Mining · statystyka, uczenie ... analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.) Web usage analiza

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

45

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

dostępna ludzkości wiedza

w 90% ma postać tekstową!

Pamiętajmy, że wciąż: