analiza danych nieustrukturyzowanych: text mining · statystyka, uczenie ... analiza struktury...

Post on 27-Feb-2019

236 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Analiza danych nieustrukturyzowanych: Text Mining

dr Karolina Kuligowska

Wydział Nauk Ekonomicznych

Uniwersytet Warszawski

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 1 Analiza danych nieustrukturyzowanych

1) Przetwarzanie informacji

2) Text Mining

3) Zastosowania Text Mining

4) Web Mining

5) Zastosowania Web Mining

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 1 Analiza danych nieustrukturyzowanych

1) Przetwarzanie informacji

2) Text Mining

3) Zastosowania Text Mining

4) Web Mining

5) Zastosowania Web Mining

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

4

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Ogrom publikacji (książki, czasopisma, artykuły, raporty, dokumenty)

Elektroniczny format zapisu (minimalne koszty powielania informacji)

Internet (kanał błyskawicznej dystrybucji i wymiany informacji)

Big Data – nadmiar informacji

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

5

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Dostęp do informacji – spory problem

80% wiedzy znajduje się tylko w artykułach naukowych

Ludzka zdolność do przyswajania informacji

jeśli czytasz ok. 60 artykułów tygodniowo…

a jedynie 10% z nich jest merytorycznie istotnych…

to przyswajasz wiedzę w tempie 6 artykułów na tydzień (=ok. 300/rok)

Sama baza MedLine dodaje ok. 10 tys. abstraktów nowych artykułów miesięcznie!

Przykład - przemysł biotechnologiczny

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

6

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Cybernetyka

Informatyka

Technologia komputerowa

ogromna moc obliczeniowa (liczba działań arytmetycznych wykonywanych przez komputer w danym czasie)

możliwość przetwarzania tekstu

możliwość porozumiewania się z maszyną w języku naturalnym (sztuczna inteligencja)

Przetwarzanie informacji

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

7

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

jest wytworem historycznego rozwoju, w przeciwieństwie do języków sztucznych

ma złożoną składnię, wiele dwuznaczności, wciąż zmienia się i ewoluuje

posługiwanie się nim wymaga posiadania wiedzy o świecie

nośnik ludzkiej wiedzy, informacji i komunikacji

Język naturalny

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

8

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Przetwarzanie informacji zapisanej w języku naturalnym - Natural Language Processing (NLP)

inne nazwy: Computational Linguistics (CL), Human Language Technology (HLT), Natural Language Engineering (NLE)

Rozwój NLP analiza gramatyczna

stoicy (III w p.n.e.), Grimm, Rask (XIX w.), Chomsky (XX w.)

analiza statystyczna metody stochastyczne, modele prawdopodobieństwa, korpusy językowe, uczenie maszynowe

Przetwarzanie języka naturalnego

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

9

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

3 maja 1997

pojedynek obliczeniowy superkomputera IBM Deep Blue z arcymistrzem szachowym Garrym Kasparovem (wygrywa Deep Blue)

16 lutego 2011

pojedynek słowny superkomputera IBM Watson z mistrzami teleturnieju słownego „Jeopardy” Kenem Jenningsem i Bradem Rutterem (wygrywa Watson)

Człowiek kontra komputer

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

10

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Człowiek

wysoka precyzja

szeroki zakres dziedzin

analiza „zdanie po zdaniu”

wysoki stopień zrozumienia

szersza wiedza i kontekst

jeden język w danej chwili

bardzo wolno

Komputer

niska precyzja (zaszumienie)

ograniczony zakres dziedzin

analiza słownikowo-korpusowa

niski stopień zrozumienia

reguły wnioskowania

wiele języków równocześnie

bardzo szybko

Przetwarzanie tekstu - czytanie

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

11

dr Karolina Kuligowska

karolina@kuligowska.com

Trzy podejścia do analizy tekstu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

12

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Text Mining Proces automatycznego uzyskiwania znaczącej i przydatnej, nie znanej wcześniej wiedzy ze zbiorów dokumentów tekstowych

inne nazwy: Text Data Mining, Text Analytics, Knowledge Discovery in Text (KDT), Intelligent Text Analysis

Text Mining

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

13

dr Karolina Kuligowska

karolina@kuligowska.com

DATA MINING

TEXT MINING

Źródło danych

baza danych

zbiór dokumentów

Typ danych

dane sformalizowane

nieustrukturyzowany tekst

Przetwarzanie

oczyszczanie danych i normalizacja

identyfikacja jednostek tekstu i zliczanie

Powiązane dziedziny

statystyka, uczenie maszynowe

wydobywanie informacji, selekcja informacji, lingwistyka obliczeniowa

Data Mining vs Text Mining

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 1 Analiza danych nieustrukturyzowanych

1) Przetwarzanie informacji

2) Text Mining

3) Zastosowania Text Mining

4) Web Mining

5) Zastosowania Web Mining

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

15

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Text Mining i powiązane dziedziny

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

16

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Drzewo decyzyjne metod Text Mining

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

17

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Rynek Text Mining - Text Analytics

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

18

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Firmy na rynku Text Analytics

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

19

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

SAS Text Analytics: Text Mining, Sentiment Analysis i Content Categorization

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

20

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Dostępne informacje - luźne zbiory dokumentów tekstowych

Ustrukturyzowanie informacji nadaje im postać tekstowej bazy danych

Tekst wczytywany do tekstowej bazy danych

różne systemy zapisu (angielski, francuski, polski, grecki, rosyjski, arabski, japoński, sanskryt, ...)

różne formaty dokumentów tekstowych

Tekstowa baza danych

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

21

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Formaty dokumentów tekstowych

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

22

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

• "kodowanie" informacji zawartych w tekście

Wstępna obróbka tekstu

• zastosowanie różnych metod w celu wykrycia zależności między cechami

Analiza kolekcji tekstowej • graficzna

reprezentacja wyników

Wizualizacja

Proces Text Mining

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

23

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

1. Identyfikacja jednostek tekstu: paragrafy, zdania, wyrazy, frazy.

2. Pomijanie nieistotnych słów i fraz, które często występują, ale są bezużyteczne w danej analizie, gdyż nie niosą żadnego znaczenia – użycie stoplisty.

3. Redukcja do rdzenia (stemming, lematyzacja) - sprowadzanie wyrazów do podstawowej formy gramatycznej.

4. Normalizacja – określenie, jaką część mowy stanowi dane słowo.

5. Wykorzystanie synonimów.

Wstępna obróbka tekstu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

24

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Zliczenie wystąpień wyrazów, wyznaczenie miar i wag bogactwa słownictwa

Uzyskane w ten sposób dane są podstawą do dalszych analiz

opis zbioru dokumentów

klastrowanie dokumentów

klasyfikacja dokumentów

Analiza kolekcji tekstowej

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

25

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Wizualizacja

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 1 Analiza danych nieustrukturyzowanych

1) Przetwarzanie informacji

2) Text Mining

3) Zastosowania Text Mining

4) Web Mining

5) Zastosowania Web Mining

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

27

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Zarządzanie relacjami z klientem (CRM) Źródła danych: reklamacje, opinie, zapisy call center

Cele analiz: podniesienie jakości produktów i usług, zarządzanie produktem (product management), routing połączeń i automatyzacja działań CRM

Finanse i zgodność z prawem (legal compliance) Źródła danych: raporty finansowe, newsy finansowe,

dokumenty firmowe, rejestry handlowe

Cele analiz: wykrywanie nieprawidłowości, prania pieniędzy i nielegalnych transakcji, raportowanie anomalii cenowych

Zastosowania

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

28

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Bezpieczeństwo publiczne Źródła danych: raporty i rekordy baz danych ruchu lotniczego,

policji, opieki lekarskiej

Cele analiz: lepsza identyfikacja przyczyn w celu uniknięcia przyszłych błędów

Wywiad i antyterroryzm Źródła danych: notatki i raporty śledczych, przechwycone

dokumenty

Cele analiz: stowarzyszenia i siatki niebezpiecznych organizacji, wzorce behawioralne, wzorce ataku, rozwój strategii

Zastosowania

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

29

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Zarządzanie opieką zdrowotną Źródła danych: badania kliniczne, rekordy bazy danych pacjentów,

regulacje prawno-medyczne, artykuły medyczne

Cele analiz: lepsza diagnostyka i leczenie, promowanie wysokiej jakości usług, kontrola kosztów, projektowanie leków

Projektowanie leków – sztandarowy przykład Szukając przyczyn bólów migrenowych, dokonano Text Miningu

artykułów medycznych, uzyskując następujące wzorce: stres jest związany z migrenami

stres może prowadzić do niedoborów magnezu

blokery kanału wapniowego mogą zapobiegać migrenom

magnez jest naturalnym blokerem kanału wapniowego

rozszerzająca się depresja korowa (ang. CSD) jest związana z niektórymi migrenami

wysoki poziom magnezu hamuje rozwój CSD

pacjenci migrenowi mają nadmierną agregację płytek krwi

magnez może powstrzymać nadmierną agregację płytek krwi

Zastosowania

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

30

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Predictive Analytics & text mining – 90%

Search & Search-based Apps – 86%

Business Intelligence – 84%

Voice of the Customer – 82%, Social Media – 75%

Decision Support, KM – 81%

Big Data - other – 70%, Finance – 61%

Call Center, Tech Support – 63%

Risk, Compliance, Governance – 61%

Security, Fraud Detection - 54%

Zastosowania

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 1 Analiza danych nieustrukturyzowanych

1) Przetwarzanie informacji

2) Text Mining

3) Zastosowania Text Mining

4) Web Mining

5) Zastosowania Web Mining

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

32

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Największe na Ziemi publicznie dostępne źródło informacji i danych

portale (wiadomości, artykuły, pliki)

fora i blogi (komentarze, opinie, oceny)

instytucje i urzędy publiczne (dane, statystyki)

sklepy internetowe (produkty, opisy, katalogi)

elektroniczna wymiana danych, bankowość, telekomunikacja, e-learning itp. (usługi)

Ogromny zbiór nieustrukturyzowanych dokumentów powiązanych hiperłączami

Sieć WWW

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

33

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Web Mining

Proces automatycznego odnajdywania i wydobywania istotnych informacji z zasobów internetowych, tj. z danych „ukrytych” w dokumentach (hiper)tekstowych

Web Mining

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

34

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Pozyskiwanie danych

Selekcja wybranych informacji z danych

Wstępna obróbka tekstu

Analiza kolekcji

tekstowej Wizualizacja

Proces Web Mining

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

35

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Web Mining

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

36

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Web content

wydobywanie informacji z zasobów WWW (tekst, rysunki, liczby, audio i video itp.)

Web structure

analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.)

Web usage

analiza sposobu korzystania z WWW przez użytkowników (logi serwerów, identyfikacja użytkownika itp.)

Web Mining

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Część 1 Analiza danych nieustrukturyzowanych

1) Przetwarzanie informacji

2) Text Mining

3) Zastosowania Text Mining

4) Web Mining

5) Zastosowania Web Mining

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

38

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Identyfikacja tematów poruszanych przez użytkowników na danej stronie

Filtrowanie stron w poszukiwaniu informacji i wzorców powiązań

Bezpieczeństwo w Internecie: nadzór czatów (dzieci), identyfikacja spamu w wiadomościach e-mail

Zastosowania Web Content Mining

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

39

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Opinion mining

wiele stron zawierających ogromne ilości komentarzy oraz opinie klientów, np. Ceneo, Skąpiec, Opineo

jednakże informacji jest zbyt wiele, a nie chcesz spędzić więcej czasu na czytaniu recenzji o książce, niż na czytaniu samej książki

firmom jest trudno śledzić wszystkie opinie pojawiające się w sieci i dotyczące ich produktów

Zastosowania Web Content Mining cd.

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

40

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Zastosowania Web Content Mining cd.

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

41

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Poznawanie jakości stron WWW

ranking stron, rzetelność źródeł informacji na stronie

Odkrywanie interesujących struktur stron WWW

graficzne modele, najczęściej odwiedzane strony

Klasyfikacja stron WWW

strony podobne tematycznie

Zastosowania Web Structure Mining

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

42

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Web Mining w e-commerce

Oszacowanie „długotrwałości” klientów (lifetime value of clients)

Ścisłe określenie grupy docelowej i dotarcie do niej

Opracowanie skutecznych strategii reklamowych dotyczących konkretnych produktów

Przewidywanie zachowania użytkowników na podstawie ich profili/IP/geolokalizacji

Przedstawianie personalizowanych informacji

Zastosowania Web Usage Mining

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

43

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Web Mining w marketingu

Kim są odwiedzający dany serwis WWW?

Dlaczego jedni użytkownicy powracają na ten serwis, a inni nie?

Czy powracający różnią się od tych, którzy odwiedzają serwis sporadycznie lub przypadkowo?

Czy kolejność odwiedzania stron jest związana np. ze skłonnością do kupowania w e-sklepie?

Czym różnią się kupujący w e-sklepie od tych, którzy odwiedzają serwis i nic nie kupują?

Na jakiej podstronie użytkownicy kończą odwiedziny serwisu WWW?

Zastosowania Web Usage Mining cd.

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

44

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

Analiza wzorców korzystania ze strony www (adres każdej odwiedzonej strony,

strona wcześniej odwiedzona, czas przebywania na danej stronie, adres następnej strony, do której przeszedł użytkownik)

Zastosowania Web Usage Mining cd.

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

45

dr Karolina Kuligowska

karolina@kuligowska.com

dr Karolina Kuligowska

karolina@kuligowska.com

dostępna ludzkości wiedza

w 90% ma postać tekstową!

Pamiętajmy, że wciąż:

top related