analiza danych nieustrukturyzowanych: text mining · statystyka, uczenie ... analiza struktury...
Post on 27-Feb-2019
236 Views
Preview:
TRANSCRIPT
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
Analiza danych nieustrukturyzowanych: Text Mining
dr Karolina Kuligowska
Wydział Nauk Ekonomicznych
Uniwersytet Warszawski
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
Część 1 Analiza danych nieustrukturyzowanych
1) Przetwarzanie informacji
2) Text Mining
3) Zastosowania Text Mining
4) Web Mining
5) Zastosowania Web Mining
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
Część 1 Analiza danych nieustrukturyzowanych
1) Przetwarzanie informacji
2) Text Mining
3) Zastosowania Text Mining
4) Web Mining
5) Zastosowania Web Mining
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
4
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Ogrom publikacji (książki, czasopisma, artykuły, raporty, dokumenty)
Elektroniczny format zapisu (minimalne koszty powielania informacji)
Internet (kanał błyskawicznej dystrybucji i wymiany informacji)
Big Data – nadmiar informacji
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
5
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Dostęp do informacji – spory problem
80% wiedzy znajduje się tylko w artykułach naukowych
Ludzka zdolność do przyswajania informacji
jeśli czytasz ok. 60 artykułów tygodniowo…
a jedynie 10% z nich jest merytorycznie istotnych…
to przyswajasz wiedzę w tempie 6 artykułów na tydzień (=ok. 300/rok)
Sama baza MedLine dodaje ok. 10 tys. abstraktów nowych artykułów miesięcznie!
Przykład - przemysł biotechnologiczny
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
6
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Cybernetyka
Informatyka
Technologia komputerowa
ogromna moc obliczeniowa (liczba działań arytmetycznych wykonywanych przez komputer w danym czasie)
możliwość przetwarzania tekstu
możliwość porozumiewania się z maszyną w języku naturalnym (sztuczna inteligencja)
Przetwarzanie informacji
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
7
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
jest wytworem historycznego rozwoju, w przeciwieństwie do języków sztucznych
ma złożoną składnię, wiele dwuznaczności, wciąż zmienia się i ewoluuje
posługiwanie się nim wymaga posiadania wiedzy o świecie
nośnik ludzkiej wiedzy, informacji i komunikacji
Język naturalny
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
8
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Przetwarzanie informacji zapisanej w języku naturalnym - Natural Language Processing (NLP)
inne nazwy: Computational Linguistics (CL), Human Language Technology (HLT), Natural Language Engineering (NLE)
Rozwój NLP analiza gramatyczna
stoicy (III w p.n.e.), Grimm, Rask (XIX w.), Chomsky (XX w.)
analiza statystyczna metody stochastyczne, modele prawdopodobieństwa, korpusy językowe, uczenie maszynowe
Przetwarzanie języka naturalnego
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
9
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
3 maja 1997
pojedynek obliczeniowy superkomputera IBM Deep Blue z arcymistrzem szachowym Garrym Kasparovem (wygrywa Deep Blue)
16 lutego 2011
pojedynek słowny superkomputera IBM Watson z mistrzami teleturnieju słownego „Jeopardy” Kenem Jenningsem i Bradem Rutterem (wygrywa Watson)
Człowiek kontra komputer
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
10
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Człowiek
wysoka precyzja
szeroki zakres dziedzin
analiza „zdanie po zdaniu”
wysoki stopień zrozumienia
szersza wiedza i kontekst
jeden język w danej chwili
bardzo wolno
Komputer
niska precyzja (zaszumienie)
ograniczony zakres dziedzin
analiza słownikowo-korpusowa
niski stopień zrozumienia
reguły wnioskowania
wiele języków równocześnie
bardzo szybko
Przetwarzanie tekstu - czytanie
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
11
dr Karolina Kuligowska
karolina@kuligowska.com
Trzy podejścia do analizy tekstu
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
12
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Text Mining Proces automatycznego uzyskiwania znaczącej i przydatnej, nie znanej wcześniej wiedzy ze zbiorów dokumentów tekstowych
inne nazwy: Text Data Mining, Text Analytics, Knowledge Discovery in Text (KDT), Intelligent Text Analysis
Text Mining
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
13
dr Karolina Kuligowska
karolina@kuligowska.com
DATA MINING
TEXT MINING
Źródło danych
baza danych
zbiór dokumentów
Typ danych
dane sformalizowane
nieustrukturyzowany tekst
Przetwarzanie
oczyszczanie danych i normalizacja
identyfikacja jednostek tekstu i zliczanie
Powiązane dziedziny
statystyka, uczenie maszynowe
wydobywanie informacji, selekcja informacji, lingwistyka obliczeniowa
Data Mining vs Text Mining
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
Część 1 Analiza danych nieustrukturyzowanych
1) Przetwarzanie informacji
2) Text Mining
3) Zastosowania Text Mining
4) Web Mining
5) Zastosowania Web Mining
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
15
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Text Mining i powiązane dziedziny
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
16
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Drzewo decyzyjne metod Text Mining
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
17
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Rynek Text Mining - Text Analytics
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
18
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Firmy na rynku Text Analytics
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
19
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
SAS Text Analytics: Text Mining, Sentiment Analysis i Content Categorization
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
20
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Dostępne informacje - luźne zbiory dokumentów tekstowych
Ustrukturyzowanie informacji nadaje im postać tekstowej bazy danych
Tekst wczytywany do tekstowej bazy danych
różne systemy zapisu (angielski, francuski, polski, grecki, rosyjski, arabski, japoński, sanskryt, ...)
różne formaty dokumentów tekstowych
Tekstowa baza danych
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
21
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Formaty dokumentów tekstowych
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
22
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
• "kodowanie" informacji zawartych w tekście
Wstępna obróbka tekstu
• zastosowanie różnych metod w celu wykrycia zależności między cechami
Analiza kolekcji tekstowej • graficzna
reprezentacja wyników
Wizualizacja
Proces Text Mining
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
23
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
1. Identyfikacja jednostek tekstu: paragrafy, zdania, wyrazy, frazy.
2. Pomijanie nieistotnych słów i fraz, które często występują, ale są bezużyteczne w danej analizie, gdyż nie niosą żadnego znaczenia – użycie stoplisty.
3. Redukcja do rdzenia (stemming, lematyzacja) - sprowadzanie wyrazów do podstawowej formy gramatycznej.
4. Normalizacja – określenie, jaką część mowy stanowi dane słowo.
5. Wykorzystanie synonimów.
Wstępna obróbka tekstu
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
24
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Zliczenie wystąpień wyrazów, wyznaczenie miar i wag bogactwa słownictwa
Uzyskane w ten sposób dane są podstawą do dalszych analiz
opis zbioru dokumentów
klastrowanie dokumentów
klasyfikacja dokumentów
Analiza kolekcji tekstowej
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
25
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Wizualizacja
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
Część 1 Analiza danych nieustrukturyzowanych
1) Przetwarzanie informacji
2) Text Mining
3) Zastosowania Text Mining
4) Web Mining
5) Zastosowania Web Mining
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
27
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Zarządzanie relacjami z klientem (CRM) Źródła danych: reklamacje, opinie, zapisy call center
Cele analiz: podniesienie jakości produktów i usług, zarządzanie produktem (product management), routing połączeń i automatyzacja działań CRM
Finanse i zgodność z prawem (legal compliance) Źródła danych: raporty finansowe, newsy finansowe,
dokumenty firmowe, rejestry handlowe
Cele analiz: wykrywanie nieprawidłowości, prania pieniędzy i nielegalnych transakcji, raportowanie anomalii cenowych
Zastosowania
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
28
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Bezpieczeństwo publiczne Źródła danych: raporty i rekordy baz danych ruchu lotniczego,
policji, opieki lekarskiej
Cele analiz: lepsza identyfikacja przyczyn w celu uniknięcia przyszłych błędów
Wywiad i antyterroryzm Źródła danych: notatki i raporty śledczych, przechwycone
dokumenty
Cele analiz: stowarzyszenia i siatki niebezpiecznych organizacji, wzorce behawioralne, wzorce ataku, rozwój strategii
Zastosowania
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
29
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Zarządzanie opieką zdrowotną Źródła danych: badania kliniczne, rekordy bazy danych pacjentów,
regulacje prawno-medyczne, artykuły medyczne
Cele analiz: lepsza diagnostyka i leczenie, promowanie wysokiej jakości usług, kontrola kosztów, projektowanie leków
Projektowanie leków – sztandarowy przykład Szukając przyczyn bólów migrenowych, dokonano Text Miningu
artykułów medycznych, uzyskując następujące wzorce: stres jest związany z migrenami
stres może prowadzić do niedoborów magnezu
blokery kanału wapniowego mogą zapobiegać migrenom
magnez jest naturalnym blokerem kanału wapniowego
rozszerzająca się depresja korowa (ang. CSD) jest związana z niektórymi migrenami
wysoki poziom magnezu hamuje rozwój CSD
pacjenci migrenowi mają nadmierną agregację płytek krwi
magnez może powstrzymać nadmierną agregację płytek krwi
Zastosowania
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
30
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Predictive Analytics & text mining – 90%
Search & Search-based Apps – 86%
Business Intelligence – 84%
Voice of the Customer – 82%, Social Media – 75%
Decision Support, KM – 81%
Big Data - other – 70%, Finance – 61%
Call Center, Tech Support – 63%
Risk, Compliance, Governance – 61%
Security, Fraud Detection - 54%
Zastosowania
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
Część 1 Analiza danych nieustrukturyzowanych
1) Przetwarzanie informacji
2) Text Mining
3) Zastosowania Text Mining
4) Web Mining
5) Zastosowania Web Mining
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
32
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Największe na Ziemi publicznie dostępne źródło informacji i danych
portale (wiadomości, artykuły, pliki)
fora i blogi (komentarze, opinie, oceny)
instytucje i urzędy publiczne (dane, statystyki)
sklepy internetowe (produkty, opisy, katalogi)
elektroniczna wymiana danych, bankowość, telekomunikacja, e-learning itp. (usługi)
Ogromny zbiór nieustrukturyzowanych dokumentów powiązanych hiperłączami
Sieć WWW
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
33
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Web Mining
Proces automatycznego odnajdywania i wydobywania istotnych informacji z zasobów internetowych, tj. z danych „ukrytych” w dokumentach (hiper)tekstowych
Web Mining
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
34
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Pozyskiwanie danych
Selekcja wybranych informacji z danych
Wstępna obróbka tekstu
Analiza kolekcji
tekstowej Wizualizacja
Proces Web Mining
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
35
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Web Mining
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
36
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Web content
wydobywanie informacji z zasobów WWW (tekst, rysunki, liczby, audio i video itp.)
Web structure
analiza struktury powiązań zasobów WWW (hiperłącza, odsyłacze, zakładki itp.)
Web usage
analiza sposobu korzystania z WWW przez użytkowników (logi serwerów, identyfikacja użytkownika itp.)
Web Mining
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
Część 1 Analiza danych nieustrukturyzowanych
1) Przetwarzanie informacji
2) Text Mining
3) Zastosowania Text Mining
4) Web Mining
5) Zastosowania Web Mining
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
38
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Identyfikacja tematów poruszanych przez użytkowników na danej stronie
Filtrowanie stron w poszukiwaniu informacji i wzorców powiązań
Bezpieczeństwo w Internecie: nadzór czatów (dzieci), identyfikacja spamu w wiadomościach e-mail
Zastosowania Web Content Mining
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
39
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Opinion mining
wiele stron zawierających ogromne ilości komentarzy oraz opinie klientów, np. Ceneo, Skąpiec, Opineo
jednakże informacji jest zbyt wiele, a nie chcesz spędzić więcej czasu na czytaniu recenzji o książce, niż na czytaniu samej książki
firmom jest trudno śledzić wszystkie opinie pojawiające się w sieci i dotyczące ich produktów
Zastosowania Web Content Mining cd.
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
40
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Zastosowania Web Content Mining cd.
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
41
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Poznawanie jakości stron WWW
ranking stron, rzetelność źródeł informacji na stronie
Odkrywanie interesujących struktur stron WWW
graficzne modele, najczęściej odwiedzane strony
Klasyfikacja stron WWW
strony podobne tematycznie
Zastosowania Web Structure Mining
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
42
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Web Mining w e-commerce
Oszacowanie „długotrwałości” klientów (lifetime value of clients)
Ścisłe określenie grupy docelowej i dotarcie do niej
Opracowanie skutecznych strategii reklamowych dotyczących konkretnych produktów
Przewidywanie zachowania użytkowników na podstawie ich profili/IP/geolokalizacji
Przedstawianie personalizowanych informacji
Zastosowania Web Usage Mining
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
43
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Web Mining w marketingu
Kim są odwiedzający dany serwis WWW?
Dlaczego jedni użytkownicy powracają na ten serwis, a inni nie?
Czy powracający różnią się od tych, którzy odwiedzają serwis sporadycznie lub przypadkowo?
Czy kolejność odwiedzania stron jest związana np. ze skłonnością do kupowania w e-sklepie?
Czym różnią się kupujący w e-sklepie od tych, którzy odwiedzają serwis i nic nie kupują?
Na jakiej podstronie użytkownicy kończą odwiedziny serwisu WWW?
Zastosowania Web Usage Mining cd.
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
44
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
Analiza wzorców korzystania ze strony www (adres każdej odwiedzonej strony,
strona wcześniej odwiedzona, czas przebywania na danej stronie, adres następnej strony, do której przeszedł użytkownik)
Zastosowania Web Usage Mining cd.
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”
45
dr Karolina Kuligowska
karolina@kuligowska.com
dr Karolina Kuligowska
karolina@kuligowska.com
dostępna ludzkości wiedza
w 90% ma postać tekstową!
Pamiętajmy, że wciąż:
top related