analiza danych nieustrukturyzowanych: text mining · analiza danych nieustrukturyzowanych: text...

71
Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS” Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska Wydział Nauk Ekonomicznych Uniwersytet Warszawski

Upload: others

Post on 22-Sep-2020

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Analiza danych nieustrukturyzowanych: Text Mining

dr Karolina Kuligowska

Wydział Nauk Ekonomicznych

Uniwersytet Warszawski

Page 2: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

1) Komercyjne 1. Zintegrowane aplikacje analityczne

2. Analiza sentymentu

2) Aplikacje open source

Część 3 Inne narzędzia Text Mining

Page 3: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

1) Komercyjne 1. Zintegrowane aplikacje analityczne

2. Analiza sentymentu

2) Aplikacje open source

Część 3 Inne narzędzia Text Mining

Page 4: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

171

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

SAS Text Miner

IBM SPSS Modeler Text Analytics

STATISTICA Text Miner

Provalis Research WordStat

Megaputer TextAnalyst

Zintegrowane aplikacje analityczne

Page 5: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Firma: SAS

Produkt: SAS Text Miner

Page 6: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

173

dr Karolina Kuligowska

[email protected]

http://support.sas.com/documentation/onlinedoc/txtminer/

SAS Text Miner

Page 7: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

174

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

SAS Text Miner prowadzi analizę nieustrukturyzowanych dokumentów w językach europejskich:

angielski, holenderski, francuski, niemiecki, włoski, portugalski, hiszpański, szwedzki, polski

oraz:

japoński, koreański, uproszczony chiński, tradycyjny chiński, arabski

Obsługiwane języki

Page 8: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

175

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

szukanie rdzenia wyrazów

automatyczne rozpoznawanie terminów wielowyrazowych

standaryzacja wyrażeń takich jak data, godzina, waluta, procenty

wydobywanie niestandardowych wyrażeń (nazwy organizacji, produkty, tytuły itp.)

etykietowanie części mowy

rozpoznawanie synonimów

Obsługiwane funkcje

Page 9: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

176

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

filtrowanie wiadomości e-mail

grupowanie dokumentów według tematu w określone kategorie

wyszukiwanie w tekście nowych informacji

analiza klastrów w dokumentach naukowych

analiza klastrów danych ankietowych

analiza klastrów w skargach, komentarzach i zażaleniach klientów

Zastosowania

Page 10: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

177

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

SAS Text Analytics

Page 11: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

178

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

SAS Content Categorization

Page 12: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

179

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

SAS Social Media Analytics

Page 13: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

180

dr Karolina Kuligowska

[email protected]

SAS Social Media Analytics

Page 14: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

181

dr Karolina Kuligowska

[email protected]

SAS Social Media Analytics – social forecast

Page 15: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

182

dr Karolina Kuligowska

[email protected]

SAS Social Media Analytics – sentiment by time

Page 16: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

183

dr Karolina Kuligowska

[email protected]

SAS Social Media Analytics – media workbench

Page 17: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

184

dr Karolina Kuligowska

[email protected]

SAS Social Media Analytics – fraud framework

Page 18: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

185

dr Karolina Kuligowska

[email protected]

Maspex Wadowice Group https://www.sas.com/en_us/customers/maspex-wadowice-group.html

Parks Division of Alberta Tourism, Parks and Recreation

https://www.sas.com/en_us/customers/alberta-parks.html

Hong Kong government's Efficiency Unit https://www.sas.com/en_us/customers/hong-kong-efficiency-unit-visual-analytics.html

Success stories

Page 19: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

186

dr Karolina Kuligowska

[email protected]

Sub-Zero and Wolf Appliance http://www.sas.com/en_us/news/press-releases/2014/march/sub-zero-warranty-analytics-award.html

Hewlett-Packard http://www.sas.com/en_us/customers/hp.html

Success stories

Page 20: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Firma: IBM SPSS

Produkt: IBM SPSS Modeler Text Analytics

Page 21: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

188

dr Karolina Kuligowska

[email protected]

https://www.ibm.com/support/knowledgecenter/SS3RA7_15.0.0/com.ibm.spss.ta.help/tmfc_intro.htm

IBM SPSS Modeler Text Analytics

Page 22: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

189

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Wspierane natywnie

angielski, francuski, hiszpański, holenderski, niemiecki, włoski, portugalski, japoński

Wspierane przez moduł tłumaczeniowy Language Translation Interface

arabski, chiński, hindi, perski, rumuński, rosyjski, somalijski, szwedzki

Obsługiwane języki

Page 23: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

190

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Analiza wzorców w tekstach i powiązań między tekstami

Analiza pytań otwartych w ankietach

Klasteryzacja, kategoryzacja

Modelowanie predykcyjne

Zastosowania

Page 24: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

191

dr Karolina Kuligowska

[email protected]

What do you like most about this portable music player? /categories

Page 25: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

192

dr Karolina Kuligowska

[email protected]

What do you like most about this portable music player? /concept map

Page 26: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

193

dr Karolina Kuligowska

[email protected]

What do you like most about this portable music player? /positive

Page 27: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

194

dr Karolina Kuligowska

[email protected]

What do you like most about this portable music player? /negative

Page 28: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

195

dr Karolina Kuligowska

[email protected]

Customer service / text link analysis

Page 29: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

196

dr Karolina Kuligowska

[email protected]

What factors influence your decision to choose a car rental company for business?

Page 30: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

197

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Sentiment Analysis

Page 31: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

198

dr Karolina Kuligowska

[email protected]

PGM Holdings K.K.

http://www-03.ibm.com/software/businesscasestudies

Hamilton County Department of Education

http://www-03.ibm.com/software/businesscasestudies

BMW Group

http://www-03.ibm.com/software/businesscasestudies

Success stories

Page 32: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Firma: StatSoft

Produkt: STATISTICA Text Miner

Page 33: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

200

dr Karolina Kuligowska

[email protected]

http://www.statsoft.pl/Programy/STATISTICA-Text-Miner

STATISTICA Text Miner

Page 34: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

201

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Wspierane natywnie

duński, holenderski, angielski, francuski, niemiecki, włoski, portugalski, hiszpański, szwedzki

Obsługiwane języki

Page 35: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

202

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

szukanie rdzenia wyrazów

pomijanie nieistotnych słów

transformacja i redukcja wymiarów

analiza dokumentów

podsumowania

mapy podobieństw

analiza skupień (metody EM i k-średnich)

predykcyjny text mining

Obsługiwane funkcje

Page 36: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

203

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Analiza dużych zbiorów dokumentów tekstowych

grupowanie dokumentów w określone kategorie

wyszukiwanie w tekście nowych informacji

Analiza treści stron WWW, portali internetowych i grup dyskusyjnych

Prognozowanie

Zastosowania

Page 37: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

204

dr Karolina Kuligowska

[email protected]

Accident reports

Page 38: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

205

dr Karolina Kuligowska

[email protected]

Credit scoring

Page 39: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

206

dr Karolina Kuligowska

[email protected]

Biuro Ubezpieczycieli Czeskich http://media.statsoft.pl/_old_dnn/downloads/success_stories/ckp_wykorzystuje_statistica_enterprise_text_miner.pdf

Analiza opisów roszczeń ubezpieczeniowych

przewidywanie ryzyka wystąpienia wysokich roszczeń z tytułu uszczerbku na zdrowiu

dokładniejsze szacowanie łącznej wartości odszkodowania z tytułu OC na wczesnym etapie rozpatrywania danej sprawy

Success stories

Page 40: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Firma: Provalis Research

Produkt: WordStat

Page 41: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

208

dr Karolina Kuligowska

[email protected]

http://provalisresearch.com/products/content-analysis-software/

Provalis Research WordStat

Page 42: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

209

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Wspierane natywnie

angielski, francuski, hiszpański, niemiecki, włoski, portugalski

Obsługiwane języki

Page 43: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

210

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

analiza wyszukanego tekstu i wizualizacja

wyszukiwanie słowa kluczowego i słowa kluczowego w kontekście

identyfikacja powiązanych segmentów tekstu

grupowanie i analiza korespondencyjna wyrażeń

klasteryzacja

automatyczna klasyfikacja tekstu

krzyżowanie dwóch zmiennych

Obsługiwane funkcje

Page 44: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

211

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

analiza zawartości zamkniętych/otwartych zapytań w formularzach, kwestionariuszach

wydobywanie informacji ze sprawozdań i raportów wydarzeń

analiza nowych informacji w literaturze naukowej i sprawozdaniach

wykrywanie nieprawidłowości i oszustw

identyfikacja autorstwa i analiza patentowa

analiza stron WWW

Zastosowania

Page 45: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

212

dr Karolina Kuligowska

[email protected]

Keyword retrieval

Page 46: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

213

dr Karolina Kuligowska

[email protected]

Keyword distribution

Page 47: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

214

dr Karolina Kuligowska

[email protected]

Bubble chart

Page 48: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

215

dr Karolina Kuligowska

[email protected]

Dendogram

Page 49: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

216

dr Karolina Kuligowska

[email protected]

2D concept map

Page 50: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

217

dr Karolina Kuligowska

[email protected]

3D concept map

Page 51: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

218

dr Karolina Kuligowska

[email protected]

Proximity plot

Page 52: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

219

dr Karolina Kuligowska

[email protected]

JetBlue Airways http://provalisresearch.com/solutions/case-studies/application-of-text-mining-to-aviation-safety-data/

Cornell University School of Hotel Administration

http://provalisresearch.com/solutions/case-studies/content-analysis-of-hotel-customer-satisfaction/

Center for Business Performance http://provalisresearch.com/solutions/case-studies/mesuring-disclosure-of-intangible-resources-in-corporate-annual-reports/

Success stories

Page 53: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Firma: Megaputer

Produkt: TextAnalyst

Page 54: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

221

dr Karolina Kuligowska

[email protected]

http://megaputer.com/site/textanalyst.php

Megaputer TextAnalyst

Page 55: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

222

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

Wspierane natywnie

angielski

Obsługiwane języki

Page 56: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

223

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

tworzenie list synonimów

klasteryzacja

kategoryzacja dokumentów

wydobywanie niestandardowych wyrażeń

wizualizacja powiązań między dokumentami a słowami

analiza powiązań stron WWW

Obsługiwane funkcje

Page 57: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

224

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

identyfikacja słów kluczowych

automatyczne generowanie streszczeń

tematyczna eksploracja tekstu

wykrywanie nieprawidłowości

generowanie interaktywnych raportów

prognozowanie

Zastosowania

Page 58: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

225

dr Karolina Kuligowska

[email protected]

Keyword extraction - medical records

Page 59: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

226

dr Karolina Kuligowska

[email protected]

Topic detection - medical records

Page 60: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

227

dr Karolina Kuligowska

[email protected]

Link chart – crime reports

Page 61: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

228

dr Karolina Kuligowska

[email protected]

Correlation diagram – crime reports

Page 62: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

229

dr Karolina Kuligowska

[email protected]

e-Complaints from e-Auction Store http://www.cluteinstitute.com/ojs/index.php/JBER/article/view/2286

Crime reports analysis http://www.megaputer.com/site/success_stories.php

Government agency http://www.megaputer.com/site/success_stories.php

Success stories

Page 63: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

1) Komercyjne 1. Zintegrowane aplikacje analityczne

2. Analiza sentymentu

2) Aplikacje open source

Część 3 Inne narzędzia Text Mining

Page 64: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

Firma: Clarabridge

Produkt: Clarabridge Analyze

Page 65: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

232

dr Karolina Kuligowska

[email protected]

http://www.clarabridge.com/wp-content/uploads/2014/11/clarabridge_6-3_datasheet.pdf

Clarabridge Analyze

Page 66: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

233

dr Karolina Kuligowska

[email protected]

Overall sentiment - hotels

Page 67: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

234

dr Karolina Kuligowska

[email protected]

Category volume report - hotels

Page 68: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

235

dr Karolina Kuligowska

[email protected]

Motion chart - hotels

Page 69: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

236

dr Karolina Kuligowska

[email protected]

Red Roof Inn http://www.clarabridge.com/case_study/red-roof-inn/

B/E Aerospace http://www.clarabridge.com/case_study/be-aerospace/

Success stories

Page 70: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

1) Komercyjne 1. Zintegrowane aplikacje analityczne

2. Analiza sentymentu

2) Aplikacje open source

Część 3 Inne narzędzia Text Mining

Page 71: Analiza danych nieustrukturyzowanych: Text Mining · Analiza danych nieustrukturyzowanych: Text Mining dr Karolina Kuligowska ... Zintegrowane aplikacje analityczne 2. Analiza sentymentu

Studia Podyplomowe „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”

238

dr Karolina Kuligowska

[email protected]

dr Karolina Kuligowska

[email protected]

GATE

http://gate.ac.uk/

RapidMiner

https://rapidminer.com/products/studio/

National Centre for Text Mining

http://www.nactem.ac.uk/software.php

Aplikacje open source