zastosowanie narzędzi eksploracji danych data mining do ... · data mining jako nowoczesna...
TRANSCRIPT
EUGENIA FRONCZAK
MAŁGORZATA MICHALCEWICZ
Uniwersytet Technologiczno – Przyrodniczy w Bydgoszczy
ZASTOSOWANIE NARZ�DZI EKSPLORACJI DANYCH DATA MINING
DO TWORZENIA MODELI ZARZ�DZANIA WIEDZ�
Streszczenie
W dobie intensywnego post�pu technologicznego w przedsi�biorstwach reje-
strowane s� tysi�ce ró�nego rodzaju danych. Wiedza zawarta w ogromnych zbiorach
danych jest ukryta pod postaci� wzorców, trendów, regularno�ci i osobliwo�ci. Jed-
nak poniewa� człowiek i techniki statystycznej analizy danych nie s� w stanie ich
przeanalizowa stosuje si� techniki eksploracji danych, aby z du�ych zbiorów danych
wyci�gn� wnioski wspomagaj�ce procesy decyzyjne, prognozy czy przewidywania.
Stosowanie wyspecjalizowanych narz�dzi Data Mining umo�liwia budowanie mode-
li, testowanie modeli i stosowanie ich do nowych danych. W artykule przedstawiono
zastosowanie narz�dzi eksploracji danych do tworzenia modeli zarz�dzania wiedz�.
Słowa kluczowe: Data Mining, modele zarz�dzania wiedz�, eksploracja danych, odkrywanie no-
wej wiedzy
1. Wprowadzenie
Dynamika zmian w gospodarce powoduje, �e zarz�dzanie wiedz� oraz eksploracja danych od-
grywa znacz�c� rol� w działalno�ci wszystkich przedsi�biorstw na rynku. Wiedza w tworzona
i stosowane w organizacji jest najcenniejszym zasobem i jedynym �ródłem trwałej przewagi kon-
kurencyjnej. Dlatego jednym z najwi�kszych wyzwa�, przed jakim stoj� organizacje w Polsce jest
tworzenie wizji "zarz�dzania wiedz�" w realne rozwi�zania oraz optymalne wykorzystanie posia-
danych zasobów intelektualnych i niematerialnych tak, by w sposób trwały przyczyniały si� one
do tworzenia warto�ci dodanej.
Data Mining słu�y tak�e do zautomatyzowanego odkrywania statystycznych zale�no�ci
i schematów w bardzo du�ych bazach danych [1], [6], [19]. Odkrywane, wcze�niej nieznane za-
le�no�ci i schematy, przedstawiane najcz��ciej w formie reguł logicznych, drzew decyzyjnych lub
sieci neuronowych mog� posiada du�� warto� ekonomiczn� i mog� by u�yte do wspomagania
podejmowania decyzji finansowych i marketingowych w przedsi�biorstwie.
Eksploracja danych (Data Mining) jest obecnie bardzo intensywnie rozwijaj�c� si� dziedzin�wiedzy. Głównym powodem jest gromadzenie przez ludzi coraz to wi�kszych ilo�ci danych (np.
typowy supermarket rejestruje dziennie dziesi�tki tysi�cy operacji sprzeda�y), które coraz trudniej
jest analizowa za pomoc� metod znanych z klasycznych baz danych (zapytanie, podsumowanie,
zestawienie itp.). Istnieje przekonanie, �e gdy ilo� danych zaczyna przekracza pewn� warto�krytyczn�, staj� si� one praktycznie bezwarto�ciowe (szukanie igły w stogu siana). U�ytkownicy
zaczynaj� „ton�” w tym ogromie aby jako� rozwi�za problem, nale�y opracowa zupełnie inne
metody analizowania zgromadzonych danych [9].
POLSKIE STOWARZYSZENIE ZARZ�DZANIA WIEDZ�
Seria: Studia i Materiały, nr 27, 2010
127
Poniewa� współczesne systemy bazodanowe s� bardzo wydajne i pojemne, st�d rzeczywistym
problemem jest nie to, jak je gromadzi, ale jak z nich efektywnie korzysta [9].
Eksploracja danych to dziedzina interdyscyplinarna. Czerpie wiedz� z systemów baz danych,
statystyki, systemów wspomagania decyzji, sztucznej inteligencji, uczenia maszynowego, wizuali-
zacji danych czy przetwarzania równoległego. Sposób prezentacji odkrytej z danych wiedzy
nazywa si� modelem wiedzy.
2. Data Mining jako nowoczesna technologia okrywania nowej wiedzy
Eksploracja danych to „...proces odkrywania nowych, wcze�niej nieznanych, potencjalnie
u�ytecznych, zrozumiałych i poprawnych wzorców w bardzo du�ych wolumenach danych" [7].
Eksploracja danych wykorzystuje ró�ne modele wiedzy do reprezentowania wzorców obecnych w
danych. Modele te obejmuj�, mi�dzy innymi, reguły asocjacyjne [1], reguły cykliczne i okresowe
[15], reguły dyskryminacyjne i charakterystyczne [3], klasyfikatory bayesowskie [12], drzewa de-
cyzyjne [17, 18], wzorce sekwencji [2], skupienia obiektów [5], przebiegi czasowe, osobliwo�ci
i wyj�tki. Wiedza odkryta w danych mo�e by postrzegana jako warto� dodana, podnosz�ca ja-
ko� danych i znacz�co polepszaj�ca jako� decyzji podejmowanych na podstawie danych.
Zdaniem W. Stanisławskiego i E. Szydłowskiej proces identyfikacji wzorców to odkrywanie
wiedzy (Knowledge Discovery). Wzorzec jest tu rozumiany jako zwi�zki, korelacje, trendy, de-
skryptory rzadkich zdarze� itp. Według autorów eksploracja danych to jedna z faz procesu
odkrywania wiedzy, co przedstawia rysunek 1.
Rysunek 1. Proces odkrywania wiedzy
�ródło: Cios K.J., Pedrycz W., Swiniarsk R.W.: “Data Mining Methods for Knowledge Discov-
ery”, Kluwer Academic Publisher Group, 2000, ISBN 0-387-33333-9 [4].
Odkrywanie wiedzy obejmuje cały proces akwizycji wiedzy, pocz�wszy od selekcji danych
�ródłowych, poprzez czyszczenie, transformacj�, kompresj� danych, odkrywanie wzorców,
a sko�czywszy na ocenie odkrytych wzorców. Na cały proces składaj� si� [10]: sformułowanie
problemu, wybór danych, czyszczenie danych, integracja danych, transformacja danych, eksplora-
cja danych, wizualizacja i ocena odkrytych wzorców, i wreszcie zastosowanie wzorców.
Dane w przedsi�biorstwie gromadzone s� w ró�nych postaciach baz. Mog� to by płaskie pli-
ki, bazy relacyjne, obiektowe. Dane te trzeba odpowiednio przygotowa. Najlepszymi danymi do
procesu eksploracji s� dane pochodz�ce z hurtowni danych. Poza tym dane, które s� wynikiem
analizy mo�na przedstawi za pomoc� narz�dzi wizualizacji. W procesie eksploracji mo�na wy-
ró�ni trzy etapy, które przedstawia rysunek 2.
Eugenia Fronczak, Małgorzata Michalcewicz
Zastosowanie narz�dzi eksploracji danych Data Mining
do tworzenia modeli zarz�dzania wiedz�
128
1.
OPISANIE DANYCH
2.
ZBUDOWANIE I TESTOWANIE
PREDYKCYJNEGO MODELU
3.
DO�WIADCZALNA
WERYFIKACJA MO-
DELU
na podstawie staty-
stycznych analiz i
wykresów mo�na za-
uwa�y podstawowe
wła�ciwo�ci danych
na podstawie danych tworzony jest mo-
del opieraj�cy si� na poznanych
wzorach danych, nast�pnie taki model
jest sprawdzany na innym zbiorze. Do-
brze zbudowany model nie powinien
si� myli, a jego wyniki musz� w du-
�ym stopniu pokrywa si� z
rzeczywistymi warto�ciami
dla zaprojektowanego mo-
delu wykonywana jest
do�wiadczalna weryfikacja
w celu upewnienia si� czy
mo�na polega na progno-
zach takiego modelu
Rysunek 2. Etapy procesu eksploracji
�ródło: Opracowanie własne.
W�ród metod eksploracji danych mo�na wyró�ni wiele technik, które przedstawia poni�sza
tabela 1.
Tabela 1. Podział metod eksploracji danych
PODZIAŁ METOD EKSPLORACJI DANYCH
Podział ze wzgl�du na wyniki analizy Podział ze wzgl�du na zbiór danych wej�cio-
wych
Techniki predykcyjne Techniki deskrypcyjne
(segmentacji)
Techniki uczenia nad-
zorowanego
(supervised learning)
(uczenie
z nauczycielem)
Techniki uczenia bez
nadzoru
(unsupervised
learning)
(uczenie bez
nauczyciela)
na podstawie znalezio-
nych wzorców dokonuj�przewidywa� i uogól-
nie� warto�ci
nieznanych atrybutów,
zachowa�, cech nowego
obiektu
wykorzystuj� poznane
wzorce do opisywania
danych i uchwycenia
ogólnych cech opisywa-
nych obiektów, zawieraj�si� tu przede wszystkim
zagadnienia grupowania
dane wej�ciowe sta-
nowi� pewien zbiór
ucz�cy, gdzie dla okre-
�lonego zestawu
warto�ci atrybutów
poznawane s� warto�ci
atrybutu wyj�ciowego,
podczas tworzenia
zbioru ucz�cego musi
by znane prawdziwe
przypisanie ka�dego
obiektu do klasy
algorytm odkrywania
wiedzy nie dysponu-
je zbiorem ucz�cym,
algorytm eksploracji
danych stara si�sformułowa model
najlepiej pasuj�cy do
obserwowanych da-
nych
ETAPY PROCESU EKSPLORACJI
POLSKIE STOWARZYSZENIE ZARZ�DZANIA WIEDZ�
Seria: Studia i Materiały, nr 27, 2010
129
Przykłady zastosowania Przykłady technik uczenia
- maj� zastosowanie tam,
gdzie istotne jest osza-
cowanie cechy
wyj�ciowej,
- na podstawie dotychcza-
sowych relacji z
klientem pozwalaj�przewidzie przyszłe
zdarzenia,
- pozwalaj� na ocen� ry-
zyka
ubezpieczeniowego
zwi�zanego z klientem,
- pozwalaj� na oszacowa-
nie
prawdopodobie�stwa
przej�cia klienta do
konkurencyjnego usłu-
godawcy.
- wykorzystywane w
celu zaklasyfikowania
klientów o podobnych
zachowaniach i ce-
chach do odr�bnych
grup,
- pozwalaj� na odkry-
wanie grup podobnych
klientów,
- pozwalaj� na znajdo-
wanie zbiorów
produktów cz�sto ku-
powanych razem,
- umo�liwiaj� identyfi-
kacj� osobliwo�ci
wyst�puj�cych w da-
nych.
- techniki klasyfikacji
(drzewa decyzyjne,
algorytmy bazuj�ce
na n najbli�szych s�-siadach, sieci
neuronowe, statystyka
bayesowska),
- techniki regresji.
- techniki analizy
skupie� (cluster-
ing),
- samoorganizuj�ce
si� mapy,
- algorytmy maksy-
malizacji warto�ci
oczekiwanej
(expectation-
maximization).
�ródło: Opracowanie własne.
3. Wady Data Mining
Analiza danych nie jest prostym zagadnieniem, dlatego podczas tego procesu pojawiaj� si�ró�ne problemy:
1. Ogromne rozmiary danych – Problem zło�ono�ci czasowej i poszukiwania zale�no�ci
mi�dzy warto�ciami atrybutów wymaga stosowania metod heurystycznych lub zmniej-
szania obszaru poszukiwa�. Zmniejszanie obszaru poszukiwa� mo�e by wykonywane
horyzontalnie(poprzez przeprowadzenie dyskretyzacji warto�ci cech) lub w płaszczy�nie
pionowej (poprzez usuwanie nadmiernych cech).
2. Wiedza analityczna – Do przeprowadzenia projektu Data Mining niezb�dne jest odpo-
wiednie przygotowanie analityczne, a tak�e dodatkowo znajomo� zagadnie�biznesowych oraz zdolno� przeło�enia problemów biznesowych na wła�ciwe techniki
analityczne. Jednak najlepsze rezultaty stosowania technologii Data Miting mo�na osi�-gn� poprzez wyj�cie od problemów biznesowych.
3. Dobrze wykwalifikowani specjali�ci – Osoba rozumiej�ca problem biznesowy powinna
tak�e rozumie, w jaki sposób dost�pne techniki analityczne i zastosowane narz�dzie
rozwi�zuje ten problem (w celu unikni�cia pułapek). Dlatego projekt Data Mining pro-
wadzony jest zwykle przez zaawansowanych analityków. Poza tym taki projekt wymaga
tak�e zaanga�owania u�ytkowników biznesowych (mened�erów, doradców), którzy ro-
zumiej� rozwa�any problem i analizowane dane oraz ludzi, którzy rozumiej�wykonywane analizy.
4. Wysokie koszty – Wdra�anie systemów Data Mining wi��e si� nie tylko z du�ymi kosz-
tami, ale tak�e z reorganizacj� całego lub cz��ci przedsi�biorstwa. Systemy te nie zawsze
Eugenia Fronczak, Małgorzata Michalcewicz
Zastosowanie narz�dzi eksploracji danych Data Mining
do tworzenia modeli zarz�dzania wiedz�
130
ułatwi� proces zarz�dzania i funkcjonowania firmy, a przy nieumiej�tnym jego wdra�aniu
mog� go jeszcze bardziej utrudni.5. Problem integracji odkrywanej wiedzy z istniej�c� wiedz�. 6. Dynamiczna natura danych – W bazach danych ci�gle s� dodawane nowe elementy, a ist-
niej�ce s� modyfikowane, wła�nie dlatego narz�dzia Data Mining musz� by cały czas
rozwijane, a dostarczona wiedza powinna by aktualizowana.
7. Brak inteligentnego systemu zapyta� – Brakuje inteligentnego j�zyka zapyta� (komuni-
kacja) z systemami Data Mining. Zdarza si�, �e system Data Mining dedykowany do
eksploracji danych nie potrafi zintegrowa posiadanych ju� narz�dzi do analizy i wizuali-
zacji danych.
8. Bł�dy niesystematyczne i brakuj�ce warto�ci – Podczas analizy danych pojawiaj� si� bł�-dy niesystematyczne (szumy). Ze wzgl�du na ten problem metody analizy nie powinny
by zbyt wra�liwe na tego typu zachowania, aby dochodziło do zakłócania reguł. Taki
problem pojawia si� równie� w przypadku brakuj�cych warto�ci.
4. Zalety Data Mining
Do głównych korzy�ci z wdro�enia systemów Data Mining zaliczaj� si�: • usprawnienie sterowania procesem i podejmowania decyzji,
• odkrywanie ukrytej wiedzy zawartej w du�ych zbiorach danych,
• nieobci��anie komunikacj� z zewn�trznymi narz�dziami analitycznymi,
• przewidywanie przyszłych przedsi�wzi�, • prosta obsługa du�ych zbiorów danych,
• porównanie wielu modeli i szybki wybór najlepszego z nich
• odkrywanie wiedzy z ró�norodnych baz danych i ró�nych typów z danych,
• poprawa ogólnej sprawno�ci firmy,
• zastosowanie w wielu dziedzinach: projektowanie i doskonalenie produktu, analiza danych
na temat klientów zgromadzonych w systemach transakcyjnych i hurtowniach danych,
znajdowanie wzorców zachowa�, sugeruj�cych np. skłonno� do zakupu pewnego rodza-
ju produktu.
Wprowadzenie systemów Data Mining pozwala wykonywa kiedy� niemo�liwe do zrealizo-
wania analizy biznesowe i tworzy niezawodny fundament do efektywnego podejmowania decyzji
i trafnego prognozowania wskazuj�cego drog� do sukcesu. Jednak wi�kszo� korzy�ci z wdro�e-
nia systemów Data Mining jest niemierzalna. Próbuje si� oceni skuteczno� negocjacji wspartych
systemem, ale problemem s� tu punkty odniesienia - wzrost sprzeda�y czy przychodów nie musi
by zwi�zany z wprowadzeniem systemu, ale spowodowany czynnikami zewn�trznymi, np. wzro-
stem popytu, zmianami preferencji klientów. Bardzo trudne jest te� przeliczenie na zysk
osi�ganych celów strategicznych firmy. Z perspektywy zarz�du koszt systemu wspomagania decy-
zji i wska�nik zwrotu z inwestycji mog� mie drugorz�dne znaczenie przy podejmowaniu decyzji
o wdro�eniu w firmie tego rozwi�zania [11].
5. Narz�dzia Data Mining
Narz�dzia Data Mining to zaawansowane narz�dzia dr��enia i eksploracji danych słu��ce do
automatycznego znajdowania zwi�zków mi�dzy danymi. Narz�dzia tej klasy wykorzystuj� wiele
wyrafinowanych technik takich jak na przykład sieci neuronowe, drzewa decyzyjne, sieci Bayesa,
POLSKIE STOWARZYSZENIE ZARZ�DZANIA WIEDZ�
Seria: Studia i Materiały, nr 27, 2010
131
algorytmy genetyczne, clustering czy regresja. Narz�dzia tej klasy s� wykorzystywane przez anali-
tyków mi�dzy innymi do segmentacji bazy klientów, prognozowania, pozycjonowania produktu
na rynku, a tak�e do wykrywania oszustw w czasie rzeczywistym. [13]
Do najbardziej popularnych pakietów programowych oferuj�cych metody Data Mining nale-
��: • Oracle Data Mining (ODM),
• SQL Server Data Mining Business Inteligence,
• Statistica Data Miner,
• SAS Enterprise Miner,
• IBM Inteligent Miner for Data.
Oracle Data Mining (ODM)
Zdaniem W. Stanisławskiego i E. Szydłowskiej baz� danych Oracle charakteryzuje poł�czenie
procesu odkrywania wiedzy z systemem zarz�dzania baz� danych, posiada ona tak�e szereg funk-
cji umo�liwiaj�cych rozbudowane analizy danych. Mo�liwa jest dzi�ki temu realizacja w jednym
systemie baz danych ró�nych procesów takich jak: przygotowywanie danych, ich transformacja,
generowanie oraz wykorzystywanie modeli. Daje to tak�e du�e mo�liwo�ci programistom, po-
przez poł�czenie technik eksploracji z aplikacjami bazodanowymi. Oracle Data Mining (ODM)
jest komponentem oferuj�cym analizy danych jest. W jego skład wchodz� trzy elementy:
• Data Mining Engine (DME) – zapewnia infrastruktur�, zawieraj�c� zestaw usług Data Mi-
ning udost�pnianych dla klientów API,
• interfejs aplikacji (API) – umo�liwia dost�p do funkcji i algorytmów zaimplementowanych
w DME,
• reporytozium metadanych – wykorzystywane poprzez DME do udost�pniania obiektów
wygenerowanych w trakcie analiz [16].
W interfejsie aplikacji mo�na wyodr�bni trzy cz��ci. Ka�da z nich skierowana jest do innego
typu u�ytkownika.
a) Oracle Data Mining Predictive Analytics (PA) zawiera dwa programy: przewidywanie
(ang. Predict) oraz wyja�nianie (ang. Explain). W przewidywaniu wykorzystywane s� al-
gorytmy klasyfikacji i regresji, a w wyja�nianiu algorytm wa�no�ci atrybutów. Programy
s� w pełni zautomatyzowane, od u�ytkownika wymagane jest tylko odpowiednie sforma-
towanie danych wej�ciowych. Program przewidywania skierowany dla u�ytkowników
których głównym celem jest uzyskanie w krótkim czasie rzetelnych wyników np, dyrek-
torów marketingu.
b) Drugi interfejs jest skierowany do programistów, dost�pny jest w dwóch j�zykach: Java
i PL/SQL. Oba API s� ze sob� kompatybilne i mo�na budowa modele z wykorzystaniem
skryptów PL/SQL, a testowa przy u�yciu aplikacji Javy, pozwala on tak�e na wdra�anie
wbudowanych algorytmów do aplikacji klienckich.
c) Oracle Data Miner to narz�dzie graficzne, pozwalaj�ce na realizacj� zada� eksploracji
oraz wizualn� reprezentacj� wyników. Przeznaczone jest ono dla analityków bizneso-
wych, którzy orientuj� si� w badanych zagadnieniach i potrafi� dobra algorytm
stosownie do posiadanych danych i oczekiwanych wyników. Wykorzystywane jest tak�e
Eugenia Fronczak, Małgorzata Michalcewicz
Zastosowanie narz�dzi eksploracji danych Data Mining
do tworzenia modeli zarz�dzania wiedz�
132
przez programistów do wyboru kierunku rozwoju aplikacji poprzez wst�pn� analiz� da-
nych, tworzenie przykładowych modeli oraz wizualne sprawdzanie ich efektywno�ci.
Zaimplementowane algorytmy pozwalaj�ce na tworzenie modeli eksploracji w ODM podzie-
lono na dwie grupy zaprezentowane w tabeli 2.
Tabela 2. Algorytmy pozwalaj�ce na tworzenie modeli eksploracji w ODM
Algorytmy z nauczycielem Algorytmy bez nauczyciela
klasyfikacja
- naiwny klasyfikator Bayesa (Naive Bayes)
- adaptacyjna sie Bayes (Adaptive Bayes Network)
- SVM (Suport Victor Machine)
- indukcja drzew decyzyjnych (Decision Tree)
analiza skupie�- algorytm k-�rednich (k-Means)
- O-Cluster
regresja
- SVM (Suport Victor Machine)
reguły asocjacji
-apriori
wa�no� atrybutów
- minimalna długo� opisu (Minimum description
Length)
ekstrakcja cech
-NMF (Non-Negative Matrix nFactorization)
�ródło: Opracowanie własne.
SQL Server Data Mining
SQL Server nale�y do rodziny technologii Business Intelligence, której wszystkie elementy
współpracuj� ze sob� w celu dostarczenia wszechstronnej platformy umo�liwiaj�cej organizacjom
stosowanie analizy predykcyjnej na ka�dym etapie cyklu �ycia danych. [22] Microsoft® SQL Se-
rver® 2008 oferuje analiz� predykcyjn� za po�rednictwem pełnego i intuicyjnego zestawu
narz�dzi Data Mining. Gł�boka integracja z platform� Microsoft Business Intelligence umo�liwia
dost�p do danych w ka�dym momencie, elastyczna platforma pozwala umieszczenie funkcji pre-
dykcji w dowolnej aplikacji. [21]
Firma Microsoft zmierzaj�c do stworzenia kompleksowej platformy Business Intelligence
(BI), która mo�e by integrowana z codziennymi działaniami firmy i efektywnie wykorzystywana
przez pracowników w całej organizacji, nie tylko przez garstk� wyspecjalizowanych analityków
przedefiniowała mo�liwo�ci raportowania i analizy w Microsoft® SQL Server®. Dzi�ki temu Bu-
siness Intelligence uwa�ana do tej pory za zbyt kosztowne lub skomplikowane pod wzgl�dem
implementacji rozwi�zanie, teraz korzysta z kompleksowych mo�liwo�ci tworzenia, renderowania
i dostarczania raportów przy pomocy usług SQL Server Reporting Services oraz z bogatej funk-
cjonalno�ci przetwarzania analitycznego online (OLAP) dostarczanej przez usługi SQL Server
Analysis Services. �cisła integracja mi�dzy takimi produktami Business Inteligence a wszech-
obecnym systemem Microsoft Office umo�liwiła masowy dost�p do analizy biznesowej.
Aby poprawi sprawno� i efektywno� operacyjn� firm nale�y wykorzysta analiz� predyk-
cyjn� danych biznesowych i stosowa w procesach biznesowych inteligentny system
podejmowania decyzji. Osi�gni�cie tego celu jest mo�liwe poprzez wykorzystanie funkcjonalnych
algorytmów Data Mining. Algorytmy te zapewniaj� ogromne mo�liwo�ci w zakresie analizowania
zbiorów danych, porównywania nowych danych z faktami i zachowaniami historycznymi, identy-
fikowania klasyfikacji oraz relacji mi�dzy jednostkami i atrybutami biznesowymi oraz
POLSKIE STOWARZYSZENIE ZARZ�DZANIA WIEDZ�
Seria: Studia i Materiały, nr 27, 2010
133
udost�pniania trafnych wgl�dów predykcyjnych we wszystkich systemach i dla wszystkich u�yt-
kowników podejmuj�cych decyzje biznesowe. Wychodz�c naprzeciw przekonaniu, �e Data
Mining to specjalistyczna, skomplikowana i kosztowna technologia firma Microsoft zaoferowała
rozwi�zanie, w którym wszechstronne technologie Data Mining zostały doł�czone do usług SQL
Server Analysis Services przy jednoczesnym zapewnieniu bezpo�redniej integracji z systemem
Microsoft Office 2007. Takie rozwi�zanie w poł�czeniu z korporacyjnymi mo�liwo�ci SQL Server
Analysis Services zapewnia wszystkim dost�p do bogatych funkcji oraz analiz Data Mining, które
stanowi� klucz do sukcesu.
Dzi�ki �cisłej integracji technologii Data Mining w SQL Server 2008 z systemem Office
2007, uniwersalnemu �rodowisku programistycznemu, korporacyjnym mo�liwo�ciom oraz rozsze-
rzalnemu zestawowi bogatych i innowacyjnych algorytmów Data Mining uwzgl�dniaj�cych
typowe problemy biznesowe mo�liwe jest stosowanie technologii Data Mining w sposób intuicyj-
ny i samoobsługowy, co pozwala firmom sprawnie ocenia sytuacj�. Analiza predykcyjna kiedy� była stosowana tylko przez pracowników - ekspertów w dziedzi-
nie statystyki. Technologia Data Mining w SQLServer 2008 oferuje kompleksowa analiz�predykcyjn�, która udost�pnia analizy oraz predykcje wielu u�ytkownikom. Dodatek Microsoft
SQL Server 2008 Data Mining dla Office 2007, pokazany na rysunku 3, umo�liwia pracownikom
korzystaj�cym z informacji zastosowanie zaawansowanej technologii Data Mining w znanym �ro-
dowisku arkuszy kalkulacyjnych. Dzi�ki temu u�ytkownicy mog� w łatwy sposób uzyskiwarzetelne informacje, które zapewniaj� natychmiastowe i znacz�ce wskazówki pomocne w podej-
mowaniu codziennych decyzji.
Narz�dzia Table Analysis dla Microsoft Office Excel® 2007 ukrywaj� zło�ono� technologii
Data Mining za intuicyjnymi zadaniami, dostarczaj�c mechanizmy, które pozwalaj� u�ytkowni-
kom w łatwy i niemal niezauwa�alny sposób przechodzi mi�dzy analiz� a odkrywaniem wiedzy.
Komponent kliencki Data Mining dla Office Excel 2007 oferuje dost�p do pełnego procesu two-
rzenia rozwi�zania Data Mining, który zapewnia zaawansowanym u�ytkownikom wi�cej
informacji, sprawdzanie poprawno�ci i du�� kontrol�. Co wi�cej, szablony Data Mining dla apli-
kacji Visio umo�liwiaj� u�ytkownikom renderowanie opatrzonych adnotacjami wizualizacji
graficznych modeli Data Mining. Generalnie integracja funkcji SQL Server 2008 Data Mining
z systemem Office 2007 tworzy kompleksowy, intuicyjny ekosystem biznesowy z funkcj� pracy
zespołowej, który upowszechnia dost�p do analizy predykcyjnej i pomaga w dostarczaniu infor-
macji wspieraj�cych podejmowanie decyzji biznesowych w całej organizacji. [21]
Eugenia Fronczak, Małgorzata Michalcewicz
Zastosowanie narz�dzi eksploracji danych Data Mining
do tworzenia modeli zarz�dzania wiedz�
134
Rysunek 3. Dodatek Data Mining dla programu Microsoft Office Excel 2007
�ródło: „Analiza predykcyjna z wykorzystaniem SQL Server 2008”, cz. I, Baza Wiedzy Microsoft
TechNet, 27 czerwca 2008 [21].
Dodatek Data Mining dla systemu Office 2007 oferuje wiele korzy�ci, które przedstawia rysu-
nek 4.
System Office 2007 stanowi idealne narz�dzie dla pracowników wykorzystuj�cych informa-
cje, ale programi�ci BI, którzy rozwijaj� rozwi�zania na skal� korporacyjn�, najcz��ciej wybieraj�SQL Server Business Intelligence Development Studio, poniewa� oferuje ono �rodowisko bazuj�-ce na projektach, uzupełnione funkcjonalno�ci� debugowania i integracj� z systemem kontroli
�ródła, co pozwala na tworzenie kompleksowych rozwi�za� BI. Oczywi�cie masowe rozpo-
wszechnianie funkcji Data Mining jest u�yteczne tylko wtedy, gdy programi�ci mog� budowarozwi�zania Data Mining, które szybko i z łatwo�ci� realizuj� okre�lone wymagania biznesowe.
SQL Server Business Intelligence Development Studio stanowi uniwersalne �rodowisko programi-
styczne bazuj�ce na systemie programistycznym Microsoft Visual Studio®. Przy u�yciu Business
Intelligence Development Studio programi�ci mog� tworzy struktury Data Mining okre�laj�ce
tabele i kolumny, które maj� zosta uwzgl�dnione podczas analizy, a tak�e mog� dodawa wiele
modeli Data Mining, które stosuj� algorytmy Data Mining na danych w tych tabelach. Szablon
projektu Analysis Services w Business Intelligence Development Studio, pokazany na rysunku 5,
zawiera intuicyjne narz�dzie Data Mining Designer słu��ce do tworzenia i wy�wietlania modeli
Data Mining. Dostarcza równie� funkcje Cross-validation, Lift chart oraz Profit chart, które słu��do porównywania i kontrastowania jako�ci modeli w sposób wizualny i przy pomocy statystycz-
nych ocen bł�dów oraz trafno�ci przed wdro�eniem tych modeli. [21]
SQL Server Analysis Services oferuje wiele korzy�ci:
• szybki rozwój,
• wysoka dost�pno�, • wyj�tkowa wydajno� i skalowalno�, • stabilne zabezpieczenia,
POLSKIE STOWARZYSZENIE ZARZ�DZANIA WIEDZ�
Seria: Studia i Materiały, nr 27, 2010
135
• wi�ksze mo�liwo�ci zarz�dzania dzi�ki SQL Server Management Studio.
To sprawia, �e technologie Data Mining umo�liwiaj�ce analiz� predykcyjn� mog� rozwija si�wraz z firm� i zapewniaj� wydajne, skalowalne rozwi�zanie dopasowane dla dowolnej firmy.
W odpowiedzi na szeroki zakres wymaga� biznesowych ró�nych organizacji, SQL Server Data
Mining oferuje szeroki zestaw funkcji.
WSZECHSTRONNO�� INTUICYJNO�� WSPӣPRACA zapewnia szeroki zakres na-
rz�dzi Data Mining
dostosowanych do wielu po-
trzeb (Dodatek Data Mining
dla sytemu Office 2007)
U�ytkownicy mog�: • analizowa dane,
• odkrywa ukryte trendy
oraz relacje mi�dzy produk-
tami, klientami, rynkami,
pracownikami oraz innymi
czynnikami,
• przewidywa potrzeby,
• poznawa mechanizmy
działania,
• odnajdowa ukryty poten-
cjał,
• usprawnia procesy bizne-
sowe,
• bezpo�rednio wpływa na
rentowno� firmy.
dostarcza znacz�ce wgl�dy dla
ka�dego u�ytkownika (znajome
�rodowisko Microsoft Office)
Narz�dzia Table Analysis dla
Office Excel 2007 szybko dostar-
czaj� czytelne i znacz�ce wyniki
analiz w trzech prostych krokach:
• definiowanie danych - okre�le-
nie danych i stworzenie w
arkuszu kalkulacyjnym Office
Excel 2007 tabeli definiuj�cej
dane poddawane analizie,
• identyfikowanie zadania - wy-
branie odpowiedniego zadania
Data Mining, które ma zostawykonane na danych,
• pobieranie wyniku - analiza
danych wyj�ciowych za pomo-
c� wizualizacji bezpo�rednio w
�rodowisku Office Excel 2007.
dzielenie wgl�dów w obr�bie
całej organizacji
Dzi�ki zaawansowanym na-
rz�dziom publikacji systemu
Office 2007 mo�na dzieliodkrycia i informowa o de-
cyzjach biznesowych
w obr�bie całej organizacji.
U�ytkownicy mog�:• udost�pni wynik analizy
za po�rednictwem interak-
tywnych wizualizacji
graficznych w diagramach
Office Visio 2007,
• udost�pni tabele, raporty
oraz diagramy przy pomo-
cy Microsoft Office
SharePoint® Server 2007.
Rysunek 4. Korzy�ci dodatku Data Mining dla systemu Office 2007
�ródło: Opracowanie własne.
Korzy�ci dodatku Data Mining dla systemu Office 2007
Eugenia Fronczak, Małgorzata Michalcewicz
Zastosowanie narz�dzi eksploracji danych Data Mining
do tworzenia modeli zarz�dzania wiedz�
136
Rysunek 5. Data Mining Designer w Business Intelligence Development Studio
�ródło: „Analiza predykcyjna z wykorzystaniem SQL Server 2008”, cz. I, Baza Wiedzy Microsoft
TechNet, 27 czerwca 2008 [21].
Technologia ta realizuje nast�puj�ce zadania:
1. analiza koszyka produktów – odkrywa, które elementy s� kupowane razem, aby odpo-
wiednio rozmieszcza produkty na półkach co mo�e pomóc w zwi�kszeniu zysków,
2. analiza migracji klientów – przewiduje, którzy klienci rozwa�aj� anulowanie usługi
i szuka argumentów, które mog� ich powstrzyma przed odej�ciem,
3. analiza rynku – okre�la segmenty rynku, grupuj�c ze sob� podobnych klientów,
4. prognozowanie – przewiduje sprzeda� i stan magazynu, pokazuje powi�zania mi�dzy ni-
mi, dzi�ki czemu przewiduje opó�nienia i poprawia wydajno�, 5. eksploracja danych – analizuje rentowno� klientów i porównuje klientów preferuj�cych
ró�ne marki tego samego produktu, w celu odkrywania nowych mo�liwo�ci,
6. uczenie bez nadzoru – znajduje nieznane wcze�niej relacje mi�dzy ró�nymi elementami
w firmie w celu wspomagania decyzji,
7. analiza witryny sieci Web – odkrywa sposób korzystania z witryny sieci Web przez u�yt-
kowników, wyszukuje podobne wzorce u�ycia, aby poprawi funkcjonalno�, 8. analiza kampanii – pozwala zwi�kszy zwrot inwestycji w działaniach marketingowych
adresuj�c je do klientów, którzy przypuszczalnie zareaguj� na promocj�, 9. jako� danych – wyszukuje i obsługuje anomalia podczas wprowadzania lub ładowania
danych, aby poprawi jako� informacji,
10. analiza tekstu – analizuj�c opinie, wyszukuje popularne tematy oraz trendy, które intere-
suj� klientów lub pracowników, w ten sposób wspomaga decyzje przy u�yciu danych
nieustrukturyzowanych.
SQL Server 2008 Analysis Services obejmuj� technologi� Data Mining, która wspiera wiele
bogatych i innowacyjnych algorytmów. Wi�kszo� z tych algorytmów została zaprojektowana
POLSKIE STOWARZYSZENIE ZARZ�DZANIA WIEDZ�
Seria: Studia i Materiały, nr 27, 2010
137
z my�l� o typowych wyzwaniach biznesowych. W technologii SQL Server Data Mining mo�na
wyró�ni nast�puj�ce algorytmy pozwalaj�ce na tworzenie modeli eksploracji:
• Asocjacja (Association),
• Indukcja drzew decyzyjnych (Decision Trees),
• Linear Regression,
• Logistic Regression,
• Clustering,
• Sequence Clustering,
• Time Series,
• Neural Network,
• Naiwny klasyfikator Bayesa (Naive Bayes),
• Text Mining.
Rozwi�zanie Data Mining SQL Server 2008 udost�pnia funkcje analizy predykcyjnej wielu
u�ytkownikom w obr�bie całej korporacji. Zastosowanie w procesie biznesowym takiego inteli-
gentnego i intuicyjnego w obsłudze systemu podejmowania decyzji wpływa na sprawno�i efektywno� operacyjn� firm. W przypadku, gdy istnieje potrzeba wbudowania funkcjonalno�ci
Data Mining w konkretn� aplikacj�, zastosowania analizy biznesowej w istniej�cym procesie biz-
nesowym lub rozszerzenia technologii Data Mining dla specyficznego problemu biznesowego,
SQL Server oferuje elastyczn� i rozszerzaln� platform� programistyczn�. Pozwala ona wł�czapredykcj� i analizy w specjalistyczne aplikacje biznesowe, a dzi�ki zastosowaniu procedur skła-
dowanych Microsoft .NET, algorytmów typu plug-in, niestandardowych wizualizacji oraz j�zyka
PMML pozwala rozszerza standardowe technologie Data Mining w SQL Server 2008 w taki spo-
sób, aby realizowały nietypowe potrzeby biznesowe charakterystyczne dla okre�lonej firmy.
6. Podsumowanie
We współczesnych realiach systemy Data Mining staj� si� coraz istotniejsze dla funkcjono-
wania przedsi�biorstw, gdy� umo�liwiaj� ich decydentom podejmowanie optymalnych decyzji
w dynamicznie zmieniaj�cym si� otoczeniu, w którym potrzeby klientów oraz działania konkuren-
cji wysuwaj� si� na pierwszy plan. Zaimplementowane w instytucjach zaawansowane modele
predykcyjne, ekonomiczne, odkrywania wzorców na podstawie ogromnych baz danych, oraz na-
rz�dzia sztucznej inteligencji sprawiaj�, i� współczesne organizacje mog� odkrywa dotychczas
nieznan� im wiedz� oraz twórczo j� wykorzystywa, w celu osi�gni�cia jeszcze wi�kszych korzy-
�ci. Jednak nale�y u�wiadomi sobie, i� systemy Data Mining nie s� uniwersaln� recept� na
problemy z jakimi stykaj� si� decydenci przedsi�biorstw, s� jedynie kolejnym u�ytecznym narz�-dziem, które wspomaga decydenta w procesie podejmowania przez niego decyzji, zwykle
„ilo�ciowych”. Bowiem, w rzeczywisto�ci społeczno – gospodarczej wiele zjawisk i procesów nie
jest mierzalnych, w sensie ilo�ciowym. Przedsi�biorstwa stykaj� si� równie� z problemami jako-
�ciowymi, których nie mo�na rozwi�za za pomoc� metod i systemów Data Mining. Ponadto
umysł człowieka jest zawodny i nie jest w stanie ogarn�, ani wysnu logicznych wniosków ze
zbiorów ogromnych baz danych. Nale�y pami�ta, i� jednak człowiek tworzy powy�sze nowe me-
tody, a nast�pnie to wła�nie człowiek wysnuwa logiczne wnioski na podstawie „wniosków”
komputera. Zatem to nadal umysł człowieka, a nie komputer pełni dominuj�c� rol� w ka�dym
przedsi�biorstwie.
Eugenia Fronczak, Małgorzata Michalcewicz
Zastosowanie narz�dzi eksploracji danych Data Mining
do tworzenia modeli zarz�dzania wiedz�
138
Korzy�ci� z wdro�enia systemów Data Mining w firmie jest znalezienie pewnych reguł doty-
cz�cych funkcjonowania firmy, mo�e tak�e pomóc z zarz�dzaniu relacjami z otoczeniem firmy.
Wnioski wynikaj�ce z odkrytych zale�no�ci mog� te� posłu�y do sformułowania oferty bardziej
odpowiadaj�cej profilowi obsługiwanych klientów, wyj� naprzeciw ich zapotrzebowaniom.
Omawiana technologia daje mo�liwo� zdobycia zysków dla firmy b�d�cych nast�pstwem wy-
krycia nieprawidłowo�ci albo nadu�y. Wiedza pozyskana w procesie eksploracji danych stanowi
jeden z najcenniejszych zasobów i stanowi �ródło przewagi konkurencyjnej.
Bibliografia
[1] Agrawal R., Imielinski T., Swami A.: “Mining Association Rules Between Sets of
Items in Large Databases”, Proc. ACM SIGMOD Conference, p. 207–216, Washington
DC, USA, May 1993.
[2] Agrawal R., Srikant R.: “Mining sequential patterns”, In Proc. of the 11th International
Conference on Data Engineering, Taipei, Taiwan, 1995.
[3] Cendrowska J.: “PRISM: An algorithm for inducing modular rules”. International
Journal of Man-Machine Studies 27(4), p. 25–32, 1987.
[4] Cios K.J., Pedrycz W., Swiniarsk R.W.: “Data Mining Methods for Knowledge Dis-
covery”, Kluwer Academic Publisher Group, 2000, ISBN 0-387-33333-9.
[5] Everitt B.S., Landau S., Leese M.: “Cluster analysis”, Arnold Publishers, 2001.
[6] Fayyad U., Piatetsky-Shapiro G., Smyth P.: “The KDD Process for Extracting Useful
Knowledge from Volumes of Data”, Comm. of the ACM, Vol. 39, No. 11, November
1996.
[7] Fayyad U., Piatetsky-Shapiro G., Smyth P., Uthurusamy R.: “Advances in Knowledge
Discovery and Data Mining’, AAAI/MIT Press, 1996.
[8] Gawrylczyk A.: „Zastosowanie i znaczenie technologii „data mining” w bankowo�ci”,
Studenckie Koło Naukowe Economicus 2008.
[9] Gramacki A., Gramacki J.: „Nowa metoda grupowania danych koszyka sklepowego”,
Przegl�d Telekomunikacyjny, rocznik LXXXI, nr 6/2008.
[10] Han J., Kamber M.: “Data Mining: Concepts and Techniques”. Morgan Kaufmann,
2000.
[11] Kozi�ski M.: „Zamiast kryształowej kuli”, PCKurier 5/2003.
[12] Langey P., Iba W., Thompson K.: “An analysis of Bayesian classifiers”. In Proc. of 10th
National Conference on Artificial Intelligence, San Jose, CA, AAAI Press, p. 223–228,
1992.
[13] Morawski O.: „Hurtownie danych i systemy wspomagania decyzji”.
[14] Morzy M.: „Eksploracja danych – przegl�d dost�pnych metod i dziedzin zastosowa�”.
[15] Ozden B., Ramaswamy S., Silberschatz A.: “Cyclic Association Rules”, In Proc. 1998
International Conference on Data Engineering (ICDE'98), p. 412–421, Orlando, FL,
1998.
[16] Stanisławski W., Szydłowska E.: „Analiza narz�dzia Data Mining ORACLE 10g do
klasyfikacji komórek nowotworowych w cytometrycznym systemie skaningowym”,
XII Konferencja PLOUG, Zakopane, Pa�dziernik 2006.
[17] Quinlan J.R.: “Induction of decision trees”. Machine Learning 1(1), p. 81–106.
[18] Quinlan J.R.: C4.5: “Programs for machine learning”. Morgan Kaufman, 1993.
POLSKIE STOWARZYSZENIE ZARZ�DZANIA WIEDZ�
Seria: Studia i Materiały, nr 27, 2010
139
[19] Zakrzewicz M.: "Data Mining i odkrywanie wiedzy w bazach danych", Materialy konf.
Polish Oracle Users Group PLOUG'97, s. 57–67, Zakopane, 1997.
[20] Zakrzewicz M.: “On-Line Data Mining”.
[21] „Analiza predykcyjna z wykorzystaniem SQL Server 2008”, cz. I, Baza Wiedzy Micro-
soft TechNet, 27 czerwca 2008.
[22] „Analiza predykcyjna z wykorzystaniem SQL Server 2008”, cz. II, Baza Wiedzy
Microsoft TechNet, 27 czerwca 2008.
[23] „Zarz�dzanie wiedz� w Polsce 2004”, Raport badawczy firmy KPMG, Knowledge
Management 2004.
THE GENERAL-PURPOSE OF EXPLORATION DATA TOOLS “DATA MINING” TO CREATING MODELS OF KNOWLEDGE MANAGEMENT
Summary
In day of intensive technological progress in enterprises are recorded thousands
the different kind of data. Knowledge contained in huge files of data is hidden under
figure of standards, trends, regularity and peculiar. However because the people and
technics of statistical analysis can’t analyse data, it applies the exploration of data
technics to draw out the conclusions the helping decission processes, prognosis or
prediction with large files of data. The applying of specialized Data Mining tools,
makes possible constructing the model, testing the model and applying the model to
new data. In this article was introduced the application exploration data tools “Data
mining” to creating models of knowledge management.
Keywords: Data Mining, model of knowledge management, exploration data, discovering the new
knowledge
Eugenia Fronczak,
Małgorzata Michalcewicz
Katedra Informatyki w Zarz�dzaniu
Wydział Zarz�dzania
Uniwersytet Technologiczno-Przyrodniczy im. Jana i J�drzeja �niadeckich w Bydgoszczy
ul. Prof. S. Kaliskiego 7, 85-789 Bydgoszcz
e-mail: [email protected]