modul data warehouse business intelligence · selanjutnya modul ini disusun untuk memberikan...

47
MODUL DATA WAREHOUSE & BUSINESS INTELLIGENCE Disusun oleh : Sukmawati Anggraeni Putri Mkom. Indah Purnamasari ST, MKom SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER NUSA MANDIRI JAKARTA 2019

Upload: others

Post on 06-Mar-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

MODUL

DATA WAREHOUSE

&

BUSINESS INTELLIGENCE

Disusun oleh :

Sukmawati Anggraeni Putri Mkom. Indah Purnamasari ST, MKom

SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER

NUSA MANDIRI

JAKARTA

2019

Page 2: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

MODUL DATA WAREHOUSE & BUSINESS INTELLIGENCE

2

KATA PENGANTAR

Puji syukur penulis panjatkan kehadirat Allah SWT, yang telah memberikan

rahmat dan hidayahnya sehingga modul Jaringan Komputer ini dapat terselesaikan dengan

baik. Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang

mempelajari mata kuliah Data warehouse & Business Intelligence dengan software Rapid

Miner.

Tak lupa penulis mengucapkan banyak terima kasih kepada semua pihak yang

telah membantu dengan tenaga dan pikirannya, terima kasih juga kepada rekan–rekan

instruktur, dosen dan semuanya yang tidak bisa disebutkan satu persatu, yang selalu

mendukung penulis sehingga modul ini sehingga dapat selesai sesuai yang kita

inginkan semua.

Penulis menyadari masih banyak kekurangan dalam penyusunan modul ini.

Untuk itu saran dan kritik yang membangun sangat penulis harapkan guna perbaikan

dan pengembangan modul ini ke depan.

Akhir kata penulis berharap semoga modul Jaringan Komputer ini dapat

dipergunakan sebaik-baiknya dan dapat dijadikan referensi untuk mahasiswa umum yang

ingin mempelajari mata kuliah Data warehouse & Business Intelligence dengan software

Rapid Miner.

Jakarta, Juli 2019

Penulis

Page 3: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

MODUL DATA WAREHOUSE & BUSINESS INTELLIGENCE

3

DAFTAR ISI

Cover ........................................................................................................................................ 1

Kata Pengantar ......................................................................................................................... 2

Daftar Isi .................................................................................................................................. 3

BAB 1 Business Intelligence .................................................................................................. 4

BAB 2 Data Warehousing.......................................................................................................8

BAB 3 Business Performance Management..........................................................................18

BAB 4 Business Performance Management Methodologies.................................................23

BAB 5 Pengantar Data Mining...............................................................................................28

BAB 6 Metode Learning Algoritma Data Mining.................................................................32

BAB 7 Study Kasus.................................................................................................................40

BAB 8 Pembuatan Laporan dan Presentasi.............................................................................46

Daftar Pustaka.........................................................................................................................47

Page 4: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

4

MODUMM

BAB 1

Business Intelligence

1. Definisi

BI adalah istilah umum yang menggabungkan arsitektur, alat, basis data, alat analisis,

aplikasi, dan metodologi. Seperti DSS, BI ekspresi bebas konten, berarti itu hal yang

berbeda untuk orang yang berbeda.

Tujuan utama BI adalah untuk memungkinkan akses mudah ke data (dan model) untuk

memberikan manajer bisnis dengan kemampuan untuk melakukan analisis.

BI membantu mengubah data, menjadi informasi (dan pengetahuan), menjadi keputusan

dan akhirnya bertindak

Sejarah BI

Istilah BI diciptakan oleh Gartner Group pada pertengahan 1990-an

Namun, konsepnya jauh lebih tua

1970-an - Pelaporan MIS - laporan statis / berkala

1980-an - Sistem Informasi Eksekutif (EIS)

1990-an - OLAP, dinamis, multidimensi, pelaporan ad-hoc -> penggabungan istilah "BI"

2005+ Inklusi kemampuan Penambangan AI dan Data / Teks; Portal / Dashboard berbasis

web

2010-an - belum terlihat

Evolusi Kemampuan BI

Arsitektur BI

Sistem BI memiliki empat komponen utama :

-Data warehouse, dengan data sumbernya

-Bussiness Analitycs, kumpulan alat untuk memanipulasi, menambang, dan menganalisis

data di gudang data;

-Bussiness Performance Management (BPM) untuk memantau dan menganalisis kinerja

-User interface(mis., dashboard)

Page 5: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

5

MODUMM

Arsitektur BI

Komponen Arsitektur BI

Data warehouse adalah gudang besar data historis yang terorganisir dengan baik

Bussiness Analitycs adalah alat yang memungkinkan transformasi data menjadi informasi

dan pengetahuan

Bussiness Performance Management (BPM) memungkinkan pemantauan, pengukuran,

dan membandingkan indikator kinerja utama

User interface (mis., Dashboard) memungkinkan akses dan manipulasi komponen BI

lainnya dengan mudah

Model BI

Data warehouse adalah gudang besar data historis yang terorganisir dengan baik

Bussiness Analitycs adalah alat yang memungkinkan transformasi data menjadi informasi

dan pengetahuan

Bussiness Performance Management (BPM) memungkinkan pemantauan, pengukuran,

dan membandingkan indikator kinerja utama

User interface (mis., Dashboard) memungkinkan akses dan manipulasi komponen BI

lainnya dengan mudah

Keunggulan BI

Kemampuan untuk memberikan informasi yang akurat ketika dibutuhkan, termasuk

pandangan waktu nyata dari kinerja perusahaan dan bagian-bagiannya

Sebuah survei oleh Thompson (2004)

-Pelaporan lebih cepat, lebih akurat (81%)

-Pengambilan keputusan yang lebih baik (78%)

-Peningkatan layanan pelanggan (56%)

-Peningkatan pendapatan (49%)

Hubungan DSS dengan BI

Pertama, arsitektur mereka sangat mirip karena BI berevolusi dari DSS

Kedua, DSS secara langsung mendukung pengambilan keputusan spesifik, sementara BI

memberikan informasi yang akurat dan tepat waktu, dan secara tidak langsung

mendukung pengambilan keputusan

Ketiga, BI memiliki orientasi eksekutif dan strategi, terutama dalam BPM dan komponen

dasbornya, sedangkan DSS, sebaliknya, berorientasi pada analis

Keempat, sebagian besar sistem BI dibangun dengan alat dan komponen yang tersedia

Page 6: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

6

MODUMM

secara komersial, sementara DSS sering dibangun dari awal

Kelima, metodologi DSS dan bahkan beberapa alat sebagian besar dikembangkan di

dunia akademik, sedangkan metodologi dan alat BI sebagian besar dikembangkan oleh

perusahaan perangkat lunak

Keenam, banyak alat yang digunakan BI juga dianggap sebagai alat DSS (mis., Data

mining dan analisis prediktif adalah alat utama di keduanya)

Meskipun beberapa orang menyamakan DSS dengan BI, sistem ini, pada saat ini, tidak

sama

Beberapa orang percaya bahwa DSS adalah bagian dari BI — salah satu alat analitisnya

yang lain berpikir bahwa BI adalah kasus khusus DSS yang sebagian besar berkaitan

dengan pelaporan, komunikasi, dan kolaborasi (suatu bentuk DSS yang berorientasi data)

BI adalah hasil dari revolusi berkelanjutan dan, dengan demikian, DSS adalah salah satu

elemen asli BI

Dalam buku ini, kami memisahkan DSS dari BI

MSS = BI dan / atau DSS

Tampilan Sistem Kerja Decision Support (Alter, 2004)

Jatuhkan kata “Systems" dari DSS fokus pada “Decision Support"

“Penggunaan segala cara yang terkomputerisasi atau nonkomputer yang masuk akal

untuk meningkatkan pengambilan keputusan dalam situasi bisnis yang berulang atau

tidak berulang dalam organisasi tertentu”

Elemen Sistem Kerja

Proses bisnis. Variasi dalam proses rasional, urutan langkah-langkah, atau metode yang

digunakan untuk melakukan langkah-langkah tertentu

Peserta Pelatihan yang lebih baik, keterampilan yang lebih baik, tingkat komitmen yang

lebih tinggi, atau umpan balik waktu-nyata yang lebih baik atau tertunda

Informasi. Kualitas informasi yang lebih baik, ketersediaan informasi, atau penyajian

informasi

Teknologi. Penyimpanan dan pengambilan data yang lebih baik, model, algoritma,

kemampuan statistik atau grafis, atau interaksi komputer

Produk dan layanan. Cara yang lebih baik untuk mengevaluasi keputusan potensial

Pelanggan Cara yang lebih baik untuk melibatkan pelanggan dalam proses pengambilan

keputusan dan untuk mendapatkan kejelasan yang lebih besar tentang kebutuhan mereka

Infrastruktur. Penggunaan infrastruktur bersama yang lebih efektif, yang mungkin

mengarah pada peningkatan

Lingkungan Hidup. Metode yang lebih baik untuk memasukkan masalah dari lingkungan

sekitarnya

Strategi. Strategi operasional yang berbeda secara fundamental untuk sistem kerja

Sistem kerja: sistem di mana peserta manusia dan / atau mesin melakukan proses bisnis,

menggunakan informasi, teknologi, dan sumber daya lainnya, untuk menghasilkan

produk dan / atau layanan untuk pelanggan internal atau eksternal

Kategori Alat Utama untuk MSS

Page 7: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

7

MODUMM

Sistem Pendukung Hibrida Terintegrasi

Tujuan dari dukungan keputusan yang terkomputerisasi, terlepas dari nama atau sifatnya,

adalah untuk membantu manajemen dalam memecahkan masalah manajerial atau

organisasi (dan menilai peluang dan strategi) lebih cepat dan lebih baik daripada yang

mungkin tanpa komputer

Setiap jenis alat memiliki kemampuan dan keterbatasan tertentu. Dengan

mengintegrasikan beberapa alat, kami dapat meningkatkan dukungan keputusan karena

satu alat dapat memberikan keuntungan di mana yang lain lemah. Oleh karena itu tren

menuju pengembangan Support Systems hybrid (terintegrasi)

Jenis integrasi

Gunakan setiap alat secara independen untuk menyelesaikan berbagai aspek masalah

Gunakan beberapa alat yang terintegrasi secara longgar. Ini terutama melibatkan transfer

data dari satu alat ke alat lain untuk diproses lebih lanjut

Gunakan beberapa alat yang terintegrasi erat. Dari sudut pandang pengguna, alat ini

muncul sebagai sistem terpadu

Selain melakukan tugas yang berbeda dalam proses penyelesaian masalah, alat dapat saling

mendukung

TOOL CATEGORY TOOLS AND THEIR ACRONYMS

Data management Databases and database management system (DBMS)

Extraction, transformation, and load (ETL) systems

Data warehouses (DW), real-time DW, and data marts

Reporting status tracking Online analytical processing (OLAP)

Executive information systems (EIS)

Visualization Geographical information systems (GIS)

Dashboards, Information portals

Multidimensional presentations

Business analytics Optimization, Web analytics

Data mining, Web mining, and text mining

Strategy and performance

management

Business performance management (BPM)/

Corporate performance management (CPM)

Business activity management (BAM)

Dashboards and Scorecards

Communication and

collaboration

Group decision support systems (GDSS)

Group support systems (GSS)

Collaborative information portals and systems

Social networking Web 2.0, Expert locating systems

Knowledge management Knowledge management systems (KMS)

Intelligent systems Expert systems (ES)

Artificial neural networks (ANN)

Fuzzy logic, Genetic algorithms, Intelligent agents

Enterprise systems Enterprise resource planning (ERP),

Customer Relationship Management (CRM), and

Supply-Chain Management (SCM)

Page 8: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

8

MODUMM

BAB 2

Data Warehousing

1. Definisi

Data Warehouse adalah kumpulan desain basis data terintegrasi dan berorientasi

subjek untuk mendukung fungsi DSS, di mana setiap unit data adalah non-volatile

dan relevan dengan waktu tertentu

Repositori fisik di mana data relasional diorganisasikan secara khusus untuk

menyediakan data yang dibersihkan perusahaan dalam format standar

2. Karakteristik DW

✓ Berorientasi pada subjek

✓ Terintegrasi

✓ Time-variant (time series)

✓ Nonvolatile

✓ Diringkas

✓ Tidak dinormalisasi

✓ Metadata

✓ Berbasis web, relational/multi-dimensi

✓ Client/server

✓ Real-time dan/atau right-time (aktif)

3. Data warehousing Environment

• Operational data stores (ODS)

Suatu tipe database sering digunakan sebagai area sementara untuk suatu data warehouse

• Operational Data Marts

Mart data operasional.

• Enterprise data warehouse (EDW)

Data warehouse untuk perusahaan.

• Metadata

Suatu data tentang data. Dalam data warehouse, metadata mendeskripsikan konten datawarehouse dan

cara akuisisi dan penggunaannya

Data Mart

Departmen data warehouse yang hanya menyimpan data yang relevan

Dependent data mart

Subset yang dibuat langsung dari data warehouse

Independent data mart

Data warehouse kecil yang dirancang untuk unit bisnis strategis atau departemen

Page 9: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

9

MODUMM

Kerangka Konseptual DW

4. Arsitektur Umum DW

Arsitektur Tiga Tingkat (Three-tier architecture)

Perangkat lunak akuisisi data (back-end)

Data warehouse yang berisi data & perangkat lunak

Software Client (front-end) yang memungkinkan pengguna untuk mengakses dan menganalisis data

warehouse

Arsitektur Dua Tingkat (Two-tier architecture)

2 tingkatan pertama dalam arsitektur tiga tingkat digabungkan menjadi satu

Data

Sources

ERP

Legacy

POS

Other

OLTP/wEB

External

data

Select

Transform

Extract

Integrate

Load

ETL

Process

Enterprise

Data warehouse

Metadata

Replication

A P

I / M

idd

lew

are Data/text

mining

Custom built

applications

OLAP,

Dashboard,

Web

Routine

Business

Reporting

Applications

(Visualization)

Data mart

(Engineering)

Data mart

(Marketing)

Data mart

(Finance)

Data mart

(...)

Access

No data marts option

Tier 2:

Application server

Tier 1:

Client workstation

Tier 3:

Database server

Tier 1:

Client workstation

Tier 2:

Application & database server

Page 10: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

10

MODUMM

Pertimbangan Arsitektur DW

Masalah yang perlu dipertimbangkan ketika memutuskan arsitektur mana yang akan digunakan:

Database Management System (DBMS) yang mana yang harus dipakai?

Apakah akan menggunakan proses parallel dan/atau partisi?

Apakah alat migrasi data akan digunakan untuk memuat data warehouse?

Alat apa yang akan digunakan untuk mendukung pengambilan dan analisis data?

Arsitektur DW berbasis Web

Arsitektur Alternatif DW

Web

Server

Client

(Web browser)

Application

Server

Data

warehouse

Web pages

Internet/

Intranet/

Extranet

Page 11: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

11

MODUMM

Arsitektur Mana yang terbaik ??

• Bill Inmon Vs. Ralph Kimball

• Enterprise DW Vs. Data Marts approach

Empirical study by Ariyachandra and Watson (2006)

Page 12: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

12

MODUMM

Sepuluh faktor yang berpotensi mempengaruhi keputusan pemilihan arsitektur:

1. Saling ketergantungan informasi antar unit organisasi

2. Kebutuhan informasi manajemen tingkat atas

3. Urgensi kebutuhan akan data warehouse

4. Sifat tugas end-user

5. Kendala pada sumber daya

6. Pandangan strategis dari data warehouse sebelum implementasi

7. Kompatibilitas dengan sistem yang ada

8. Kemampuan yang dirasakan dari staf TI in-house

9. Masalah teknis

10. Faktor Sosial/politik

Enterprise Data Warehouse (by Teradata Corporation)

5. Extraction, Transformation, and Load (ETL) Process

Integrasi Data (Data integration)

Integrasi yang terdiri dari tiga proses utama: akses data, federasi data, dan perubahan tangkapan.

Enterprise application integration (EAI)

Sebuah teknologi yang menyediakan kendaraan untuk mendorong data dari sumber sistem ke dalam

data warehouse

Enterprise information integration (EII)

evolving tool space yang menjanjikan integrasi data real-time dari berbagai sumber

Service-oriented architecture (SOA)

Cara baru untuk mengintegrasikan sistem informasi

Page 13: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

13

MODUMM

• Masalah yang mempengaruhi pembelian alat ETL

– Alat transformasi data mahal

– Alat transformasi data mungkin memiliki kurva belajar yang panjang

• Kriteria penting dalam memilih alat ETL

– Kemampuan untuk membaca dan menulis ke sejumlah sumber data / arsitektur yang tidak terbatas

– Pengambilan dan pengiriman metadata secara otomatis

– Sejarah kesesuaian dengan standar terbuka

– Antarmuka yang mudah digunakan untuk pengembang dan fungsional user

6. Manfaat DW

✓ Mengizinkan tampilan konsolidasi data perusahaan

✓ Informasi yang lebih baik dan lebih tepat waktu

✓ Peningkatan kinerja sistem

✓ Penyederhanaan akses data

Manfaat tidak langsung dari data warehouse

✓ Meningkatkan pengetahuan bisnis

✓ Menghadirkan keunggulan kompetitif

✓ Meningkatkan layanan dan kepuasan pelanggan

✓ Memfasilitasi pengambilan keputusan

✓ Membantu dalam mereformasi proses bisnis

7. Pengembangan DW

Pendekatan pengembangan data warehouse

a. Model Inmon : Pendekatan EDW (top-down)

b. Model Kimball : Pendekatan Data mart (bottom-up)

c. Model mana yang terbaik?

There is no one-size-fits-all strategy to DW

d. Salah satu alternative ada pada hosted warehouse

e. Struktur Data warehouse:

The Star Schema vs. Relational

f. Real-time pada datawarehouse?

DW Development Approaches

Packaged

application

Legacy

system

Other internal

applications

Transient

data source

Extract Transform Cleanse Load

Data

warehouse

Data mart

Page 14: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

14

MODUMM

DW Structure : Star Schema

Pemodelan Dimensi

Claim Information

Driver Automotive

TimeLocation

Start Schema Example for an

Automobile Insurance Data Warehouse

Dimensions:

How data will be sliced/

diced (e.g., by location,

time period, type of

automobile or driver)

Facts:

Central table that contains

(usually summarized)

information; also contains

foreign keys to access each

dimension table.

Page 15: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

15

MODUMM

Kubus Data

Objek dua dimensi, tiga dimensi, atau lebih tinggi di mana setiap dimensi data mewakili ukuran yang

menarik

- Grain

- Drill-down

- Slicing

8. Praktik Terbaik Untuk Implementasi DW

✓ Proyek harus sesuai dengan strategi perusahaan

✓ Harus ada persetujuan penuh untuk proyek

✓ Sangat penting untuk mengelola ekspektasi user

✓ Data warehouse harus dibangun secara bertahap

✓ Kemampuan beradaptasi harus dibangun sejak awal

✓ Proyek harus dikelola oleh profesional IT dan bisnis (hubungan bisnis-pemasok harus dikembangkan)

✓ Hanya memuat data yang telah dibersihkan / berkualitas tinggi

✓ Jangan mengabaikan persyaratan pelatihan

✓ Sadar secara politis.

9. Resiko Implementasi Dw

✓ Tidak ada misi atau tujuan

✓ Kualitas data sumber tidak diketahui

✓ Keterampilan tidak pada tempatnya

✓ Anggaran tidak memadai

✓ Kurangnya perangkat lunak pendukung

✓ Sumber data tidak dipahami

✓ Sponsor yang lemah

✓ Pengguna tidak melek komputer

✓ Masalah politik atau perang wilayah

✓ Ekspektasi pengguna yang tidak realistis

Page 16: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

16

MODUMM

10. Hal yang harus dihindari untuk keberhasilan DW

✓ Dimulai dengan rantai sponsor yang salah

✓ Menetapkan harapan yang tidak dapat Anda penuhi

✓ Terlibat dalam perilaku naif secara politis

✓ Memuat warehouse dengan informasi hanya karena ketersediaan

✓ mempercayai bahwa desain database data warehouse sama dengan desain DB transaksional

✓ Memilih manajer data warehouse yang berorientasi teknologi daripada berorientasi pengguna

11. Real Time DW

✓ Memungkinkan pembaruan data real-time untuk analisis real-time dan pengambilan keputusan secara

real-time pula sedang berkembang sangat pesat

o Push vs. Pull (of data)

✓ Memperhatikan real-time BI

a. Tidak semua data harus diperbarui terus menerus

b. Ketidakcocokan laporan menghasilkan laporan yg terpisah

c. Mungkin mahal biaya

d. Mungkin juga tidak layak

Active Data Warehousing (by Teradata Corporation)

12. Evolution DW

Page 17: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

17

MODUMM

13. Comparing Traditional and Active DW

14. DW Administration, Scalability dan Security

✓ Karena ukurannya yang besar dan sifatnya yang intrinsik, DW membutuhkan pemantauan yang kuat

untuk menjaga efisiensi, produktivitas, dan keamanannya.

✓ Administrasi dan manajemen datawarehouse yang berhasil memerlukan keterampilan dan kemahiran

yang melampaui apa yang diperlukan oleh administrator basis data tradisional.

a. Membutuhkan keahlian dalam perangkat lunak yang tinggi, perangkat keras, dan teknologi

jaringan berkinerja tinggi

✓ Scalability

o Masalah utama yang berkaitan dengan skalabilitas:

▪ Jumlah data di warehouse

▪ Seberapa cepat warehouse diharapkan tumbuh

▪ Jumlah pengguna bersamaan

▪ Kompleksitas kueri pengguna

o Skalabilitas yang baik berarti bahwa kueri dan fungsi akses data lainnya akan tumbuh secara

linear dengan ukuran warehouse

✓ Security

▪ Penekanan pada keamanan dan privasi

Page 18: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

18

MODUMM

BAB 3

Business Performance Management

1. Definisi

Business Performance Management (BPM) adalah Sistem real-time yang mengingatkan manajer

akan peluang potensial, masalah yang akan datang, dan ancaman, dan kemudian memberdayakan

mereka untuk bereaksi melalui model dan kolaborasi

Disebut juga, corporate performance management (CPM by Gartner Group), enterprise

performance management (EPM by Oracle), strategic enterprise management (SEM by SAP)

BPM Overview

• BPM mengacu pada proses bisnis, metodologi, metrik, dan teknologi yang digunakan oleh

perusahaan untuk mengukur, memantau, dan mengelola kinerja bisnis

• BPM mencakup tiga komponen utama

– Seperangkat terintegrasi, manajemen loop tertutup dan proses analitik, didukung oleh

teknologi ...

– Alat untuk bisnis untuk menentukan tujuan strategis dan kemudian mengukur / mengelola

kinerja terhadap mereka

– Metode dan alat untuk memantau indikator kinerja utama (Key Performance Indicators),

terkait dengan strategi organisasi

2. BPM dan BI

BPM adalah hasil dari BI dan menggabungkan banyak teknologi, aplikasi, dan tekniknya

• BPM adalah hasil dari BI dan menggabungkan banyak teknologi, aplikasi, dan tekniknya

– Perusahaan yang sama memasarkan dan menjualnya

– BI telah berevolusi sehingga banyak perbedaan asli antara keduanya tidak ada lagi (mis.,

BI dulu berfokus pada proyek-proyek departemen daripada perusahaan-lebar enterprise-

wide projects)

– BI adalah elemen penting dari BPM

• BPM = BI + Planning (solusi terpadu)

3. Proses Closed-Loop untuk Mengoptimalkan Kinerja Bisnis

-Strategize

-Plan

-Monitor/analyze

-Act/adjust

Page 19: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

19

MODUMM

Strategi

Perencanaan Strategis (Strategic planning)

Tugas umum untuk proses perencanaan strategis:

✓ Lakukan analisis situasi saat ini

✓ Tentukan cakrawala perencanaan

✓ Lakukan pemindaian lingkungan

✓ Identifikasi faktor penentu keberhasilan

✓ Lengkapi analisis kesenjangan

✓ Buat visi strategis

✓ Kembangkan strategi bisnis

✓ Identifikasi sasaran dan sasaran strategis

• Strategic objective

Pernyataan umum atau tindakan umum yang menentukan arah yang ditargetkan untuk

suatu organisasi

• Strategic goal

Sasaran terukur dengan periode waktu yang ditentukan

• Strategic vision

Gambaran atau gambaran mental tentang bagaimana seharusnya organisasi di masa depan

• Critical success factors (CSF)

Faktor-faktor kunci yang menggambarkan hal-hal yang harus dimiliki oleh suatu

organisasi untuk menjadi sukses

• Kesenjangan strategi

– Empat sumber untuk kesenjangan antara strategi dan eksekusi:

1. Komunikasi (enterprise-wide)

2. Penyelarasan penghargaan dan insentif

3. Fokus (berkonsentrasi pada elemen inti)

4. Sumber daya

Plan

Perencanaan Operasional

a. Rencana Operasional : rencana yang menerjemahkan sasaran dan sasaran strategis

organisasi ke dalam serangkaian taktik dan inisiatif yang ditetapkan dengan baik,

persyaratan sumber daya, dan hasil yang diharapkan untuk beberapa periode waktu

mendatang (biasanya satu tahun)

Perencanaan Operasional dapat :

✓ Tactic-centric (focus operational)

✓ Rencana yang terfokus pada anggaran (berfokus pada keuangan)

Perencanaan dan penganggaran keuangan

b. Tujuan strategis dan metrik utama organisasi harus berfungsi sebagai pendorong top-

down untuk alokasi aset berwujud dan tidak berwujud organisasi

c. Alokasi sumber daya harus diselaraskan dengan hati-hati dengan tujuan dan taktik

strategis organisasi untuk mencapai keberhasilan strategis

Monitor

• Kerangka kerja yang komprehensif untuk memantau kinerja harus mengatasi dua masalah

utama:

– Apa yang harus dipantau

• Faktor penentu keberhasilan

• Tujuan dan sasaran strategis

– Cara memonitor

Page 20: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

20

MODUMM

• Sistem Kontrol Diagnostik

Sistem cybernetic yang memiliki input, proses untuk mentransformasikan input menjadi

output, standar atau tolok ukur untuk membandingkan output, dan saluran umpan balik

untuk memungkinkan informasi tentang perbedaan antara output dan standar untuk

dikomunikasikan dan ditindaklanjuti.

• Perangkap analisis varians

– Sebagian besar analisis pengecualian berfokus pada varian negatif ketika kelompok atau

departemen fungsional gagal memenuhi target mereka

– Jarang varians positif ditinjau untuk peluang potensial, dan jarang analisis fokus pada

asumsi yang mendasari pola varians

Act and Adjust

• Keberhasilan (atau kelangsungan hidup semata) bergantung pada proyek-proyek baru:

menciptakan produk baru, memasuki pasar baru, mendapatkan pelanggan baru (atau

bisnis), atau merampingkan beberapa proses.

• Sebagian besar proyek dan usaha baru gagal!

– Hollywood movies: 60% kemungkinan gagal

– Mergers and acquisitions: 60%

– IT projects (large-scale): 70%

– New food products: 80%

– New pharmaceutical products: 90% …

Page 21: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

21

MODUMM

Harrah’s Closed-Loop Marketing Model

• Hasil benchmarking Hackett Group menunjukkan bahwa perusahaan kelas dunia:

– Secara signifikan lebih efisien daripada rekan-rekan mereka dalam mengelola biaya

– Fokus pada keunggulan operasional dan pengalaman tingkat pengurangan turnover

karyawan yang signifikan

– Berikan manajemen dengan alat dan pelatihan untuk meningkatkan informasi perusahaan

dan untuk memandu perencanaan strategis, penganggaran, dan perkiraan

– Menyelaraskan dengan erat rencana strategis dan taktis, memungkinkan area fungsional

untuk berkontribusi lebih efektif ...

4. Sistem Pengukuran Kinerja (KPI)

Suatu sistem yang membantu manajer dalam melacak implementasi strategi bisnis dengan

membandingkan hasil aktual dengan sasaran dan sasaran strategis

– Terdiri dari metode komparatif sistematis yang menunjukkan kemajuan (atau ketiadaan)

terhadap tujuan

Key Performance Indicator (KPI)

KPI mewakili tujuan strategis dan metrik yang mengukur kinerja terhadap suatu tujuan

Fitur yang membedakan KPI :

✓ Strategy

✓ Targets

✓ Ranges

✓ Encodings

✓ Time frames

✓ Benchmarks

Area operasional dicakup oleh KPI driver

o Kinerja pelanggan

o Kinerja layanan

o Operasi penjualan

o Rencana penjualan/forecast

5. Performance Measurement

Masalah dengan sistem pengukuran kinerja yang ada

a. Sistem yang paling populer digunakan adalah beberapa varian balanced scorecard

(BSC)

Page 22: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

22

MODUMM

50-90% dari semua perusahaan menerapkan BSC

b. Metodologi BSC adalah visi holistik dari sistem pengukuran yang terkait dengan arah

strategis organisasi dan didasarkan pada pandangan empat perspektif dunia:

Ukuran finansial didukung oleh metrik pelanggan (customer), internal, serta

pembelajaran (learning) dan pertumbuhan (growth)

Kelemahan menggunakan data keuangan sebagai inti dari pengukuran kinerja:

– Ukuran finansial biasanya dilaporkan oleh struktur organisasi dan bukan oleh proses yang

menghasilkan ukuran finansial itu sendiri

– Ukuran finansial adalah indikator yang tertinggal, memberi tahu kita apa yang terjadi,

bukan mengapa itu terjadi atau apa yang mungkin terjadi di masa depan

– Ukuran finansial seringkali merupakan produk dari alokasi yang tidak terkait dengan

proses dasar yang menghasilkannya

– Langkah-langkah finansial difokuskan pada pengembalian jangka pendek ...

Ukuran kinerja yang baik seharusnya :

– Fokuslah pada faktor-faktor kunci

– Perpaduan dari masa lalu, sekarang, dan masa depan

– Seimbangkan kebutuhan semua pemangku kepentingan (pemegang saham, karyawan,

mitra, pemasok, ...)

– Mulai dari atas dan turun ke bawah

– Memiliki target yang didasarkan pada penelitian dan kenyataan alih-alih sewenang-

wenang

Page 23: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

23

MODUMM

BAB 4

Business Performance Management Methodologies

1. BPM Methodologies

Sistem pengukuran kinerja yang efektif harus membantu:

a. Menyelaraskan tujuan strategis tingkat atas dan inisiatif tingkat bawah

b. Identifikasi peluang dan masalah secara tepat waktu

c. Tentukan prioritas dan alokasikan sumber daya yang sesuai

d. Ubah pengukuran saat proses dan strategi yang mendasarinya berubah

e. Menggambarkan tanggung jawab, memahami kinerja aktual relatif terhadap

tanggung jawab, dan menghargai serta mengakui prestasi

f. Ambil tindakan untuk meningkatkan proses dan prosedur ketika data

mengharuskannya

g. Merencanakan dan memperkirakan secara lebih andal dan tepat waktu

2. Balanced scorecard (BSC)

Metodologi pengukuran dan manajemen kinerja yang membantu menerjemahkan

keuangan, pelanggan, proses internal, dan tujuan serta sasaran pembelajaran dan

pertumbuhan ke dalam serangkaian inisiatif yang dapat ditindaklanjuti,

Arti “balance” (keseimbangan)

– BSC dirancang untuk mengatasi keterbatasan sistem yang berfokus secara finansial

– Tujuan non finansial terbagi dalam salah satu dari tiga perspektif:

1. Pelanggan (Customer)

2. Proses bisnis internal (Internal business process)

3. Pembelajaran & Pertumbuhan (Learning and growth)

Dalam BSC, istilah “balance“ (keseimbangan) muncul karena serangkaian tindakan gabungan

yang seharusnya mencakup indikator sbb:

– Keuangan dan nonkeuangan

– Terkemuka dan tertinggal (Leading & Legging)

– Internal dan eksternal

– Kuantitatif dan kualitatif

– Jangka pendek dan jangka panjang

Menyelaraskan strategi dan tindakan

Proses enam langkah

1. Mengembangkan dan merumuskan strategi

2. Merencanakan strategi

Page 24: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

24

MODUMM

3. Menyelaraskan organisasi

4. Merencanakan operasi

5. Pemantauan dan pembelajaran

6. Menguji dan mengadaptasi strategi

Peta Strategi

Tampilan visual yang menggambarkan hubungan antara tujuan organisasi utama untuk

keempat perspektif BSC

3. Six Sigma

Metodologi manajemen kinerja yang bertujuan mengurangi jumlah cacat dalam proses

bisnis sedekat mungkin dengan sebisamungkin nol cacat per juta peluang/defects per

million opportunities (DPMO)

– Model kinerja DMAIC

Model peningkatan bisnis loop tertutup yang mencakup langkah-langkah

mendefinisikan, mengukur, menganalisis, meningkatkan, dan mengendalikan suatu

proses

– Lean Six Sigma

• Lean manufacturing / lean production

• Lean production versus six sigma

Cara Sukses dalam Six Sigma

– Six Sigma terintegrasi dengan strategi bisnis

– Six Sigma mendukung tujuan bisnis

– Eksekutif kunci terlibat dalam proses ini

– Seleksi proyek didasarkan pada nilai potensial

– Ada banyak proyek dan sumber daya yang kritis

– Proyek-dalam-proses dikelola secara aktif

– Keterampilan kepemimpinan tim ditekankan

– Hasil dilacak dengan ketat

BSC + Six Sigma = Success

Mengintegrasikan six sigma dengan BSC dengan

Page 25: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

25

MODUMM

– Menerjemahkan strategi mereka menjadi tujuan yang dapat diukur

– Cascading obyektif melalui organisasi

– Menetapkan target berdasarkan suara pelanggan

– Menerapkan proyek strategis menggunakan Six Sigma

– Menjalankan proses secara konsisten untuk memberikan hasil bisnis

4. Arsitektur BPM

Desain logis dan fisik suatu sistem

Sistem BPM terdiri dari tiga bagian logis:

-Aplikasi BPM

-Pusat Informasi (Information Hub)

-Sumber Sistem (Source Systems)

Sistem BPM terdiri dari tiga bagian fisik:

-Tingkat Database

-Tingkat Application

-Client atau user interface

5. Aplikasi BPM

✓ Manajemen strategi

✓ Penganggaran, perencanaan, dan perkiraan

✓ Konsolidasi keuangan

✓ Pemodelan dan optimasi profitabilitas

✓ Pelaporan keuangan, perundang-undangan, dan manajemen

Page 26: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

26

MODUMM

Penjual / Vendor Aplikasi BPM Terkemuka

– Manajemen Kinerja SAP Business Objects Enterprise

– Manajemen Kinerja Oracle Hyperion

– IBM Cognos BI danmanajemen Kinerja Keuangan

– Microstrategy

– Microsoft…

6. Dashboard

Dashboards dan scorecards keduanya menampilkan tampilan visual dari informasi

penting yang dikonsolidasikan dan disusun dalam satu layar sehingga informasi dapat

dicerna dengan sekali pandang dan mudah dieksplorasi

Kinerja dashboards

Tampilan visual yang digunakan untuk memantau kinerja operasional (bentuk bebas ...)

Kinerja scorecards

Tampilan visual yang digunakan untuk memetakan kemajuan terhadap sasaran dan

target strategis dan taktis (tindakan yang telah ditentukan ...)

Page 27: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

27

MODUMM

Tiga jenis kinerja dashboards:

Operational dashboards

Tactical dashboards

Strategic dashboards

Desain Dashboard

– "Tantangan mendasar dari desain dashboard adalah untuk menampilkan semua

informasi yang diperlukan pada satu layar, dengan jelas dan tanpa gangguan, dengan

cara yang dapat diasimilasi dengan cepat"

Apa yang harus dicari di dasbor

– Penggunaan komponen visual (mis., Bagan, bilah kinerja, garis percikan, pengukur,

meter, lampu merah) untuk menyoroti, sekilas pandang, data dan pengecualian yang

membutuhkan tindakan

– Transparan bagi pengguna, artinya mereka membutuhkan pelatihan minimal dan sangat

mudah digunakan

– Gabungkan data dari berbagai sistem menjadi satu pandangan bisnis yang dirangkum

dan disatukan

– Aktifkan penelusuran atau telusuri ke sumber data atau laporan yang mendasarinya

– Hadirkan tampilan dunia nyata yang dinamis dengan pembaruan data tepat waktu

– Membutuhkan sedikit, jika ada, pengkodean khusus untuk menerapkan, menyebarkan,

dan memelihara

Page 28: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

28

MODUMM

BAB 5

Pengantar Data Mining

1. Definisi

Disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau

menemukan pola dari suatu data yang besar

Ekstraksi dari data ke pengetahuan:

Data: fakta yang terekam dan tidak membawa arti

Pengetahuan: pola, rumus, aturan atau model yang muncul dari data

• Melakukan ekstraksi untuk mendapatkan informasi penting yang sifatnya implisit dan

sebelumnya tidak diketahui, dari suatu data (Witten et al., 2011)

• Kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan

keteraturan, pola dan hubungan dalam set data berukuran besar (Santosa, 2007)

• Extraction of interesting (non-trivial, implicit, previously unknown and potentially

useful) patterns or knowledge from huge amount of data (Han et al., 2011)

Nama lain data mining:

✓ Knowledge Discovery in Database (KDD)

✓ Knowledge extraction

✓ Pattern analysis

✓ Information harvesting

✓ Business intelligence

✓ Big data

2. Contoh Data

Puluhan ribu data mahasiswa di kampus yang diambil dari sistem informasi akademik

Apakah pernah kita ubah menjadi pengetahuan yang lebih bermanfaat? TIDAK!

Himpunan DataMetode Data

MiningPengetahuan

Page 29: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

29

MODUMM

Seperti apa pengetahuan itu? Rumus, Pola, Aturan

Data Mining Tasks and Rules

3. Hubungan Data mining dan Bidang lain

4. Masalah data mining

1.Jumlah data yang luar biasa

Algoritma harus sangat skalabel untuk ditangani seperti tera-byte data

2. Dimensi data yang tinggi

Micro-array mungkin memiliki puluhan ribu dimensi

3. Kompleksitas data yang tinggi

Data stream dan data sensor

Data deret waktu, data temporal, data urutan

Struktur data, grafik, jejaring sosial dan data multi-link

Database heterogen dan basis data warisan

Data spasial, spasial, multimedia, teks dan Web

Program perangkat lunak, simulasi ilmiah

Aplikasi baru dan canggih

Data Mining

Pattern Recognition

Machine Learning

StatisticsComputing Algorithms

Database Technology

High Performance Computing

Page 30: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

30

MODUMM

5. Tipe Data

6. Dataset

Page 31: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

31

MODUMM

7. Peran Utama Data Mining

8. Clustering Waktu pengiriman, Bunga Iris, Jenis Pelanggan

9. Prediction/ Forecasting Harga saham

1. Estimasi

2. Forecasting

3. Klasifikasi4. Klastering

5. Asosiasi

Page 32: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

32

MODUMM

10. Klasifikasi Kelulusan Mahasiswa

11. Asosiasi Pembelian Barang

Algoritma association rule (aturan asosiasi) adalah algoritma yang menemukan atribut

yang “muncul bersamaan”

Contoh, pada hari kamis malam, 1000 pelanggan telah melakukan belanja di

supermaket ABC, dimana:

200 orang membeli Sabun Mandi

dari 200 orang yang membeli sabun mandi, 50 orangnya membeli Fanta

Jadi, association rule menjadi, “Jika membeli sabun mandi, maka membeli Fanta”,

dengan nilai support = 200/1000 = 20% dan nilai confidence = 50/200 = 25%

Algoritma association rule diantaranya adalah: A priori algorithm, FP-Growth

algorithm, GRI algorithm

Page 33: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

33

MODUMM

Page 34: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

34

MODUMM

BAB 6

Metode Learning Algoritma Data Mining

1. Definisi

Machine learning (ML) adalah keluarga teknologi kecerdasan buatan yang terutama

berkaitan dengan desain dan pengembangan algoritma yang memungkinkan komputer

untuk "belajar" dari data historis

a. ML adalah proses dimana komputer belajar dari pengalaman

b. Ini berbeda dari perolehan pengetahuan di ES: bukannya mengandalkan para ahli

(dan kemauan mereka) ML bergantung pada fakta sejarah

c. ML membantu dalam menemukan pola dalam data

Learning adalah proses peningkatan diri, yang merupakan fitur penting dari perilaku

cerdas

Pembelajaran manusia adalah kombinasi dari banyak proses kognitif yang rumit,

termasuk :

d. Induksi

e. Deduksi

f. Analogi

g. Prosedur khusus lainnya yang terkait dengan mengamati dan / atau menganalisis

contoh

Machine Learning versus Human Learning

h. Beberapa perilaku ML dapat menantang kinerja pakar manusia (mis., Bermain

catur)

i. Meskipun ML kadang-kadang sesuai dengan kemampuan belajar manusia, ia tidak

dapat belajar sebaik manusia atau dengan cara yang sama seperti yang dilakukan

manusia

j. Tidak ada klaim bahwa pembelajaran mesin dapat diterapkan dengan cara yang

benar-benar kreatif

k. Sistem ML tidak berlabuh dalam teori formal apa pun (mengapa mereka berhasil

atau gagal tidak jelas)

l. Keberhasilan ML sering dikaitkan dengan manipulasi simbol (bukan hanya

informasi numerik)

Page 35: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

35

MODUMM

2. Metode

3. Supervised Learning

Pembelajaran dengan guru, data set memiliki target/label/class

Sebagian besar algoritma data mining (estimation, prediction/forecasting, classification)

adalah supervised learning

Algoritma melakukan proses belajar berdasarkan nilai dari variabel target yang

terasosiasi dengan nilai dari variable predictor

Machine Learning

Supervised

Learning

Reinforcement

Learning

Unsupervised

Learning

Classification

· Decision Tree

· Neural Networks

· Support Vector Machines

· Case-based Reasoning

· Rough Sets

· Discriminant Analysis

· Logistic Regression

· Rule Induction

Regression

· Regression Trees

· Neural Networks

· Support Vector Machines

· Linear Regression

· Non-linear Regression

· Bayesian Linear Regression

Clustering / Segmentation

· SOM (Neural Networks)

· Adaptive Resonance Theory

· Expectation Maximization

· K-Means

· Genetic Algorithms

Association

· Apriory

· ECLAT Algorithm

· FP-Growth

· One-attribute Rule

· Zero-attribute Rule

· Q-Learning

· Adaptive Heuristic Critic

(AHC),

· State-Action-Reward-State-

Action (SARSA)

· Genetic Algorithms

· Gradient Descent

Page 36: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

36

MODUMM

4. Unsupervised Learning

Algoritma data mining mencari pola dari semua variable (atribut)

Variable (atribut) yang menjadi target/label/class tidak ditentukan (tidak ada)

Algoritma clustering adalah algoritma unsupervised learning

5. Semi supervised Learning

Semi-supervised learning adalah metode data mining yang menggunakan data dengan

label dan tidak berlabel sekaligus dalam proses pembelajarannya

Data yang memiliki kelas digunakan untuk membentuk model (pengetahuan), data tanpa

label digunakan untuk membuat batasan antara kelas

Page 37: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

37

MODUMM

Proses Data Mining

6. Algoritma Data Mining

Estimation (Estimasi):

Linear Regression, Neural Network, Support Vector Machine, etc

Prediction/Forecasting (Prediksi/Peramalan):

Linear Regression, Neural Network, Support Vector Machine, etc

Classification (Klasifikasi):

Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis,

Logistic Regression, etc

Clustering (Klastering):

K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc

Association (Asosiasi):

FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc

7. Algoritma klasifikasi

• Klasifikasi (Han, 2006) adalah proses penemuan model (atau fungsi) yang

menggambarkan dan membedakan kelas data atau konsep yang bertujuan agar bisa

digunakan untuk memprediksi kelas dari objek yang label kelasnya tidak diketahui.

• Proses klasifikasi didasarkan pada empat komponen: (Gorunescu, 2011) yaitu :

1. Kelas

2. Predictor

3. Training Dataset

4. Testing Dataset

Algoritma Decision Tree

- Siapkan data training

- Pilih atribut sebagai akar

-

- Buat cabang untuk tiap-tiap nilai

- Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki

Page 38: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

38

MODUMM

kelas yg sama

Algoritma NeuralNework

Neural Network adalah suatu model yang dibuat untuk meniru fungsi belajar yang

dimiliki otak manusia atau jaringan dari sekelompok unit pemroses kecil yang

dimodelkan berdasarkan jaringan saraf manusia

8. Analisis Clustering

Cluster: Kumpulan Objek Data

serupa (atau terkait) satu sama lain dalam kelompok yang sama

berbeda (atau tidak terkait) dengan objek dalam kelompok lain

Cluster analysis (atau clustering, segmentasi data, …)

Menemukan kesamaan antara data sesuai dengan karakteristik yang ditemukan dalam data

dan mengelompokkan objek data serupa ke dalam kelompok

Unsupervised learning: tidak ada kelas yang telah ditentukan (mis., learning by

observations vs. learning by examples: supervised)

Typical applications

Sebagai alat yang berdiri sendiri untuk mendapatkan wawasan tentang distribusi data

Sebagai langkah preprocessing untuk algoritma lain

K Means

Pilih jumlah klaster k yang diinginkan

Inisialisasi k pusat klaster (centroid) secara random

Tempatkan setiap data atau objek ke klaster terdekat. Kedekatan dua objek ditentukan

berdasar jarak. Jarak yang dipakai pada algoritma k-Means adalah Euclidean distance (d)

x = x1, x2, . . . , xn, dan y = y1, y2, . . . , yn merupakan banyaknya n atribut(kolom) antara

2 record

Hitung kembali pusat klaster dengan keanggotaan klaster yang sekarang. Pusat klaster

adalah rata-rata (mean) dari semua data atau objek dalam klaster tertentu

Tugaskan lagi setiap objek dengan memakai pusat klaster yang baru. Jika pusat klaster

sudah tidak berubah lagi, maka proses pengklasteran selesai. Atau, kembali lagi ke

langkah nomor 3 sampai pusat klaster tidak berubah lagi (stabil) atau tidak ada penurunan

yang signifikan dari nilai SSE (Sum of Squared Errors)

9. Analisi Asosiasi

Frequent pattern: sebuah pola (satu set item, berikutnya, substruktur, dll.) Yang sering

terjadi dalam kumpulan data

Pertama kali diusulkan Agrawal, Imielinski, dan Swami [AIS93] dalam konteks frequent

itemset dan asosiasi rule mining

Motivation: Menemukan keteraturan yang melekat dalam data

Produk apa yang sering dibeli bersama? - Bir dan popok ?!

Apa pembelian selanjutnya setelah membeli PC?

Jenis DNA apa yang sensitif terhadap obat baru ini?

Page 39: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

39

MODUMM

Bisakah kita secara otomatis mengklasifikasikan dokumen web?

Applications

Analisis data keranjang, pemasaran silang, desain katalog, analisis kampanye penjualan,

analisis log Web (aliran klik), dan analisis urutan DNA.

Page 40: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

40

MODUMM

BAB 7

Studi Kasus

1. Himpunan Dataset

Atribut adalah faktor atau parameter yang menyebabkan class/label/target terjadi

Jenis dataset ada dua: Private dan Public

Private Dataset: data set dapat diambil dari organisasi yang kita jadikan obyek penelitian

Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc

Public Dataset: data set dapat diambil dari repositori pubik yang disepakati oleh para peneliti

data mining

UCI Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html)

ACM KDD Cup (http://www.sigkdd.org/kddcup/)

PredictionIO (http://docs.prediction.io/datacollection/sample/)

Data.go.id

Trend penelitian data mining saat ini adalah menguji metode yang dikembangkan oleh peneliti

dengan public dataset, sehingga penelitian dapat bersifat: comparable, repeatable dan verifiable

2. Public Dataset (UCI Repository)

3. Metode Data Mining

Estimation (Estimasi):

Linear Regression, Neural Network, Support Vector Machine, Deep Learning, etc

Prediction/Forecasting (Prediksi/Peramalan):

Linear Regression, Neural Network, Support Vector Machine, Deep Learning, etc

Classification (Klasifikasi):

Decision Tree (CART, ID3, C4.5, Credal DT, Credal C4.5, DynamicCC4.5), Naive Bayes, K-

Nearest Neighbor, Linear Discriminant Analysis, Logistic Regression, etc

Clustering (Klastering):

K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc

Association (Asosiasi):

FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc

4. Evaluasi (Akurasi, Error etc)

Akurasi

Ukuran dari seberapa baik model mengkorelasikan antara hasil dengan atribut dalam data yang

telah disediakan

Terdapat berbagai model akurasi, tetapi semua model akurasi tergantung pada data yang

digunakan

Kehandalan

Ukuran di mana model data mining diterapkan pada dataset yang berbeda

Model data mining dapat diandalkan jika menghasilkan pola umum yang sama terlepas dari data

testing yang disediakan

Kegunaan

Mencakup berbagai metrik yang mengukur apakah model tersebut memberikan informasi yang

berguna

Estimation:

Error: Root Mean Square Error (RMSE), MSE, MAPE, etc

Prediction/Forecasting (Prediksi/Peramalan):

Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc

Classification:

Confusion Matrix: Accuracy

Page 41: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

41

MODUMM

ROC Curve: Area Under Curve (AUC)

Clustering:

Internal Evaluation: Davies–Bouldin index, Dunn index,

External Evaluation: Rand measure, F-measure, Jaccard index, Fowlkes–Mallows index, Confusion matrix

Association:

Lift Charts: Lift Ratio

Precision and Recall (F-measure)

5. Instalasi Rapid Miner

-Fitur Rapid Miner

machine learning termasuk: ETL (extraction, transformation, loading), data preprocessing, visualisasi,

modelling dan evaluasi

Proses data mining tersusun atas operator-operator yang nestable, dideskripsikan dengan XML, dan dibuat

dengan GUI

Mengintegrasikan proyek data mining Weka dan statistika R

-Atribut Rapid Miner

Atribut: karakteristik atau fitur dari data yang menggambarkan sebuah proses atau situasi

ID, atribut biasa

Atribut target: atribut yang menjadi tujuan untuk diisi oleh proses data mining

Label, cluster, weight

-Tipe nilai atribut

nominal: nilai secara kategori

binominal: nominal dua nilai

polynominal: nominal lebih dari dua nilai

numeric: nilai numerik secara umum

integer: bilangan bulat

real: bilangan nyata

text: teks bebas tanpa struktur

date_time: tanggal dan waktu

date: hanya tanggal

time: hanya waktu

-Perspektif dan View

Perspektif Selamat Datang (Welcome perspective)

Perspektif Desain (Design perspective)

Perspektif Hasil (Result perspective)

View Operator

• Process Control

Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Utility

Untuk mengelompokkan subprocess, juga macro dan logger

• Repository Access

Untuk membaca dan menulis repositori

• Import

Untuk membaca data dari berbagai format eksternal

• Export

Untuk menulis data ke berbagai format eksternal

• Data Transformation

Untuk transformasi data dan metadata

• Modelling

Untuk proses data mining yang sesungguhnya seperti klasifikasi, regresi, clustering, aturan asosiasi dll

• Evaluation

Page 42: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

42

MODUMM

Untuk menghitung kualitas dan perfomansi dari model

View Proses dan Parameter

View help and comment

View Problem and Log

Page 43: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

43

MODUMM

-Operator dan proses

Proses data mining pada dasarnya adalah proses analisa yang berisi alur kerja dari komponen

data mining

Komponen dari proses ini disebut operator, yang didefinisikan dengan:

Deskripsi input

Deskripsi output

Aksi yang dilakukan

Parameter yang diperlukan

Sebuah operator bisa disambungkan melalui port masukan (kiri) dan port keluaran (kanan)

Indikator status dari operator:

– Lampu status: merah (tak tersambung), kuning (lengkap tetapi belum dijalankan), hijau (sudah

behasil dijalankan)

– Segitiga warning: bila ada pesan status

– Breakpoint: bila ada breakpoint sebelum/sesudahnya

– Comment: bila ada komentar

– Subprocess: bila mempunyai subprocess

Melihat Hasil

Page 44: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

44

MODUMM

6. Studi Kasus

-Penentuan Bunga Iris

Lakukan training pada data Bunga Iris (ambil dari repositories rapidminer) dengan

menggunakan algoritma decision tree

Tampilkan himpunan data (dataset) dan pengetahuan (model tree) yang terbentuk

Tampilkan grafik dari cluster yang terbentuk

-Asosiasi Data Transaksi

Lakukan training pada data transaksi (transaksi.xlsx)

Pilih metode yang tepat supaya menghasilkan pola

-Klasifikasi Breast Cancer

Lakukan training pada data breast cancer

(https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Coimbra)

Gunakan operator Split Data untuk memecah data secara otomatis menjadi dua dengan

perbandingan 0.9:0.1, di mana 0.9 untuk training dan 0.1 untuk testing

Pilih metode yang tepat supaya menghasilkan pola yang bisa menguji data testing 10%

-Forecasting Harga Saham

Lakukan training pada data Harga Saham (hargasaham-training.xls) dengan menggunakan

algoritma yang tepat

Tampilkan himpunan data (dataset) dan pengetahuan (model regresi) yang terbentuk

Lakukan pengujian terhadap data baru (hargasaham-testing.xls), untuk model yang dihasilkan

dari tahapan 1

Lakukan plot berupa grafik dari data yang terbentuk dengan menggunakan Scatter Multiple

Page 45: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

45

MODUMM

Page 46: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

46

MODUMM

BAB 8

Pembuatan Laporan dan Presentasi

1. Gunakan data primer atau sekunder dari UCI Repository

2. Gunakan Rapid Miner

3. Lakukan training dengan menggunakan algoritma yang tepat

4. Tampilkan himpunan data (dataset) dan pengetahuan yang terbentuk

5. Lakukan pengujian terhadap data baru (hargasaham-testing.xls), untuk model yang

dihasilkan dari tahapan

6. Tampilkan grafik

7. Tampilkan hasil evaluasi

8. Presentasi

Page 47: MODUL DATA WAREHOUSE BUSINESS INTELLIGENCE · Selanjutnya modul ini disusun untuk memberikan gambaran bagi mahasiswa yang ... Seperti DSS, BI ekspresi bebas konten, berarti itu hal

47

MODUMM

DAFTAR PUSTAKA

Imhoff C, Galemmo N, Geiger JG. Mastering Data Warehouse Design. Indianapolis, Indiana: Wiley

Publishing; 2003.

Han J, Kamber M. Data Mining: Concepts and Techniques. Soft Computing. 2006. 800 p.

Paulraj Ponniah, Data warehousing fundamentals for IT Professionals 2nd Edition, Wiley.

2010.

Ralph Kimball dan Margy Ross, The Data Warehouse Toolkit: The Definitive Guide to

Dimensional Modeling,. Wiley. 2013.