19
BAB III
ANALISA DAN PERANCANGAN SISTEM
3.1 Persiapan Data
Dalam pengerjaan tugas akhir ini data yang digunakan adalah kalimat tanya
Berbahasa Indonesia, dimana kalimat tanya tersebut diambil dari soal-soal pada
buku seperti Psikotes dan Lembar Kerja Siswa (LKS). Selain itu sebagai
penunjang literatur pengambilan data yang lain, data kalimat tanya juga diambil
dari situs bukusekolahdigital.com. Data yang terkumpul kemudian
diklasifikasikan secara manual terlebih dahulu untuk mengetahui setiap target
kelas dari masing-masing kalimat tanya. Jumlah data yang digunakan dalam
penelitian ± 600 data kalimat tanya. Data Kalimat Tanya disimpan dalam format
Comma Separated Value (CSV). Berikut contoh dari data tugas akhir seperti pada
Tabel 3.1.
Tabel 3.1 Data Kalimat Tanya
Identifikasikan sebab terjadinya kemajemukan oleh beragam suku bangsa
yang tersebar di wilayah Indonesia?
Mengapa sifat unsur non logam semakin bertambah pada pergeseran dari kiri
ke kanan dalam tabel periodik? Jelaskan!
Apakah situasi dan kondisi kehidupan masyarakat Indonesia dari hari ke hari
kian memburuk merupakan salah satu dampak dari globalisasi? Kemukakan
pendapatmu!
Temukan perbedaan pelaksanaan Politik Bebas Aktif Indonesia sejak masa
awal kemerdekaan hingga masa Reformasi!
Buktikan pernyataan bahwa Sosiologi merupakan ilmu sosial, bersifat
heterogen, ilmu murni, dan abstrak!
Kelompokkan tumbuhan-tumbuhan dikotil dan monokotil berdasarkan
persamaan dan perbedaan ciri yang dimiliki!
Dalam sistem klasifikasi, data yang telah diperoleh kemudian dilakukan
pembagian data yaitu data latih (Data Train) dan data uji (Data Testing).
Pembagian data tersebut akan dibagi menjadi 80% sebagai data latih dan 20%
sebagai data uji yang didalam data tersebut mengandung 6 level ranah kognitif
berdasarkan Taksonomi Bloom. 6 level aspek kognitif dalam Taksonomi Bloom
antara lain Mengingat, Memahami, Menerapkan, Menganalisis, Mengevaluasi,
dan Membuat. Berikut contoh data kalimat tanya aspek kognitif berdasarkan
20
Taksonomi Bloom pada Tabel 3.2.
Tabel 3.2 Kalimat Tanya Aspek Kognitif berdasarkan Taksonomi Bloom
KALIMAT TANYA TARGET
KELAS
Identifikasikan sebab terjadinya kemajemukan oleh beragam
suku bangsa yang tersebar di wilayah Indonesia? Mengingat
Mengapa sifat unsur non logam semakin bertambah pada
pergeseran dari kiri ke kanan dalam tabel periodik? Jelaskan! Memahami
Apakah situasi dan kondisi kehidupan masyarakat Indonesia
dari hari ke hari kian memburuk merupakan salah satu
dampak dari globalisasi? Kemukakan pendapatmu!
Menerapkan
Temukan perbedaan pelaksanaan Politik Bebas Aktif
Indonesia sejak masa awal kemerdekaan hingga masa
Reformasi!
Menganalisis
Buktikan pernyataan bahwa Sosiologi merupakan ilmu sosial,
bersifat heterogen, ilmu murni, dan abstrak! Mengevaluasi
Kelompokkan tumbuhan-tumbuhan dikotil dan monokotil
berdasarkan persamaan dan perbedaan ciri yang dimiliki! Membuat
3.2 Analisis Data
Pada pengerjaan tugas akhir ini, peneliti akan merancang sebuah sistem
klasifikasi dari suatu kalimat tanya menggunakan algoritma Support Vector
Machine. Dalam sistem klasifikasi ini terdapat 6 target kelas berdasarkan
Taksonomi Bloom untuk aspek kognitif. Proses awal dalam melakukan klasifikasi
yaitu, proses labelisasi data kalimat tanya ke dalam target kelas pada masing-
masing data kalimat tanya.
Proses labelisasi tersebut nantinya akan dibagi menjadi 2 jenis data yaitu
data latih (Data Train) dan data uji (Data Testing). Dari data latih tersebut
kemudian dilakukan penentuan fitur. Penentuan fitur tersebut bertujuan untuk
proses pengklasifikasian kalimat tanya sehingga dalam setiap feature memiliki
masing-masing target kelas. Setelah proses penentuan fitur dilakukan, tahap
selanjutnya adalah proses pembuatan model klasifikasi menggunakan algoritma
Support Vector Machine menggunakan open source WEKA. Data latih (Data
Train) dan data uji (Data Testing) kemudian diinputkan ke dalam sistem untuk
dilakukan proses klasifikasi yang bertujuan mengetahui target kelas dari kalimat
tanya.
21
Dari hasil pengujian klasifikasi kalimat tanya menggunakan algoritma
Support Vector Machine tersebut akan diperoleh tingkat akurasi (accuracy),
presisi (precision) dan recall.
3.3 Preprocessing Data
Pada tahapan preprocessing yang digunakan penelitian yaitu meliputi
remove number & punctuation, case folding, dan tokenisasi. Berikut merupakan
gambaran sistem pada tahap preprocessing pada Gambar 3.1.
Gambar 3.1 Preprocessing Data
3.3.1 Case Folding
Pada Gambar 3.3 merupakan tahap dalam penyamaan sebuah case dalam
data kalimat tersebut kemudian diubah menjadi huruf kecil.
Gambar 3.2 Proses Case Folding
3.3.2 Remove Number & Punctuation
Pada Gambar 3.2 merupakan proses menghilangkan karakter berupa
nomor, tanda baca, dan spasi. Jika data kalimat mengandung karakter nomor,
tanda baca, dan spasi, maka karakter tersebut akan dihapus.
Gambar 3.3 Proses Remove Number & Punctuation
22
3.3.3 Tokenisasi
Pada Gambar 3.3 merupakan tahap pemisahan data string setelah proses
penginputan kalimat sehingga kalimat menjadi token atau potongan kata tunggal.
Gambar 3.4 Proses Tokenisasi
3.4 Perancangan Pelatihan Klasifikasi SVM
Pada perancangan model klasifikasi pengerjaan tugas akhir ini
menggunakan model algoritma Support Vector Machine. Adapun proses pelatihan
dilakukan dengan menginputkan data hasil preprocessing yang kemudian
disesuaikan dengan format yang ada pada WEKA sebagai software SVM yang
digunakan. Berikut merupakan tahapan dalam melakukan pelatihan klasifikasi
SVM pada Gambar 3.5.
Gambar 3.5 Proses Perancangan Klasifikasi SVM
Proses ekstraksi fitur perlu dilakukan guna hasil dari proses
pengklasifikasian lebih akurat. Berikut merupakan tabel ekstraksi fitur.
23
Tabel 3.3 Daftar Ekstraksi Fitur
No Fitur Deskripsi
1 Kata WH <true, false> Kata Kunci 5W + 1H
2 Kata Kerja <true, false> Kata Kunci Kerja
3 Kata Perbandingan <true, false> Kata Kunci Perbandingan
4 Kata Definisi <true, false> Kata Kunci Definisi
5 Kata Kausalitas <true, false> Kata Kunci Kausalitas
6 Kata Penyebutan <true, false> Kata Kunci Penyebutan
7 Kata Preposisi <true, false> Kata Kunci Preposisi
8 Kata Penjelas <true, false> Kata Kunci Penjelas
9 Kata Pilihan <true, false> Kata Kunci Pilihan
10 Kata Tujuan <true, false> Kata Kunci Tujuan
11 Kata Cara <true, false> Kata Kunci Cara
12 Kata Waktu <true, false> Kata Kunci Waktu
13 Kata Tambahan <true, false> Kata Kunci Tambahan
14 Kata Mengingat <true, false> Kata Kunci Mengingat
15 Kata Memahami <true, false> Kata Kunci Memahami
16 Kata Menerapkan <true, false> Kata Kunci Menerapkan
17 Kata Menganalisis <true, false> Kata Kunci Menganalisis
18 Kata Mengevaluasi <true, false> Kata Kunci Mengevaluasi
19 Kata Membuat <true, false> Kata Kunci Membuat
20 Class <nominal> Untuk mendefinisikan target kelas
Dari proses ekstraksi feature yang telah dilakukan, selanjutnya adalah
proses pemodelan berdasarkan data latih yang sudah ada. Pada saat proses
pembentukan model dilakukan menggunakan open source WEKA. Dengan
WEKA, data latih tersebut kemudian akan diproses untuk menghasilkan model
klasifikasi berdasarkan algoritma yang dipakai yaitu algoritma Support Vector
Machine.
Setelah proses pemodelan selesai dibangun, kemudian sistem akan
melakukan pengujian untuk memberikan informasi berupa keakuratan presentasi
data uji dari model yang telah dibuat. Jika nilai yang diperoleh sama dengan nilai
yang ada pada data uji, maka proses klasifikasi yang dilakukan oleh sistem sudah
benar atau berhasil.
3.5 Perancangan Pengujian
Perancangan pengujian dalam penelitian ini yaitu meliputi berbagai tahap
yang dilakukan sistem nantinya sebagai gambaran dari proses pengujian yang
24
akan dilakukan saat sistem sudah siap digunakan dan hasil dari klasifikasi sesuai
target yang diinginkan. Berikut merupakan perancangan pengujian:
3.5.1 Preprocessing
Pada tahap preprocessing data kalimat diinputkan dengan format *.csv
kemudian sistem akan melakukan preprocessing pada data tersebut, yang meliputi
tahap case folding yaitu mengubah huruf menjadi kecil, remove number &
puntuation yaitu penghilangan nomor, tanda baca dan spasi, dan tahap terakhir
adalah tokenisasi yaitu proses pemisahan data menjadi token atau potongan kata
tunggal. Berikut merupakan contoh dari proses sebelum dan sesudah dilakukan
preprocessing terdapat pada Tabel 3.5 dan Tabel 3.6.
Tabel 3.4 Data Kalimat Tanya Sebelum Proses Preprocessing
Tulislah faktor penghambat yang dihadapi untuk melaksanakan berbagai aktivitas
ekonomi yang dominan berkembang di daerah tempat tinggalmu?
Identifikasilah hal apa saja yang diperlukan untuk mengatasi berbagai masalah
yang muncul dalam kehidupan bermasyarakat!
Deskripsikan akibat yang terjadi jika kemerdekaan dalam menyampaikan
pendapat tidak ada peraturan?
Bagaimana persamaan kalor untuk menaikkan suhu benda dan kalor untuk
mengubah wujud benda? Coba jelaskan!
Tabel 3.5 Data Kalimat Tanya Sesudah Proses Preprocessing
tulislah faktor penghambat yang dihadapi untuk melaksanakan berbagai aktivitas
ekonomi yang dominan berkembang di daerah tempat tinggalmu
identifikasilah hal apa saja yang diperlukan untuk mengatasi berbagai masalah
yang muncul dalam kehidupan bermasyarakat
deskripsikan akibat yang terjadi jika kemerdekaan dalam menyampaikan
pendapat tidak ada peraturan
bagaimana persamaan kalor untuk menaikkan suhu benda dan kalor untuk
mengubah wujud benda coba jelaskan
3.5.2 Ekstraksi Fitur
Selesai tahap preprocessing, kemudian dilakukan tahap ekstraksi fitur
yang sebelum diinputkan, data kalimat tersebut sudah dilakukan pelabelan secara
manual dan disimpan dalam format *.csv. Proses ekstraksi fitur dilakukan dengan
2 jenis ekstraksi yaitu untuk fitur sintaktik dan fitur bag-of-word. Pada tahap
ekstraksi dilakukan bertujuan untuk memberikan nilai biner pada setiap kata yang
25
memiliki nilai fitur masing-masing untuk memudahkan proses penargetan kelas.
a. Fitur Sintaktik
Fitur sintaktik adalah fitur dari sebuah soal yang diekstrak berdasarkan
susunan kata pada soal tersebut [22]. Berikut merupakan tabel proses dari ektraksi
fitur sintaktik, dimana jika pada kata tersebut mengandung nilai fitur maka kata
tersebut akan bernilai 1 dan jika tidak bernilai fitur maka akan bernilai 0. Pada
penilaian ekstraksi fitur ini penilaian untuk fitur menggunakan biner.
Tabel 3.6 Proses Ekstraksi Fitur Sintaktik
Kalimat Tanya
tulislah faktor penghambat yang dihadapi untuk melaksanakan berbagai
aktivitas ekonomi yang dominan berkembang di daerah tempat tinggalmu
Kata
WH
Kata
Kerja
Kata
Perbandingan
Kata
Definisi
Kata
Kausalitas
Kata
Penyebutan
Kata
Preposisi Kata Penjelas
Kata
Pilihan Kata Tujuan
0 1 0 0 0 0 1 0 0 0 Kata
Cara
Kata
Waktu
Kata
Tambahan
Kata
Mengingat
Kata
Memahami Kata
Menerapkan Kata
Menganalisis Kata
Mengevaluasi Kata
Membuat Label
0 0 1 1 1 1 0 0 0 Mengingat
Kalimat Tanya
identifikasilah hal apa saja yang diperlukan untuk mengatasi berbagai masalah
yang muncul dalam kehidupan bermasyarakat Kata
WH
Kata
Kerja
Kata
Perbandingan
Kata
Definisi
Kata
Kausalitas
Kata
Penyebutan
Kata
Preposisi Kata Penjelas
Kata
Pilihan Kata Tujuan
1 1 0 0 0 0 1 0 0 0 Kata
Cara
Kata
Waktu
Kata
Tambahan
Kata
Mengingat
Kata
Memahami Kata
Menerapkan Kata
Menganalisis Kata
Mengevaluasi Kata
Membuat Label
0 0 1 1 1 1 0 0 0 Mengingat
Kalimat Tanya
deskripsikan akibat yang terjadi jika kemerdekaan dalam menyampaikan
pendapat tidak ada peraturan
Kata
WH
Kata
Kerja
Kata
Perbandingan
Kata
Definisi
Kata
Kausalitas
Kata
Penyebutan
Kata
Preposisi Kata Penjelas
Kata
Pilihan Kata Tujuan
0 1 0 0 1 0 1 0 0 0 Kata
Cara
Kata
Waktu
Kata
Tambahan
Kata
Mengingat
Kata
Memahami Kata
Menerapkan Kata
Menganalisis Kata
Mengevaluasi Kata
Membuat Label
0 0 1 0 1 1 0 0 1 Memahami
Kalimat Tanya
bagaimana persamaan kalor untuk menaikkan suhu benda dan kalor untuk
mengubah wujud benda coba jelaskan
Kata
WH
Kata
Kerja
Kata
Perbandingan
Kata
Definisi
Kata
Kausalitas
Kata
Penyebutan
Kata
Preposisi Kata Penjelas
Kata
Pilihan Kata Tujuan
26
1 1 1 0 0 0 1 0 0 0 Kata
Cara
Kata
Waktu
Kata
Tambahan
Kata
Mengingat
Kata
Memahami Kata
Menerapkan Kata
Menganalisis Kata
Mengevaluasi Kata
Membuat Label
0 0 1 0 1 1 0 0 0 Memahami
b. Fitur Bag-of-Words (BoW)
Semua dokumen dapat dipresentasikan secara sederhana menggunakan Bag-of-
words (BoW). BoW adalah sebuah model yang merepresentasikan objek secara global
misalnya kalimat teks atau dokumen sebagai bag (multiset) kata tanpa memperdulikan
tata bahasa bahkan urutan kata untuk menjaga keanekaragamannya [23]. Dengan kata
lain, BoW merupakan kumpulan kata-kata unik dalam teks dokumen untuk membentuk
urutan yang berbeda kemudian dihitung frekuensi kemunculannya. Pada proses
ekstraksi fitur Bag-of-Words untuk setiap kata dihitung jumlah kata yang muncul pada
berdasarkan panjang kalimat. Berikut merupakan contoh proses ekstraksi untuk fitur
sintaktik.
Tabel 3.7 Proses Ekstraksi Fitur Bag-of-Words
tulislah faktor penghambat yang dihadapi untuk melaksanakan berbagai aktivitas
ekonomi yang dominan berkembang di daerah tempat tinggalmu
Hasil Ekstraksi
tulislah faktor penghambat yang dihadapi untuk melaksanakan berbagai
1 1 1 2 1 1 1 1
aktivitas ekonomi dominan berkembang di daerah tempat tinggalmu
1 1 1 1 1 1 1 1
identifikasilah hal apa saja yang diperlukan untuk mengatasi berbagai masalah
yang muncul dalam kehidupan bermasyarakat
Hasil Ekstraksi
identifikasilah hal apa saja yang diperlukan untuk
1 1 1 1 2 1 1
mengatasi berbagai masalah muncul dalam kehidupan bermasyarakat
1 1 1 1 1 1 1
deskripsikan akibat yang terjadi jika kemerdekaan dalam menyampaikan pendapat
tidak ada peraturan
Hasil Ekstraksi
deskripsi
kan akibat yang terjadi jika kemerdekaan
1 1 1 2 1 1
dalam menyampaikan pendapat tidak ada peraturan
1 1 1 1 1 1
bagaimana persamaan kalor untuk menaikkan suhu benda dan kalor untuk
mengubah wujud benda coba jelaskan
27
Hasil Ekstraksi
bagaimana persamaan kalor untuk menaikkan suhu benda
1 1 2 2 1 1 1
dan mengubah wujud benda coba jelaskan
1 1 1 1 1 1
3.5.3 Pemodelan Klasifikasi SVM
Setelah didapatkan fitur yang terdapat pada Tabel 3.6 maka fitur ini
nantinya akan digunakan sebagai masukan dalam klasifikasi menggunakan
algoritma SVM dengan metode one-against-all (OAA). Sebagai contoh dalam
dataset terdapat 2 kelas seperti diatas, yang terdiri dari kelas
1 = Mengingat, dan 2 = Memahami
Langkah awal adalah melakukan pembuatan model klasifikasi biner, pada
penelitian ini menggunakan SVM OAA. Langkah selanjutnya setiap model
klasifikasi ke-i di latih dengan menggunakan keseluruhan data, kemudian di
lakukan pencarian untuk mendapatkan fungsi optimasi klasifikasi. Tabel 3.8
merupakan contoh 2 SVM biner dengan metode one-against-all beserta fungsi
hasil pelatihan.
Tabel 3.8 Contoh 2 SVM biner
Yi = 1 Yj = -1 Fungsi Hasil Pelatihan
Kelas 1 Bukan Kelas 1 ( ) ( )
Kelas 2 Bukan Kelas 2 ( ) ( )
Langkah selanjutnya adalah hasil ekstraksi fitur Tabel 3.6 di masukkan ke
dalam fungsi hasil pelatihan untuk setiap model klasifikasi biner yang sudah
dibuat. Jika hasil dari klasifikasi data baru tersebut menyatakan bahwa data
tersebut bukan kelas i maka data baru tersebut di masukkan ke dalam fungsi hasil
pelatihan berikutnya, sampai hasil dari klasifikasi menyatakan bahwa data baru
tersebut adalah kelas i.
Gambar 3.6 Ilustrasi Klasifikasi dengan Metode one-against-all
29
3.7 Skenario Pengujian
Skenario pengujian dalam penelitian ini yaitu pengujian terhadap hasil dari
klasifikasi kalimat tanya berdasarkan target kelas berupa pembagian data yang
berjumlah 600 kalimat dengan 6 kelas yaitu sebagai berikut:
1. Data akan dibagi menjadi 2 kelompok, kelompok pertama sebagai data latih
dan kelompok kedua sebagai data uji.
2. Terdapat porsi pembagian data latih dan data uji, porsi pembagian data
sebagai berikut:
1. 80 % : 20% dimana 480 data digunakan sebagai data latih dan 120 data
digunakan sebagai data uji.
2. Untuk setiap klasifikasi SVM di hitung nilai akurasinya dengan
persamaan sebagai berikut:
Akurasi = TP + TN
TP + TN + FP + FN
Presisi = TP
TP + FP
Recall = TP
TP + FN
3. Setelah mendapatkan parameter dalam klasifikasi SVM yang memiliki
akurasi terbesar maka parameter tersebut digunakan dalam pengujian
menggunakan teknik Cross Validation.
3.8 Pengujian Klasifikasi
Pengujian sistem klasifikasi dilakukan menggunakan confusion matrix yang
bertujuan untuk mengetahui tingkat keberhasilan suatu sistem dalam melakukan
proses pengklasifikasian. Berikut merupakan contoh dari perancangan pengujian
sistem terdapat pada Tabel 3.9.
30
Tabel 3.9 Perancangan Pengujian Klasifikasi
Data Uji Hasil
Ket. Aktual Prediksi
bersama dengan anggota kelompok
identifikasilah satu jenis kelainan
atau penyakit yang menyerang
sistem transportasi
Mengingat Mengingat T
jelaskan perbedaan antara
pelaksanaan usaha swasta dengan
munculnya kapitalisme dan
imperialisme modern di indonesia
Memahami Memahami T
berilah contoh peristiwa peleburan
pembekuan penguapan dan
pengembunan apakah dalam
peristiwa itu memerlukan atau
melepaskan kalor
Memahami Memahami T
buatlah poster yang berkaitan
dengan salah satu penyakit yang
disebabkan oleh virus
Membuat Membuat T
sebutkan provinsi di indonesia
yang memiliki tingkat kepadatan
penduduk yang tinggi
Mengingat Membuat F
Dari Tabel 3.9 maka diperoleh sebuah confusion matrix yang
menggambarkan hasil mengenai sistem klasifikasi seperti pada Tabel 3.10.
Tabel 3.10 Perancangan Confusion Matrix
Aktual Prediksi
Mengingat Memahami Membuat
Mengingat TMeng = 1 FMema = 0 FMem = 0
Memahami FMeng = 0 TMema = 2 FMem = 0
Membuat FMeng = 0 FMema = 0 TMem = 1
Berikut merupakan perhitungan nilai akurasi, presisi, dan recall untuk
masing-masing kelas :
1. Akurasi
Akurasi = (
)
Akurasi = 1 + 2 + 1
1 + 2 + 1 + 0 + 0 + 0