tahapan speech recognition
TRANSCRIPT
5/12/2018 Tahapan Speech Recognition - slidepdf.com
http://slidepdf.com/reader/full/tahapan-speech-recognition 1/5
Jenis-jenis Speech Recognition
Berdasarkan kemampuan dalam mengenal kata yang diucapkan, terdapat 5 (lima) jenis pengenalankata, yaitu:
a. Kata-kata yang terisolasi, yaitu proses pengidentifikasian kata yang hanya dapat mengenalkata yang diucapkan jika kata tersebut memiliki jeda waktu pengucapan antar kata.
b. Kata-kata yang berhubungan, yaitu proses pengidentifikasian kata yang mirip dengan kata-kata terisolasi, namun membutuhkan jeda waktu pengucapan antar kata yang lebih singkat.
c. Kata-kata yang berkelanjutan, yaitu proses pengidentifikasian kata yang sudah lebih majukarena dapat mengenal kata-kata yang diucapkan secara berkesinambungan dengan jedawaktu yang sangat sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumitkarena membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan tanpa
jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata secara natural.
d. Kata-kata spontan, yaitu proses pengidentifikasian kata yang dapat mengenal kata-kata yangdiucapkan secara spontan tanpa jeda waktu antar kata.
e. Verifikasi atau identifikasi suara, yaitu proses pengidentifikasian kata yang tidak hanya mampumengenal kata, namun juga mengidentifikasi siapa yang berbicara.
Tahapan Proses Speech Recognition
Salah satu aplikasi speech recognition open source yang terkenal adalah Sphink-4. Konfigurasiaplikasi Sphinx-4 terlihat pada gambar diatas. Dari konfigurasi tersebut terlihat bahwa Sphinxmempunyai tiga komponen yaitu front end (berfungsi untuk antarmuka dari voice input ), decoder (komponen yang berfungsi untuk memberikan score), dan linguist (yang menghasilkan grafikpencarian di database suara). Komponen-komponen ini pada gilirannya akan membangun subkomponen mereka sendiri. Sebagai contoh, linguist akan membangun acoustic model , dictionary , danlanguage model . Linguist ini akan menggunakan pengetahuan dari tiga komponen untuk membangunsebuah grafik pencarian yang sesuai. Decoder akan membangun pengaturan pencarian, yang pada
gilirannya membangun score, pruner , dan active list .
5/12/2018 Tahapan Speech Recognition - slidepdf.com
http://slidepdf.com/reader/full/tahapan-speech-recognition 2/5
Gambar 1. Konfigurasi Aplikasi Sphinx-41
Ketika terdapat input suara melalui front end , decoder akan memberikan score berdasarkankomponen linguist . Score tertinggi akan di tampilkan sebagi hasil dari speech recognition ke aplikasimelalui front end . Tahapan yang dibuat dalam speech recognition adalah sebagai berikut:a. Merekam sumber suara misal dari 200 orang (100 orang laki-laki, 100 orang perempuan). Hal
untuk mengumpulkan database suara. Dalam perekaman ini diperlukan suatu ruangan kedap
suara seperti terlihat pada gambar 13. Ruangan kedap suara ini harus mempunyaikarakteristik sebagai berikut:1) Sound insulation level : 30 dB2) Background noise level : 22 dB
3) Reverberation time : 0,15 detik.
1 Http://cmusphinx.sourceforge.net/sphinx4/javadoc/
5/12/2018 Tahapan Speech Recognition - slidepdf.com
http://slidepdf.com/reader/full/tahapan-speech-recognition 3/5
Gambar 2. Ruangan Kedap Suara
Dibawah ini merupakan contoh hasil perekaman:
Gambar 3. Contoh Sinyal Suara
b. Pembangunan lexicon
Proses ini berupa pengumpulan teks–teks yang nantinya akan dikenali oleh engine speechrecognition.
c. Acoustic model
Adalah suatu model yang merepresentasikan statistik dari suara setiap kata yang diucapkan.Dari hasil perekaman sumber suara tersebut akan diolah untuk menghasilkan acoustic modelling . Untuk membuat acoustic model diperlukan file wav (hasil rekaman) dan daftar alamat penempatan file wav itu di dalam suatu direktori.
d. Language model
Adalah model yang akan digunakan untuk membuat representasi statistik suara yangmembentuk setiap kata.
Proses Pengenalan Suara secara Identifikasi dan Verifikasi
Proses pengenalan suara terbagi menjadi Verification dan Identification. Speech Identification adalahproses pelatihan seseorang atau huruf yang diucapkan ke pengenalan suara dengan caramendaftarkan pembicara dari ucapan yang diberikan. Speech Verification adalah proses penentuan
5/12/2018 Tahapan Speech Recognition - slidepdf.com
http://slidepdf.com/reader/full/tahapan-speech-recognition 4/5
identitas pembicara atau arti dari suara yang diucapkan oleh pembicara yang dibandingkan dengandata yang telah tersimpan pada sistem.
Proses Pengenalan Suara Offline dan Online
Sistem offline adalah suatu sistem yang menghasilkan output dengan bantuan proses secara manualoleh user. Sedangkan sistem online adalah sistem yang menghasilkan output tanpa bantuan prosessecara manual oleh user.Umumnya pengenalan suara memiliki tahap pelatihan/identifikasi dan verifikasi. Pada prosesidentifikasi memiliki tahap normalisasi, ekstraksi ciri, klasifikasi. Proses pengenalan suara offlinemaupun online terdapat proses identifikasi namun terdapat perbedaan pada proses verifikasi, padapengenalan suara secara offline verifikasi dilakukan dengan cara suara yang akan dikenali direkamterlebih dahulu sebelum memulai proses pengenalan suara sedangkan jika pada proses secara onlineverifikasi dilakukan dengan dinamis yaitu menggunakan pengucapan suara langsung tanpa melaluiproses perekaman terlebih dahulu.
Gambar 4. Perbedaan proses verifikasi suara pada proses Offline dan Online
Parameter Pengenalan Suara
Aplikasi pengenalan suara dibatasi berdasarkan parameter pengenalan suara yang digunakan. Hal inidapat membedakan keberhasilan antara satu aplikasi dengan yang lain. Keberhasilan aplikasi dengan
parameter tertentu belum tentu dapat diaplikasikan dalam aplikasi lain dengan parameter berbeda.Beberapa parameter yang paling penting terdapat pada tabel 2 berikut:
Tabel 1. Tabel Parameter Pengenalan Suara
Parameter tersebut adalah:a. Speaking Mode, model pengucapan isolated word artinya pembicara memerlukan jeda untuk
pengucapan antara satu kata dengan kata yang lain, sedangkan continous speech tidak.b. Speaking Style, pembicara berbicara dengan cara spontan atau dengan persiapan, seperti
kasus pengucapan pidato atau orang yang berbicara secara langsung. Orang yang berbicara
P a r a m e t e r R a n g e
S p e a k i n g M o d e I s o l a t e d w o r d ss a m p a ic o n t i n u o u s s p e e c h
S p e a k i n g S t y l e R e a d s p e e c hs a m p a i s p o n t a n e o u s s p e e c h
E n r o l l m e n t S p e a k e r - d e p e n d e n t s a m p a iS p e a k e r - i n d e p e n d e n t
V o c a b u l a r y S e d i k i t ( < 2 0 k a t a ) s a m p a i
L a n g u a g e M o d e l F i n i t e s t a t es a m p a ic o n t e x t - s e n s i t i v e
S N R T i n g g i ( > 3 0 d B ) s a m p a i R e n
T r a n s d u c e r U c a p a n p a d a m i k r o p o n s a m
5/12/2018 Tahapan Speech Recognition - slidepdf.com
http://slidepdf.com/reader/full/tahapan-speech-recognition 5/5
secara langsung lebih sulit dikenali dari pada orang berpidato.
c. Enrollment, mendaftarkan sumber suara dari pembicara, speaker dependent artinya sistemdigunakan hanya untuk mengenali satu orang pembicara sedangkan speaker independent artinya sistem dapat digunakan bebas untuk pembicara mana pun.
d. Vocabulary, maksudnya bahwa range suku kata yang diucapkan jika lebih kecil dari 20 katadisebut Small Vocabulary dan jika lebih dari 20.000 kata disebut Large Vocabulary.
e. Language Model adalah proses pengenalan suara model bahasa yang digunakan seperti,gaya suara, mood dan lain-lain. Hal ini terbagi dua, yaitu: finite state artinya model bahasaterbatas sedangkan context-sensitive dapat mengenali berbagai model bahasa.
f. Perplexity, maksudnya tingkat error pengenalan pengucapan pada kata yang berbunyi sama(sulit menentukan maksud huruf/kata yang diucapkan), hal ini berkaitan dengan tingkatVocabulary yang digunakan misalnya penelitian 10 digit suara “Zero” sampai “Nine” dapatdikenali dengan baik (Doddington 1989), tetapi jika ukuran vocabulary 200, 500, atau 10.000 memiliki rata-rata error 3%, 7% atau 45 % (Itakura 1975, Miyatake 1990, Kimura 1990).Namun hal ini dapat memiliki hasil berbeda jika memiliki kata yang berbunyi sama, sepertipada kasus pengenalan 26 huruf bahasa Inggris sulit membedakan kata yang berbunyi berset-E, seperti huruf B, C, D, E, G, P, T, V, Z dalam hal ini jika dihasilkan error 8 % sudah termasuk
bagus (Hild & Waibel 1993).g. SNR (Signal to Noise Ratio), adalah ratio perbandingan daya sinyal dengan daya background
noise, disebut SNR tinggi di lingkungan jika di atas 30 dB dan disebut SNR rendah jika kurangdari 30dB. Tingkat SNR menunjukkan apakah noise berpengaruh pada kejelasan sinyalsehingga jika SNR yang tinggi maka dihasilkan informasi yang semakin banyak untukdiperoleh dan pengenalan semakin tinggi sedangkan jika pada SNR rendah maka prosespengenalan suara memiliki keberhasilan yang lebih sedikit.
h. Transducer, artinya proses perubahan besaran suara dari sinyal analog ke sinyal digital, hal inibiasanya penggunaan media dalam pengaturan frekuensi sampling, filter noise, dansebagainya. Hal ini berbeda sekali jika menggunakan mikropon yang suara disekat-sekatdengan menggunakan telepon yang memiliki karakteristik alat berbeda dimana mikropon
biasanya memiliki frekuensi sampling 16 KHz dan telepon 8 KHz, begitu pula tingkat noiseyang perlu diredam.