i h c k thu - tnu.edu.vn · nông minh ngọc Đh thái nguyên cm ... 5 cv cross validation...
TRANSCRIPT
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHIỆP
BÁO CÁO TÓM TẮT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC
NGHIÊN CỨU MÔ HÌNH THANH ĐIỆU CHO NHẬN DẠNG
TIẾNG NÓI TIẾNG VIỆT TỪ VỰNG LỚN PHÁT ÂM LIÊN TỤC
Mã số: ĐH2015-TN02-08
Chủ nhiệm đề tài: TS. Nguyễn Văn Huy
Thái Nguyên, 08/2017
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHIỆP
BÁO CÁO TÓM TẮT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC
NGHIÊN CỨU MÔ HÌNH THANH ĐIỆU CHO NHẬN DẠNG
TIẾNG NÓI TIẾNG VIỆT TỪ VỰNG LỚN PHÁT ÂM LIÊN TỤC
Mã số: ĐH2015-TN02-08
Xác nhận của tổ chức chủ trì Chủ nhiệm đề tài
KT. HIỆU TRƯỞNG
PHÓ HIỆU TRƯỞNG
PGS.TS. Vũ Ngọc Pi Nguyễn Văn Huy
Thái Nguyên, 08/2017
i
DANH SÁCH THÀNH VIÊN THAM GIA NGHIÊN CỨU
VÀ ĐƠN VỊ PHỐI HỢP CHÍNH
1. Danh sách thành viên
TT Họ và tên Đơn vị công tác và
lĩnh vực chuyên môn
Nội dung nghiên cứu cụ
thể đƣợc giao
1 ThS. Nguyễn Văn Huy
ĐH Kỹ thuật Công
Nghiệp
CM: Công nghệ thông tin
Nghiên cứu lý thuyết, lập
trình, mô phỏng
2 ThS. Phạm Ngọc Phƣơng ĐH Thái Nguyên
CM: Công nghệ thông tin
Nghiên cứu lý thuyết, mô
phỏng
3 PGS.TS Lƣơng Chi Mai Viện Công nghệ thông tin
CM : Toán ứng dụng Nghiên cứu lý thuyết
4 TS. Vũ Tất Thắng Viện Công nghệ thông tin
CM : Điện tử viễn thông Nghiên cứu lý thuyết
5 ThS. Nông Minh Ngọc
ĐH Thái Nguyên
CM : Công nghệ Thông
tin
Nghiên cứu lý thuyết
2. Danh sách đơn vị phối hợp chính
TT Tên đơn vị
trong và ngoài nƣớc
Nội dung phối hợp nghiên
cứu
Họ và tên ngƣời đại
diện đơn vị
1
Bộ môn Tin học công
nghiệp, Khoa Điện tử, ĐH
Kỹ thuật Công nghiệp Thái
Nguyên
Nghiên cứu lý thuyết, lập
trình, mô phỏng
Trƣởng BM: Vũ Việt
Vũ
2
Phòng Công nghệ ngôn ngữ
và truyền thông đa phƣơng
tiện – Viện Công nghệ thông
tin – Viện Khoa học công
nghệ.
Nghiên cứu lý thuyết, cung
cấp thiết bị thí nghiệm
Viện trƣởng: PGS. TS.
Thái Quang Vinh
Trƣởng Phòng : TS. Vũ
Tất Thắng
ii
Mục Lục
DANH MỤC BẢNG BIỂU ............................................................................................................. III
DANH MỤC HÌNH ẢNH ............................................................................................................... III
Danh mục các từ viết tắt ................................................................................................................... IV
THÔNG TIN KẾT QUẢ NGHIÊN CỨU .......................................................................................... V
MỞ ĐẦU…………………………………………………………………………………………….1
CHƢƠNG 1.TÍNH CẤP THIẾT VÀ MỤC TIÊU NGHIÊN CỨU CỦA ĐỀ TÀI ........................... 2
1.1. Tổng quan về nhận dạng tiếng nói .......................................................................................... 2
1.2. Các thành phần chính của một hệ thống nhận dạng tiếng nói ................................................. 2
1.3. Nhận dạng tiếng Việt và các nghiên cứu hiện nay .................................................................. 2
1.4. Kết luận, các nội dung và phạm vi nghiên cứu chính của đề tài ............................................. 2
CHƢƠNG 2.MÔ HÌNH THANH ĐIỆU CHO NHẬN DẠNG TIẾNG VIỆT TỪ VỰNG LỚN
PHÁT ÂM LIÊN TỤC ....................................................................................................................... 3
2.1. Tổng quan về tiếng Việt .......................................................................................................... 3
2.2. Mô hình nhận dạng tiếng Việt từ vựng lớn ............................................................................. 3
2.3. Mô hình nhận dạng tiếng Việt từ vựng lớn có thông tin thanh điệu ....................................... 3
2.4. Thuật toán tạo từ điển ngữ âm tự động có thanh điệu cho tiếng Việt (VN-G2P) ................... 3
2.5. Dữ liệu thử nghiệm ................................................................................................................. 4
2.6. Hệ thống nhận dạng cơ sở (Baseline) ..................................................................................... 4
2.7. Thử nghiệm mô hình có thanh điệu do đề tài đề xuất ............................................................. 4
2.8. Kết luận chƣơng ...................................................................................................................... 4
CHƢƠNG 3.ÁP DỤNG MÔ HÌNH MSD-HMM MÔ HÌNH HÓA ĐẶC TRƢNG THANH ĐIỆU
ĐỨT GÃY…………………………………………………………..……………….........................5
3.1. Đặc trƣng thanh điệu và vấn đề không liên tục của dữ liệu .................................................... 5
3.2. Tổng quan về mô hình MSD-HMM ........................................................................................ 5
3.3. Phƣơng pháp Chuẩn hóa đặc trƣng AMDF và NCC cho mô hình MSD-HMM ..................... 5
3.4. Áp dụng mô hình MSD-HMM cho nhận dạng tiếng Việt có thanh điệu ................................ 5
3.5. Cài đặt thử nghiệm và kết quả ................................................................................................. 6
3.6. Kết luận chƣơng ...................................................................................................................... 6
CHƢƠNG 4.TĂNG CƢỜNG ĐẶC TRƢNG ÂM HỌC VÀ THANH ĐIỆU SỬ DỤNG MẠNG
NƠRON CHO MÔ HÌNH MSD-HMM ............................................................................................. 7
4.1. Tính toán đặc trƣngBottleneck sử dụng mạng MLP ............................................................... 7
4.2. Cài đặt thử nghiệm ............................................................................................................. 7
4.3. Trích chọn đặc trƣng thanh điệu sử dụng mạng nơron ........................................................... 7
4.4. Cải tiến đặc trƣng TBNF cho mô hình MSD-HMM .......................................................... 8
4.5. Mô hình tích hợp BNF, TBNF-MSD và MSD-HMM ....................................................... 8
4.6. Kết luận chƣơng ................................................................................................................. 9
KẾT LUẬN CHUNG ……………………………………………………………………………..10
TÀI LIỆU THAM KHẢO ................................................................................................................ 11
iii
DANH MỤC BẢNG BIỂU
Bảng 2-5: Dữ liệu huấn luyện ................................................................................................ 4
Bảng 2-6: Dữ liệu thử nghiệm ............................................................................................... 4
Bảng 2-7: Kết quả nhận dạng của hệ thống cơ sở ..................................................................... 4
Bảng 2-8: Kết quả thử nghiệm mô hình thanh điệu ................................................................... 4
Bảng 2-9: Kết quả thử nghiệm mô hình thanh điệu với Kaldi .................................................... 4
Bảng 3-1: Kết quả thử nghiệm Pitch và MFCC/PLP với HMM.................................................. 6
Bảng 3-2: Kết quả thử nghiệm mô hình MSD-HMM ................................................................ 6
Bảng 4-1: Kết quả thử nghiệm đặc trƣng BNF ......................................................................... 7
Bảng 4-3: Kết quả thử nghiệm MSD-HMM với đặc trƣng BNF13+TBNF-MSD3 .......................... 9
DANH MỤC HÌNH ẢNH
Hình 1-1: Sơ đồ khối tổng quan của một hệ thống nhận dạng tiếng nói ....................................... 2
Hình 4-7: Mô hình MSD-HMM cho đặc trƣng kết hợp BNF13+TBNF-MSD3 .............................. 8
iv
Danh mục các từ viết tắt
TT Viết tắt Nghĩa TT
1 ACC Accuracy 22 MFCC Mel Frequency Cepstral
Coefficients
2 AMDF Average Magnitude
Difference Function 23 MLLT
Maximum Likelihood
Linear Transform
3 BN Bottleneck 24 MLP Multilayer Perceptron
4 BNF Bottleneck Feature 25 MSD Multispace Distribution
5 CV Cross Validation
Accuracy 26 NCC
Normalized Cross-
Correlation
6 DCT Discrete cosine transform 27 NN Neural Network
7 DFT Discrete Fourier
transform 28 NoTone No tone
8 DNN Deep Neural Network 29 P Pitch
9 F0 Fundamental Frequency 30 PLP Perceptual Linear
Prediction
10 FST Finite-State Transducer 31 T1 Tone 1
11 G2P Grapheme to Phoneme 32 T2 Tone 2
12 GMM Gaussian Mixture Model 33 T3 Tone 3
13 GPU Graphical processing unit 34 T4 Tone 4
14 HMM Hidden Markov Model 35 T5 Tone 5
15 HTK Hidden Markov Model
Toolkit 36 T6 Tone 6
16 HTS HMM-based Speech
Synthesis System 37 TBNF Tonal Bottleneck Feature
17 IDFT Invert Discrete Fourier
transform 38 VN-G2P
Vietnamese Grapheme to
Phoneme
18 IOIT2013 Institute Of Information
and Technology 2013 39 VoiceTra Voice Translation
19 IPA International Phonetic
Alphabet 40 VOV Voice Of Vietnam
20 LDA Linear Discriminant
Analysis 41 WER Word Error Rate
21 LM Language Model 42 Δ Delta
v
ĐẠI HỌC THÁI NGUYÊN
Đơn vị: Trƣờng ĐH KTCN
THÔNG TIN KẾT QUẢ NGHIÊN CỨU
1. Thông tin chung:
- Tên đề tài: Nghiên cứu mô hình thanh điệu cho nhận dạng tiếng nói tiếng Việt từ vựng
lớn phát âm liên tục
- Mã số: ĐH2015-TN02-08
- Chủ nhiệm đề tài: Nguyễn Văn Huy
- Tổ chức chủ trì: Trƣờng ĐH Kỹ thuật Công nghiệp, Thái Nguyên
- Thời gian thực hiện: 01/2015-06/2017
2. Mục tiêu:
- Nghiên cứu xây dựng mô hình nhận dạng cho thanh điệu tiếng Việt.
- Phát triển và cài đặt giải pháp nhận dạng tiếng nói tiếng Việt liên tục với lƣợng từ vựng
lớn có tích hợp mô hình thanh điệu.
3. Tính mới và sáng tạo:
- Áp dụng mô hình phân bố đa không gian MSD cho nhận dạng tiếng Việt.
- Cải tiến phƣơng pháp tính toán đặc trƣng thanh điệu và đặc trƣng âm học sử dụng mạng
nơron cho mô hình MSD.
4. Kết quả nghiên cứu:
Đã đề xuất kiến trúc hệ thống nhận dạng tiếng Việt liên tục từ vựng lớn có thể tích hợp
thông tin thanh điệu, trong đó:
1) Đề xuất phƣơng pháp áp dụng mô hình MSD-HMM để mô hình hóa tập âm vị
tiếng Việt có thông tin thanh điệu dựa trên đặc trƣng thanh điệu đầu vào vẫn giữ
nguyên đặc tính đứt gãy của nó.
2) Đề xuất phƣơng pháp cải tiến đặc trƣng thanh điệu mới (TBNF) sử dụng mạng
nơron MLP để biểu diễn đúng đặc tính đứt gãy của đặc trƣng thanh điệu và tƣơng
thích với mô hình MSD-HMM.
3) Đề xuất mô hình kết hợp giữa MSD-HMM với đặc trƣng BNF và đặc trƣng thanh
điệu TBNF cho nhận dạng tiếng Việt.
4) Đề xuất giải thuật tạo từ điển ngữ âm có thông tin thanh điệu tự động cho tập dữ
liệu đầu vào tiếng Việt bất kỳ.
5. Sản phẩm:
5.1. Sản phẩm Khoa học:
- 02 bài báo trong tạp chí Khoa học và Công nghệ ĐHTN.
Nguyễn Văn Huy (2015), “Nâng cao chất lƣợng đặc trƣng bottle neck cho nhận dạng
tiếng Việt”, Tạp chí Khoa học và Công nghệ Đại học Thái Nguyên, 137(07), tr. 19-
25.
Nguyễn Văn Huy (2015), “Đặc trƣng thanh điệu dựa trên mạng nơron trong nhận
dạng tiếng nói tiếng Việt sử dụng mô hình phân bố đa không gian”, Tạp chí Khoa
học và Công nghệ Đại học Thái Nguyên, 139(09), tr. 229-236.
vi
- 03 bài báo trong các kỷ yếu hội nghị quốc tế.
Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme based
model for Vietnamese LVCSR”, IEEE Conference of the Oriental chapter of the
International Coordinating Committee on Speech Databases and Speech I/O Systems
and Assessment (OCOCOSDA), Shanghai-China, Oct-2015.
Van Huy Nguyen, Quoc Bao Nguyen, Tat Thang Vu, Chi Mai Luong (2015), “The
IOIT English ASR system for IWSLT 2015”, International Workshop on Spoken
Language Translation (IWSLT), Da Nang, Vietnam, Dec-2015.
Van Huy Nguyen, Quoc Bao Nguyen, Chi Mai Luong, Tat Thang Vu (2016),
“Vietnamese LVCSR Development and Improvement”, Human-Agent Interaction
(HAI), Oct-2016, Singapore.
5.2. Sản phẩm ứng dụng:
- 01 phần mềm nhận dạng tiếng nói tiếng Việt
5.3. Sản phẩm khác: Nội dung đề tài là một phần trong luận án Tiến sĩ cùng tên của Chủ nhiệm đề
tài.
Tên luận án: Nghiên cứu mô hình thanh điệu trong nhận dạng Tiếng Việt từ vựng lớn
phát âm liên tục.
Nghiên cứu sinh: Nguyễn Văn Huy (chủ nhiệm đề tài).
Ngày bảo vệ cấp Học viện: Ngày 03/11/2016.
6. Phƣơng thức chuyển giao, địa chỉ ứng dụng, tác động và lợi ích mang lại của kết quả
nghiên cứu:
- Phƣơng thức chuyển giao: Đào tạo và chuyển giao các thuật toán và mô hình của đề tài.
- Địa chỉ ứng dụng: Phòng thí nghiệm BM Tin Học Công nghiệp – Trƣờng ĐH Kỹ thuật
Công Nghiệp, các công ty hoặc viện nghiên cứu phát triển phần mềm nhận dạng và dịch
tiếng nói tự động.
- Tác động và lợi ích: Cung cấp cho cộng đồng nghiên cứu quốc tế các thông tin và
phƣơng pháp đánh giá khoa học khi nghiên cứu về nhận dạng tiếng nói Tiếng Việt nói
riêng và các tiếng nói có thanh điệu nói chung về ý nghĩa của mô hình MSD và Phƣơng
pháp tôi ƣu mô hình này.
Ngày 06 tháng 6 năm 2017
Tổ chức chủ trì
KT. HIỆU TRƢỞNG
PHÓ HIỆU TRƢỞNG
PGS.TS. Vũ Ngọc Pi
Chủ nhiệm đề tài
Nguyễn Văn Huy
vii
INFORMATION ON RESEARCH RESULTS
1. General information:
- Project title: Study on the tonal model for Vietnamese large vocabulary and continuous
speech recognition.
- Code number:ĐH2015-TN02-08.
- Coordinator: Nguyen Van Huy.
- Implementing institution: Thai Nguyen University of technology.
- Duration: from 01/2015 to06/2017.
2. Objective(s):
- Researching on tone model for Vietnamese speech recognition.
- Researching and developing a Vietnamese larger vocabulary and continuous speech
recognition (LVCSR) integrated tone model.
3. Creativeness and innovativeness:
- Proposed an approach of Multi-Space Probability Distribution HMM (MSD-HMM) for
modeling Vietnamese tones
- Addapted tonal and acoustic features which were extracted based on neural networks to
MSD-HMM for Vietnamese LVCSR.
4. Research results:
Proposed a new model architecture for Vietnamese large vocabulary and continuous speech
recognition that could be integrated tone recognition. In which:
1) Proposed an approach to model Vietnamese toneme by applying the Multi Space
Distribution Hidden Markov Model (MSD-HMM) that can model the real attribute for a
pitch feature.
2) Proposed a new method to extract a new tonal bottleneck feature based on the bottleneck
feature. This new tonal feature is adapted to the MSD-HMM model for Vietnamese speech
recognition.
3) Proposed a tonal combination model of BNF, TBNF, and MSD-HMM for Vietnamese large
vocabulary and continuous speech recognition.
4) Proposed an algorithm to convert any Vietnamese word in grapheme to toneme-based
pronunciation (Grapheme to Phoneme converter). This can be applied to produce a
Vietnamese lexicon including tone information.
5. Products:
5.1. Scientific Products
- 02 national journal papers:
o Nguyen Van Huy (2015), “Improving bottle neck for Vietnamese speech recognition”,
Jounal of Science and Technology Thai Nguyen University, 137(07), pp. 19-25.
o Nguyen Van Huy (2015), “Neural network-based tonal feature for vietnamese speech
recognition using multi space distribution model”, Jounal of Science and Technology
Thai Nguyen University, 139(09), pp. 229-236.
- 03 International conference papers
o Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme based
model for Vietnamese LVCSR”, IEEE Conference of the Oriental chapter of the
International Coordinating Committee on Speech Databases and Speech I/O Systems
and Assessment (OCOCOSDA), Shanghai-China, Oct-2015.
viii
o Van Huy Nguyen, Quoc Bao Nguyen, Tat Thang Vu, Chi Mai Luong (2015), “The
IOIT English ASR system for IWSLT 2015”, International Workshop on Spoken
Language Translation (IWSLT), Da Nang, Vietnam, Dec-2015.
o Van Huy Nguyen, Quoc Bao Nguyen, Chi Mai Luong, Tat Thang Vu (2016),
“Vietnamese LVCSR Development and Improvement”, Human-Agent Interaction
(HAI), Oct-2016, Singapore.
5.2. Application products
o 01 Vienamese speech recognition software
5.3. Orther Products: This work is a part of the Coordinator’s Doctoral dissertation which is in
the same title.
o Dissertation title: Research on tonal model for Vietnamese lager vocabulary
continuous speech recognition.
o PhD Student: Nguyen Van Huy (Coordinator)
o Defensive day: 03/11/2016
6. Transfer alternatives, application institutions, impacts and benefits of research results:
- Transfer alternatives: Training
- Application institutions: Industtral Information Lab – TNUT, Institutions and researchers
who are studing on speech recognition and speech translation.
- Impacts and benefits of research results: Proposed an approach of MSD model for Vietnamse
speech recognition. Based on this result it can be applied for other tonal languages.
1
MỞ ĐẦU
Tiếng Việt là một ngôn ngữ có thanh điệu, vì thế ngoài những khó khăn gặp phải tương tự
như việc nhận dạng các ngôn ngữ không có thanh điệu khác (Anh, pháp,…), nhận dạng tiếng Việt
còn phải nghiên cứu vấn đề nhận dạng thanh điệu. Tiếng Việt có sáu thanh điệu, một cách tổng
quát có thể coi như mỗi âm tiết sẽ có thể có sáu ý nghĩa khác nhau khi ghép tương ứng với sáu
thanh điệu đó. Việc nhận dạng thanh điệu là một công việc khó do thanh điệu chỉ tồn tại ở vùng âm
hữu thanh. Vì thế đường đặc tính của nó không liên tục khi chuyển tiếp giữa hai vùng hữu thanh và
vô thanh. Từ các lý do cấp thiết này tôi đã chọn đề tài “Nghiên cứu mô hình thanh điệu trong
nhận dạng tiếng Việt từ vựng lớn phát âm liên tục”. Với mục tiêu chính là nghiên cứu mô hình
nhận dạng tiếng Việt có tích hợp thông tin thanh điệu.
Nội dung chính của đề tài được trình bày thành 4 chương với nội dung như sau:
- Chương 1: Giới thiệu tổng quan về nhận dạng tiếng nói và ứng dụng. Cấu trúc tổng
quan của một hệ thống nhận dạng tiếng nói cơ bản. Tình hình nghiên cứu tổng quan
nhận dạng tiếng Việt. Giới thiệu các mục tiêu và phạm vi nghiên cứu chính của đề tài.
- Chương 2: Trình bày tổng quan về cấu trúc ngữ âm tiếng Việt. Mô hình nhận dạng
tiếng Việt từ vựng lớn phát âm liên tục có thanh điệu.
- Chương 3: Trình bày mô hình thanh điệu cho nhận dạng tiếng Việt từ vựng lớn phát
âm liên tục sử dụng MSD-HMM. Bao gồm quy trình tính toán đặc trưng thanh điệu
tương thích với MSD, cấu hình mô hình và huấn luyện.
- Chương 4: Trình bày phương pháp tăng cường đặc trưng âm học sử dụng mạng nơron
cho nhận dạng tiếng Việt, phương pháp tăng cường đặc trưng thanh điệu với đặc trưng
cải tiến Tonal-Bottleneck sử dụng mạng nơron. Mô hình đề xuất tích hợp gồm MSD-
HMM với Bottleneck.
2
CHƢƠNG 1. TÍNH CẤP THIẾT VÀ MỤC TIÊU NGHIÊN CỨU
CỦA ĐỀ TÀI
1.1. Tổng quan về nhận dạng tiếng nói
Nhận dạng tiếng nói
Công thức (1.1)[16] mô tả mô hình toán học của một hệ thống nhận dạng tiếng nói theo nguyên
lý xác suất của Bayes.
( | )
( | ) ( )
( )
(1.1)
Ứng dụng
Một số ứng dụng như hệ thống dịch tiếng nói tự động, giao tiếp robot, tóm tắt tiếng nói,…
Các vấn đề trong nhận dạng tiếng nói
Vấn đề phụ thuộc người nói; Vấn đề về tốc độ phát âm, hiện tượng đồng phát âm; Vấn đề về
kích thước của bộ từ vựng (từ điển); Vấn đề nhiễu; Vấn đề về ngôn ngữ;
1.2. Các thành phần chính của một hệ thống nhận dạng tiếng nói
Hình 1-1: Sơ đồ khối tổng quan của một hệ thống nhận dạng tiếng nói
1.3. Nhận dạng tiếng Việt và các nghiên cứu hiện nay
Hầu hết các nghiên cứu đã công bố đều sử dụng mô hình HMM/DNN truyền thống.
1.4. Kết luận, các nội dung và phạm vi nghiên cứu chính của đề tài
Từ các vấn đề thực tế trên dẫn đến đề tài sẽ tập trung nghiên cứu một số nội dung chính
như sau:Nghiên cứu áp dụng mô hình MSD-HMM, phương pháp tăng cường đặc trưng.
Phạm vị nghiên cứu của đề tài: Đối tượng nghiên cứu của đề tài là tiếng nói phát âm liên tục;
Kích thước từ vựng là không giới hạn (từ vựng lớn); Giọng Bắc.
Văn bản(W)
Trích chọn đặc trưng
Mô hình âm học P(O|W)
Mô hình ngôn ngữP(W)
Giải mã (Decoder)
Tín hiệu tiếng nói(speech)
Từ điển ngữ âm
3
CHƢƠNG 2. MÔ HÌNH THANH ĐIỆU CHO NHẬN DẠNG TIẾNG VIỆT TỪ
VỰNG LỚN PHÁT ÂM LIÊN TỤC
2.1. Tổng quan về tiếng Việt
a) Âm tiết tiếng Việt có tính độc lập cao
b) Âm tiết tiếng Việt có khả năng biểu hiện ý nghĩa
c) Âm tiết tiếng Việt có cấu trúc chặt chẽ
2.1.1. Âm vị tiếng Việt
Dựa theo cấu trúc của âm tiết tiếng Việt thì hệ thống âm vị của tiếng Việt bao gồm 21 âm
đầu, 1 âm đệm, 16 âm chính và 8 âm cuối[1].
2.1.2. Thanh điệu tiếng Việt
Về mặt hình thức nếu không xét đến sự biến đổi thanh điệu trên các phụ âm dừng ở cuối
âm tiết thì tiếng Việt có 6 thanh điệu Error! Reference source not found..Đối với các âm tiết kết
thúc bởi các các phụ âm đóng “p, k, t” thì các âm tiết này có xu thế kết thúc nhanh hơn so với các
âm tiết khác, chính vì thế hai thanh sắc và thanh nặng (trong tiếng Việt chỉ có hai thanh này tồn tại
với các âm tiết kết thúc bằng các phụ âm đóng “p, k, t”) cũng có xu hướng kết thúc nhanh hơn khi
đi cùng với các âm tiết khác. Trong trường hợp này có thể coi tiếng Việt có 8 thanh điệuError!
Reference source not found..
2.2. Mô hình nhận dạng tiếng Việt từ vựng lớn
Mô hình xác suất để đoán nhận vector đặc trưng đầu vào tại thời điểm k,xk(hoặc một chuỗi
vector xk) là được xác định theo công thức (2.1).
( | ) ∑ ( | ) ( | )
( )
Trong phạm viđề tài này bộ âm vị được sử dụng làm bộ đơn vị nhận dạng của hệ thống gồm có
45 âm vị (không tính âm câm) như đã liệt kê ở Error! Reference source not found..Với cách tiếp cận
này hệ thong nhận dạng sẽ độc lập với bộ từ vựng của ngôn ngữ.
2.3. Mô hình nhận dạng tiếng Việt từ vựng lớn có thông tin thanh điệu
Phương pháp tích hợp thêm thông tin thanh điệu vào bộ âm vị và sử dụng bộ âm vị có
thanh điệu này ( )làm đơn vị nhận dạng của hệ thống, với được xây dựng từ bằng cách thêm
thông tin thanh điệu của âm tiết vào âm chính như sau:
{* + * + * + * +} ( )
{* + * + * + * + * +} ( )
2.4. Thuật toán tạo từ điển ngữ âm tự động có thanh điệu cho tiếng Việt (VN-G2P)
Đầu vào: T (Văn bản tiếng Việt).
Đầu ra: Từ điển ngữ âm của bộ từ vựng trích ra từ văn bản đầu vào.
4
2.5. Dữ liệu thử nghiệm
2.5.1. Dữ liệu huấn luyện (Training)
Bảng 2-1: Dữ liệu huấn luyện
Tên Kích thƣớc
theo giờ
Số ngƣời
nói
Số lƣợng
câu
Số từ có
thanh điệu Từ vựng Chủ đề
VOV 17 30 20750 3792 4908 Truyện, tin tức, phỏng vấn
IOIT2013 170 206 86000 4132 5378 Nhiều chủ đề
GlobalPhone 19.7 129 19000 3089 4200 Nhiều chủ đề
2.5.2. Dữ liệu thử nghiệm (Testing)
Bảng 2-2: Dữ liệu thử nghiệm
Tên Kích thƣớc
theo giờ
Số ngƣời
nói
Số lƣợng
câu
Số từ có
thanh điệu Chủ đề
VOV-test 2 13 2688 1907 Truyện, tin tức, phỏng vấn
VoiceTra-test 0.65 200 803 639 Nhiều chủ đề
2.5.3. Đánh giá kích thước dữ liệu
Các bộ dữ liệu mà nhóm nghiên cứu sử dụng là đủ độ lớn để có thể tiến hành các thử
nghiệm. Và trong thực tế tập dữ liệu này cũng đã được dùng thử nghiệm trong một số các nghiên
cứu trước đây như[27]thực hiện tại NhậtBản, [28]thực hiện tại Đức.
2.6. Hệ thống nhận dạng cơ sở (Baseline)
Bảng 2-3: Kết quả nhận dạng của hệ thống cơ sở
Hệ thống Đặc trƣng ACC(%)
Sys1(Baseline) MFCC 77.70
Sys2 PLP 76.77
2.7. Thử nghiệm mô hình có thanh điệu do đề tài đề xuất
Bảng 2-4: Kết quả thử nghiệm mô hình thanh điệu
TT Hệ thống Đặc trƣng Từ điển ACC (%)
1 Baseline MFCC NonTonal-Dict 77.70
2 HMM-1 PLP Tonal-Dict
77.58
3 HMM-2 MFCC 78.31(+0.61)
Bảng 2-5: Kết quả thử nghiệm mô hình thanh điệu với Kaldi
TT Hệ thống Đặc trƣng Từ điển ACC (%)
1 Kaldi-HMM-1 MFCC+P NonTonal-Dict 45.63
2 Kaldi-HMM-2 MFCC+P Tonal-Dict 47.17 (+1.54)
2.8. Kết luận chƣơng
Với mô hình âm học có thông tin thanh điệu này nhóm nghiên cứu đạt được kết quả tăng
chất lượng tương tự trên các bộ dữ liệu trong các điều kiện khác nhau như dữ liệu thu âm qua điện
thoại [14]với khoảng 5% tuyệt đối, dữ liệu lớn với nhiều chủ đề [29]với 1.54% tuyệt đối.Trong
chương này đề tài cũng đã đề xuất thuật toán tạo từ điển ngữ âm tự động VN-G2P sử dụng bộ âm
vị có thanh điệu.Thuật toán này đã được công bố ở nghiên cứu [29].
5
CHƢƠNG 3. ÁP DỤNG MÔ HÌNH MSD-HMM MÔ HÌNH HÓA ĐẶC TRƢNG THANH
ĐIỆU ĐỨT GÃY
3.1. Đặc trƣng thanh điệu và vấn đề không liên tục của dữ liệu
Thanh điệu được tạo ra do dao động của dây thanh. Tuy nhiên dây thanh chỉ dao động đối
với các âm hữu thanh vì vậy mà trong vùng âm vô thanh không tồn tại thanh điệu. Nếu xét trong cả
một câu phát âm thì đường đặc trưngcủa thanh điệu sẽ bị đứt gãy tại các vùng vô thanh. Để có thể
mô hình hoá đặc trưng thanh điệu sử dụng mô hình HMM hoặc mạng nơron thì đặc trưng này cần
phải được áp dụng một kỹ thuật tiền xử lý trước để bổ sung các giá trị cho các vùng đứt gãy.
3.2. Tổng quan về mô hình MSD-HMM
Mô hình MSD-HMM[25]cải tiến lại mô hình HMM để nó có thể làm việc với loại đặc
trưng chứa cả hai giá trị liên tục và rời rạc bằng cách giữ nguyên các thành phần giống như mô
hình HMMvà định nghĩa lại hàm xác suất phát tán dựa trên lý thuyết về mô hình phân bố đa không
gian như công thức (3.6).
( ) ∑
( | ) (3.6)
3.3. Phƣơng pháp Chuẩn hóa đặc trƣng AMDF và NCC cho mô hình MSD-HMM
Ý tưởng chính của phương pháp này là thay thế các giá trị pitch tính được từ phương pháp
AMDF và NCC bằng giá trị “unvoiced” cho các vector thuộc vùng vô thanh. Vùng vô thanh xác
định được thông qua phương pháp so sánh ngưỡng năng lượng [16] như công thức (3.12).Giả sử tín
hiệu tiếng nói đầu vào X sau khi phân tách thành các khung rời rạc ta thu được * + trong đó
là khung tín hiệu đầu vào thứ k, với k=1,..,N (N là tổng số khung tín hiệu sau khi được phân
tách từ X).
{ ( )
unvoiced , ( ) (3.10)
{ ( )
unvoiced , ( ) (3.11)
Trong đó NCCi và AMDFi được tính theo công thức (3.7) và (3.8), và:
( ) { voice ( )
( ) (3.12)
3.4. Áp dụng mô hình MSD-HMM cho nhận dạng tiếng Việt có thanh điệu
Trong phạm vi nghiên cứu này đề tài đề xuất sử dụng mô hình MSD-HMM5trạng tháikiểu
trái phải (left-right)với nhiều hơn 1 luồng dữ liệu vào cho nhận dạng tiếng Việt với mục đích kết
hợp cả đặc trưng ngữ âm và đặc trưng thanh điệu vào một mô hình. Trong đó luồng thứ nhất dành
6
cho đặc trưng ngữ âm (MFCC/PLP). Luồng này sử dụng một không gian số thực duy nhất có số
chiều đúng bằng kích thước của vector đầu vào (do loại đặc trưng này là liên tục). Từ luồng thứ hai
sẽ được sử dụng cho đặc trưng pitch. Ở các luồng này sẽ sử dụng hai không gian * +,
trong đó là không gian số thực có số chiều là d tương ứng với kích thước của vector đặc trưng
pitch đầu vào. chỉ có một giá trị duy nhất là nhãn “unvoiced”. Khi đó mỗi một vector đặc trưng
pitch đầu vào sẽ có hai thành phần * +, nếu xlà một số thực ( ) thì g=1 để chỉ
là giá trị pitch, nếu thì g=2 để chỉ , giá trị này thể hiện khung hiện
thời không tồn tại thanh điệu hay là vùng vô thanh.
3.5. Cài đặt thử nghiệm và kết quả
3.5.1. Thử nghiệm mô hình HMM với đặc trưng thanh điệu
Bảng 3-1: Kết quả thử nghiệm Pitch và MFCC/PLP với HMM
TT Hệ thống Đặc trƣng Từ điển ACC (%)
1 Baseline MFCC 77.70
2 HMM-3 PLP+AMDF
Tonal-Dict
74.34
3 HMM-4 MFCC+AMDF 76.10
4 HMM-5 PLP+NCC 79.09
5 HMM-6 MFCC+NCC 80.26(+2,56)
3.5.2. Thử nghiệm mô hình MSD-HMM với đặc trưng thanh điệu
Bảng 3-2: Kết quả thử nghiệm mô hình MSD-HMM
TT Hệ thống Đặc trƣng Từ điển ACC (%)
1 MSD-HMM-1 PLP+NCC_MSD
Tonal-Dict
76.47
2 MSD-HMM-2 PLP+AMDF_MSD 79.78
3 MSD-HMM-3 MFCC+NCC_MSD 77.64
4 MSD-HMM-4 MFCC+AMDF_MSD 80.37
5 MSD-HMM-5 PLP+NCC+AMDF_MSD 79.71
6 MSD-HMM-6 MFCC+NCC+AMDF_MSD 80.80
3.6. Kết luận chƣơng
Từ kết quả thí nghiệm đề tài dẫn đến các kết luận như sau:
1) Mô hình MSD-HMM có hiệu quả với ngôn ngữ tiếng Việt:
2) Đặc trưng thanh điệu dựa trên phương pháp NCC thích hợp với mô hình HMM, đặc trưng
thanh điệu dựa trên phương pháp AMDF thích hợp với mô hình MSD-HMM
7
CHƢƠNG 4. TĂNG CƢỜNG ĐẶC TRƢNG ÂM HỌC VÀ THANH ĐIỆU SỬ DỤNG
MẠNG NƠRON CHO MÔ HÌNH MSD-HMM
4.1. Tính toánđặc trƣngBottleneck sử dụng mạng MLP
4.1.1. Tổng quan về đặc trưngBottleneck
Đề tài đề xuất cài đặt BNF cho tiếng Việt với cấu trúc mạng MLP khởi tạo năm lớp có
dạng L1-L2-L3-L4-L5. Trong đó: L1 là lớp input, kích thước của L1 phụ thuộc vào kích thước của
đặc trưng đầu vào. L2 và L4 là lớp ẩn thứ nhất và thứ ba. L3 là lớp BN. L5 là lớp ouput, kích thước
của L5 phục thuộc vào số lớp (classes) đầu ra mà mạng MLP cần phân lớp. Kích thước của L2, L3
và L4 cần được xác định thông qua các thử nghiệm để thu được cấu hình tối ưu.
4.1.2. Tính toán đặc trưng Bottleneck (BNF)
Toàn bộ dữ liệu huấn luyện sẽ được sử dụng như là đầu vào để trích chọn đặc trưng BNF.
Tín hiệu tiếng nói sau khi được phân đoạn sử dụng cửa sổ có độ dài 25ms với tốc độ 10ms sẽ được
đưa qua module phân tích để thu được đặc trưng PLP hoặc MFCC, sau đó mỗi 15 khung liên tiếp
sẽ được tổ hợp để tạo ra một vector đầu vào cho MLP, ta gọi đầu vào này là X. Như đã trình bày ở
trên tại bước trích chọn đặc trưng này chúng ta chỉ sử dụng ba lớp đầu tiên của mạng MLP (L1, L2,
L3) đã được huấn luyện để tính toán BNF. X sẽ được lan truyền thẳng từ lớp đầu vào L1 đến lớp
L3, tại đây hàm kích hoạt tuyến tính được sử dụng để tính BNF như công thức sau:
𝐵 ∑ 𝑁 + 𝐵 (4.1)
Sau khi thu được các giá trị BNFk ở lớp BN của mạng MLP, các giá trị này được chuẩn hoá
thông qua hàm trung bình và độ lệch chuẩn như công thức (4.2). Giá trị cuối cùng sau bước này sẽ
được sử dụng như đặc trưng đầu vào cho mô hình âm học.
𝐵
𝐵 (𝐵 )
(𝐵 ) (4.2)
(𝐵 )
∑𝐵
(𝐵 ) √
∑(𝐵 (𝐵 ))
4.2. Cài đặt thử nghiệm
Bảng 4-1: Kết quả thử nghiệm đặc trưng BNF
TT Hệ thống Đặc trƣng Từ điển ACC (%)
1 HMM-2 MFCC
Tonal-Dict
78.31
2 BNF-1 BNFPLP 79.33
3 BNF-2 BNFMFCC 79.56(+1.25)
4.3. Trích chọn đặc trƣng thanh điệu sử dụng mạng nơron
TBNF được tính toán theo công thức (4.5) và sau đó được áp dụng hàm chuẩn hoá như
công thức (4.6).
𝐵 ∑ 𝑓𝑎 𝑗 𝑁 +
𝐵𝑁 𝑘 … 𝐾 (4.5)
8
Trong đó:
𝑓𝑎 𝑗 (∑ +
… )
- TBNFk là giá trị kích hoạt của nút mạng thứ k trong lớp BN, với K là kích thước của lớp BN.
- N là kích thước của lớp ẩn thứ nhất L2.
- 𝑓𝑎 𝑗là giá trị kích hoạt tại nút thứ j ở lớp ẩn thứ nhất L2.
- Hàm Sigmoid được thính toán theo công thức (4.7).
- làtrọng số của liên kết giữa nút k ở lớp L3 với nút thứ jtrong lớp L2.
- là trọng số liên kết giữa nút j ở lớp L2 với nút thứ q trong lớp đầu vào L1.
- 𝐵𝑁là hệ số Bias của nút thứ k tại lớp Bottleneck.
- là hệ số Bias của nút thứ j tại lớp L2.
- là
4.4. Cải tiến đặc trƣng TBNF cho mô hình MSD-HMM
Xét chuỗi vector đặc trưng đầu vào X={x1,..,xt,..,xT} có độ dài T. Mạng MLP sử dụng để
tính toán TBNF_MSD vẫn là mạng MLP đã được sử dụng để tính toán TBNF, nhưng cả 5 lớp của
mạng này sẽ được sử dụng chứ không phải chỉ 3 lớp mạng đầu tiên được dùng như phương pháp
tính toán TBNF. Trong phương pháp này mạng MLP được sử dụng với hai chức năng là tính
TBNF và đoán nhận một vector đầu vào xt thuộc vùng vô thanh hay không.TBNF_MSD được tính
toán như công thức (54.7).
𝐵 { 𝐵 ( ( ))
unvoiced ( ( )) (4.7)
4.5. Mô hình tích hợp BNF, TBNF-MSD và MSD-HMM
Hình 4-1: Mô hình MSD-HMM cho đặc trưng kết hợp BNF13+TBNF-MSD3
Các thử nghiệm sử dụng đặc trưng BNF, TBNF-MSD và mô hình MSD-HMM trong đề tài
này đã cho thấy đặc trưng được trích chọn bởi mạng nơron đã làm tăng đáng kể chất lượng nhận
BNF13
BNF13
…
TBNF3,1
unvoiced,2
…
2 1 3 4 5
N(BNF13) N(BNF13) N(BN13)
sw11N11(TBNF3) sw21N21(TBNF3) sw31N31(TBNF3)
sw12 sw22 sw32
Đặc trưng với 2 luồng
vào (2 streams)
Stre
am 1
St
ream
2
MSD
o1
o2
ot
9
dạng. Mô hình MSD-HMM hoàn toàn tương thích và có hiệu quả với nhận dạng tiếng Việt trên tập
âm vị có thông tin thanh điệu. Ở thử nghiệm cuối cùng này đề tài sẽ tiến hành tích hợp tất cả các kỹ
thuật này vào một hệ thống duy nhất. Cụ thể như sau. Một hệ thống sử dụng mô hình MSD-HMM
5 trạng thái với hai luồng đầu vào,trong đó luồng thứ nhất dành cho đặc trưng BNF. Đề tài sử dụng
đặc trưng BNF13được tính toán từ đặc trưng đầu vào là MFCC, đây là loại đặc trưng được trích
chọn từ mô hình mạng MLP (ký hiệu là MFCC-4-3-13 ở) có kích thước lớp BN là 13 đã cho kết
quả nhận dạng tốt nhất ở các thử nghiệm về BNF. Luồng thứ nhất này không áp dụng mô hình
MSD do đặc trưng BNF là đặc trưng liên tục. Luồng thứ hai dành cho đặc trưng thanh điệu TBNF-
MSD3. Do TBNF-MSD3 là dữ liệu chứa cả giá trị liên tục và rời rạc nên luồng thứ hai này sẽ được
áp dụng mô hình MSD với hai không gian * +. Trong đó là không gian số thực có số chiều
là 3 tương ứng với kích thước của giá trị TBNF3. là không gian rời rạc với số chiều là 0 chỉ có
một giá trị duy nhất là “unvoiced” dành cho các giá trị “unvoiced” trong đặc trưng TBNF-MSD3.
Mô hình MSD-HMM sử dụng đặc trưng kết hợp BNF13+TBNF-MSD3này được mô tả ởHình 4-1.
Các mô mình MSD-HMM này được huấn luyện trên tập dữ liệu VOV sử dụng từ điển
Tonal-Dict theo các bước và tham số tương tự như các hệ thống MSD-HMM ở Chương 3. Kết quả
thử nghiệm trên tập VOV-Test với mô hình ngôn ngữ VOV-Bigram-LM được trình bày ởBảng 4-2.
Bảng 4-2: Kết quả thử nghiệm MSD-HMM với đặc trưng BNF13+TBNF-MSD3
TT Đặc trƣng ACC(%)
1 BNF13 84.18
2 BNF13+TBN-MSD13 84.54 (+0.36)
4.6. Kết luận chƣơng
1-Các kết quả thử nghiệm ở chương này cho thấy phương pháp đã đề xuất để việc tính toán
đặc trưng thanh điệu cho mô hình MSD-HMM sử dụng mạng nơron đã làm tăng chất lượng nhận
dạng; 2-Mô hình tích hợp BNF, TBNF với MSD-HMM đã cho chất lượng tốt nhất so với mô hình
HMM sử dụng đặc trưng MFCC/PLP+AMDF/NCC.
10
KẾT LUẬN CHUNG
Các kết luận và thảo luận từ các kết quả thử nghiệm của đề tài
- Đặc trưng thanh điệu và tập âm vị có thông tin thanh điệu là các thành phần quan trọng ảnh
hưởng đến chất lượng của mô hình nhận dạng tiếng Việt có thanh điệu. Qua các thử nghiệm
trên bộ dữ liệu kích thước lớn cũng như trung bình và trên các bộ công cụ khác nhau là HTK
và Kaldi đều cho thấy đặc trưng thanh điệu giúp làm tăng chất lượng nhận dạng thêm khoảng
trên 3% tuyệt đối và tập âm vị có thông tin thanh điệu làm tăng chất lượng nhận dạng thêm
khoảng trên 1.5% tuyệt đối.
- Mô hình MSD-HMM có hiệu quả với tiếng Việt. Mô hình MSD-HMM có khả năng mô tả đúng
đặc tính vật lý của đặc trưng thanh điệu đó là liên tục trong vùng hữu thanh và đứt gãy trong
vùng vô thanh. Mô hình này đã giúp làm tăng chất lượng nhận dạng thêm khoảng 15%tương
đốiso với mô hình HMM truyền thống.Kết quả này tương đồng với nghiên cứu trên ngôn ngữ
Mandarin [53], [7](khoảng 17%). Như vậy việc nghiên cứu tìm ra loại mô hình có khả năng mô
hình hóa thông tin thanh điệu là một yếu tố quan trọng trong việc nâng cao chất lượng nhận
dạng cho tiếng Việt. Đồng thời cùng với kết quả nghiên cứu trên tiếng Mandarin cho thấy việc
mô hình hóa đúng bản chất đứt gãy của đặc trưng thanh điệu cho kết quả tốt hơn loại đặc trưng
được bổ sung các giá trị “nhận tạo” vào vùng vô thanh.
- Phương pháp tăng cường đặc trưng sử dụng mạng nơron có hiệu quả với tiếng Việt. Phương
pháp tính toán đặc trưng này đã giúp tăng chất lượng cho cả hai loại đặc trưng ngữ âm và đặc
trưng thanh điệu. Với đặc trưng ngữ âm BNF đã giúp tăng thêm khoảng 29% tương đối so với
hai loại đặc trưng đã có MFCC và PLP, và đặc trưng thanh điệu TBNF cải tiến mới đã giúp
tăng thêm khoảng 2% tương đối so với hai loại đặc trưng thanh điệu đã có AMDF và NCC. Cả
BNF và TBNF được trích chọn dựa theo đặc tích ngữ âm của tiếng Việt. Cụ thể BNF được tính
toán thông qua mạng nơron đã được huấn luyện để phân lớp các âm vị đã tích hợp 6 thanh điệu
tiếng Việt, TBNF sử dụng mạng nơron đã được huấn luyện để phân lớp 6 thanh điệu tiếng Việt.
- Mô hình tích hợp BNF, TBNF với MSD-HMM cho kết quả tối ưu nhất so với các mô hình
khác mà đề tài đã xây dựng. Kết quả này cho thấy mô hình MSD-HMM thực sự hiệu quả hơn
mô hình HMM khi sử dụng với đặc trưng thanh điệu đứt gãy. Các đặc trưng tăng cường BNF
và đặc trưng cải tiến TBNF đã giúp cho mô hình MSD-HMM đạt chất lượng tốt hơn so với
việc sử dụng các đặc trưng chưa tăng cường như MFCC, PLP, AMDF và NCC (tốt khoảng
19% tương đối). Như vậy việc nghiên cứu để tìm ra các mô hình tăng cường chất lượng đặc
trưng, tối ưu cho MSD-HMM là đúng đắn và rất cần thiết.
Hướng phát triển
- Đặc trưng thanh điệu TBNF hiện tại cho chất lượng tăng còn thấp, chỉ khoảng 2% tương đối.
Nên cần tiếp tục được nghiên cứu để nâng cao chất lượng. Một số kỹ thuật biến đổi đặc trưng
như LDA, MLLT có thể được áp dụng trước khi áp dụng phương pháp này để nâng cao chất
lượng.
- Trong các nghiên cứu tiếp theo thì công nghệ mạng học sâu (Deep Learning) cần được áp dụng
để nâng cao chất lượng cho đặc trưng BNF và TBNF.
11
TÀI LIỆU THAM KHẢO
Tiếng Việt:
[1]. Mai Ngọc Chừ (1997). Cơ sở ngôn ngữ học và tiếng Việt, NXB Giáo Dục, Việt Nam.
[2]. Đặng Ngọc Đức (2003), Mạng nơron và mô hình Markov ẩn trong nhận dạng tiếng
Việt, Luận án tiến sĩ, Trường ĐH Khoa học Tự nhiên – ĐH Quốc gia Hà Nội.
Tiếng Anh:
[3]. Ambra N., Catia C., Wilhelmus S. (2003), "Automatic Speech Recognition for second
language learning: How and why it actually works." International Congress of
Phonetic Sciences (ICPhS). Barcelona.
[4]. Anastasakos T., McDonough J., Makhoul J. (1997), "Speaker adaptive training: a
maximum likelihood approach to speaker normalization." Acoustics, Speech and
Signal Processing (ICASSP). Munich, pp.1043 – 1046.
[5]. Chen C.J., Haiping Li, Liqin Shen, Guokang Fu. (2001), "Recognize tone languages
using pitch information on the main vowel of each syllable", Acoustics, Speech, and
Signal Processing (ICASSP), Salt Lake City, UT: IEEE, pp. 61-64.
[6]. Chong-Jia Ni, Wen-Ju Liu, Bo Xu (2011) "Prosody Dependent Mandarin Speech
Recognition", International Joint Conference on Neural Networks, California, USA:
IEEE, pp. 197-201.
[7]. Chuong Nguyen Thien (2014), Automatic speech recognition of Vietnamese, PhD
Thesis, Technical University of Liberec, Czech Republic.
[8]. Ferreira E., Nocera P., Goudi M. Thi N.D.D. (2012), "YAST: A Scalable ASR Toolkit
Especially Designed for Under-Resourced Languages." Asian Language Processing
(IALP). pp. 141 - 144.
[9]. Gales M., Young S. (2007), "The Application of Hidden Markov Models in Speech
Recognition", Signal Processing, pp. 195-304.
[10]. Grézl Frantisek, Fousek, Petr (2008), "Optimizing Bottel-neck features for LVCSR"
Acoustics, Speech and Signal Processing ICASSP. Las Vegas: IEEE, pp. 4729-4732.
[11]. Grézl Frantisek, Karafiát Martin, Kontár Stanislav, Cernocký Jan. (2007),
"Probabilistic and Bottle-Neck Features for LVCSR of Meetings" Acoustics, Speech,
and Signal Processing (ICASSP), Honolulu: IEEE, pp. IV-757- IV-760.
[12]. Hong Quang Nguyen, Nocera P., Castelli E., Van Loan T. (2008), "Tone recognition
of Vietnamese continuous speech using hidden Markov model", Communications and
Electronics – ICCE, Hoi an: IEEE, pp. 235 - 239.
[13]. Janin A., Andreas Stolcke, Xavier Anguera, Kofi Boakye, Özgür Çetin Joe Frankel,
Jing Zheng (2006), "Machine Learning for Multimodal Interaction", The ICSI-SRI
Spring 2006 meeting recognition system, Lecture Notes in Computer Science, pp. 444-
456.
[14]. Jonas G., Kevin K., Quoc Bao N., Van Huy N., Florian M., Zaid A. W., Alex W.
(2013), “Models of tone for tonal and non-tonal languages”, .Automatic Speech
Recognition and Understanding (ASRU), IEEE, Czech republic.
[15]. Juang B. H., Rabiner L. R. (1991), "Hidden Markov Models for Speech Recognition"
Technometrics, pp. 251-272.
[16]. Jurafsky Daniel, Martin James H. (2008), Speech and Language Processing - 2nd
Edition, Prentice Hall, ISBN-13: 978-0131873216, ISBN-10: 0131873210.
[17]. Kevin K., Heck M. Muller, Markus Sperber, Matthias Stuker, Sebastian, Waibe, Alex
(2014), "The 2014 KIT IWSLT Speech-to-Text Systems for English, German and
Italian", The International Workshop on Spoken Language Translation (IWSLT), Lake
Tahoe, USA.
[18]. Khang Bach Hung (2004), Vietnamese speech synthesis and recognition, Institute of
Information and Technology, Ha noi.
[19]. Qian Y. Soong Frank K. (2009), "A Multi-Space Distribution (MSD) and two-stream
tone modeling approach to Mandarin speech recognition", Speech Communication,
Beijing China, pp. 1169 - 1179.
12
[20]. Quoc Cuong Nguyen, Yen Pham Thi Ngoc, Castelli E. (2001) "Shape vector
characterization of Vietnamese tones and application to automatic recognition",
Automatic Speech Recognition and Understanding - ASRU. Italy, pp. 437 - 440.
[21]. Sethserey Sam, Eric Castelli, Laurent Besacier (2010), "Unsupervised acoustic model
adaptation for multi-origin non native." INTERSPEECH, Japan.
[22]. Shen Peng, Lu Xugang, Hu Xinhui, Kanda Naoyuki, Saiko Masahiro, Hori Chiori
(2014), "The NICT ASR System for IWSLT 2014", The International Workshop on
Spoken Language Translation (IWSLT), Lake Tahoe, USA.
[23]. Snack (2004) http://www.speech.kth.se/snack/.
[24]. Tebelskis Joe (1995), Speech Recognition using Neural Networks. USA: Carnegie
Mellon University.
[25]. Tokuda K., Masuko Takashi, Miyazaki Noboru, Kobayashi, Takao (1999), "Hidden
Markov models based on multi-space probability distribution for pitch pattern
modeling", Acoustics, Speech, and Signal Processing (ICASSP). Phoenix, USA, pp.
229-232.
[26]. Tuan Nguyen, Hai Quan Vu (2009), "Advances in Acoustic Modeling for Vietnamese
LVCSR", Asian Language Processing. Singapore, pp. 280 - 284.
[27]. Thang Vu Tat, Tang Khanh Nguyen, Le Son Hai, Luong Mai Chi (2008), "Vietnamese
tone recognition based on multi-layer perceptron network", Conference of Oriental
Chapter of the International Coordinating Committee on Speech Database and Speech
I/O System. Kyoto, pp. 253–256.
[28]. Thang Vu Ngoc (2014), Automatic Speech Recognition for Low-resource Languages
and Accents Using Multilingual and Crosslingual Information, PhD Thesis,
Karlsruher Instituts of Technologie - KIT.
[29]. Van Huy N., Chi Mai L., Tat Thang V. (2015), "Tonal phoneme based model for
Vietnamese LVCSR", Conference of the Oriental chapter of the International
Coordinating Committee on Speech Databases and Speech I/O Systems and
Assessment (OCOCOSDA). Shanghai-China.
[30]. Vesely K., Karafiat M., Grezl F. (2011), "Convolutive Bottleneck Network features
for LVCSR", Automatic Speech Recognition & Understanding – ASRU, Waikoloa, pp.
42-47.
[31]. Vu Ngoc Thang, Schultz Tanja (2009), "Vietnamese Large Vocabulary Continuous
Speech Recognition", Automatic Speech Recognition & Understanding – ASRU,
Merano, pp. 333 - 338.
[32]. Vu Thang Tat, Nguyen Dung Tien, Luong Mai Chi, Hosom John Paul (2005),
"Vietnamese large vocabulary continuous speech recognition", INTERSPEECH.
Lisbon, pp. 1172-1175.