i h c k thu - tnu.edu.vn · nông minh ngọc Đh thái nguyên cm ... 5 cv cross validation...

22
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HC KTHUT CÔNG NGHIP BÁO CÁO TÓM TT ĐỀ TÀI KHOA HC VÀ CÔNG NGHCẤP ĐẠI HC NGHIÊN CỨU MÔ HÌNH THANH ĐIỆU CHO NHN DNG TING NÓI TING VIT TVNG LN PHÁT ÂM LIÊN TC Mã s: ĐH2015-TN02-08 Chnhiệm đề tài: TS. Nguyễn Văn Huy Thái Nguyên, 08/2017

Upload: donhu

Post on 29-Jul-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: I H C K THU - tnu.edu.vn · Nông Minh Ngọc ĐH Thái Nguyên CM ... 5 CV Cross Validation Accuracy 26 NCC ... Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHIỆP

BÁO CÁO TÓM TẮT

ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC

NGHIÊN CỨU MÔ HÌNH THANH ĐIỆU CHO NHẬN DẠNG

TIẾNG NÓI TIẾNG VIỆT TỪ VỰNG LỚN PHÁT ÂM LIÊN TỤC

Mã số: ĐH2015-TN02-08

Chủ nhiệm đề tài: TS. Nguyễn Văn Huy

Thái Nguyên, 08/2017

Page 2: I H C K THU - tnu.edu.vn · Nông Minh Ngọc ĐH Thái Nguyên CM ... 5 CV Cross Validation Accuracy 26 NCC ... Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHIỆP

BÁO CÁO TÓM TẮT

ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC

NGHIÊN CỨU MÔ HÌNH THANH ĐIỆU CHO NHẬN DẠNG

TIẾNG NÓI TIẾNG VIỆT TỪ VỰNG LỚN PHÁT ÂM LIÊN TỤC

Mã số: ĐH2015-TN02-08

Xác nhận của tổ chức chủ trì Chủ nhiệm đề tài

KT. HIỆU TRƯỞNG

PHÓ HIỆU TRƯỞNG

PGS.TS. Vũ Ngọc Pi Nguyễn Văn Huy

Thái Nguyên, 08/2017

Page 3: I H C K THU - tnu.edu.vn · Nông Minh Ngọc ĐH Thái Nguyên CM ... 5 CV Cross Validation Accuracy 26 NCC ... Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme

i

DANH SÁCH THÀNH VIÊN THAM GIA NGHIÊN CỨU

VÀ ĐƠN VỊ PHỐI HỢP CHÍNH

1. Danh sách thành viên

TT Họ và tên Đơn vị công tác và

lĩnh vực chuyên môn

Nội dung nghiên cứu cụ

thể đƣợc giao

1 ThS. Nguyễn Văn Huy

ĐH Kỹ thuật Công

Nghiệp

CM: Công nghệ thông tin

Nghiên cứu lý thuyết, lập

trình, mô phỏng

2 ThS. Phạm Ngọc Phƣơng ĐH Thái Nguyên

CM: Công nghệ thông tin

Nghiên cứu lý thuyết, mô

phỏng

3 PGS.TS Lƣơng Chi Mai Viện Công nghệ thông tin

CM : Toán ứng dụng Nghiên cứu lý thuyết

4 TS. Vũ Tất Thắng Viện Công nghệ thông tin

CM : Điện tử viễn thông Nghiên cứu lý thuyết

5 ThS. Nông Minh Ngọc

ĐH Thái Nguyên

CM : Công nghệ Thông

tin

Nghiên cứu lý thuyết

2. Danh sách đơn vị phối hợp chính

TT Tên đơn vị

trong và ngoài nƣớc

Nội dung phối hợp nghiên

cứu

Họ và tên ngƣời đại

diện đơn vị

1

Bộ môn Tin học công

nghiệp, Khoa Điện tử, ĐH

Kỹ thuật Công nghiệp Thái

Nguyên

Nghiên cứu lý thuyết, lập

trình, mô phỏng

Trƣởng BM: Vũ Việt

2

Phòng Công nghệ ngôn ngữ

và truyền thông đa phƣơng

tiện – Viện Công nghệ thông

tin – Viện Khoa học công

nghệ.

Nghiên cứu lý thuyết, cung

cấp thiết bị thí nghiệm

Viện trƣởng: PGS. TS.

Thái Quang Vinh

Trƣởng Phòng : TS. Vũ

Tất Thắng

Page 4: I H C K THU - tnu.edu.vn · Nông Minh Ngọc ĐH Thái Nguyên CM ... 5 CV Cross Validation Accuracy 26 NCC ... Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme

ii

Mục Lục

DANH MỤC BẢNG BIỂU ............................................................................................................. III

DANH MỤC HÌNH ẢNH ............................................................................................................... III

Danh mục các từ viết tắt ................................................................................................................... IV

THÔNG TIN KẾT QUẢ NGHIÊN CỨU .......................................................................................... V

MỞ ĐẦU…………………………………………………………………………………………….1

CHƢƠNG 1.TÍNH CẤP THIẾT VÀ MỤC TIÊU NGHIÊN CỨU CỦA ĐỀ TÀI ........................... 2

1.1. Tổng quan về nhận dạng tiếng nói .......................................................................................... 2

1.2. Các thành phần chính của một hệ thống nhận dạng tiếng nói ................................................. 2

1.3. Nhận dạng tiếng Việt và các nghiên cứu hiện nay .................................................................. 2

1.4. Kết luận, các nội dung và phạm vi nghiên cứu chính của đề tài ............................................. 2

CHƢƠNG 2.MÔ HÌNH THANH ĐIỆU CHO NHẬN DẠNG TIẾNG VIỆT TỪ VỰNG LỚN

PHÁT ÂM LIÊN TỤC ....................................................................................................................... 3

2.1. Tổng quan về tiếng Việt .......................................................................................................... 3

2.2. Mô hình nhận dạng tiếng Việt từ vựng lớn ............................................................................. 3

2.3. Mô hình nhận dạng tiếng Việt từ vựng lớn có thông tin thanh điệu ....................................... 3

2.4. Thuật toán tạo từ điển ngữ âm tự động có thanh điệu cho tiếng Việt (VN-G2P) ................... 3

2.5. Dữ liệu thử nghiệm ................................................................................................................. 4

2.6. Hệ thống nhận dạng cơ sở (Baseline) ..................................................................................... 4

2.7. Thử nghiệm mô hình có thanh điệu do đề tài đề xuất ............................................................. 4

2.8. Kết luận chƣơng ...................................................................................................................... 4

CHƢƠNG 3.ÁP DỤNG MÔ HÌNH MSD-HMM MÔ HÌNH HÓA ĐẶC TRƢNG THANH ĐIỆU

ĐỨT GÃY…………………………………………………………..……………….........................5

3.1. Đặc trƣng thanh điệu và vấn đề không liên tục của dữ liệu .................................................... 5

3.2. Tổng quan về mô hình MSD-HMM ........................................................................................ 5

3.3. Phƣơng pháp Chuẩn hóa đặc trƣng AMDF và NCC cho mô hình MSD-HMM ..................... 5

3.4. Áp dụng mô hình MSD-HMM cho nhận dạng tiếng Việt có thanh điệu ................................ 5

3.5. Cài đặt thử nghiệm và kết quả ................................................................................................. 6

3.6. Kết luận chƣơng ...................................................................................................................... 6

CHƢƠNG 4.TĂNG CƢỜNG ĐẶC TRƢNG ÂM HỌC VÀ THANH ĐIỆU SỬ DỤNG MẠNG

NƠRON CHO MÔ HÌNH MSD-HMM ............................................................................................. 7

4.1. Tính toán đặc trƣngBottleneck sử dụng mạng MLP ............................................................... 7

4.2. Cài đặt thử nghiệm ............................................................................................................. 7

4.3. Trích chọn đặc trƣng thanh điệu sử dụng mạng nơron ........................................................... 7

4.4. Cải tiến đặc trƣng TBNF cho mô hình MSD-HMM .......................................................... 8

4.5. Mô hình tích hợp BNF, TBNF-MSD và MSD-HMM ....................................................... 8

4.6. Kết luận chƣơng ................................................................................................................. 9

KẾT LUẬN CHUNG ……………………………………………………………………………..10

TÀI LIỆU THAM KHẢO ................................................................................................................ 11

Page 5: I H C K THU - tnu.edu.vn · Nông Minh Ngọc ĐH Thái Nguyên CM ... 5 CV Cross Validation Accuracy 26 NCC ... Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme

iii

DANH MỤC BẢNG BIỂU

Bảng 2-5: Dữ liệu huấn luyện ................................................................................................ 4

Bảng 2-6: Dữ liệu thử nghiệm ............................................................................................... 4

Bảng 2-7: Kết quả nhận dạng của hệ thống cơ sở ..................................................................... 4

Bảng 2-8: Kết quả thử nghiệm mô hình thanh điệu ................................................................... 4

Bảng 2-9: Kết quả thử nghiệm mô hình thanh điệu với Kaldi .................................................... 4

Bảng 3-1: Kết quả thử nghiệm Pitch và MFCC/PLP với HMM.................................................. 6

Bảng 3-2: Kết quả thử nghiệm mô hình MSD-HMM ................................................................ 6

Bảng 4-1: Kết quả thử nghiệm đặc trƣng BNF ......................................................................... 7

Bảng 4-3: Kết quả thử nghiệm MSD-HMM với đặc trƣng BNF13+TBNF-MSD3 .......................... 9

DANH MỤC HÌNH ẢNH

Hình 1-1: Sơ đồ khối tổng quan của một hệ thống nhận dạng tiếng nói ....................................... 2

Hình 4-7: Mô hình MSD-HMM cho đặc trƣng kết hợp BNF13+TBNF-MSD3 .............................. 8

Page 6: I H C K THU - tnu.edu.vn · Nông Minh Ngọc ĐH Thái Nguyên CM ... 5 CV Cross Validation Accuracy 26 NCC ... Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme

iv

Danh mục các từ viết tắt

TT Viết tắt Nghĩa TT

1 ACC Accuracy 22 MFCC Mel Frequency Cepstral

Coefficients

2 AMDF Average Magnitude

Difference Function 23 MLLT

Maximum Likelihood

Linear Transform

3 BN Bottleneck 24 MLP Multilayer Perceptron

4 BNF Bottleneck Feature 25 MSD Multispace Distribution

5 CV Cross Validation

Accuracy 26 NCC

Normalized Cross-

Correlation

6 DCT Discrete cosine transform 27 NN Neural Network

7 DFT Discrete Fourier

transform 28 NoTone No tone

8 DNN Deep Neural Network 29 P Pitch

9 F0 Fundamental Frequency 30 PLP Perceptual Linear

Prediction

10 FST Finite-State Transducer 31 T1 Tone 1

11 G2P Grapheme to Phoneme 32 T2 Tone 2

12 GMM Gaussian Mixture Model 33 T3 Tone 3

13 GPU Graphical processing unit 34 T4 Tone 4

14 HMM Hidden Markov Model 35 T5 Tone 5

15 HTK Hidden Markov Model

Toolkit 36 T6 Tone 6

16 HTS HMM-based Speech

Synthesis System 37 TBNF Tonal Bottleneck Feature

17 IDFT Invert Discrete Fourier

transform 38 VN-G2P

Vietnamese Grapheme to

Phoneme

18 IOIT2013 Institute Of Information

and Technology 2013 39 VoiceTra Voice Translation

19 IPA International Phonetic

Alphabet 40 VOV Voice Of Vietnam

20 LDA Linear Discriminant

Analysis 41 WER Word Error Rate

21 LM Language Model 42 Δ Delta

Page 7: I H C K THU - tnu.edu.vn · Nông Minh Ngọc ĐH Thái Nguyên CM ... 5 CV Cross Validation Accuracy 26 NCC ... Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme

v

ĐẠI HỌC THÁI NGUYÊN

Đơn vị: Trƣờng ĐH KTCN

THÔNG TIN KẾT QUẢ NGHIÊN CỨU

1. Thông tin chung:

- Tên đề tài: Nghiên cứu mô hình thanh điệu cho nhận dạng tiếng nói tiếng Việt từ vựng

lớn phát âm liên tục

- Mã số: ĐH2015-TN02-08

- Chủ nhiệm đề tài: Nguyễn Văn Huy

- Tổ chức chủ trì: Trƣờng ĐH Kỹ thuật Công nghiệp, Thái Nguyên

- Thời gian thực hiện: 01/2015-06/2017

2. Mục tiêu:

- Nghiên cứu xây dựng mô hình nhận dạng cho thanh điệu tiếng Việt.

- Phát triển và cài đặt giải pháp nhận dạng tiếng nói tiếng Việt liên tục với lƣợng từ vựng

lớn có tích hợp mô hình thanh điệu.

3. Tính mới và sáng tạo:

- Áp dụng mô hình phân bố đa không gian MSD cho nhận dạng tiếng Việt.

- Cải tiến phƣơng pháp tính toán đặc trƣng thanh điệu và đặc trƣng âm học sử dụng mạng

nơron cho mô hình MSD.

4. Kết quả nghiên cứu:

Đã đề xuất kiến trúc hệ thống nhận dạng tiếng Việt liên tục từ vựng lớn có thể tích hợp

thông tin thanh điệu, trong đó:

1) Đề xuất phƣơng pháp áp dụng mô hình MSD-HMM để mô hình hóa tập âm vị

tiếng Việt có thông tin thanh điệu dựa trên đặc trƣng thanh điệu đầu vào vẫn giữ

nguyên đặc tính đứt gãy của nó.

2) Đề xuất phƣơng pháp cải tiến đặc trƣng thanh điệu mới (TBNF) sử dụng mạng

nơron MLP để biểu diễn đúng đặc tính đứt gãy của đặc trƣng thanh điệu và tƣơng

thích với mô hình MSD-HMM.

3) Đề xuất mô hình kết hợp giữa MSD-HMM với đặc trƣng BNF và đặc trƣng thanh

điệu TBNF cho nhận dạng tiếng Việt.

4) Đề xuất giải thuật tạo từ điển ngữ âm có thông tin thanh điệu tự động cho tập dữ

liệu đầu vào tiếng Việt bất kỳ.

5. Sản phẩm:

5.1. Sản phẩm Khoa học:

- 02 bài báo trong tạp chí Khoa học và Công nghệ ĐHTN.

Nguyễn Văn Huy (2015), “Nâng cao chất lƣợng đặc trƣng bottle neck cho nhận dạng

tiếng Việt”, Tạp chí Khoa học và Công nghệ Đại học Thái Nguyên, 137(07), tr. 19-

25.

Nguyễn Văn Huy (2015), “Đặc trƣng thanh điệu dựa trên mạng nơron trong nhận

dạng tiếng nói tiếng Việt sử dụng mô hình phân bố đa không gian”, Tạp chí Khoa

học và Công nghệ Đại học Thái Nguyên, 139(09), tr. 229-236.

Page 8: I H C K THU - tnu.edu.vn · Nông Minh Ngọc ĐH Thái Nguyên CM ... 5 CV Cross Validation Accuracy 26 NCC ... Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme

vi

- 03 bài báo trong các kỷ yếu hội nghị quốc tế.

Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme based

model for Vietnamese LVCSR”, IEEE Conference of the Oriental chapter of the

International Coordinating Committee on Speech Databases and Speech I/O Systems

and Assessment (OCOCOSDA), Shanghai-China, Oct-2015.

Van Huy Nguyen, Quoc Bao Nguyen, Tat Thang Vu, Chi Mai Luong (2015), “The

IOIT English ASR system for IWSLT 2015”, International Workshop on Spoken

Language Translation (IWSLT), Da Nang, Vietnam, Dec-2015.

Van Huy Nguyen, Quoc Bao Nguyen, Chi Mai Luong, Tat Thang Vu (2016),

“Vietnamese LVCSR Development and Improvement”, Human-Agent Interaction

(HAI), Oct-2016, Singapore.

5.2. Sản phẩm ứng dụng:

- 01 phần mềm nhận dạng tiếng nói tiếng Việt

5.3. Sản phẩm khác: Nội dung đề tài là một phần trong luận án Tiến sĩ cùng tên của Chủ nhiệm đề

tài.

Tên luận án: Nghiên cứu mô hình thanh điệu trong nhận dạng Tiếng Việt từ vựng lớn

phát âm liên tục.

Nghiên cứu sinh: Nguyễn Văn Huy (chủ nhiệm đề tài).

Ngày bảo vệ cấp Học viện: Ngày 03/11/2016.

6. Phƣơng thức chuyển giao, địa chỉ ứng dụng, tác động và lợi ích mang lại của kết quả

nghiên cứu:

- Phƣơng thức chuyển giao: Đào tạo và chuyển giao các thuật toán và mô hình của đề tài.

- Địa chỉ ứng dụng: Phòng thí nghiệm BM Tin Học Công nghiệp – Trƣờng ĐH Kỹ thuật

Công Nghiệp, các công ty hoặc viện nghiên cứu phát triển phần mềm nhận dạng và dịch

tiếng nói tự động.

- Tác động và lợi ích: Cung cấp cho cộng đồng nghiên cứu quốc tế các thông tin và

phƣơng pháp đánh giá khoa học khi nghiên cứu về nhận dạng tiếng nói Tiếng Việt nói

riêng và các tiếng nói có thanh điệu nói chung về ý nghĩa của mô hình MSD và Phƣơng

pháp tôi ƣu mô hình này.

Ngày 06 tháng 6 năm 2017

Tổ chức chủ trì

KT. HIỆU TRƢỞNG

PHÓ HIỆU TRƢỞNG

PGS.TS. Vũ Ngọc Pi

Chủ nhiệm đề tài

Nguyễn Văn Huy

Page 9: I H C K THU - tnu.edu.vn · Nông Minh Ngọc ĐH Thái Nguyên CM ... 5 CV Cross Validation Accuracy 26 NCC ... Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme

vii

INFORMATION ON RESEARCH RESULTS

1. General information:

- Project title: Study on the tonal model for Vietnamese large vocabulary and continuous

speech recognition.

- Code number:ĐH2015-TN02-08.

- Coordinator: Nguyen Van Huy.

- Implementing institution: Thai Nguyen University of technology.

- Duration: from 01/2015 to06/2017.

2. Objective(s):

- Researching on tone model for Vietnamese speech recognition.

- Researching and developing a Vietnamese larger vocabulary and continuous speech

recognition (LVCSR) integrated tone model.

3. Creativeness and innovativeness:

- Proposed an approach of Multi-Space Probability Distribution HMM (MSD-HMM) for

modeling Vietnamese tones

- Addapted tonal and acoustic features which were extracted based on neural networks to

MSD-HMM for Vietnamese LVCSR.

4. Research results:

Proposed a new model architecture for Vietnamese large vocabulary and continuous speech

recognition that could be integrated tone recognition. In which:

1) Proposed an approach to model Vietnamese toneme by applying the Multi Space

Distribution Hidden Markov Model (MSD-HMM) that can model the real attribute for a

pitch feature.

2) Proposed a new method to extract a new tonal bottleneck feature based on the bottleneck

feature. This new tonal feature is adapted to the MSD-HMM model for Vietnamese speech

recognition.

3) Proposed a tonal combination model of BNF, TBNF, and MSD-HMM for Vietnamese large

vocabulary and continuous speech recognition.

4) Proposed an algorithm to convert any Vietnamese word in grapheme to toneme-based

pronunciation (Grapheme to Phoneme converter). This can be applied to produce a

Vietnamese lexicon including tone information.

5. Products:

5.1. Scientific Products

- 02 national journal papers:

o Nguyen Van Huy (2015), “Improving bottle neck for Vietnamese speech recognition”,

Jounal of Science and Technology Thai Nguyen University, 137(07), pp. 19-25.

o Nguyen Van Huy (2015), “Neural network-based tonal feature for vietnamese speech

recognition using multi space distribution model”, Jounal of Science and Technology

Thai Nguyen University, 139(09), pp. 229-236.

- 03 International conference papers

o Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme based

model for Vietnamese LVCSR”, IEEE Conference of the Oriental chapter of the

International Coordinating Committee on Speech Databases and Speech I/O Systems

and Assessment (OCOCOSDA), Shanghai-China, Oct-2015.

Page 10: I H C K THU - tnu.edu.vn · Nông Minh Ngọc ĐH Thái Nguyên CM ... 5 CV Cross Validation Accuracy 26 NCC ... Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme

viii

o Van Huy Nguyen, Quoc Bao Nguyen, Tat Thang Vu, Chi Mai Luong (2015), “The

IOIT English ASR system for IWSLT 2015”, International Workshop on Spoken

Language Translation (IWSLT), Da Nang, Vietnam, Dec-2015.

o Van Huy Nguyen, Quoc Bao Nguyen, Chi Mai Luong, Tat Thang Vu (2016),

“Vietnamese LVCSR Development and Improvement”, Human-Agent Interaction

(HAI), Oct-2016, Singapore.

5.2. Application products

o 01 Vienamese speech recognition software

5.3. Orther Products: This work is a part of the Coordinator’s Doctoral dissertation which is in

the same title.

o Dissertation title: Research on tonal model for Vietnamese lager vocabulary

continuous speech recognition.

o PhD Student: Nguyen Van Huy (Coordinator)

o Defensive day: 03/11/2016

6. Transfer alternatives, application institutions, impacts and benefits of research results:

- Transfer alternatives: Training

- Application institutions: Industtral Information Lab – TNUT, Institutions and researchers

who are studing on speech recognition and speech translation.

- Impacts and benefits of research results: Proposed an approach of MSD model for Vietnamse

speech recognition. Based on this result it can be applied for other tonal languages.

Page 11: I H C K THU - tnu.edu.vn · Nông Minh Ngọc ĐH Thái Nguyên CM ... 5 CV Cross Validation Accuracy 26 NCC ... Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme

1

MỞ ĐẦU

Tiếng Việt là một ngôn ngữ có thanh điệu, vì thế ngoài những khó khăn gặp phải tương tự

như việc nhận dạng các ngôn ngữ không có thanh điệu khác (Anh, pháp,…), nhận dạng tiếng Việt

còn phải nghiên cứu vấn đề nhận dạng thanh điệu. Tiếng Việt có sáu thanh điệu, một cách tổng

quát có thể coi như mỗi âm tiết sẽ có thể có sáu ý nghĩa khác nhau khi ghép tương ứng với sáu

thanh điệu đó. Việc nhận dạng thanh điệu là một công việc khó do thanh điệu chỉ tồn tại ở vùng âm

hữu thanh. Vì thế đường đặc tính của nó không liên tục khi chuyển tiếp giữa hai vùng hữu thanh và

vô thanh. Từ các lý do cấp thiết này tôi đã chọn đề tài “Nghiên cứu mô hình thanh điệu trong

nhận dạng tiếng Việt từ vựng lớn phát âm liên tục”. Với mục tiêu chính là nghiên cứu mô hình

nhận dạng tiếng Việt có tích hợp thông tin thanh điệu.

Nội dung chính của đề tài được trình bày thành 4 chương với nội dung như sau:

- Chương 1: Giới thiệu tổng quan về nhận dạng tiếng nói và ứng dụng. Cấu trúc tổng

quan của một hệ thống nhận dạng tiếng nói cơ bản. Tình hình nghiên cứu tổng quan

nhận dạng tiếng Việt. Giới thiệu các mục tiêu và phạm vi nghiên cứu chính của đề tài.

- Chương 2: Trình bày tổng quan về cấu trúc ngữ âm tiếng Việt. Mô hình nhận dạng

tiếng Việt từ vựng lớn phát âm liên tục có thanh điệu.

- Chương 3: Trình bày mô hình thanh điệu cho nhận dạng tiếng Việt từ vựng lớn phát

âm liên tục sử dụng MSD-HMM. Bao gồm quy trình tính toán đặc trưng thanh điệu

tương thích với MSD, cấu hình mô hình và huấn luyện.

- Chương 4: Trình bày phương pháp tăng cường đặc trưng âm học sử dụng mạng nơron

cho nhận dạng tiếng Việt, phương pháp tăng cường đặc trưng thanh điệu với đặc trưng

cải tiến Tonal-Bottleneck sử dụng mạng nơron. Mô hình đề xuất tích hợp gồm MSD-

HMM với Bottleneck.

Page 12: I H C K THU - tnu.edu.vn · Nông Minh Ngọc ĐH Thái Nguyên CM ... 5 CV Cross Validation Accuracy 26 NCC ... Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme

2

CHƢƠNG 1. TÍNH CẤP THIẾT VÀ MỤC TIÊU NGHIÊN CỨU

CỦA ĐỀ TÀI

1.1. Tổng quan về nhận dạng tiếng nói

Nhận dạng tiếng nói

Công thức (1.1)[16] mô tả mô hình toán học của một hệ thống nhận dạng tiếng nói theo nguyên

lý xác suất của Bayes.

( | )

( | ) ( )

( )

(1.1)

Ứng dụng

Một số ứng dụng như hệ thống dịch tiếng nói tự động, giao tiếp robot, tóm tắt tiếng nói,…

Các vấn đề trong nhận dạng tiếng nói

Vấn đề phụ thuộc người nói; Vấn đề về tốc độ phát âm, hiện tượng đồng phát âm; Vấn đề về

kích thước của bộ từ vựng (từ điển); Vấn đề nhiễu; Vấn đề về ngôn ngữ;

1.2. Các thành phần chính của một hệ thống nhận dạng tiếng nói

Hình 1-1: Sơ đồ khối tổng quan của một hệ thống nhận dạng tiếng nói

1.3. Nhận dạng tiếng Việt và các nghiên cứu hiện nay

Hầu hết các nghiên cứu đã công bố đều sử dụng mô hình HMM/DNN truyền thống.

1.4. Kết luận, các nội dung và phạm vi nghiên cứu chính của đề tài

Từ các vấn đề thực tế trên dẫn đến đề tài sẽ tập trung nghiên cứu một số nội dung chính

như sau:Nghiên cứu áp dụng mô hình MSD-HMM, phương pháp tăng cường đặc trưng.

Phạm vị nghiên cứu của đề tài: Đối tượng nghiên cứu của đề tài là tiếng nói phát âm liên tục;

Kích thước từ vựng là không giới hạn (từ vựng lớn); Giọng Bắc.

Văn bản(W)

Trích chọn đặc trưng

Mô hình âm học P(O|W)

Mô hình ngôn ngữP(W)

Giải mã (Decoder)

Tín hiệu tiếng nói(speech)

Từ điển ngữ âm

Page 13: I H C K THU - tnu.edu.vn · Nông Minh Ngọc ĐH Thái Nguyên CM ... 5 CV Cross Validation Accuracy 26 NCC ... Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme

3

CHƢƠNG 2. MÔ HÌNH THANH ĐIỆU CHO NHẬN DẠNG TIẾNG VIỆT TỪ

VỰNG LỚN PHÁT ÂM LIÊN TỤC

2.1. Tổng quan về tiếng Việt

a) Âm tiết tiếng Việt có tính độc lập cao

b) Âm tiết tiếng Việt có khả năng biểu hiện ý nghĩa

c) Âm tiết tiếng Việt có cấu trúc chặt chẽ

2.1.1. Âm vị tiếng Việt

Dựa theo cấu trúc của âm tiết tiếng Việt thì hệ thống âm vị của tiếng Việt bao gồm 21 âm

đầu, 1 âm đệm, 16 âm chính và 8 âm cuối[1].

2.1.2. Thanh điệu tiếng Việt

Về mặt hình thức nếu không xét đến sự biến đổi thanh điệu trên các phụ âm dừng ở cuối

âm tiết thì tiếng Việt có 6 thanh điệu Error! Reference source not found..Đối với các âm tiết kết

thúc bởi các các phụ âm đóng “p, k, t” thì các âm tiết này có xu thế kết thúc nhanh hơn so với các

âm tiết khác, chính vì thế hai thanh sắc và thanh nặng (trong tiếng Việt chỉ có hai thanh này tồn tại

với các âm tiết kết thúc bằng các phụ âm đóng “p, k, t”) cũng có xu hướng kết thúc nhanh hơn khi

đi cùng với các âm tiết khác. Trong trường hợp này có thể coi tiếng Việt có 8 thanh điệuError!

Reference source not found..

2.2. Mô hình nhận dạng tiếng Việt từ vựng lớn

Mô hình xác suất để đoán nhận vector đặc trưng đầu vào tại thời điểm k,xk(hoặc một chuỗi

vector xk) là được xác định theo công thức (2.1).

( | ) ∑ ( | ) ( | )

( )

Trong phạm viđề tài này bộ âm vị được sử dụng làm bộ đơn vị nhận dạng của hệ thống gồm có

45 âm vị (không tính âm câm) như đã liệt kê ở Error! Reference source not found..Với cách tiếp cận

này hệ thong nhận dạng sẽ độc lập với bộ từ vựng của ngôn ngữ.

2.3. Mô hình nhận dạng tiếng Việt từ vựng lớn có thông tin thanh điệu

Phương pháp tích hợp thêm thông tin thanh điệu vào bộ âm vị và sử dụng bộ âm vị có

thanh điệu này ( )làm đơn vị nhận dạng của hệ thống, với được xây dựng từ bằng cách thêm

thông tin thanh điệu của âm tiết vào âm chính như sau:

{* + * + * + * +} ( )

{* + * + * + * + * +} ( )

2.4. Thuật toán tạo từ điển ngữ âm tự động có thanh điệu cho tiếng Việt (VN-G2P)

Đầu vào: T (Văn bản tiếng Việt).

Đầu ra: Từ điển ngữ âm của bộ từ vựng trích ra từ văn bản đầu vào.

Page 14: I H C K THU - tnu.edu.vn · Nông Minh Ngọc ĐH Thái Nguyên CM ... 5 CV Cross Validation Accuracy 26 NCC ... Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme

4

2.5. Dữ liệu thử nghiệm

2.5.1. Dữ liệu huấn luyện (Training)

Bảng 2-1: Dữ liệu huấn luyện

Tên Kích thƣớc

theo giờ

Số ngƣời

nói

Số lƣợng

câu

Số từ có

thanh điệu Từ vựng Chủ đề

VOV 17 30 20750 3792 4908 Truyện, tin tức, phỏng vấn

IOIT2013 170 206 86000 4132 5378 Nhiều chủ đề

GlobalPhone 19.7 129 19000 3089 4200 Nhiều chủ đề

2.5.2. Dữ liệu thử nghiệm (Testing)

Bảng 2-2: Dữ liệu thử nghiệm

Tên Kích thƣớc

theo giờ

Số ngƣời

nói

Số lƣợng

câu

Số từ có

thanh điệu Chủ đề

VOV-test 2 13 2688 1907 Truyện, tin tức, phỏng vấn

VoiceTra-test 0.65 200 803 639 Nhiều chủ đề

2.5.3. Đánh giá kích thước dữ liệu

Các bộ dữ liệu mà nhóm nghiên cứu sử dụng là đủ độ lớn để có thể tiến hành các thử

nghiệm. Và trong thực tế tập dữ liệu này cũng đã được dùng thử nghiệm trong một số các nghiên

cứu trước đây như[27]thực hiện tại NhậtBản, [28]thực hiện tại Đức.

2.6. Hệ thống nhận dạng cơ sở (Baseline)

Bảng 2-3: Kết quả nhận dạng của hệ thống cơ sở

Hệ thống Đặc trƣng ACC(%)

Sys1(Baseline) MFCC 77.70

Sys2 PLP 76.77

2.7. Thử nghiệm mô hình có thanh điệu do đề tài đề xuất

Bảng 2-4: Kết quả thử nghiệm mô hình thanh điệu

TT Hệ thống Đặc trƣng Từ điển ACC (%)

1 Baseline MFCC NonTonal-Dict 77.70

2 HMM-1 PLP Tonal-Dict

77.58

3 HMM-2 MFCC 78.31(+0.61)

Bảng 2-5: Kết quả thử nghiệm mô hình thanh điệu với Kaldi

TT Hệ thống Đặc trƣng Từ điển ACC (%)

1 Kaldi-HMM-1 MFCC+P NonTonal-Dict 45.63

2 Kaldi-HMM-2 MFCC+P Tonal-Dict 47.17 (+1.54)

2.8. Kết luận chƣơng

Với mô hình âm học có thông tin thanh điệu này nhóm nghiên cứu đạt được kết quả tăng

chất lượng tương tự trên các bộ dữ liệu trong các điều kiện khác nhau như dữ liệu thu âm qua điện

thoại [14]với khoảng 5% tuyệt đối, dữ liệu lớn với nhiều chủ đề [29]với 1.54% tuyệt đối.Trong

chương này đề tài cũng đã đề xuất thuật toán tạo từ điển ngữ âm tự động VN-G2P sử dụng bộ âm

vị có thanh điệu.Thuật toán này đã được công bố ở nghiên cứu [29].

Page 15: I H C K THU - tnu.edu.vn · Nông Minh Ngọc ĐH Thái Nguyên CM ... 5 CV Cross Validation Accuracy 26 NCC ... Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme

5

CHƢƠNG 3. ÁP DỤNG MÔ HÌNH MSD-HMM MÔ HÌNH HÓA ĐẶC TRƢNG THANH

ĐIỆU ĐỨT GÃY

3.1. Đặc trƣng thanh điệu và vấn đề không liên tục của dữ liệu

Thanh điệu được tạo ra do dao động của dây thanh. Tuy nhiên dây thanh chỉ dao động đối

với các âm hữu thanh vì vậy mà trong vùng âm vô thanh không tồn tại thanh điệu. Nếu xét trong cả

một câu phát âm thì đường đặc trưngcủa thanh điệu sẽ bị đứt gãy tại các vùng vô thanh. Để có thể

mô hình hoá đặc trưng thanh điệu sử dụng mô hình HMM hoặc mạng nơron thì đặc trưng này cần

phải được áp dụng một kỹ thuật tiền xử lý trước để bổ sung các giá trị cho các vùng đứt gãy.

3.2. Tổng quan về mô hình MSD-HMM

Mô hình MSD-HMM[25]cải tiến lại mô hình HMM để nó có thể làm việc với loại đặc

trưng chứa cả hai giá trị liên tục và rời rạc bằng cách giữ nguyên các thành phần giống như mô

hình HMMvà định nghĩa lại hàm xác suất phát tán dựa trên lý thuyết về mô hình phân bố đa không

gian như công thức (3.6).

( ) ∑

( | ) (3.6)

3.3. Phƣơng pháp Chuẩn hóa đặc trƣng AMDF và NCC cho mô hình MSD-HMM

Ý tưởng chính của phương pháp này là thay thế các giá trị pitch tính được từ phương pháp

AMDF và NCC bằng giá trị “unvoiced” cho các vector thuộc vùng vô thanh. Vùng vô thanh xác

định được thông qua phương pháp so sánh ngưỡng năng lượng [16] như công thức (3.12).Giả sử tín

hiệu tiếng nói đầu vào X sau khi phân tách thành các khung rời rạc ta thu được * + trong đó

là khung tín hiệu đầu vào thứ k, với k=1,..,N (N là tổng số khung tín hiệu sau khi được phân

tách từ X).

{ ( )

unvoiced , ( ) (3.10)

{ ( )

unvoiced , ( ) (3.11)

Trong đó NCCi và AMDFi được tính theo công thức (3.7) và (3.8), và:

( ) { voice ( )

( ) (3.12)

3.4. Áp dụng mô hình MSD-HMM cho nhận dạng tiếng Việt có thanh điệu

Trong phạm vi nghiên cứu này đề tài đề xuất sử dụng mô hình MSD-HMM5trạng tháikiểu

trái phải (left-right)với nhiều hơn 1 luồng dữ liệu vào cho nhận dạng tiếng Việt với mục đích kết

hợp cả đặc trưng ngữ âm và đặc trưng thanh điệu vào một mô hình. Trong đó luồng thứ nhất dành

Page 16: I H C K THU - tnu.edu.vn · Nông Minh Ngọc ĐH Thái Nguyên CM ... 5 CV Cross Validation Accuracy 26 NCC ... Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme

6

cho đặc trưng ngữ âm (MFCC/PLP). Luồng này sử dụng một không gian số thực duy nhất có số

chiều đúng bằng kích thước của vector đầu vào (do loại đặc trưng này là liên tục). Từ luồng thứ hai

sẽ được sử dụng cho đặc trưng pitch. Ở các luồng này sẽ sử dụng hai không gian * +,

trong đó là không gian số thực có số chiều là d tương ứng với kích thước của vector đặc trưng

pitch đầu vào. chỉ có một giá trị duy nhất là nhãn “unvoiced”. Khi đó mỗi một vector đặc trưng

pitch đầu vào sẽ có hai thành phần * +, nếu xlà một số thực ( ) thì g=1 để chỉ

là giá trị pitch, nếu thì g=2 để chỉ , giá trị này thể hiện khung hiện

thời không tồn tại thanh điệu hay là vùng vô thanh.

3.5. Cài đặt thử nghiệm và kết quả

3.5.1. Thử nghiệm mô hình HMM với đặc trưng thanh điệu

Bảng 3-1: Kết quả thử nghiệm Pitch và MFCC/PLP với HMM

TT Hệ thống Đặc trƣng Từ điển ACC (%)

1 Baseline MFCC 77.70

2 HMM-3 PLP+AMDF

Tonal-Dict

74.34

3 HMM-4 MFCC+AMDF 76.10

4 HMM-5 PLP+NCC 79.09

5 HMM-6 MFCC+NCC 80.26(+2,56)

3.5.2. Thử nghiệm mô hình MSD-HMM với đặc trưng thanh điệu

Bảng 3-2: Kết quả thử nghiệm mô hình MSD-HMM

TT Hệ thống Đặc trƣng Từ điển ACC (%)

1 MSD-HMM-1 PLP+NCC_MSD

Tonal-Dict

76.47

2 MSD-HMM-2 PLP+AMDF_MSD 79.78

3 MSD-HMM-3 MFCC+NCC_MSD 77.64

4 MSD-HMM-4 MFCC+AMDF_MSD 80.37

5 MSD-HMM-5 PLP+NCC+AMDF_MSD 79.71

6 MSD-HMM-6 MFCC+NCC+AMDF_MSD 80.80

3.6. Kết luận chƣơng

Từ kết quả thí nghiệm đề tài dẫn đến các kết luận như sau:

1) Mô hình MSD-HMM có hiệu quả với ngôn ngữ tiếng Việt:

2) Đặc trưng thanh điệu dựa trên phương pháp NCC thích hợp với mô hình HMM, đặc trưng

thanh điệu dựa trên phương pháp AMDF thích hợp với mô hình MSD-HMM

Page 17: I H C K THU - tnu.edu.vn · Nông Minh Ngọc ĐH Thái Nguyên CM ... 5 CV Cross Validation Accuracy 26 NCC ... Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme

7

CHƢƠNG 4. TĂNG CƢỜNG ĐẶC TRƢNG ÂM HỌC VÀ THANH ĐIỆU SỬ DỤNG

MẠNG NƠRON CHO MÔ HÌNH MSD-HMM

4.1. Tính toánđặc trƣngBottleneck sử dụng mạng MLP

4.1.1. Tổng quan về đặc trưngBottleneck

Đề tài đề xuất cài đặt BNF cho tiếng Việt với cấu trúc mạng MLP khởi tạo năm lớp có

dạng L1-L2-L3-L4-L5. Trong đó: L1 là lớp input, kích thước của L1 phụ thuộc vào kích thước của

đặc trưng đầu vào. L2 và L4 là lớp ẩn thứ nhất và thứ ba. L3 là lớp BN. L5 là lớp ouput, kích thước

của L5 phục thuộc vào số lớp (classes) đầu ra mà mạng MLP cần phân lớp. Kích thước của L2, L3

và L4 cần được xác định thông qua các thử nghiệm để thu được cấu hình tối ưu.

4.1.2. Tính toán đặc trưng Bottleneck (BNF)

Toàn bộ dữ liệu huấn luyện sẽ được sử dụng như là đầu vào để trích chọn đặc trưng BNF.

Tín hiệu tiếng nói sau khi được phân đoạn sử dụng cửa sổ có độ dài 25ms với tốc độ 10ms sẽ được

đưa qua module phân tích để thu được đặc trưng PLP hoặc MFCC, sau đó mỗi 15 khung liên tiếp

sẽ được tổ hợp để tạo ra một vector đầu vào cho MLP, ta gọi đầu vào này là X. Như đã trình bày ở

trên tại bước trích chọn đặc trưng này chúng ta chỉ sử dụng ba lớp đầu tiên của mạng MLP (L1, L2,

L3) đã được huấn luyện để tính toán BNF. X sẽ được lan truyền thẳng từ lớp đầu vào L1 đến lớp

L3, tại đây hàm kích hoạt tuyến tính được sử dụng để tính BNF như công thức sau:

𝐵 ∑ 𝑁 + 𝐵 (4.1)

Sau khi thu được các giá trị BNFk ở lớp BN của mạng MLP, các giá trị này được chuẩn hoá

thông qua hàm trung bình và độ lệch chuẩn như công thức (4.2). Giá trị cuối cùng sau bước này sẽ

được sử dụng như đặc trưng đầu vào cho mô hình âm học.

𝐵

𝐵 (𝐵 )

(𝐵 ) (4.2)

(𝐵 )

∑𝐵

(𝐵 ) √

∑(𝐵 (𝐵 ))

4.2. Cài đặt thử nghiệm

Bảng 4-1: Kết quả thử nghiệm đặc trưng BNF

TT Hệ thống Đặc trƣng Từ điển ACC (%)

1 HMM-2 MFCC

Tonal-Dict

78.31

2 BNF-1 BNFPLP 79.33

3 BNF-2 BNFMFCC 79.56(+1.25)

4.3. Trích chọn đặc trƣng thanh điệu sử dụng mạng nơron

TBNF được tính toán theo công thức (4.5) và sau đó được áp dụng hàm chuẩn hoá như

công thức (4.6).

𝐵 ∑ 𝑓𝑎 𝑗 𝑁 +

𝐵𝑁 𝑘 … 𝐾 (4.5)

Page 18: I H C K THU - tnu.edu.vn · Nông Minh Ngọc ĐH Thái Nguyên CM ... 5 CV Cross Validation Accuracy 26 NCC ... Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme

8

Trong đó:

𝑓𝑎 𝑗 (∑ +

… )

- TBNFk là giá trị kích hoạt của nút mạng thứ k trong lớp BN, với K là kích thước của lớp BN.

- N là kích thước của lớp ẩn thứ nhất L2.

- 𝑓𝑎 𝑗là giá trị kích hoạt tại nút thứ j ở lớp ẩn thứ nhất L2.

- Hàm Sigmoid được thính toán theo công thức (4.7).

- làtrọng số của liên kết giữa nút k ở lớp L3 với nút thứ jtrong lớp L2.

- là trọng số liên kết giữa nút j ở lớp L2 với nút thứ q trong lớp đầu vào L1.

- 𝐵𝑁là hệ số Bias của nút thứ k tại lớp Bottleneck.

- là hệ số Bias của nút thứ j tại lớp L2.

- là

4.4. Cải tiến đặc trƣng TBNF cho mô hình MSD-HMM

Xét chuỗi vector đặc trưng đầu vào X={x1,..,xt,..,xT} có độ dài T. Mạng MLP sử dụng để

tính toán TBNF_MSD vẫn là mạng MLP đã được sử dụng để tính toán TBNF, nhưng cả 5 lớp của

mạng này sẽ được sử dụng chứ không phải chỉ 3 lớp mạng đầu tiên được dùng như phương pháp

tính toán TBNF. Trong phương pháp này mạng MLP được sử dụng với hai chức năng là tính

TBNF và đoán nhận một vector đầu vào xt thuộc vùng vô thanh hay không.TBNF_MSD được tính

toán như công thức (54.7).

𝐵 { 𝐵 ( ( ))

unvoiced ( ( )) (4.7)

4.5. Mô hình tích hợp BNF, TBNF-MSD và MSD-HMM

Hình 4-1: Mô hình MSD-HMM cho đặc trưng kết hợp BNF13+TBNF-MSD3

Các thử nghiệm sử dụng đặc trưng BNF, TBNF-MSD và mô hình MSD-HMM trong đề tài

này đã cho thấy đặc trưng được trích chọn bởi mạng nơron đã làm tăng đáng kể chất lượng nhận

BNF13

BNF13

TBNF3,1

unvoiced,2

2 1 3 4 5

N(BNF13) N(BNF13) N(BN13)

sw11N11(TBNF3) sw21N21(TBNF3) sw31N31(TBNF3)

sw12 sw22 sw32

Đặc trưng với 2 luồng

vào (2 streams)

Stre

am 1

St

ream

2

MSD

o1

o2

ot

Page 19: I H C K THU - tnu.edu.vn · Nông Minh Ngọc ĐH Thái Nguyên CM ... 5 CV Cross Validation Accuracy 26 NCC ... Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme

9

dạng. Mô hình MSD-HMM hoàn toàn tương thích và có hiệu quả với nhận dạng tiếng Việt trên tập

âm vị có thông tin thanh điệu. Ở thử nghiệm cuối cùng này đề tài sẽ tiến hành tích hợp tất cả các kỹ

thuật này vào một hệ thống duy nhất. Cụ thể như sau. Một hệ thống sử dụng mô hình MSD-HMM

5 trạng thái với hai luồng đầu vào,trong đó luồng thứ nhất dành cho đặc trưng BNF. Đề tài sử dụng

đặc trưng BNF13được tính toán từ đặc trưng đầu vào là MFCC, đây là loại đặc trưng được trích

chọn từ mô hình mạng MLP (ký hiệu là MFCC-4-3-13 ở) có kích thước lớp BN là 13 đã cho kết

quả nhận dạng tốt nhất ở các thử nghiệm về BNF. Luồng thứ nhất này không áp dụng mô hình

MSD do đặc trưng BNF là đặc trưng liên tục. Luồng thứ hai dành cho đặc trưng thanh điệu TBNF-

MSD3. Do TBNF-MSD3 là dữ liệu chứa cả giá trị liên tục và rời rạc nên luồng thứ hai này sẽ được

áp dụng mô hình MSD với hai không gian * +. Trong đó là không gian số thực có số chiều

là 3 tương ứng với kích thước của giá trị TBNF3. là không gian rời rạc với số chiều là 0 chỉ có

một giá trị duy nhất là “unvoiced” dành cho các giá trị “unvoiced” trong đặc trưng TBNF-MSD3.

Mô hình MSD-HMM sử dụng đặc trưng kết hợp BNF13+TBNF-MSD3này được mô tả ởHình 4-1.

Các mô mình MSD-HMM này được huấn luyện trên tập dữ liệu VOV sử dụng từ điển

Tonal-Dict theo các bước và tham số tương tự như các hệ thống MSD-HMM ở Chương 3. Kết quả

thử nghiệm trên tập VOV-Test với mô hình ngôn ngữ VOV-Bigram-LM được trình bày ởBảng 4-2.

Bảng 4-2: Kết quả thử nghiệm MSD-HMM với đặc trưng BNF13+TBNF-MSD3

TT Đặc trƣng ACC(%)

1 BNF13 84.18

2 BNF13+TBN-MSD13 84.54 (+0.36)

4.6. Kết luận chƣơng

1-Các kết quả thử nghiệm ở chương này cho thấy phương pháp đã đề xuất để việc tính toán

đặc trưng thanh điệu cho mô hình MSD-HMM sử dụng mạng nơron đã làm tăng chất lượng nhận

dạng; 2-Mô hình tích hợp BNF, TBNF với MSD-HMM đã cho chất lượng tốt nhất so với mô hình

HMM sử dụng đặc trưng MFCC/PLP+AMDF/NCC.

Page 20: I H C K THU - tnu.edu.vn · Nông Minh Ngọc ĐH Thái Nguyên CM ... 5 CV Cross Validation Accuracy 26 NCC ... Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme

10

KẾT LUẬN CHUNG

Các kết luận và thảo luận từ các kết quả thử nghiệm của đề tài

- Đặc trưng thanh điệu và tập âm vị có thông tin thanh điệu là các thành phần quan trọng ảnh

hưởng đến chất lượng của mô hình nhận dạng tiếng Việt có thanh điệu. Qua các thử nghiệm

trên bộ dữ liệu kích thước lớn cũng như trung bình và trên các bộ công cụ khác nhau là HTK

và Kaldi đều cho thấy đặc trưng thanh điệu giúp làm tăng chất lượng nhận dạng thêm khoảng

trên 3% tuyệt đối và tập âm vị có thông tin thanh điệu làm tăng chất lượng nhận dạng thêm

khoảng trên 1.5% tuyệt đối.

- Mô hình MSD-HMM có hiệu quả với tiếng Việt. Mô hình MSD-HMM có khả năng mô tả đúng

đặc tính vật lý của đặc trưng thanh điệu đó là liên tục trong vùng hữu thanh và đứt gãy trong

vùng vô thanh. Mô hình này đã giúp làm tăng chất lượng nhận dạng thêm khoảng 15%tương

đốiso với mô hình HMM truyền thống.Kết quả này tương đồng với nghiên cứu trên ngôn ngữ

Mandarin [53], [7](khoảng 17%). Như vậy việc nghiên cứu tìm ra loại mô hình có khả năng mô

hình hóa thông tin thanh điệu là một yếu tố quan trọng trong việc nâng cao chất lượng nhận

dạng cho tiếng Việt. Đồng thời cùng với kết quả nghiên cứu trên tiếng Mandarin cho thấy việc

mô hình hóa đúng bản chất đứt gãy của đặc trưng thanh điệu cho kết quả tốt hơn loại đặc trưng

được bổ sung các giá trị “nhận tạo” vào vùng vô thanh.

- Phương pháp tăng cường đặc trưng sử dụng mạng nơron có hiệu quả với tiếng Việt. Phương

pháp tính toán đặc trưng này đã giúp tăng chất lượng cho cả hai loại đặc trưng ngữ âm và đặc

trưng thanh điệu. Với đặc trưng ngữ âm BNF đã giúp tăng thêm khoảng 29% tương đối so với

hai loại đặc trưng đã có MFCC và PLP, và đặc trưng thanh điệu TBNF cải tiến mới đã giúp

tăng thêm khoảng 2% tương đối so với hai loại đặc trưng thanh điệu đã có AMDF và NCC. Cả

BNF và TBNF được trích chọn dựa theo đặc tích ngữ âm của tiếng Việt. Cụ thể BNF được tính

toán thông qua mạng nơron đã được huấn luyện để phân lớp các âm vị đã tích hợp 6 thanh điệu

tiếng Việt, TBNF sử dụng mạng nơron đã được huấn luyện để phân lớp 6 thanh điệu tiếng Việt.

- Mô hình tích hợp BNF, TBNF với MSD-HMM cho kết quả tối ưu nhất so với các mô hình

khác mà đề tài đã xây dựng. Kết quả này cho thấy mô hình MSD-HMM thực sự hiệu quả hơn

mô hình HMM khi sử dụng với đặc trưng thanh điệu đứt gãy. Các đặc trưng tăng cường BNF

và đặc trưng cải tiến TBNF đã giúp cho mô hình MSD-HMM đạt chất lượng tốt hơn so với

việc sử dụng các đặc trưng chưa tăng cường như MFCC, PLP, AMDF và NCC (tốt khoảng

19% tương đối). Như vậy việc nghiên cứu để tìm ra các mô hình tăng cường chất lượng đặc

trưng, tối ưu cho MSD-HMM là đúng đắn và rất cần thiết.

Hướng phát triển

- Đặc trưng thanh điệu TBNF hiện tại cho chất lượng tăng còn thấp, chỉ khoảng 2% tương đối.

Nên cần tiếp tục được nghiên cứu để nâng cao chất lượng. Một số kỹ thuật biến đổi đặc trưng

như LDA, MLLT có thể được áp dụng trước khi áp dụng phương pháp này để nâng cao chất

lượng.

- Trong các nghiên cứu tiếp theo thì công nghệ mạng học sâu (Deep Learning) cần được áp dụng

để nâng cao chất lượng cho đặc trưng BNF và TBNF.

Page 21: I H C K THU - tnu.edu.vn · Nông Minh Ngọc ĐH Thái Nguyên CM ... 5 CV Cross Validation Accuracy 26 NCC ... Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme

11

TÀI LIỆU THAM KHẢO

Tiếng Việt:

[1]. Mai Ngọc Chừ (1997). Cơ sở ngôn ngữ học và tiếng Việt, NXB Giáo Dục, Việt Nam.

[2]. Đặng Ngọc Đức (2003), Mạng nơron và mô hình Markov ẩn trong nhận dạng tiếng

Việt, Luận án tiến sĩ, Trường ĐH Khoa học Tự nhiên – ĐH Quốc gia Hà Nội.

Tiếng Anh:

[3]. Ambra N., Catia C., Wilhelmus S. (2003), "Automatic Speech Recognition for second

language learning: How and why it actually works." International Congress of

Phonetic Sciences (ICPhS). Barcelona.

[4]. Anastasakos T., McDonough J., Makhoul J. (1997), "Speaker adaptive training: a

maximum likelihood approach to speaker normalization." Acoustics, Speech and

Signal Processing (ICASSP). Munich, pp.1043 – 1046.

[5]. Chen C.J., Haiping Li, Liqin Shen, Guokang Fu. (2001), "Recognize tone languages

using pitch information on the main vowel of each syllable", Acoustics, Speech, and

Signal Processing (ICASSP), Salt Lake City, UT: IEEE, pp. 61-64.

[6]. Chong-Jia Ni, Wen-Ju Liu, Bo Xu (2011) "Prosody Dependent Mandarin Speech

Recognition", International Joint Conference on Neural Networks, California, USA:

IEEE, pp. 197-201.

[7]. Chuong Nguyen Thien (2014), Automatic speech recognition of Vietnamese, PhD

Thesis, Technical University of Liberec, Czech Republic.

[8]. Ferreira E., Nocera P., Goudi M. Thi N.D.D. (2012), "YAST: A Scalable ASR Toolkit

Especially Designed for Under-Resourced Languages." Asian Language Processing

(IALP). pp. 141 - 144.

[9]. Gales M., Young S. (2007), "The Application of Hidden Markov Models in Speech

Recognition", Signal Processing, pp. 195-304.

[10]. Grézl Frantisek, Fousek, Petr (2008), "Optimizing Bottel-neck features for LVCSR"

Acoustics, Speech and Signal Processing ICASSP. Las Vegas: IEEE, pp. 4729-4732.

[11]. Grézl Frantisek, Karafiát Martin, Kontár Stanislav, Cernocký Jan. (2007),

"Probabilistic and Bottle-Neck Features for LVCSR of Meetings" Acoustics, Speech,

and Signal Processing (ICASSP), Honolulu: IEEE, pp. IV-757- IV-760.

[12]. Hong Quang Nguyen, Nocera P., Castelli E., Van Loan T. (2008), "Tone recognition

of Vietnamese continuous speech using hidden Markov model", Communications and

Electronics – ICCE, Hoi an: IEEE, pp. 235 - 239.

[13]. Janin A., Andreas Stolcke, Xavier Anguera, Kofi Boakye, Özgür Çetin Joe Frankel,

Jing Zheng (2006), "Machine Learning for Multimodal Interaction", The ICSI-SRI

Spring 2006 meeting recognition system, Lecture Notes in Computer Science, pp. 444-

456.

[14]. Jonas G., Kevin K., Quoc Bao N., Van Huy N., Florian M., Zaid A. W., Alex W.

(2013), “Models of tone for tonal and non-tonal languages”, .Automatic Speech

Recognition and Understanding (ASRU), IEEE, Czech republic.

[15]. Juang B. H., Rabiner L. R. (1991), "Hidden Markov Models for Speech Recognition"

Technometrics, pp. 251-272.

[16]. Jurafsky Daniel, Martin James H. (2008), Speech and Language Processing - 2nd

Edition, Prentice Hall, ISBN-13: 978-0131873216, ISBN-10: 0131873210.

[17]. Kevin K., Heck M. Muller, Markus Sperber, Matthias Stuker, Sebastian, Waibe, Alex

(2014), "The 2014 KIT IWSLT Speech-to-Text Systems for English, German and

Italian", The International Workshop on Spoken Language Translation (IWSLT), Lake

Tahoe, USA.

[18]. Khang Bach Hung (2004), Vietnamese speech synthesis and recognition, Institute of

Information and Technology, Ha noi.

[19]. Qian Y. Soong Frank K. (2009), "A Multi-Space Distribution (MSD) and two-stream

tone modeling approach to Mandarin speech recognition", Speech Communication,

Beijing China, pp. 1169 - 1179.

Page 22: I H C K THU - tnu.edu.vn · Nông Minh Ngọc ĐH Thái Nguyên CM ... 5 CV Cross Validation Accuracy 26 NCC ... Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu (2015), “Tonal phoneme

12

[20]. Quoc Cuong Nguyen, Yen Pham Thi Ngoc, Castelli E. (2001) "Shape vector

characterization of Vietnamese tones and application to automatic recognition",

Automatic Speech Recognition and Understanding - ASRU. Italy, pp. 437 - 440.

[21]. Sethserey Sam, Eric Castelli, Laurent Besacier (2010), "Unsupervised acoustic model

adaptation for multi-origin non native." INTERSPEECH, Japan.

[22]. Shen Peng, Lu Xugang, Hu Xinhui, Kanda Naoyuki, Saiko Masahiro, Hori Chiori

(2014), "The NICT ASR System for IWSLT 2014", The International Workshop on

Spoken Language Translation (IWSLT), Lake Tahoe, USA.

[23]. Snack (2004) http://www.speech.kth.se/snack/.

[24]. Tebelskis Joe (1995), Speech Recognition using Neural Networks. USA: Carnegie

Mellon University.

[25]. Tokuda K., Masuko Takashi, Miyazaki Noboru, Kobayashi, Takao (1999), "Hidden

Markov models based on multi-space probability distribution for pitch pattern

modeling", Acoustics, Speech, and Signal Processing (ICASSP). Phoenix, USA, pp.

229-232.

[26]. Tuan Nguyen, Hai Quan Vu (2009), "Advances in Acoustic Modeling for Vietnamese

LVCSR", Asian Language Processing. Singapore, pp. 280 - 284.

[27]. Thang Vu Tat, Tang Khanh Nguyen, Le Son Hai, Luong Mai Chi (2008), "Vietnamese

tone recognition based on multi-layer perceptron network", Conference of Oriental

Chapter of the International Coordinating Committee on Speech Database and Speech

I/O System. Kyoto, pp. 253–256.

[28]. Thang Vu Ngoc (2014), Automatic Speech Recognition for Low-resource Languages

and Accents Using Multilingual and Crosslingual Information, PhD Thesis,

Karlsruher Instituts of Technologie - KIT.

[29]. Van Huy N., Chi Mai L., Tat Thang V. (2015), "Tonal phoneme based model for

Vietnamese LVCSR", Conference of the Oriental chapter of the International

Coordinating Committee on Speech Databases and Speech I/O Systems and

Assessment (OCOCOSDA). Shanghai-China.

[30]. Vesely K., Karafiat M., Grezl F. (2011), "Convolutive Bottleneck Network features

for LVCSR", Automatic Speech Recognition & Understanding – ASRU, Waikoloa, pp.

42-47.

[31]. Vu Ngoc Thang, Schultz Tanja (2009), "Vietnamese Large Vocabulary Continuous

Speech Recognition", Automatic Speech Recognition & Understanding – ASRU,

Merano, pp. 333 - 338.

[32]. Vu Thang Tat, Nguyen Dung Tien, Luong Mai Chi, Hosom John Paul (2005),

"Vietnamese large vocabulary continuous speech recognition", INTERSPEECH.

Lisbon, pp. 1172-1175.