ỘgiÁo dỤc vÀ ĐÀo tẠo ĐẠi hỌc ĐÀ...

48
BGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG KIM PI SÍCH XÂY DNG HTHNG DCH TĐỘNG VIT - KHMER TRGIÚP DBÁO THI TIT TI CÁC ĐÀI PHÁT THANH TRUYN HÌNH Chuyên ngành: KHOA HC MÁY TÍNH Mã s: 60.48.01 LUẬN VĂN THẠC SĨ KỸ THUT Người hướng dn khoa hc: PGS.TS. Phan Huy Khánh Đà Nẵng - Năm 2014

Upload: lekien

Post on 29-May-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

KIM PI SÍCH

XÂY DỰNG HỆ THỐNG DỊCH TỰ ĐỘNG VIỆT - KHMER

TRỢ GIÚP DỰ BÁO THỜI TIẾT TẠI

CÁC ĐÀI PHÁT THANH TRUYỀN HÌNH

Chuyên ngành: KHOA HỌC MÁY TÍNH

Mã số: 60.48.01

LUẬN VĂN THẠC SĨ KỸ THUẬT

Người hướng dẫn khoa học: PGS.TS. Phan Huy Khánh

Đà Nẵng - Năm 2014

Page 2: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

i

LỜI CAM ĐOAN

Tôi xin cam đoan:

1 Những nội dung trong luận văn này là do tôi thực hiện dưới

sự hướng dẫn trực tiếp của PGS.TS. Phan Huy Khánh.

2 Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ

ràng tên tác giả, tên công trình, thời gian, địa điểm công bố.

3 Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay

gian trá, tôi xin chịu hoàn toàn trách nhiệm.

Tác giả

Kim Pi Sích

Page 3: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

ii

MỤC LỤC

LỜI CAM ĐOAN ............................................................................................. i

MỤC LỤC ........................................................................................................ ii

DANH MỤC CÁC TỪ VIẾT TẮT ............................................................... vi

DANH MỤC BẢNG ...................................................................................... vii

DANH MỤC HÌNH ....................................................................................... vii

MỞ ĐẦU .......................................................................................................... 1

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT ................................................................ 6

1.1. TỔNG QUAN VỀ BÀI TOÁN DỊCH TỰ ĐỘNG ......................... 6

1.1.1. Lịch sử dịch máy .................................................................. 7

1.1.2. Vấn đề dịch tự động trong tiếng Việt ................................... 9

1.1.3. Một số phương pháp dịch máy ............................................. 9

1.1.4. Một số dịch vụ dịch máy đã có .......................................... 12

1.2. XỬ LÝ CÂU TIẾNG VIỆT .......................................................... 13

1.2.1. Tách câu ............................................................................. 13

1.2.2.Tách từ ................................................................................. 15

1.3. TÌM HIỂU TIẾNG KHMER ......................................................... 21

1.3.1. Giới thiệu dân tộc Khmer ................................................... 21

1.3.2. Lịch sử hình thành tiếng Khmer......................................... 23

Page 4: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

iii

1.3.3. Chữ viết Khmer .................................................................. 24

1.3.4. Đặc điểm ngữ âm tiếng Khmer .......................................... 28

1.3.5. Đặc điểm từ vựng tiếng Khmer .......................................... 30

1.3.6. Đặc điểm ngữ pháp tiếng Khmer ....................................... 31

1.4. NHẬN XÉT HAI NGÔN NGỮ VIỆT VÀ KHMER .................... 31

1.4.1. Những đặc điểm tương đồng .............................................. 31

1.4.2. Những nét dị biệt ................................................................ 32

1.4.3. Khả năng xây dựng một hệ thống dịch tự động ................. 34

1.5. HIỆN TRẠNG ỨNG DỤNG TIN HỌC HIỆN NAY ................... 34

1.5.1. Hiện trạng ........................................................................... 34

1.5.2. Một số kết quả hiện có ....................................................... 35

1.5.3. Nhu cầu xử lý ngôn ngữ tiếng Khmer ................................ 36

1.6. NGỮ LIỆU SONG NGỮ ............................................................... 37

1.6.1. Khái niệm ........................................................................... 37

1.6.2. Vấn đề thu thập dữ liệu song ngữ ...................................... 37

1.6.3. Công cụ xây dựng kho ngữ liệu song ngữ ......................... 38

1.6.4. Một số dữ liệu song ngữ Việt – Khmer ............................. 38

CHƯƠNG 2 GIẢI PHÁP XÂY DỰNG HỆ THỐNG DỊCH TỰ ĐỘNG

VIỆT KHMER............................................................................................... 40

2.1. PHÂN TÍCH BẢN TIN DỰ BÁO THỜI TIẾT ............................ 40

2.1.1. Phân loại các bản tin dự báo thời tiết ................................. 40

2.1.2. Phân tích các bản tin dự báo thời tiết ................................. 41

Page 5: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

iv

2.1.3. Phân tích các mẫu câu dự báo thời tiết .............................. 52

2.2. MÔ HÌNH KIẾN TRÚC HỆ THỐNG DỊCH VIỆT – KHMER ... 53

2.2.1. Mô hình kiến trúc hệ thống ................................................ 53

2.2.2. Phương pháp dịch ............................................................... 54

2.2.3. Phương tách từ ................................................................... 55

2.2.4. Dịch bản tin ........................................................................ 57

2.2.5. Dịch số và dấu câu ............................................................. 58

2.2.6. Dịch giờ, ngày tháng .......................................................... 60

2.3. XÂY DỰNG CẤU TRÚC KHO NGỮ LIỆU SONG NGỮ ......... 63

2.3.1. Tổng quan về quá trình xây dựng kho ngữ liệu ................. 63

2.2. 2. Cấu trúc kho ngữ liệu ........................................................ 64

2.2.3. Kỹ thuật chuyển đổi dữ liệu ............................................... 66

CHƯƠNG 3 TRIỂN KHAI THỬ NGHIỆM HỆ THỐNG DỊCH VIỆT –

KHMER ......................................................................................................... 68

3.1. CHỌN MÔI TRƯỜNG, CÔNG CỤ XÂY DỰNG HỆ THỐNG . 68

3.2. THU THẬP DỮ LIỆU VÀ CẬP NHẬT KHO NGỮ LIỆU SONG

NGỮ ...................................................................................................... 68

3.2.1. Chọn nguồn dữ liệu ............................................................ 68

3.2.2. Thu thập dữ liệu ................................................................. 69

3.2.3. Cập nhật dữ liệu cho kho ngữ liệu song ngữ ..................... 69

3.3. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ................................ 87

3.3.1. Giao diện hệ thống ............................................................. 87

Page 6: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

v

3.3.2. Kịch bản sử dụng hệ thống và thử nghiệm ........................ 88

3.3.3. Phương pháp đánh giá chất lượng hệ dịch ......................... 89

3.3.4. So sánh bản dịch thủ công và đánh giá kết quả ................. 92

KẾT LUẬN .................................................................................................... 97

TÀI LIỆU THAM KHẢO ............................................................................ 98

PHỤ LỤC

Page 7: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

vi

DANH MỤC CÁC TỪ VIẾT TẮT

XLNNTN Xử lý ngôn ngữ tự nhiên.

CSDL Cơ sở dữ liệu

CN Chủ Ngữ

VN Vị Ngữ

BN Bổ Ngữ

DN

ĐN

Danh Ngữ

Động Ngữ

TT Tính Từ

DT Danh Từ

TN

ĐT

Trạng Từ

Động Từ

ALPAC Automatic Language Processing Advisory Committee

EBMT Example-Based Machine Translation

SMT Statistical-Based Machine Translation

CBMT Corpus-Based Machine Translation

BLEU Bilingual Evaluation Understudy

NIST National Institute of Standards and Technology

UNL Universal Networking Language

MM Maximum Matching

FMM Forward Maximum Matching

BMM Backward Maximum Matching

WFST Weighted Finit State Transducer

TBL Transformation based Learning

XML Extensible Markup Language

HTTP Hypertext Transfer Protocol

HTML HyperText Markup Language

Page 8: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

vii

DANH MỤC CÁC BẢNG

Bảng 1.1 Bảng con chữ Phụ âm giọng O ........................................................ 24

Bảng 1.2 Bảng chân Phụ âm giọng O ............................................................. 24

Bảng 1.3 Bảng con chữ Phụ âm giọng Ô ....................................................... 25

Bảng 1.4 Bảng chân Phụ âm giọng Ô .............................................................. 25

Bảng 1.5 Bảng phụ âm bổ sung biến đổi giọng Ô thành giọng O .................. 25

Bảng 1.6 Bảng Nguyên âm thường ráp với Phụ âm giọng O .......................... 26

Bảng 1.7 Bảng Nguyên âm thường ráp với Phụ âm giọng Ô .......................... 26

Bảng 1.8 Bảng Nguyên âm độc lập ................................................................ 26

Bảng 1.9 Bảng số và cách đếm trong tiếng Khmer ...................................... 28

Bảng 2.1 Bản tin dự báo thời tiết hằng ngày Việt – Khmer. .......................... 41

Bảng 2.2 Bản tin dự báo thời tiết về bão Việt – Khmer. ................................ 43

Bảng 2.3 Bản tin dự báo thời tiết về lũ Việt – Khmer. ................................... 45

Bảng 3.1 Các tháng trong tiếng Khmer........................................................... 63

Page 9: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

viii

DANH MỤC HÌNH

Hình 1.1 Giao diện dịch máy Google Translate ............................................. 12

Hình 1.2 Giao diện dịch máy Systran ............................................................. 13

Hình 1.3 Cách gõ chữ Khmer trong bộ gõ Khmer Unicode của NiDA .......... 36

Hình 2.1 Mô hình kiến trúc hệ thống .............................................................. 54

Hình 2.2 Mô hình tổng quát xây dựng kho ngữ liệu ....................................... 64

Hình 2.3 Sơ đồ chuyển đổi kho ngữ liệu Word thành kho ngữ liệu XML ..... 66

Hình 2.4 Kho ngữ liệu VietKhmer.xls ............................................................ 67

Hình 2.5 Kho ngữ liệu VietKhmer.xml .......................................................... 67

Hình 3.1 Giao diện hệ thống dịch Việt - Khmer ........................................... 87

Hình 3.2 Kịch bản sử dụng hệ thống dịch ...................................................... 88

Page 10: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

1

MỞ ĐẦU

1. Lý do chọn đề tài.

Việt Nam là một quốc gia của 54 dân tộc cùng chung sống hòa thuận,

mỗi dân tộc điều có một nền văn hóa mang đặc sắc riêng gắn liền với truyền

thống và phong tục riêng của dân tộc đó, các nền văn hóa tương đối thống

nhất và hài hòa với nhau tạo nên sự phong phú, đa dạng trong thể thống nhất

của nền văn hóa các dân tộc Việt Nam.

Dân tộc Khmer có dân số khoảng 1382 ngàn người (năm 2009) tập trung

ở các tỉnh, thành phố thuộc Đồng bằng Sông Cửu Long và một số ở thành phố

Hồ Chí Minh và miền Đông Nam bộ[12], là dân tộc thiểu số có số dân đông

nhất trong cộng đồng dân tộc thuộc nhóm ngữ hệ Môn - Khmer ở Việt Nam.

Đa phần đời sống kinh tế của đồng bào dân tộc Khmer phụ thuộc chủ yếu vào

nông nghiệp, cuộc sống đồng bào còn gặp rất nhiều khó khăn, các biến động

của thời tiết như sương mù, sương muối, lũ lụt, mưa bão, triều cường nếu

không phát hiện sớm và có các biện pháp để phòng tránh, ứng phó kịp thời,

các biến động thời tiết này sẽ gây ảnh hưởng rất lớn đến đời sống sinh hoạt

của người dân, hoa màu, cây trồng bị phá hoại, năng suất, chất lượng sản

phẩm nông sản sẽ bị giảm làm cho cuộc sống đồng bào khó khăn nay còn khó

khăn hơn.

Chủ trương của Đảng và Nhà nước là tăng cường đẩy mạnh thực hiện

tuyên truyền sâu rộng hơn nữa về công tác văn hóa – thông tin [25], để đưa

thông tin hữu ích về khoa học kỹ thuật, dự báo thời tiết, chăm sóc sức khoẻ,

bảo tồn và phát huy các giá trị văn hoá đặc sắc của các dân tộc, tuyên truyền

đường lối, chủ trương, chính sách của Đảng và Nhà nước nhằm giúp đồng bào

nâng cao tay nghề, ứng dụng tiến bộ khoa học - kỹ thuật vào sản xuất, thích

ứng với cơ chế thị trường, giữ vững an ninh trật tự xã hội...

Page 11: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

2

Một số địa phương đã có các ấn phẩm báo, tạp chí, sản xuất và phát sóng

các chương trình phát thanh, truyền hình dành cho đồng bào dân tộc Khmer.

Tuy nhiên, phần lớn các đài phát thanh truyền hình phát sóng bằng tiếng

Khmer chưa có chương trình thông tin về thời tiết đến với người dân. Vì vậy,

cần có chương trình thông tin dự báo thời tiết bằng tiếng Khmer, việc này sẽ

bổ sung thêm kênh thông tin, giúp thông tin về thời tiết chính xác, kịp thời

đến đồng bào. Hiện nay, để sản xuất một chương trình phát thanh, truyền hình

về dự báo thời tiết bằng tiếng Khmer cần nhiều thời gian và công sức.

Xuất phát từ thực tế trên, một giải pháp đưa thông tin dự báo thời tiết kịp

thời và chính xác đến với đồng bào là vấn đề cần thiết, giúp đồng bào có cách

ứng phó kịp thời với diễn biến phức tạp của thời tiết, để làm giảm tối đa sự

thiệt hại do thời tiết gây ra.

Từ các thực tế đó, tôi đề xuất đề tài: “Xây dựng hệ thống dịch tự

động Việt – Khmer trợ giúp dự báo thời tiết tại các đài phát thanh truyền

hình”

2. Mục tiêu của đề tài

Mục tiêu chính mà đề tài hướng đến là nghiên cứu các vấn đề về xử lý

ngôn ngữ tiếng Việt như phương pháp dịch máy, kỹ thuật tách từ tiếng Việt,

kho ngữ liệu song ngữ,..

Xây dựng kho ngữ liệu song ngữ Việt - Khmer có cấu trúc mở và dễ kế

thừa để phục vụ cho các chương trình XLNNTN Việt – Khmer khác.

Khai thác kho ngữ liệu, xây dựng hệ thống dịch tự động Việt - Khmer

trong lĩnh vực dự báo thời tiết, nhằm trợ giúp cho các ban biên tập báo, phát

thanh truyền hình trong việc biên tập các tin dự báo thời tiết bằng tiếng

Khmer được dễ dàng, chính xác và nhanh chóng hơn.

3. Đối tượng và phạm vi nghiên cứu

Page 12: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

3

Để đáp ứng mục tiêu đã nêu, đề tài cần giải quyết những vấn đề chính

sau:

Tìm hiểu lý thuyết

Tìm hiểu các đặc trưng, bản chất ngôn ngữ, chủ yếu ngôn ngữ viết của

tiếng Khmer trong sự so sánh qua lại với tiếng Việt.

Nghiên cứu lý thuyết và tìm hiểu các ứng dụng XLNNTN, các phương

pháp dịch máy, chủ yếu phương pháp dịch máy thống kê, xây dựng kho ngữ

liệu song ngữ

Phân tích cấu trúc câu về dự báo thời tiết

Tài liệu Việt - Khmer thu thập được từ các chuyên gia và từ Internet

Sách, giáo trình, từ điển song ngữ Việt-Khmer

Tập hợp các bản tin dự báo thời tiết Việt, Khmer của đài phát thanh,

truyền hình.

Các CSDL song ngữ Việt - Khmer thu thập được liên quan đến bài toán

dự báo thời tiết

Phân tích mẫu câu trong bản tin và đưa ra cấu trúc câu Việt - Khmer

tương ứng cho các mẫu tin.

Cập nhật kho ngữ liệu song ngữ Việt - Khmer

Thu thập dữ liệu từ các mẫu câu, trích rút từ vựng từ những bản tin dự

báo thời tiết để xây dựng kho ngữ liệu Việt - Khmer phục vụ cho hệ thống

dịch.

Xây dựng ứng dụng

Xây dựng hệ thống dịch Việt – Khmer phục vụ dịch bản tin về dự báo

thời tiết hỗ trợ cho các ban biên tập đài phát thanh, truyền hình trong việc

biên tập chương trình dự báo thời tiết bằng tiếng Khmer.

4. Phương pháp nghiên cứu

Page 13: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

4

Thu thập dữ liệu từ các bản tin dự báo thời tiết.

Phân tích từ vựng và mẫu câu Việt - Khmer tương ứng.

Xây dựng kho ngữ liệu dễ dàng truy xuất, mở rộng, chuyển đổi các định

dạng dữ liệu.

Tìm hiểu các công cụ phù hợp để phục vụ cho công việc lập trình.

Khai thác kho ngữ liệu để xây dựng ứng dụng dịch tương tác.

Kiểm thử chương trình, nhận xét và đánh giá kết quả.

5. Ý nghĩa khoa học và thực tiễn của đề tài:

Ý nghĩa khoa học: Nắm bắt được các vấn đề cơ bản trong xử lý tiếng

Việt. Đây là tiền đề, nền tảng phát triển các ứng dụng XLNNTN cho tiếng

Khmer (như dịch, từ điển, phần mềm học tập, website đa ngữ…).

Ý nghĩa thực tiễn: Trợ giúp cho công tác truyền thông của các đài phát

thanh truyền hình, nhằm thông tin dự báo thời tiết chính xác và kịp thời cho

đồng bào dân tộc Khmer, giúp đồng bào giảm tối đa những thiệt hại do thời

tiết gây ra.

6. Bố cục của luận văn

Báo cáo của luận văn được tổ chức thành 3 chương.

Chương 1. Cơ sở lý thuyết

Tìm hiểu về các bài toán dịch tự động, các vấn đề trong quá trình xây

dựng kho ngữ liệu song ngữ, tìm hiểu tiếng Khmer, phân biệt giống nhau và

khác nhau giữa hai ngôn ngữ tiếng Việt, tiếng Khmer, hiện trạng ứng dụng tin

học trong tiếng Khmer hiện nay.

Chương 2. Giải pháp xây dựng hệ thống dịch tự động Việt - Khmer

Chương này phân tích các bản tin dự báo thời tiết tiếng Việt, tiếng

Khmer, đưa giải pháp xây dựng hệ thống dịch tự động Việt - Khmer.

Page 14: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

5

Chương 3. Triển khai thử nghiệm hệ thống dịch Việt - Khmer

Chọn môi trường công cụ xây dựng hệ thống, thu thập dữ liệu và cập

nhật kho ngữ liệu song. Xây dựng, cài đặt, thử nghiệm chương trình và đánh

giá kết quả.

Page 15: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

6

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT

1.1. TỔNG QUAN VỀ BÀI TOÁN DỊCH TỰ ĐỘNG

Dịch tự động hay còn gọi là dịch máy (Machine Translation) là một

nhánh của xử lý ngôn ngữ tự nhiên thuộc phân ngành trí tuệ nhân tạo, nó là sự

kết hợp giữa ngôn ngữ, dịch thuật và khoa học máy tính. Như tên gọi, dịch tự

động thực hiện dịch một ngôn ngữ này (gọi là ngôn ngữ nguồn) sang một

hoặc nhiều ngôn ngữ khác (gọi là ngôn ngữ đích) một cách tự động, không có

sự can thiệp của con người trong quá trình dịch.

Khó khăn của việc thiết kế chương trình dịch tự động là làm sao khử

nhập nhằng hiệu quả. Nói về tính nhập nhằng, đây là khái niệm chỉ tính không

rõ ràng của ngôn ngữ. Trong tiếng Việt có các hiện tượng nhập nhằng như

nhập nhằng đồng âm (hoặc đồng tự), nhập nhằng từ loại, nhập nhằng từ đa

nghĩa. Khi dịch tự động tiếng việt, khó khăn đầu tiên là xác định ranh giới từ,

không giống như tiếng Anh (và nhiều ngôn ngữ khác) mỗi từ mang trọn vẹn

một nghĩa và được xác định ranh giới qua khoảng trắng, tiếng Việt là ngôn

ngữ đơn lập do vậy có rất nhiều từ ghép, nếu không xác định đúng sẽ xuất

hiện kiểu dịch từng từ rồi ghép lại với nhau. Còn về từ đa nghĩa tiếng Anh

cũng như tiếng Việt và hầu như tất cả các ngôn ngữ khác đều rất phức tạp,

muốn xác định nghĩa chính xác phải thực hiện phân tích văn cảnh.

Sau khi xác định nghĩa phù hợp của từ, công việc tiếp theo là sắp xếp để

tạo thành câu hoàn chỉnh. Nếu hai ngôn ngữ có cấu trúc càng khác nhau bao

nhiêu công việc này càng phức tạp bấy nhiêu, với những ngôn ngữ gần nhau

như tiếng Anh và tiếng Pháp công việc tương đối đơn giản, nhưng giữa tiếng

Pháp và tiếng Trung thì rất khó khăn. Để sắp xếp người ta đưa vào các cấu

trúc ngữ pháp hết sức phức tạp, áp dụng nhiều kiến thức toán học nhưng thực

tế cho thấy hiệu quả của chúng vẫn không được tốt.[16]

Một cách tiếp cận khác là dự vào tư liệu đã dịch sẵn của con người, điển

hình là Google Translate, nó nạp hàng triệu trang tư liệu sau đó thực hiện các

Page 16: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

7

thao tác mà nó gọi là thống kê kiến thức để phân tích cho các lần dịch tự động

sau này, kiểu dịch rất gần với thao tác tìm kiếm – lĩnh vực đặc biệt mạnh của

Google.[5]

1.1.1. Lịch sử dịch máy

Lịch sử của dịch tự động bắt đầu từ thế kỷ 17, khi hai nhà triết học

Leibniz và Descartes đưa ra những ý tưởng đầu tiên về các mã thực hiện mối

liên hệ giữa nhiều ngôn ngữ, nhưng tất cả những đề xuất này chỉ dừng lại ở

mức lý thuyết mà không có một ứng dụng thực tế nào.

Sáng chế đầu tiên cho một "chương trình dịch tự động" được thực hiện

vào khoảng giữa thập niên 1930. Vào thời điểm này Georges Artsruni đã tạo

ra một bộ từ điển song ngữ với chức năng tra từ tự động bằng các băng giấy,

tiếp theo một người Nga là Pyotr Troyanskii tiếp tục phát triển với nhiều chi

tiết hơn. Nó không chỉ có một bộ từ điển song ngữ mà còn bao gồm các quy

tắc ngữ pháp cơ bản dựa trên quốc tế ngữ (Esperanto).

Lịch sử của dịch tự động được chính thức ghi nhận từ thập niên 1950

mặc dù như trên trình bày trước đó một số công việc ở dạng manh nha đã

được thực hiện. Vào năm 1954, thực nghiệm Georgetown-IBM đã thực hiện

thành công thí nghiệm dịch tự động hoàn toàn hơn 60 câu tiếng Nga sang

tiếng Anh. Thành công bước đầu này đã tạo điều kiện để lập ra những quỹ

đầu tư có giá trị cho các nghiên cứu. Các tác giả (tại thời điểm đó) tuyên bố

rằng chỉ trong vòng từ 3 đến 5 năm nữa vấn đề dịch máy sẽ được giải quyết.

Nhưng thực tế kết quả chậm hơn nhiều, báo cáo ALPAC vào năm 1966

cho thấy sau hơn 10 năm nghiên cứu lĩnh vực này vẫn không có những tiến bộ

đáng kể và hệ quả là số tiền chi cho nghiên cứu giảm mạnh. Vào cuối thập

niên 1980, khi máy vi tính có tốc độ xử lý cao hơn đồng thời lại rẻ hơn thì

người ta mới bắt đầu quan tâm hơn đến mô hình thống kê vốn đòi hỏi khả

năng xử lý dữ liệu cực lớn mà trước đó không thể thực hiện được vì các

nguyên nhân kỹ thuật cũng như kinh tế.

Page 17: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

8

Lĩnh vực dịch tự động trong vài năm qua đã có những thay đổi lớn, có

rất nhiều nghiên cứu dựa trên các nền tảng thống kê và ví dụ mẫu. Hiện nay

có một số công ty xây dựng chương trình dựa trên thống kê như Language

Weaver (chuyên cung cấp các sản phẩm và dịch vụ thương mại liên quan đến

dịch thuật), Google và Microsoft cũng có các sản phẩm tương tự do chính họ

giữ bản quyền. Một hướng tiếp cận mới là kết hợp (lai ghép) các phương pháp

với nhau, như những nghiên cứu phối hợp giữa các nguyên tắc cú pháp và

hình thái học vào trong các hệ thống thống kê.

Với tiếng Việt, từ năm 1960 vấn đề dịch tự động cho tiếng Việt đã bắt

đầu được nghiên cứu, hầu hết đều do các nguyên nhân chính trị và quân sự.

Các tài liệu nước ngoài cho thấy, được sự bảo trợ của Không lực Hoa Kỳ,

Bernard E. Scott thành lập công ty Logos vào năm 1969 với mục đích tiếp tục

nghiên cứu việc tổ chức hệ thống dịch tự động từ tiếng Anh ra tiếng Việt.

Scott bắt đầu chuẩn bị cho việc tổ chức hệ thống dịch tự động này vào mùa

xuân năm 1965 tại Viện công nghệ máy tính tại New York, Mỹ. Vào khoảng

tháng 6 năm 1970 hệ thống dịch tự động có tên Logos I ra đời với từ điển tự

động hóa hỗ trợ chỉ có hơn 1.000 từ tiếng Việt, tác giả của hệ thống này là

Byrne, Charles E.; Scott, Bernard E.; Binh, Truong N. Nhưng hệ thống này

không tồn tại được lâu, việc nghiên cứu của Scott chấm dứt vào năm 1973.

Cũng trong khoảng thời gian này, một dự án khác về xây dựng hệ thống

dịch tự động từ tiếng Anh ra tiếng Việt đã được tiến hành vào đầu thập niên

1970 tại Tập đoàn viễn thông Xyzyx, California. Hệ thống này đầu tiên được

xây dựng để dịch văn bản Anh - Pháp về vũ trụ học trên máy IBM 360 theo

nguyên tắc hoạt động tương tự như của hệ thống Logos. Tuy nhiên, hệ dịch

máy Anh-Việt được sử dụng rộng rãi tại Việt nam đầu tiên là EVTRAN -

1997. Và sau đó EVTRAN 2.0, 1999 với hơn 200.000 từ và cụm từ. Từ năm

2006, bản EVTRAN 3.0 (được gọi là Ev-Shuttle) biên dịch văn bản hai chiều

Anh-Việt và Việt-Anh (với hơn 500.000 mục từ vựng).[7]

Page 18: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

9

1.1.2. Vấn đề dịch tự động trong tiếng Việt

Mặc dù dịch tự động ở Việt Nam đã được nghiên cứu và phát triển hơn

20 năm qua, song vẫn tồn tại rất nhiều vấn đề để nghiên cứu. Các công trình

nghiên cứu hiện nay đang tập trung chủ yếu vào xử lý giữa tiếng Việt và ngôn

ngữ của các nước khác như tiếng Anh, Pháp, Nhật, Hoa,.. Tuy nhiên chưa có

sản phẩm dịch máy nào được hoàn thiện, chất lượng dịch còn nhiều hạn chế.

Do chất lượng chưa thật tốt nên hầu hết các sản phẩm dịch tự động đều

chỉ mang tính tham khảo, các bản dịch chỉ cho biết đại ý và nó hoàn toàn có

thể dịch sai một phần hoặc toàn bộ nội dung cốt lõi của văn bản. Trong quá

trình dịch thuật nếu lạm dụng dịch tự động sẽ làm ảnh hưởng nghiêm trọng

đến văn phong, bởi vì người dịch giữ nguyên cách hành văn của bản dịch

nhưng cách hành văn này thường không chính xác, máy móc và thiếu "chất

người". So sánh giữa các thể loại văn bản khác nhau cho thấy dịch tự động

dịch tài liệu chuyên ngành có chất lượng tốt nhất, nguyên nhân là vì các tài

liệu này từ vựng có nghĩa rõ ràng (đơn nghĩa), cấu trúc ngữ pháp mạch lạc,

đơn giản, ngược lại thể loại văn học là khó dịch nhất vì từ thường đa nghĩa,

nhiều khẩu ngữ, cấu trúc ngữ pháp phức tạp, hay sử dụng nghĩa bóng. [2]

1.1.3. Một số phương pháp dịch máy

1.1.3.1. Dịch máy dựa trên ví dụ (EBMT: Example-based MT)

Phương pháp dịch máy dựa trên ví dụ (EBMT: Example-Based Machine

Translation) sử dụng các mẫu câu hay còn gọi là các câu ví dụ. Các câu này

được lưu trữ trên cơ sở dữ liệu với đầy đủ các thông tin như cây chú giải, các

liên kết giữa các thành phần của hai câu thuộc hai ngôn ngữ.

Phương pháp dịch máy dựa trên ví dụ dựa trên ngân hàng mẫu câu ví dụ,

không đòi hỏi phải có sự phân tích ngôn ngữ học, cú pháp, ngữ nghĩa vì mọi

câu dịch đều dựa vào việc “so khớp” mẫu. Câu nguồn chỉ cần so khớp từng

phần với mẫu câu ví dụ bằng các giải thuật phù hợp. Nó gần như kiểu dịch

trực tiếp bằng cách thay thế theo kiểu 1-1 mà không cần hiểu biết gì nhiều về

Page 19: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

10

ngôn ngữ. Độ chính xác của phương pháp này phụ thuộc vào số mẫu được lưu

trong kho ngữ liệu song ngữ. Một khi kho dữ liệu càng lớn thì chi phi tìm

kiếm, xử lý thông tin để so trùng mẫu cũng rất lớn.

Như vậy, theo phương pháp này ta cần xây dựng một kho ngữ liệu song

ngữ rất lớn thì chất lượng của bản dịch sẽ được nâng cao. Trong thực tế thật

khó để chúng ta có thể lưu trữ tất cả các mẫu câu của ngôn ngữ tự nhiên mà

chúng ta có thể gặp trên cơ sở dữ liệu. Tuy nhiên, với sự phát triển của công

nghệ máy tính với bộ lưu trữ ngày càng được gia tăng về dung lượng và tốc

độ truy xuất cũng có thể cho phép chúng ta lưu trữ một kho dữ liệu khổng lồ

cho hệ dịch.

Phương pháp dịch dựa trên cơ sở ví dụ này đơn giản về mặt mô hình lý

thuyết và trong một số trường hợp (như dịch các văn bản gần giống nhau và

hay lặp đi lặp lại) thì lại cho ra kết quả cao bất ngờ.[2]

1.1.3.2. Dịch máy dựa trên thống kê (SMT: Statistical-based MT)

Dịch máy dựa trên thống kê SMT: Statistical-Based Machine

Translation) là cách tiếp cận dịch máy dựa trên thống kê để xây dựng từ điển

và các quy luật dịch một cách tự động, thay vì xây dựng các từ điển, các quy

luật dịch bằng tay như trong hệ dịch RBMT. Để thực hiện được điều này, cần

có một kho dữ liệu song ngữ rất lớn. hệ thống sẽ thống kê và đưa ra các xác

suất dịch tương ứng về từ/ngữ, cấu trúc hay xác suất chuyển dịch vị trí giữa

hai ngôn ngữ và xác suất xuất hiện các từ/ngữ trong một ngữ cảnh nhất định

nào đó.

Cách tiếp cận SMT này không đòi hỏi sự phân tích sâu về ngôn ngữ,

chúng hoàn toàn tự động thực hiện các quá trình phân tích, chuyển đổi, tạo

câu bằng cách dựa trên kết quả thống kê được từ kho ngữ liệu song ngữ huấn

luyện. Ngày nay, với sự phát triển về bộ nhớ và tốc độ tính toán đã cho phép

cách dịch ngày nay ngày càng hiệu quả. Mặt khác, tính vận động và biến đổi

của ngôn ngữ nên các từ vựng, văn phạm của ngôn ngữ sẽ biến đổi theo.

Page 20: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

11

Chính vì vậy cách tiếp cận này có lợi thế hơn so với cách tiếp cận dựa vào từ

vựng hay dựa vào luật ngôn ngữ, ngày nay nó là phương pháp dịch được

nghiên cứu nhiều nhất. [5]

1.1.3.3. Dịch máy dựa trên ngữ liệu (CBMT: Corpus-based MT)

Dịch máy dựa trên ngữ liệu (CBMT: Corpus-Based Machine

Translation) đang được áp dụng vào nhiều hệ thống dịch tự động trong những

năm gần đây, việc lấy đúng được cặp ánh xạ đích và nguồn một cách tự động

là một yêu cầu thiết yếu cho các phương pháp dịch dựa trên ngữ liệu.

Ở đây, việc phân thành loại tiếp cận có tên là “dựa trên ngữ liệu” có vẻ

không được rõ ràng lắm, vì thật ra, các cách tiếp cận dựa trên thống kê hay

dựa trên ví dụ nói trên đều dựa trên ngữ liệu. Những điểm đặc biệt của cách

tiếp cận này là dựa trên cơ sở ngôn ngữ học và dùng công nghệ máy học để

các quy luật của ngôn ngữ từ ngữ liệu. Hệ thống học dựa trên cấu trúc của

ngôn ngữ chứ không phải học trên bề mặt của ngôn ngữ như trong SMT.

Để thực hiện được điều này, máy cần có ngữ liệu rất lớn (corpus), dạng

đơn ngữ (monolingual) hay song ngữ (bilingual) và máy sẽ khai thác trên các

kho ngữ liệu này. Đặc điểm của cách tiếp cận này là khả năng tự rút ra các

quy luật của ngôn ngữ. Nó có những ưu điểm của cách tiếp cận dựa trên luật

(vì cuối cùng nó cũng dựa trên luật được rút ra) nhưng khắc phục được khuyết

điểm của việc xây dựng luật thủ công bởi các chuyên gia. Các luật được rút ra

lại được thử nghiệm tại chỗ để đánh giá độ chính xác và hiệu quả của luật

(dựa trên ngữ liệu huấn luyện), chính vì vậy, các luật rút ra được đảm bảo là

chính xác, bao quát, không mâu thuẫn và không thừa.

Cách tiếp cận dựa trên ngữ liệu là cách tiếp cận tiên tiến gần đây, khi mà

kho ngữ liệu đơn ngữ hay đa ngữ dạng điện tử ngày càng có nhiều. Cách tiếp

cận này dựa trên công nghệ máy học để rút ra các quy luật ngôn ngữ một cách

tự động. Ngoài ra, với sự biến đổi của ngôn ngữ hay chuyển đổi lĩnh vực dịch,

thì cách tiếp cận này tỏ ra hiệu quả trong việc cập nhật bộ luật của nó. [6]

Page 21: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

12

1.1.4. Một số dịch vụ dịch máy đã có

1.1.4.1. Google

Google Dịch (lúc đầu gọi là Google Thông dịch, tên tiếng Anh là

Google Translate) là một công cụ dịch trực tuyến được Google cung cấp. Nó

dùng để dịch tự động một đoạn ngắn, hoặc nguyên một trang web sang ngôn

ngữ khác, đối với tài liệu có kích thước lớn người dùng cần tải lên cả tài liệu

để dịch. Người dùng sau khi xem bản dịch có thể hỗ trợ Google cách dịch

khác khi thấy kết quả không được tốt, hỗ trợ này có thể được sử dụng trong

các lần dịch sau.

Google Dịch dựa trên nền tảng gọi là dịch máy theo nguyên tắc dịch

máy thống kê. Người đứng đầu chương trình dịch máy của Google là Franz-

Josef Och - từng đoạt giải nhất cuộc thi DARPA (viết tắt của từ Defense

Advanced Research Projects Agency, một cơ quan của chính phủ Mỹ có trách

nhiệm phát triển công nghệ mới phục vụ cho quân đội) về tốc độ dịch tự động

vào năm 2003.

Hình 1.1 Giao diện dịch máy Google Translate

Không giống như các công cụ khác như Babel Fish, AOL và Yahoo sử

dụng SYSTRAN, Google Dịch sử dụng phần mềm của riêng họ, chương trình

này không đi quá sâu vào các quy luật phức tạp về ngữ pháp mà sử dụng

phương pháp được họ gọi là thống kê kiến thức, có nghĩa là chương trình sẽ

được nạp vào hàng tỉ văn bản đã được dịch sẵn của con người sau đó thực

hiện các thao tác phân tích nhằm tìm ra sự tương đồng với các yêu cầu của

người dùng rồi trả về kết quả. Chất lượng dịch được tăng lên theo thời gian

Page 22: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

13

khi mà các văn bản ngày càng được nạp vào nhiều hơn với cấu trúc và ngữ

cảnh ngày càng đa dạng. [7]

1.1.4.2. Systran

Systran là một hệ thống dịch tự động rất nổi tiếng và chất lượng dịch khá

tốt. Systran có thể sử dụng được trên môi trường Internet, máy đơn hoặc trên

các hệ thống mạng cục bộ. Phiên bản mới nhất hiện này của Systran là phiên

bản 7. Systran hỗ trợ dịch tự động nhiều thứ tiếng như Đức, Tây Ban Nha,

Thuỵ Điển, Anh, Pháp, Ý, Hàn Quốc, Nhật, Hà Lan, Ba Lan, Bồ Đào Nha,

Nga, Trung Quốc, Ả Rập và Hy Lạp. Phần mềm này có thể dùng độc lập và

có sự tích hợp với Microsoft Office để thuận lợi hơn cho quá trình sử dụng.

Tuy nhiên Systran chưa thấy hỗ trợ ngôn ngữ tiếng Việt. Các nhà khai thác

ngôn ngữ sử dụng nguồn dữ liệu Anh – Việt bắt cầu để khai thác các nguồn

dữ liệu khác từ Systran bằng các cặp song ngữ như Anh – Nhật, Anh- Pháp,...

để được nguồn dữ liệu Nhật – Anh – Việt, Pháp – Anh – Việt,... [2]

Hình 1.2 Giao diện dịch máy Systran

1.2. XỬ LÝ CÂU TIẾNG VIỆT

1.2.1. Tách câu

1.2.1.1. Xử lý đầu vào

Xóa các khoảng trắng thừa như hai hay nhiều khoảng trắng cùng một vị

trí “ ” hoặc khoảng trắng trước dấu “,” ; dấu “.”,... Thực hiện các công việc

chuẩn hóa dữ liệu nhập vào. Thay thế các ký tự tương tự.

Page 23: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

14

1.2.1.2. Tách câu

Trong văn bản tiếng tiếng Việt hay một số ngôn ngữ khác người ta cũng

dùng các dấu như dấu chấm (.), chấm than (!), chấm hỏi (?) và một số dấu

chấm câu khác để nhận biết kết thúc câu. Những dấu này thường được gọi là

dấu chấm câu. Tuy nhiên do tính nhập nhằng của các dấu báo hiệu kết thúc

câu, vẫn có những câu tiếng Việt mà các dấu hiệu kết thúc câu đó vẫn chưa

kết thúc câu, nên việc phân định ranh giới câu không đơn giản.

Ví dụ:

Dấu chấm “.”: là dấu có nhiều trường hợp mơ hồ nhất. Nó có thể biểu thị

như một dấu chấm kết thúc câu, dấu chấm thập phân trong chữ số (8,220.78),

dấu chấm trong chữ viết tắt (GS., PGS., TS., TP.,...), dấu chấm trong các

trường hợp khác như địa chỉ email, website ([email protected],

www.udn.vn).

Dấu chấm hỏi, dấu chấm than có thể xuất hiện ở cuối câu hay trong dấu

ngoặc đơn, ngoặc kép...

Để nhận diện dấu chấm câu, người ta có thể dùng các heuristics hoặc các

mô hình học phức tạp hơn, như : mạng neural, TBL, Maximum Entropy.

Sau khi nhận đoạn văn bản đã được lọc các ký tự dư thừa, bộ phận tách

câu bắt đầu phân tích dựa trên cách chấm câu và ngữ nghĩa một số từ để tách

ra các câu riêng biệt. [2]

a. Xử lý dấu chấm

Để có thể phân biệt được các trường hợp trên, dựa vào một số đặc trưng

riêng trong cách trình bày của từng trường hợp:

Trường hợp là dấu chấm kết thúc câu thì dấu hiệu nhận biết kết thúc câu

sẽ là: Luôn luôn có ít nhất một khoảng trắng sau dấu chấm và ký tự tiếp theo

sẽ là chữ cái viết hoa.

Page 24: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

15

Trường hợp là dấu chấm thập phân thì có thể nhận biết bằng cách đọc

toàn bộ phần liền trước và liền sau dấu chấm để phát hiện số có dấu chấm

thập phân.

Trường hợp là dấu chấm sau từ viết tắt thì có thể nhận biết bằng cách

xây dựng một danh sách các từ viết tắt để tra cứu khi cần.

Trường hợp dấu chấm trong các địa chỉ email, website thì dấu chấm luôn

nằm giữa hai ký tự nào đó mà không có khoảng trắng nằm sau, dấu chấm

trong trường hợp này không bao giờ nằm ở cuối từ nên cũng có thể dễ nhận

biết được.

Trong văn bản về dự báo thời tiết thì chủ yếu là dấu chấm là dấu kết thúc

câu, dấu thập phân trong cách chữ số là dấu chấm hoặc dấu phẩy và trường

hợp dấu chấm sau từ viết tắt.

b. Xử lý dấu chấm trong ngoặc

Khi bộ tách câu gặp dấu mở ngoặc đơn, hoặc ngoặc kép, thì nó sẽ quét

trong đoạn văn đang xét để tìm dấu đóng tương ứng. Nếu tìm thấy, toàn bộ

phần trong ngoặc sẽ được giữ nguyên và tìm dấu kết thúc câu tiếp theo ngoài

dấu ngoặc. Nếu không tìm thấy dấu đóng tương ứng, dấu mở sẽ bị bỏ qua và

xử lý tiếp ký tự sau dấu mở như bình thường.

1.2.2.Tách từ

1.2.2.1. Các vấn đề trong bài toán tách từ

a. Xử lý nhập nhằng

Nhập nhằng trong tách từ được phân thành 2 loại: Nhập nhằng chồng

(Overlapping Ambiguity) và nhập nhằng hợp (Combination Ambiguity).

Ta gọi V là tập hợp các từ Tiếng Việt (từ điển tiếng Việt). Các trường

hợp nhập nhằng trên được mô tả hình thức như sau:

Chuỗi abc được gọi là nhập nhằng chồng nếu {ab, bc} V.

Page 25: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

16

Ví dụ: thuộc địa & địa bàn

quan tài & tài giỏi

Chuỗi ab được gọi là nhập nhằng hợp nếu { a,b, ab} V.

Ví dụ: “học”, “sinh” là từ đơn có nghĩa, nhưng “học sinh” cũng là một

từ ghép.

Trong thực tế, loại nhập nhằng chồng xảy ra thường xuyên hơn loại nhập

nhằng hợp, bởi vì hầu hết các tiếng của tiếng Việt đề có thể đóng vai trò là

một từ đơn độc lập. Do đó, hầu hết các từ ghép đề có thể bị nhập nhằng hợp.

Tuy nhiên, hầu như mọi trường hợp này đề được giải quyết tốt bằng giải thuật

Maximum Matching. Vì thế, mọi hệ thống nhận diện nhập nhằng hiện tại đều

chỉ chú ý đến việc giải quyết loại nhập nhằng đầu tiên là nhập nhằng chồng.

[7]

b. Nhận diện từ chưa biết

Trong văn bản không chỉ có sự tồn tại của từ thuần túy có trong từ điển,

mà còn có các đơn vị thông tin khác nữa. Do không nắm được các thông tin

này, nên việc tách từ sẽ bị ảnh hưởng.

Từ chưa biết bao gồm các từ tên riêng tiếng Việt hoặc tiếng nước ngoài

và các factoids (theo định nghĩa của wordNet thì factoids là một đối tượng

biểu diễn những thông tin đặc biệt như: ngày tháng, thời gian, phần trăm, địa

chỉ email, tiền tệ, số, độ đo, số điện thoại, địa chỉ web). [7]

1.2.2.2. Các hướng tiếp cận chính cho bài toán tách từ

a. Hướng tiếp cận dựa trên thống kê

Dựa trên các thông tin như tần số xuất hiện của từ trong tập huấn luyện

ban đầu. Hướng tiếp cận này đặc biệt dựa trên tập ngữ liệu huấn luyện, nhờ

vậy nên hướng tiếp cận này tỏ ra linh hoạt và hữu dụng trong nhiều lĩnh vực

khác nhau.[2]

Page 26: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

17

b. Hướng tiếp cận dựa trên từ điển

Ý tưởng của hướng tiếp cận này là những cụm từ được tách ra từ văn bản

phải được so khớp với các từ trong từ điển. Do đó trong hướng tiếp cận này

đòi hỏi từ điển riêng cho từng lĩnh vực quan tâm. Hướng tiếp cận “full word /

phrase” cần sử dụng một từ điển hoàn chỉnh để có thể tách được đầy đủ các từ

hoặc ngữ trong văn bản, trong khi đó hướng tiếp cận thành phần “component”

lại sử dụng từ điển thành phần. Từ điển thành phần chỉ chứa các thành phần

của từ và ngữ như hình vị và các từ đơn giản.

Hướng tiếp cận theo từ điển vẫn còn một số hạn chế trong việc tách từ vì

thực hiện hoàn toàn dựa vào từ điển. Nếu như thực hiện thao tác tách từ bằng

cách sử dụng từ điển hoàn chỉnh thì trong thực tế việc xây dựng một bộ từ

điển hoàn chỉnh là khó thực hiện vì đòi hỏi nhiều thời gian và công sức. Nếu

tiếp cận theo hướng sử dụng từ điển thành phần thì sẽ giảm nhẹ hạn chế, khó

khăn khi xây dựng từ điển, vì khi đó chúng ta sẽ sử dụng các hình vị từ và các

từ đơn giản và các từ khác để hình thành nên từ, cụm từ hoàn chỉnh. [2]

c. Hướng tiếp cận theo Hybrid

Với mục đích kết hợp các hướng tiếp cận khác nhau để thừa hưởng

được các ưu điểm của nhiều kỹ thuật và các hướng tiếp cận khác nhau nhằm

nâng cao kết qủa. Hướng tiếp cận này thường kết hợp giữa hướng dựa trên

thống kê và dựa trên từ điển nhằm tận dụng các mặt mạnh của các phương

pháp này. Tuy nhiên hướng tiếp cận Hybrid lại mất nhiều thời gian xử lý,

không gian đĩa và đòi hỏi nhiều chi phí.[2]

1.2.2.3. Một số phương pháp tách từ tiếng việt hiện nay

a. Phương pháp khớp cực đại (MM: Maximum Matching)

Phương pháp khớp tối đa (MM - Maximum Matching) hay còn gọi là

LRMM - Left Right Maximum Matching được xem như là phương pháp tách

từ dựa trên từ điển đơn giản nhất. MM cố gắng so khớp với từ dài nhất có thể

Page 27: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

18

có trong từ điển. Thuật toán này đạt được độ chính xác khá cao (>90%) nếu từ

điển đủ lớn. Tuy nhiên, nó không thể giải quyết vấn đề nhập nhằng và không

thể nhận diện được các từ chưa biết bởi vì chỉ những từ tồn tại trong từ điển

mới được phân đoạn đúng.[24]

Ở phương pháp này, chúng ta sẽ duyệt một ngữ hoặc câu từ trái sang

phải và chọn từ có nhiều âm tiết nhất có mặt trong từ điển và cứ thực hiện lặp

lại như vậy cho đến hết câu

Giải quyết MM gồm hai giải thuật con:[9]

- FMM (Forward Maximum Matching: so khớp cực đại theo chiều tiến)

- BMM (Backward Maximum Matching: so khớp cực đại theo chiều

lùi)

Nếu chúng ta nhìn vào kết quả của FMM và BMM thì sự khác biệt này

cho chúng ta biết nơi nào nhập nhằng xảy ra.

Ngoài ra, MM là phương pháp tách từ hoàn toàn phụ thuộc vào từ điển,

từ điển phải đủ lớn, đủ chính xác và độ tin cậy phải cao thì mới cho kết quả

tách từ chấp nhận được. Đây cũng là nhược điểm rất lớn của phương pháp

này.

Ví dụ:

Một ông quan tài giỏi

Đầu ra FMM:

Một|ông|quan|tài giỏi|.

Đầu ra BMM:

Một|ông|quan tài|giỏi|.

Ưu điểm:

- Đơn giản, nhanh, chỉ cần dựa vào từ điển.

Page 28: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

19

- Trong tiếng Việt, cách này đạt độ chính xác đến >90%.

Hạn chế:

- Độ chính xác của phương pháp phụ thuộc hoàn toàn vào tính đầy đủ

và tính chính xác của từ điển.

- Phương pháp này sẽ tách từ sai trong các trường hợp: “học sinh#học

sinh#học”…

Các biến thể của thuật toán MM

Dạng đơn giản: là dùng để giải quyết nhập nhằng từ đơn. Giả sử chúng

ta có một chuỗi ký tự W1, W2,… Wn. Chúng ta sẽ áp dụng phương pháp từ

đầu chuỗi. Đầu tiên kiểm tra xem W1 có phải là từ hay không, sau đó kiểm tra

xem W1W2 có phải là từ hay không. Tiếp tục thực hiện như thế cho đến khi

tìm được từ dài nhất.

Dạng phức tạp: Quy tắc của dạng này là phân đoạn từ. Thông thường

người ta chọn phân đoạn ba từ có chiều dài tối đa. Thuật toán bắt đầu từ dạng

đơn giản, cụ thể là nếu phát hiện ra những cách tách từ gây nhập nhằng, như ở

ví dụ trên, giả sử W1 là từ và W1W2 cũng là một từ, khi đó chúng ta kiểm tra

ký tự kế tiếp trong chuỗi W1, W2, …..,Wn để tìm tất cả các đoạn ba từ có bắt

đầu với W1 hoặc W1W2.

Ví dụ : Giả sử chúng ta có được các đoạn sau :

- W1 W2 W3 W4

- W1W2 W3W4 W5

- W1W2 W3W4 W5W6

Khi đó chuỗi dài nhất sẽ là chuỗi thứ ba. Do đó từ đầu tiên của chuỗi thứ

ba sẽ được chọn. Thực hiện các bước cho đến khi được chuỗi từ hoành chỉnh.

Nhận xét:

Page 29: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

20

Phương pháp này thực hiện tách từ đơn giản, nhanh và chỉ cần dựa vào

từ điển để thực hiện. Tuy nhiên, khuyết điểm của phương pháp này cũng

chính là từ điển, nghĩa là độ chính xác khi thực hiện tách từ phụ thuộc hoàn

toàn vào tính đủ, tính chính xác của từ điển.[2]

b. Phương pháp giải thuật học cải tiến (Transformation – based

Learning – TBL)

Phương pháp này tiếp cận dựa trên tập ngữ liệu đã đánh dấu. Theo cách

tiếp cận này để cho máy tính có thể nhận biết ranh giới giữa các từ để có thể

tách từ chính xác, chúng ta sẽ cho máy học các câu mẫu trong tập ngữ liệu đã

được đánh dấu ranh giới giữa các từ đúng. Rõ ràng chúng ta thấy phương

pháp rất đơn giản, vì chỉ cần cho máy học các tập câu mẫu và sau đó máy sẽ

tự rút ra qui luật của ngôn ngữ và để từ đó sẽ áp dụng chính xác khi có những

câu đúng theo luật mà máy đã rút ra. Và rõ ràng để tách từ được hoàn toàn

chính xác trong mọi trường hợp thì đòi hỏi phải có một tập ngữ liệu tiếng Việt

thật đầy đủ và phải được huấn luyện lâu để có thể rút ra các luật đầy đủ.[2]

c. Maximum Entropy

Mô hình tách từ bằng phương pháp Maximum Entropy dựa trên ý tưởng

của mô hình gán nhãn từ loại (POS Tagger) dùng phương pháp Maximum

Entropy cho tiếng Anh của Adwait Ratnaparkhi. các tác giả của công trình đã

cài đặt thành công mô hình này cho tiếng Việt. Tuy nhiên phương pháp này

cũng có các ưu điểm và nhược điểm riêng. [7]

Ưu điểm: Đây là một hướng mới cho các phương pháp tách từ hiện nay.

Nếu kho gán nhãn đầy đủ thì các nhập nhằng có thể được khử.

Nhược điểm: Chưa có một quy luật chuẩn nào cho việc gán nhãn cho

tiếng Việt. Vẫn chưa có một công trình nào thống kê được mức độ chính của

phương pháp này.

c. Kết luận

Page 30: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

21

Như vậy, mỗi phương pháp đều có những ưu điểm và nhược điểm riêng,

nhưng tất cả đều cần có một kho ngữ liệu đủ lớn để kết quả tách từ đạt được

độ chính xác cao.

1.3. TÌM HIỂU TIẾNG KHMER

1.3.1. Giới thiệu dân tộc Khmer

Dân tộc Khmer là một bộ phận không thể tách rời trong cộng đồng 54 dân

tộc Việt Nam, với số dân 1.381.986 người (năm 2009), tập trung ở các tỉnh,

thành phố thuộc khu vực Đồng bằng sông Cửu Long như: Sóc Trăng (454.000

người), Trà Vinh (315.797 người), Kiên Giang (252.225 người), An Giang

(114.600 người), Bạc liêu (89.348 người), Cà Mau (51.225 người), Cần Thơ

(38.110 người), Hậu Giang (35.268 người), Vĩnh Long (31.413 người) và

một số ở Thành phố Hồ Chí Minh và miền Đông Nam Bộ.[12]

Người Khmer sống chủ yếu bằng nghề ruộng rẫy, một số ít theo ngành

nghề thủ công, buôn bán hoặc làm các nghề khác. Người Khmer có tôn giáo

chính là Phật giáo theo phái Nam tông Tiểu thừa, số người theo đạo chiếm

99,7%. Tiếng mẹ đẻ và ngôn ngữ sinh hoạt thường nhật của người Khmer là

tiếng Khmer thuộc nhóm ngôn ngữ Môn – Khmer. Ngoài ra, do sống xen kẽ

với người Kinh, người Hoa, người Khmer còn sử dụng tiếng Việt và tiếng

Hoa để giao tiếp. Có hiện tượng dùng chung từ ngữ của người Hoa, người

Kinh, người Khmer trong quá trình giao tiếp với nhau giữa ba dân tộc ở mức

độ một số từ thông dụng.

Đặc trưng chủng tộc dễ nhận biết ở người Khmer là da màu đen xám. Tỷ

lệ người tóc quăn nhiều hơn người Kinh. Trong dòng tộc Khmer có những họ

lớn như: Thạch, Sơn, Kim, Châu, Lâm… Ngoài ra, người Khmer còn lấy họ

thường từ chữ đầu vùng đất mà dòng họ mình sinh sống như: ở Kiên Giang có

họ Dương ở làng Dương Hòa, họ Trà ở làng Trà Tiên, họ Thuận ở làng Thuận

Yên, họ Lộc họ Kỳ ở làng Lộc Trĩ và Kỳ Lộ thuộc tỉnh Kiên Giang … Trong

quan hệ hôn nhân với người Kinh, người Hoa, người Khmer cũng có họ khác

Page 31: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

22

nhau như người Kinh, người Hoa. … Nhìn chung, người Khmer hiền lành,

thật thà, rất tôn trọng đạo lý. Hầu hết thanh niên lớn lên điều vào chùa đi tu để

rèn luyện đạo đức, tri thức, nhân cách trước khi vào đời.[12]

Ngoài ra, người Khmer còn lưu giữ một số hình thức lễ hội truyền thống

như: tết Chôl Chnăm Thmây, lễ Sen Đôn Ta, lễ Óoc Om bóc…

- Tết Chôl Chnăm Thmây như tết Nguyên đán của người Kinh, diễn ra và

khoảng 13, 14, 15 tháng 4 dương lịch. Thường có 3 ngày tết nhưng năm

nhuận thì tết 4 ngày. Ngày đầu tiên của năm mới gọi là Châul Săng Kran

Thmây tức là ngày thay năm cũ vào năm mới, ngày giữa gọi là ngày Vonbât

(năm nhuần Vonbât hai ngày, năm thường thì một ngày), ngày cuối là ngày

Lơng Sak.[13]

- Lễ Sen Đôn Ta hay còn gọi là lễ Cúng ông bà là một lễ hội lớn của

đồng bào Khmer, được tổ chức vào ba ngày mỗi năm từ ngày 29-8 đến ngày

1-9 âm lịch để nhớ đến công ơn ông bà cha mẹ và dòng họ, tạ ơn những người

còn sống và cầu phước cho những người đã mất; tạo tình đoàn kết trong xóm

làng, bạn bè thân thích.[12]

- Lễ Óoc-Om-bóc (lễ đút cốm dẹp) hay còn gọi lễ cúng trăng được tổ

chức vào ngày 15-10 âm lịch là ngày kết thúc một chu kỳ của mặt trăng xoay

quanh trái đất, thời điểm chia ra hai mùa trong năm để làm ruộng: mùa mưa

từ 16-4 đến 15-10; mùa khô từ 16-10 đến 15-4 âm lịch (hai mùa được tính

theo vòng quay của mặt trăng quanh trái đất). Lễ Óoc Ombóc được tổ chức để

tưởng nhớ đến công ơn của mặt trăng, coi như vị thần điều tiết mùa màng, đã

giúp cho đồng bào Khmer làm ăn khá giả trong năm. Thức cúng đặc biệt

trong lễ này là cốm dẹp, nên người ta còn gọi là lễ đút cốm dẹp, và sôi nổi

nhất là vào dịp ngày lễ cúng trăng, đồng bào Khmer tổ chức cuộc đua ghe

Ngo rất vui tươi hào hứng.[13]

Page 32: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

23

1.3.2. Lịch sử hình thành tiếng Khmer

Tiếng Khmer ngôn ngữ dân tộc của Campuchia theo thuật ngữ ngôn ngữ

học và dân tộc học được gọi là tiếng Khmer. Tiếng Khmer thuộc họ ngôn ngữ

Môn-Khmer bao gồm hơn 100 ngôn ngữ ở Đông Nam Á. Họ ngôn ngữ này

cùng với các ngôn ngữ Munda của Ấn Độ làm thành một hệ lớn được gọi là

ngữ hệ Austro-aisatic. Trong họ ngôn ngữ Môn-Khmer, tiếng Khmer tạo

thành một nhánh riêng gọi là nhánh Khmeric, không có các ngôn ngữ họ hàng

gần.

Khmer là một trong những ngôn ngữ đầu tiên ở Đông Nam Á cùng với

tiếng Chăm và Môn được tiếp nhận một hệ thống chữ viết dựa trên cơ sở âm

vị học, những bi ký Khmer cổ nhất có ghi niên đại (năm 553 Sara Era tức là

611 công nguyên) sử dụng một dạng của chữ viết Pallava, thời đó đang tồn tại

ở vùng Ấn độ. Pallava thuộc vào một hệ chữ viết phổ biến rộng của Ấn độ về

cơ bản xuất phát từ chữ viết trên các bi ký Ashokan (thế kỷ thứ 3 trước công

nguyên). Chữ viết Pallava dùng cho tiếng Khmer cổ được tiến hóa dần ở các

địa phương qua các thế kỷ cho đến hệ thống chữ viết Campuchia ngày nay.

Khoảng hơn 120 bi ký tiếng Khmer cổ được viết trước khi thành lập

Angkor (năm 802 công nguyên) còn được bảo quản, được dịch và in ấn. Nó là

chứng tích của một thời kỳ khác biệt của ngôn ngữ được gọi là tiếng Khmer

cổ “tiền Angkor”. Khoảng hơn 500 bi ký tiếng Khmer cổ có niên đại từ thời

Angkor (năm 802 -1431 công nguyên). Chúng ta đã tìm thấy trong thời gian

gần đây ở Campuchia và một phần của Việt Nam, Lào và Thái Lan. Giai đoạn

này được gọi là tiếng Khmer cổ “thời Angkor”.

Tiếng Khmer trung đại được thể hiện bởi những cái được gọi là những bi

ký Angkor “mới”, những văn bản văn học trên các lá buôn và bản sao chép

tay bao gồm sử thi Ramakeri (được phát âm là [reəmke:]), một bản phóng tác

tiếng Khmer của trường ca Ramayana Ấn Độ. Tiếng Khmer trung đại tiếng

Page 33: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

24

hóa dần đến tiếng Khmer hiện đại trong thế kỷ 18 mà không có thời điểm

phân cách rõ rệt.[22]

1.3.3. Chữ viết Khmer

1.3.3.1. Bảng chữ cái trong tiếng Khmer

Bảng chữ cái tiếng Khmer gồm:

- Phụ âm: có 33 con chữ và 32 chân được chia làm 2 giọng O và giọng

Ô [1]

+ Phụ âm giọng O có 15 con chữ và 14 chân

Con chữ

Khmer ក ខ ច ធ ដ ឋ ណ ត ថ

Phiên âm Co Kho Cho Chho Đo Tho No To Tho

Con chữ

Khmer ប ផ ស ហ ឡ អ

Phiên âm Bo Pho So Ho Lo O

Bảng 1.1 Bảng con chữ Phụ âm giọng O

Chân phụ

âm

Khmer

ក ខ ច ឆ ដ ឋ ណ ត ថ

Phiên âm

Châ

n

Co

Chân

Kho

Chân

Cho

Chân

Chho

Châ

n

Đo

Chân

Tho

Châ

n

No

Châ

n

To

Chân

Tho

Chân phụ

âm

Khmer

ប ផ ស ហ អ

Phiên âm

Châ

n

Bo

Chân

Pho

Chân

So

Chân

Ho

Chân

O

Bảng 1.2 Bảng chân Phụ âm giọng O

+ Phụ âm giọng Ô: có 18 con chữ và 18 chân

Con chữ

Khmer គ ឃ ង ជ ឈ ញ ឌ ឍ ទ

Phiên âm Cô Khô Ngô Chô Chhô Nhô Đô Thô Tô

Con chữ

Khmer ធ ន ព ភ ម យ រ ល វ

Page 34: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

25

Phiên âm Thô Nô Pô Phô Mô Dô Rô Lô Vô

Bảng 1.3 Bảng con chữ Phụ âm giọng Ô

Chân phụ

âm Khmer គ ឃ ង ជ ឈ ញ ឌ ឍ ទ

Phiên âm Chân

Chân

Khô

Chân

Ngô

Chân

Chô

Chân

Chhô

Chân

Nhô

Châ

nĐô

Chân

Thô

Châ

n Tô

Chân phụ

âm Khmer ធ ន ព ភ ម យ ល វ

Phiên âm Chân

Thô

Chân

Chân

Chân

Phô

Chân

Chân

Châ

nRô

Chân

Châ

n Vô

Bảng 1.4 Bảng chân Phụ âm giọng Ô

+ Ngoài 33 phụ âm kể trên còn có các phụ âm bổ sung

Dùng dấu (răng chuột) để trên 6 phụ âm giọng Ô để biến thành phụ âm

giọng O

Phụ âm giọng

Ô ង ញ ម យ រ វ

Phụ âm giọng

Ô

biến thành

Phụ âm giọng

O

ង ញ ម យ រ វ

Phiên âm phụ

âm giọng O Ngo Nho Mo Do Ro Vo

Bảng 1.5 Bảng phụ âm bổ sung biến đổi giọng Ô thành giọng O

Còn một phụ âm khi bỏ dấu không đổi giọng ប (Bo) thành ប (Po)

Dùng dấu để trên phụ âm giọng O để biến thành phụ âm giọng Ô

Phụ âm giọng O ប ស ហ អ Phụ âm giọng O

biến thành

Phụ âm giọng Ô

ប ស ហ អ

Phiên âm phụ âm

giọng Ô Bô Sô Hô Ô

- Nguyên âm: có 2 loại là nguyên âm thường, nguyên âm độc lập.

+ Nguyên âm thường: là nguyên âm phải ráp với phụ âm mới có

nghĩa, gồm 24 con chữ. Nhưng khi phát âm mỗi con chữ có 2 giọng âm

Page 35: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

26

khác nhau. Tức là khi ráp vần với phụ âm O thì đọc khác, khi ráp vần

với phụ âm giọng Ô thì đọc khác.

Nguyên âm

Khmer ើ

Phiên âm a ế ây ấ ơ ố ô ua ờ

Nguyên âm

Khmer ើ ើ ើ ែ ៃ ើ ើ

Phiên âm ưa Ia ê e ay ao au um om

Nguyên âm

Khmer

Phiên âm ăm ắs ếs és ốs ós

Bảng 1.6 Bảng Nguyên âm thường ráp với Phụ âm giọng O

Nguyên âm

Khmer ើ

Phiên âm Ia Í i ứ ư ú u ua ơ

Nguyên âm

Khmer ើ ើ ើ ែ ៃ ើ ើ

Phiên âm Ưa Ia ê ê ây ô âu um um

Nguyên âm

Khmer

Phiên âm Oăm Iás ís ếs ús uás

Bảng 1.7 Bảng Nguyên âm thường ráp với Phụ âm giọng Ô

+ Nguyên âm độc lập: là nguyên âm không ráp vần với phụ âm cũng

có nghĩa (vì ngay chính bản thân nó cũng có nghĩa), gồm 13 con chữ.

Nguyên

âm

Khmer

ឥ ឦ ឩ

ឳ ឫ ឬ ឭ ឮ

Phiên âm ế ây ú u âu rứ rư lứ lư

Nguyên

âm

Khmer

ឯ ឰ ឱ ឳ

Phiên âm e ay ao au

Bảng 1.8 Bảng Nguyên âm độc lập

Page 36: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

27

1.3.3.2. Số và cách đếm trong tiếng Khmer

Số tiếng Khmer Chữ viết Cách đọc Số tiếng Việt

០ ស នយ Sôn 0

១ ម យ Mui 1

២ ព រ Pi 2

៣ ប Bây 3

៤ ប ន Buôn 4

៥ រ Po-răm 5

៦ រ ម យ Prăm mui 6

៧ រ ព រ Prăm pi 7

៨ រ ប Prăm bây 8

៩ រ ប ន Prăm buôn 9

១០ ដប Đóp 10

១១ ដបម យ Đóp mui 11

១២ ដបព រ Đóp pi 12

១៣ ដបប Đóp bây 13

១៤ ដបប ន Đóp buôn 14

១៥ ដបរ Đóp po-răm 15

១៦ ដបរ ម យ Đóp po-răm mui 16

១៧ ដបរ ងព រ Đóp po-răm pi 17

១៨ ដបរ ងប Đóp po-răm bây 18

១៩ ដបរ ប ន Đóp po-răm buôn 19

២០ ៃមភ Mô-phây 20

៣០ សាមស ប Sam sấp 30

៤០ ែសស ប Se sấp 40

៥០ ហាស ប Ha sấp 50

៦០ ហ កស ប Hốc sấp 60

Page 37: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

28

៧០ ច តស ប Chất sấp 70

៨០ ែប តស ប Pet sấp 80

៩០ ើៅស ប Cau sấp 90

១០០ ម យរយ Mui rôi 100

១០១ ម យរយម យ Mui rôi mui 101

១,០០០ ម យព ន Mui poon 1.000

១០,០០០ ម យើម ន Mui mơn 10.000

១០០,០០០ ម យែសន Mui sen 100.000

១,០០០,០០០ ម យលាន Mui liên 1.000.000

១០,០០០,០០០ ម យើោដ Mui côt 10.000.000

១,០០០,០០០,០០០ ម យពនើោដ Mui poon liên 1.000.000.000

Bảng 1.9 Bảng số và cách đếm trong tiếng Khmer

1.3.4. Đặc điểm ngữ âm tiếng Khmer

Trong tiếng Khmer, âm tiết là đơn vị phát âm nhỏ nhất trong chuỗi lời nói.

Âm tiết tiếng Khmer không thuần túy là đơn vị trống nghĩa, Âm tiết tiếng

Khmer không chỉ có vỏ ngữ âm mà còn có ý nghĩa cụ thể. Ví dụ: ពនយល (pôon

dôol) =giải thích, âm tiết thứ nhất là ពន (pôon), âm tiết thứ hai là យល (dôol).

Theo quan niệm truyền thống âm tiết thứ nhất được xem như không có nghĩa,

nhưng thực ra nó vẫn có nghĩa, đó là nghĩa tiềm tàng, nghĩa khu biệt. Khi nó

kết hợp với âm tiết thứ hai để tạo thành tổ hợp ពនយល (pôon dôol) thì nghĩa của

nó đã được thể hiện.

Trong tiếng Khmer một từ đơn có thể có hai hình thức ngữ âm thể hiện nó:

từ đơn đơn tiết và từ đơn song tiết. Một từ đơn song tiết gồm hai âm tiết: âm

tiết mạnh (main-syllable) có người còn gọi đó là âm tiết chính, âm tiết tỏ, …

và âm tiết yếu (pre-syllable) có người còn gọi là tiền âm tiết, âm tiết phụ, âm

tiết mờ, ...

Page 38: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

29

Âm tiết mạnh tiếng Khmer là âm tiết mang trọng âm có khả năng đứng

một mình để cấu tạo từ, có thể tồn tại độc lập với chức năng làm hình thức

ngữ âm của từ.

Âm tiết yếu là âm tiết không mang trọng âm, luôn đi kèm với âm tiết mạnh

(không có khả năng đứng một mình để cấu tạo từ), bản thân âm tiết yếu không

mang nghĩa. Trong nhiều trường hợp phát âm, sự vắng mặt của âm tiết yếu

không làm thay đổi nghĩa của từ. Đó là xu hướng giản lượt hóa âm tiết - một

xu hướng phổ biến và tích cực trong phát âm hiện nay.

Về cấu tạo âm tiết:

+ Âm tiết đơn:

Âm tiết đơn trong tiếng Khmer cũng gồm có hai loại: âm tiết đơn mở và

âm tiết đơn khép. Về cấu tạo của âm tiết đơn là âm đầu cộng vần mở; cấu tạo

âm tiết khép là âm đầu cộng vần. Xét cấu tạo âm vị phụ âm và nguyên âm

trong âm tiết đơn chúng ta có mô hình âm tiết như sau:

Cấu tạo âm tiết mở = CV hoặc CCV (trong đó, C là phụ âm, V là nguyên

âm). Ví dụ: តា (ta) = ông, ែកក (chke) = con chó, ផារ (phxa) = chợ, ខល (khlây) =

ngắn, ផកក (phka) = hoa, ែខស (khxe) = dây.

Cấu tạo âm tiết khép = CVC. Ví dụ: ើកណឌ (ken) = tập hợp, ងក (ngook)=ngủ

gật, ខយង (khjoong) = con ốc, ើោល (chool) = bỏ, ដង (đooong) = múc, ណាយ (nai) =

chán, តម (tom) = kiêng, …

+ Âm tiết ghép:

Âm tiết ghép của tiếng Khmer được cấu tạo bởi âm tiết đơn mang trọng

âm cộng với một CV hoặc VC không mang trọng âm trước đó mà chỉ có thể

Page 39: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

30

là phụ âm đơn, và V luôn là nguyên âm trung hòa /Ơ/. Mô hình âm tiết khép

có các dạng như sau: COWCV, ƠCCƠV hoặc COWCVC. [14]

Ví dụ:

Âm tiết ghép mở: រងារ (rơnghia) = lạnh, កប (krơbây) = con trâu, ទទ ល

(towtuôl) = đón,…

Âm tiết ghép khép: បសប (prơxop) = rành), បោន (prơkăn) = chấp, បើៅ

(prơđau) = dạy, តជាក (trơchat) = lạnh, សមបក (xơmbok) = vỏ, …

1.3.5. Đặc điểm từ vựng tiếng Khmer

Trong tiếng Khmer, một số từ được thành lập được một âm tiết, một số từ

được thành lập do sự lưỡng vần. Thông thường, từ được thành lập được bởi

hai âm tiết. Âm tiết thứ nhất với âm tiết sau tạo thành từ có nghĩa và khi tách

hai âm tiết này ra, thì từng âm tiết sẽ không mang nghĩa.

Từ tiếng Khmer cũng được tạo thành theo phương thức ghép và phương

thức láy. Các từ ghép được tạo thành nhờ sự kết hợp giữa các từ với nhau

hoặc bằng cách láy toàn bộ hay bộ phận hình vị gốc.

Phần lớn tiếng Khmer là từ đơn âm tiết hoặc sesquisyllabic (từ có một âm

tiết yếu và có một âm tiết mạnh) mặc dù các từ vay mượn Sanskrit và Paly có

thể có nhiều âm tiết. Cấu trúc sesquisyllabic gồm một tiền âm tiết không có

trọng âm với nguyên âm bị nhượt hóa là âm tiết yếu hay âm tiết phụ; âm tiết

này đi trước một âm tiết chính có trọng âm và có nguyên âm đầy đủ. Vì hình

thái tiếng Khmer còn có tiền tố và trung tố, không tồn tại hậu tố, trừ các từ

ngữ có nguồn gốc Indic, âm tiết chính là bộ phận bền vững nhất của từ. Âm

tiết yếu có thể chứa đựng những hình vị đã hóa thạch với những chức năng

không rõ ràng, và thường nhược hóa trong lời nói nhanh, vì thế nó thường

không bền vững.

Page 40: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

31

Từ tiếng Khmer thường có nhiều tổ hợp phụ âm đầu từ, không có tổ hợp

phụ âm ở cuối từ. Âm tiết chính ở cuối từ được kết thúc hoặc bằng nguyên âm

hoặc bằng phụ âm đơn.[14]

1.3.6. Đặc điểm ngữ pháp tiếng Khmer

Từ tiếng Khmer không biến đổi hình thái. Từ tiếng Khmer luôn có hình

thức ổn định khi đảm nhiệm các chức năng ngữ pháp, quan hệ ngữ pháp khác

nhau hay phục thuộc các từ loại khác nhau.

Vì từ tiếng Khmer không biến đổi hình thái nên chức năng ngữ pháp và

quan hệ ngữ pháp của từ không được biểu hiện trong bản thân cảu từ. Phương

thức ngữ pháp chủ yếu của tiếng Khmer là phương thức trật tự từ và phương

thức hư từ. Ngoài ra ngữ pháp tiếng Khmer cũng sử dụng ngữ điệu như một

phương thức ngữ pháp.[19]

Trật tự từ cơ sở của tiếng Khmer là S – V – O (Subject Verb Object).

Trong ngữ danh ngữ (danh ngữ), danh từ chính đi trước, và từ phụ đi sau (kể

cả số từ), những yếu tố phụ khác như tính từ, từ sở hữu và những mệnh đề

quan hệ thường đứng giữa. Ngoại lệ duy nhất là số từ thường đi trước danh từ.

Một cấu trúc khác: danh từ + số từ + loại từ chỉ lượng, theo trật tự thường

gặp của ngữ danh từ, nhưng việc sử dụng cấu trúc này không bao giờ bị bắt

buộc, và loại từ chỉ lượng không đóng vai trò quan trọng trong tiếng Khmer

như trong các ngôn ngữ Đông Nam Á khác.[22]

1.4. NHẬN XÉT HAI NGÔN NGỮ VIỆT VÀ KHMER

1.4.1. Những đặc điểm tương đồng

Tiếng Việt và tiếng Khmer, về nguồn gốc, có quan hệ họ hàng như đã

trình bày ở trên. Vì thế, hai ngôn ngữ tất nhiên có những điểm giống nhau

nhất định trên cả ba bình diện ngôn ngữ của chúng.

Thứ nhất, hệ thống âm vị của hai ngôn ngữ có nhiều âm vị tương ứng nhau.

Cụ thể như:

Page 41: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

32

Về phụ âm đầu: / k, χ, ŋ, c, ɲ, đ, th, n, b, f, m, d, ʐ, l, S, h/.

Về âm cuối: gồm một số phụ âm và hai bán âm

+ Các phụ âm cuối, cả tiếng Việt và tiếng Khmer cùng có các âm vị âm

cuối là các phụ âm: /c, ŋ, c, ɲ, n, t, m/.

+ Bán nguyên âm / -w/, / -j/

Thứ hai, tiếng Việt và tiếng Khmer điều thuộc điều thuộc loại hình

ngôn ngữ đơn lập, không biến đổi hình thái. Từ luôn ổn định về mặt hình

thức.

Thứ ba, cũng như âm tiết tiếng Việt, âm tiết tiếng Khmer không thuần

túy là đơn vị trống nghĩa. Đa số các từ trong tiếng Việt và tiếng Khmer được

cấu tạo từ một âm tiết, tức đa số từ tiếng Việt và tiếng Khmer là từ đơn tiết và

cũng có từ đa tiết. Các từ được tạo ra chủ yếu nhờ phương thức ghép và

phương thức láy.

Thứ tư, về mặt ngữ pháp, cả hai ngôn ngữ điều có trật tự ngữ pháp cơ

sở là S-V-O (Subject Verb Object), với phương thức ngữ pháp chủ yếu là

phương thức trật tự từ và phương thức hư từ.[14]

1.4.2. Những nét dị biệt

Bên cạnh những nét tương đồng, hai ngôn ngữ có những nét khác biệt,

những nét riêng, chỉ có ngôn ngữ này mà không có trong ngôn ngữ kia, và

ngược lại.

Thứ nhất, hệ thống âm vị phụ âm của tiếng Khmer còn có điểm khác

với tiếng Việt ở chỗ, trong tiếng Việt, tất cả các phụ âm điều được phát âm

theo vần /ơ/, còn trong tiếng Khmer, một số phụ âm được phát âm với vần /o/,

một số âm được phát âm với vần /ô/. Sự khác nhau giữa phụ âm mang vần /o/

và phu âm mang vần /ô/ thể hiện trong sự tạo âm khi kết hợp với nguyên âm

để tạo tiếng.

Page 42: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

33

Thứ hai, tiếng Khmer có một số âm cuối mà tiếng Việt không có như:

/d, ʐ, w, χ/. Tiếng Khmer không có âm cuối /p/ mà chỉ có âm cuối /f/.

Thứ ba, trong khi tiếng Việt thể hiển rõ đặc điểm loại hình là tính phân

tiết tính, mỗi âm tiết là đơn vị phát âm tự nhiên nhỏ nhất, có cấu tạo và phân

giới rạch ròi với các âm tiết trước và sau nó. Tiếng Khmer chưa phải là một

ngôn ngữ đơn âm tiết triệt để là là một ngôn ngữ cận âm tiết tính. Bởi lẽ trong

tiếng Khmer vẫn còn hiện tượng giữa các âm tiết chưa có sự phân ranh giới rõ

ràng. Đó là trường hợp các âm tiết ghép của tiếng Khmer. Các âm tiết ghép

này được cấu tạo bởi âm tiết đơn mang trọng âm, cộng với một CV hay VC

(trong đó, C là phụ âm, V là nguyên âm) không mang trọng âm phía trước.

Thứ tư, tiếng Việt có thanh điệu với 6 thanh, còn tiếng Khmer là một

ngôn ngữ không có thanh điệu, và âm tiết tiếng Khmer còn hiện tượng có tổ

hợp các phụ âm đầu.

Thứ năm, trong cấu tạo của âm tiết tiếng Việt, nguyên âm là thành tố

chính tạo nên âm tiết, nghĩa là, âm tiết nhất thiết phải có nguyên âm, thậm chí

một mình âm tiết chính nguyên âm cũng có thể làm thành âm tiết. Các mô

hình cấu tạo âm tiết tiếng Việt có thể: CVVC, CVC, CV, VC, V (trong đó, C

là phụ âm, V là nguyên âm – có thể là nguyên âm đơn hoặc nguyên âm đôi).

Còn trong tiếng Khmer âm tiết có thể được tạo nên chỉ có các phụ âm mà

không nhất thiết phải có nguyên âm. Như vậy, đảm nhiệm âm chính trong

tiếng Khmer không chỉ là các nguyên âm mà còn là các phụ âm.

Thứ sáu, trên phương diện ngữ pháp tiếng Việt và tiếng Khmer về cơ

bản là giống nhau, từ từ loại đến cấu trúc ngữ pháp. Tuy nhiên cần lưu ý các

đặc điểm khác biệt sau:

Cấu tạo cụm danh từ trong tiếng Việt gồm thành tố chính, ba thành tố

phụ trước và hai thành tố phụ sau. Cụ thể: Đại từ chỉ tổng lượng + Định từ +

Định từ “cái” + Danh từ + Định ngữ miêu tả + Định ngữ chỉ xuất

Ví dụ: Tất cả những cái tên đẹp đẽ ấy

Page 43: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

34

Như vậy trong cấu tạo cụm danh từ tiếng Việt, ta thấy phụ từ chỉ số

lượng đứng trước danh từ làm thành tố chính.

Cụm danh từ tiếng Khmer có cấu tạo: danh từ chính đi trước, và từ phụ

đi sau (kể cả số từ), những yếu tộ phụ khách như tính từ, từ sở hữu và những

mệnh đề quan hệ thường đứng giữa, Một cấu trúc khác: Danh từ + Định từ +

Đại từ chỉ số lượng, theo trật tự thường gặp của ngữ danh từ.[14]

Vídụ:

1.4.3. Khả năng xây dựng một hệ thống dịch tự động

Dựa vào phân tích những đặc điểm tương đồng và những nét dị biệt

giữa hai ngôn ngữ tiếng Việt và tiếng Khmer, ta thấy tiếng Việt và tiếng

Khmer có nguồn gốc quan hệ họ hàng với nhau, cả hai điều thuộc điều thuộc

loại hình ngôn ngữ đơn lập, không biến đổi hình thái, từ luôn ổn định về mặt

hình thức, đa số từ là từ đơn tiết và cũng có từ đa tiết, các từ được tạo ra chủ

yếu nhờ phương thức ghép và phương thức láy, về mặt ngữ pháp, cả hai ngôn

ngữ điều có trật tự ngữ pháp cơ sở là S-V-O (Subject Verb Object).

Về nét dị biệt giữa hai ngôn ngữ chủ yếu về âm vị, thanh điệu các khác

biệt khác không lớn. Từ những đặc điểm trên, việc xây dựng hệ dịch tự động

giữa hai ngôn ngữ tiếng Việt – tiếng Khmer hoàn toàn thực hiện được.

1.5. HIỆN TRẠNG ỨNG DỤNG TIN HỌC HIỆN NAY

1.5.1. Hiện trạng

Tiếng Khmer được đưa vào giảng dạy tại các trường tiểu học, trường

Trung học cơ sở và dạy trường Trung học phổ thông tại các trường dân tộc

Tiếng Việt Tiếng Khmer

Tất cả ba con bò bò ba tất cả

Page 44: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

35

nội trú nhằm giúp học sinh dân tộc Khmer hình thành và phát triển các kỹ

năng giao tiếp bằng tiếng mẹ đẻ. Hiện nay, tại các tỉnh có đông đồng bào dân

tộc Khmer sinh sống đã có các chương trình phát thanh, truyền hình, báo, các

ấn phẩm bằng tiếng Khmer, tin học đã được đưa vào ứng dụng trong việc

biên soạn sách giáo khoa, tài liệu, biên soạn các ấn phẩm báo chí, sản xuất các

chương trình phát thanh truyền hình phục vụ cho đồng bào dân tộc Khmer.

1.5.2. Một số kết quả hiện có

Đã có một số kết quả ứng dụng tin học vào phục vụ đời sống đồng bào

Khmer

- Font tiếng Khmer, có nhiều loại font Unicode hỗ trợ tiếng Khmer

như: Khmer OS, Khmer Limon, NiDA, Zero-Space, itCity, … những bộ font

này không được tích hợp sẵn trong hệ điều hành Windows, khi muốn sử dụng

phải cài đặt. Nếu không muốn cài đặt các bộ font này người dùng có thể sử

dụng font “DaunPenh” là font Unicode hỗ trợ tiếng Khmer do Microsoft đã

cài đặt sẵn trong hệ điều hành: Windows Vista, Windows 7, Windows 8,

Windows Server 2008. Có rất nhiều bộ gõ hỗ trợ font Unicode như: Khmer

Unicode của NiDA, Khmer Limon, Khmer Unicode của Microsoft,… mỗi bộ

gõ điều có cách gõ khác nhau, không thống nhất với nhau, tùy theo thói quen

mà người sử dụng chọn bộ gõ phù hợp.

Page 45: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

36

Hình 1.3 Cách gõ chữ Khmer trong bộ gõ Khmer Unicode của NiDA

- Website tiếng Khmer, hiện nay đã có các website hỗ trợ tiếng Khmer

nhằm đưa thông tin tới đồng bào:

website báo cần thơ (http://www.baocantho.com.vn/khmer/), website cổng

thông tin điện tử Trà Vinh (http://www.travinh.gov.vn/wps/portal/khmer),

website trường Đại học Trà Vinh (http://kh.tvu.edu.vn/).

1.5.3. Nhu cầu xử lý ngôn ngữ tiếng Khmer

Hiện nay, nhu cầu việc xử lý ngôn ngữ tiếng Khmer là rất lớn. Việc xử

lý ngôn ngữ sẽ giúp xây dựng được nhiều ứng dụng phục vụ mục đích học

tập, nghiên cứu và bảo tồn chữ viết Khmer như từ điển đa ngữ, các giáo trình

điện tử hỗ trợ dạy học tiếng Khmer, các chương trình dịch tự động Việt -

Khmer phục vụ cho các đài phát thanh, truyền hình nhằm giúp đồng bào có

nhiều thông tin hữu ích, nhận thức đầy đủ hơn các chủ trương của Đảng,

chính sách của Nhà nước.

Page 46: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

37

1.6. NGỮ LIỆU SONG NGỮ

1.6.1. Khái niệm

Thuật ngữ “ngữ liệu” được tạm dịch từ thuật ngữ tiếng Anh “corpus”, có

nghĩa là “kho dữ liệu, kho sưu tập tài liệu,..” (theo Từ điển Anh-Việt, ĐH

Ngoại ngữ, NXB GD-2000 trang 368). “Ngữ liệu” ở đây có thể xem là những

“dữ liệu, cứ liệu của ngôn ngữ”, tức là những chứng cứ thực tế sử dụng ngôn

ngữ. Ngữ liệu chỉ gồm các văn bản của một ngôn ngữ gọi là ngữ liệu đơn ngữ

và ngữ liệu của nhiều ngôn ngữ gọi là ngữ liệu đa ngữ.

Ngữ liệu song ngữ là ngữ liệu tồn tại dưới 2 ngôn ngữ và chúng là bản

dịch của nhau.[2]

1.6.2. Vấn đề thu thập dữ liệu song ngữ

Trong các nghiên cứu về dịch máy, ngữ liệu song ngữ là một thành phần

thiết yếu quan trọng không thể thiếu. Chất lượng của ngữ liệu song ngữ đóng

vai trò quyết định đến chất lượng đầu ra của hệ dịch. Hệ dịch sẽ không thể

cho kết quả tốt nếu ngữ liệu song ngữ sử dụng trong quá trình huấn luyện có

chất lượng không tốt cho dù được áp dụng các phương pháp học máy tiên tiến

nhất.

Ngữ liệu song ngữ có thể được thu thập từ nhiều nguồn bao gồm. Tổng

quát, có thể chia các nguồn này thành hai loại, nguồn ngữ liệu ở dạng giấy

viết và nguồn ngữ liệu dạng điện tử.

Ngữ liệu song ngữ ở dạng giấy viết có thể được tìm thấy dễ dàng trong

các sách học ngoại ngữ, các sách truyện, tài liệu song ngữ và các từ điển song

ngữ. Việc tìm kiếm loại ngữ liệu này đơn giản, tuy nhiên quá trình nhập liệu

vào máy tính tốn nhiều thời gian và công sức.

Với phát triển bùng nổ của công nghệ thông tin và Internet, các ngữ liệu

song ngữ dưới dạng điện tử hiện đang tồn tại khá phong phú ở nhiều dạng.

Một nguồn ngữ liệu thường được khai thác để xây dựng ngữ liệu song ngữ là

Page 47: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

38

các trang web song ngữ. Với sự phát triển bùng nổ của Internet, số lượng các

trang web song ngữ ngày càng lớn và việc sử dụng kĩ thuật web-mining để

trích rút các ngữ liệu song ngữ từ các trang web song ngữ đã được khá nhiều

nhóm nghiên cứu trên thế giới quan tâm. [19]

1.6.3. Công cụ xây dựng kho ngữ liệu song ngữ

Hiện nay có rất nhiều công cụ cho phép lưu trữ và khai thác dữ liệu để

xây dựng các kho dữ liệu song ngữ như XML, HTML, các hệ quản trị như

MS Access, SQL Server, MS Word, Oracle,... Theo khuyến cáo của các nhà

tin học và các công ty phần mềm hàng đầu hiện nay thì XML được xem là

một chuẩn rất tốt dành cho các dữ liệu đa ngữ. Đặc điểm của XML là có cấu

trúc mềm dẻo, dễ sử dụng và khai thác được trên nhiều hệ thống máy tính

khác nhau (nó được lưu trữ dưới dạng tập tin dữ liệu dạng text), dung lượng

nhỏ và dễ chuyển đổi sang các dạng thức khác.[2]

Vì vậy, XML rất phù hợp để xây dựng kho ngữ vựng Việt – Khmer phục

vụ cho hệ thống dịch của đề tài.

1.6.4. Một số dữ liệu song ngữ Việt – Khmer

Kho dữ liệu song ngữ hay đa ngữ thường được sử dụng với nhiều mục

đích khác nhau như: từ điển, dịch tự động, tìm kiếm thông tin xuyên ngôn

ngữ, nghiên cứu ngôn ngữ học, học ngoại ngữ,...

Hiện nay, việc nghiên cứu trên thế giới đã được thực hiện với các cặp

ngôn ngữ phổ biến như: Anh-Pháp, Anh-Nga, Anh-Nhật, Anh-Hoa,..

Về tiếng Việt, các kho dữ liệu cũng được xây dựng với đa số ngôn ngữ

của các nước khác như Việt – Anh, Việt – Pháp, Việt – Hoa, hay Việt – Anh –

Pháp, Nhật – Anh – Việt, Hàn – Anh – Việt…

Vấn đề số hóa cho tiếng dân tộc thiểu số ở Việt Nam đang chỉ mới bắt

đầu trong những năm gần đây, số lượng các công trình cũng rất ít. Đa số các

bộ từ điển được nghiên cứu và thực hiện biên soạn trên từ điển giấy.

Page 48: ỘGIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNGdspace.tvu.edu.vn/jspui/bitstream/TVU_123456789/60/1/Xay dung he... · Chuyên ngành: KHOA HỌC MÁY TÍNH ... Dịch bản

39

Hiện nay, có từ điển song ngữ tiếng Khmer được biên soạn chủ yếu là từ

điển giấy, như quyển từ vựng Việt – Khmer khoảng 16.000 từ và quyển

Khmer – Việt khoảng 15.000 từ của tác giả Ngô Chân Lý do nhà xuất bản

Thông Tấn xuất bản, về từ điện điện tử có từ điển trực tuyến đa ngôn ngữ tại

địa chỉ (http://vi.glosbe.com) hiện tại từ điển có khoảng 3.697 từ, chưa có từ

điển điện tử khác được công nhận, nếu có chỉ là một số một số nghiên cứu

thuộc về các luận văn kỹ sư, thạc sĩ mang tính nghiên cứu, chưa được nghiệm

thu và công nhận áp dụng thực tế.