tích hợp tương tác người-máy bằng tiếng nói trong tự động hóa

6
Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011 VCCA-2011 Tích hợp tương tác người-máy bằng tiếng nói trong tự động hóa Integration of human-machine interaction in automation control Nguyễn Việt Tùng, Phạm Thị Ngọc Yến Trung tâm MICA, HUST - CNRS/UMI 2954 - Grenoble INP, Trường ĐHBK Hà Nội email: {viet-tung.nguyen; ngoc-yen.pham}@mica.edu.vn Tóm tắt Cùng sự phát triển của khoa học và công nghệ, việc điều khiển các thiết bị, dây chuyền công nghệ ngày càng đòi hỏi khắt khe hơn về chất lượng, độ tin cậy điều khiển cũng như sự thân thiện trong tương tác. Trong các phương thức giao tiếp, tiếng nói là một kênh tương tác truyền thống và quen thuộc với con người. Việc nâng cao chất lượng tương tác giữa con người với hệ thống thông qua các kênh tương tác mới trong đó có tiếng nói một hướng nghiên cứu đáng chú ý. Bài báo này trình bày một giải pháp xây dựng hệ tương tác người - máy có sử dụng tiếng nói song song với các hệ thống tương tác truyền thống hiện có. Abstract Beside the development of science and technology, the device and process control are more and more strictly required towards quality, control reliablity as well as usability in interaction. Among communication methods, voice interaction is a traditional one and familiar with human. The quality enhancement in interaction between user and system via novel channels, including voice, has been becoming an attractive research topic. In this paper, a solution is introduced for establishing a human- machine interaction system by voice together with other existing interaction systems. Chữ viết tắt MVC Model-View-Controller 1. Giới thiệu Ngày nay, các hệ thống giám sát điều khiển đã thâm nhập mọi nơi, từ đời sống sinh hoạt hàng ngày đến công nghiệp, quốc phòng. Bên cạnh các đòi hỏi ngày càng cao về chất lượng điều khiển, tính tiện dụng khi sử dụng các thiết bị, dây chuyền công nghệ đang trở thành yếu tố ảnh hưởng quyết định đến chất lượng hệ thống. Có nhiều cách nâng cao tính tiện dụng cho một hệ thống giám sát điều khiển như: tìm hiểu thói quen, sở thích người dùng hay nghiên cứu các phương thức tương tác mới cũng như các cách thức kết hợp các phương thức tương tác với nhau. Tuy nhiên, quá trình xây dựng, thử nghiệm và triển khai các phương thức tương tác mới trong thực tế gặp nhiều khó khăn. Thông thường hệ thống đã được thiết kế sẵn và đã vận hành trong thực tế, người dùng không muốn thay đổi hay can thiệp vào hệ thống đang vận hành, đặc biệt các hệ thống trong công nghiệp. Điều này đặt ra bài toán làm cách nào để xây dựng triển khai các giải pháp tương tác mới vào các hệ thống hiện có. Lời giải cho bài toán này cần đảm bảo các yêu cầu như: Tính mở, tính dễ sửa đổi, dễ phát triển Tính khả chuyển Tính tin cậy Giữ nguyên khả năng can thiệp của chế độ điều khiển bằng tay Tính nhất quán và thống nhất giữa điều khiển bằng tay và điều khiển bằng tiếng nói. Bài báo này trình bày một giải pháp cho bài toán trên. 2. Giải pháp xây dựng hệ tương tác người - máy Với các yêu cầu trên và các yêu cầu chức năng cụ thể của bài toán tương tác người-máy trong công nghiệp, chúng tôi đã xây dựng giải pháp kết hợp các kĩ thuật sau để thiết kế và triển khai hệ tương tác người - máy có bổ sung kênh tương tác bằng tiếng nói: 1. Sử dụng mô hình MVC (Model-View-Controller) trong thiết kế hệ tương tác bằng tiếng nói. 2. Sử dụng cơ chế tín hiệu-khe cắm (signal-slot) để kết nối giữa các mô đun. Mô đun nguồn phát tín hiệu, mô đun đích nhận tín hiệu và thực hiện các xử lí tương ứng. Việc kết nối do hệ thống quản lí, mô đun nguồn và mô đun đích không cần quan tâm cụ thể mô đun nào đã phát tín hiệu và mô đun nào sẽ xử lí tín hiệu. 3. Sử dụng lập trình hướng sự kiện khi lập trình giao diện. 2.1. Mô hình MVC MVC [1,2,3,4] là một mẫu kiến trúc phần mềm trong công nghệ phần mềm. Nó giúp người phát triển phần mềm cô lập các nguyên tắc nghiệp vụ và giao diện người dùng một cách rõ ràng. Ở đây các nguyên tắc nghiệp vụ gồm (i) các mối quan hệ liên động và (ii) các nguyên tắc vận hành cụ thể của quá trình cần giám sát và điều khiển. Phần mềm phát triển theo MVC tạo nhiều thuận lợi cho việc bảo trì, phát triển chương trình vì các nguyên tắc nghiệp vụ và giao diện được cách ly và phát triển tương đối độc lập với nhau. Trong MVC (hình 1), mô hình (model) tượng trưng cho dữ liệu của chương trình phần mềm. Khung nhìn (view) gồm các thành phần giao diện với người dùng. Bộ điều khiển (controller) chịu tác động điều khiển của con người (dưới dạng nút bấm, hoặc tiếng nói 500

Upload: pvdai

Post on 29-Jul-2015

125 views

Category:

Documents


6 download

DESCRIPTION

Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011Tích hợp tương tác người-máy bằng tiếng nói trong tự động hóa Integration of human-machine interaction in automation controlNguyễn Việt Tùng, Phạm Thị Ngọc Yến Trung tâm MICA, HUST - CNRS/UMI 2954 - Grenoble INP, Trường ĐHBK Hà Nội email: {viet-tung.nguyen; ngoc-yen.pham}@mica.edu.vn Tóm tắtCùng sự phát triển của khoa học và công nghệ, việc điều khiển các thiết bị, dây chuyền công nghệ ngày càng đòi hỏi khắt khe hơn về chất lượng, độ

TRANSCRIPT

Page 1: Tích hợp tương tác người-máy bằng tiếng nói trong tự động hóa

Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011

VCCA-2011

Tích hợp tương tác người-máy bằng tiếng nói trong tự động hóa

Integration of human-machine interaction in automation control

Nguyễn Việt Tùng, Phạm Thị Ngọc Yến

Trung tâm MICA, HUST - CNRS/UMI 2954 - Grenoble INP, Trường ĐHBK Hà Nội

email: {viet-tung.nguyen; ngoc-yen.pham}@mica.edu.vn

Tóm tắt Cùng sự phát triển của khoa học và công nghệ, việc

điều khiển các thiết bị, dây chuyền công nghệ ngày

càng đòi hỏi khắt khe hơn về chất lượng, độ tin cậy

điều khiển cũng như sự thân thiện trong tương tác.

Trong các phương thức giao tiếp, tiếng nói là một

kênh tương tác truyền thống và quen thuộc với con

người. Việc nâng cao chất lượng tương tác giữa con

người với hệ thống thông qua các kênh tương tác mới

trong đó có tiếng nói là một hướng nghiên cứu đáng

chú ý. Bài báo này trình bày một giải pháp xây dựng

hệ tương tác người - máy có sử dụng tiếng nói

song song với các hệ thống tương tác truyền thống

hiện có.

Abstract

Beside the development of science and technology,

the device and process control are more and more

strictly required towards quality, control reliablity as

well as usability in interaction. Among

communication methods, voice interaction is a

traditional one and familiar with human. The quality

enhancement in interaction between user and system

via novel channels, including voice, has been

becoming an attractive research topic. In this paper, a

solution is introduced for establishing a human-

machine interaction system by voice together with

other existing interaction systems.

Chữ viết tắt MVC Model-View-Controller

1. Giới thiệu Ngày nay, các hệ thống giám sát điều khiển đã thâm

nhập mọi nơi, từ đời sống sinh hoạt hàng ngày đến

công nghiệp, quốc phòng. Bên cạnh các đòi hỏi ngày

càng cao về chất lượng điều khiển, tính tiện dụng khi

sử dụng các thiết bị, dây chuyền công nghệ đang trở

thành yếu tố ảnh hưởng quyết định đến chất lượng hệ

thống.

Có nhiều cách nâng cao tính tiện dụng cho một hệ

thống giám sát điều khiển như: tìm hiểu thói quen, sở

thích người dùng hay nghiên cứu các phương thức

tương tác mới cũng như các cách thức kết hợp các

phương thức tương tác với nhau. Tuy nhiên, quá trình

xây dựng, thử nghiệm và triển khai các phương thức

tương tác mới trong thực tế gặp nhiều khó khăn.

Thông thường hệ thống đã được thiết kế sẵn và đã vận

hành trong thực tế, người dùng không muốn thay đổi

hay can thiệp vào hệ thống đang vận hành, đặc biệt là

các hệ thống trong công nghiệp. Điều này đặt ra bài

toán làm cách nào để xây dựng và triển khai các giải

pháp tương tác mới vào các hệ thống hiện có. Lời giải

cho bài toán này cần đảm bảo các yêu cầu như:

Tính mở, tính dễ sửa đổi, dễ phát triển

Tính khả chuyển

Tính tin cậy

Giữ nguyên khả năng can thiệp của chế độ điều

khiển bằng tay

Tính nhất quán và thống nhất giữa điều khiển

bằng tay và điều khiển bằng tiếng nói.

Bài báo này trình bày một giải pháp cho bài toán trên.

2. Giải pháp xây dựng hệ tương tác

người - máy Với các yêu cầu trên và các yêu cầu chức năng cụ thể

của bài toán tương tác người-máy trong công nghiệp,

chúng tôi đã xây dựng giải pháp kết hợp các kĩ thuật

sau để thiết kế và triển khai hệ tương tác người - máy

có bổ sung kênh tương tác bằng tiếng nói:

1. Sử dụng mô hình MVC (Model-View-Controller)

trong thiết kế hệ tương tác bằng tiếng nói.

2. Sử dụng cơ chế tín hiệu-khe cắm (signal-slot) để

kết nối giữa các mô đun. Mô đun nguồn phát tín

hiệu, mô đun đích nhận tín hiệu và thực hiện các

xử lí tương ứng. Việc kết nối do hệ thống quản lí,

mô đun nguồn và mô đun đích không cần quan

tâm cụ thể mô đun nào đã phát tín hiệu và mô đun

nào sẽ xử lí tín hiệu.

3. Sử dụng lập trình hướng sự kiện khi lập trình

giao diện.

2.1. Mô hình MVC

MVC [1,2,3,4] là một mẫu kiến trúc phần mềm trong

công nghệ phần mềm. Nó giúp người phát triển phần

mềm cô lập các nguyên tắc nghiệp vụ và giao diện

người dùng một cách rõ ràng. Ở đây các nguyên tắc

nghiệp vụ gồm (i) các mối quan hệ liên động và (ii)

các nguyên tắc vận hành cụ thể của quá trình cần

giám sát và điều khiển. Phần mềm phát triển theo

MVC tạo nhiều thuận lợi cho việc bảo trì, phát triển

chương trình vì các nguyên tắc nghiệp vụ và giao diện

được cách ly và phát triển tương đối độc lập với nhau.

Trong MVC (hình 1), mô hình (model) tượng trưng

cho dữ liệu của chương trình phần mềm. Khung nhìn

(view) gồm các thành phần giao diện với người dùng.

Bộ điều khiển (controller) chịu tác động điều khiển

của con người (dưới dạng nút bấm, hoặc tiếng nói

500

Page 2: Tích hợp tương tác người-máy bằng tiếng nói trong tự động hóa

Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011

VCCA-2011

thông qua bộ nhận dạng tiếng nói) quản lí sự trao đổi

giữa dữ liệu và các nguyên tắc nghề nghiệp trong các

thao tác liên quan đến mô hình. Bộ điều khiển phản

ứng với các sự kiện và tác động đến mô hình hoặc

khung nhìn. Ngay khi bộ điều khiển thay đổi mô hình

dữ liệu và/hoặc các thuộc tính của mô hình, tất cả các

khung nhìn liên quan đến mô hình đó sẽ được cập

nhật.

Mô hình

Khung nhìnKhung nhìn

Bộ điều khiển

Sự

kiện

Sự kiện chuyển đến

Bộ điều khiển

Bộ điều khiển thay

đổi Mô hình hoặc

Khung nhìn

Khung nhìn lấy dữ

liệu từ Mô hình

Mô hình cập nhật các

khung nhìn khi dữ liệu

thay đổi H. 1 Mô hình MVC tổng quát.

Nhờ có sự phân tách giữa khung nhìn, mô hình và

điều khiển mà nhiều khung nhìn và nhiều điều khiển

có thể giao tiếp đồng thời với cùng một mô hình. Từ

đó chúng ta dễ dàng thêm, bớt, thay đổi khung nhìn

và bộ điều chỉnh mà không cần thay đổi thiết kế của

mô hình. Do vậy mà việc thêm bộ nhận dạng và phản

hồi tiếng nói sẽ dễ dàng và chúng có thể vận hành

song song và độc lập với hệ thống hiện tại đang dùng

của người dùng. Trong trường hợp bổ sung hệ tương

tác bằng tiếng nói, bên cạnh việc đáp ứng các sự kiện

đến từ môi trường, bàn phím-chuột, bộ điều khiển sẽ

nhận thêm các sự kiện đến từ bộ nhận dạng tiếng nói.

Sự kiện là nguyên nhân gây ra các thay đổi mô hình,

khung nhìn hoặc cả hai.

Hình 2 minh họa về cài đặt MVC của một đối tượng

tương tác điển hình. Ở đây khi thay đổi giá trị dữ liệu

bằng mũi tên lên và xuống sẽ tạo các sự kiện gửi đến

bộ nghe sự kiện (bộ điều khiển). Tương ứng với các

sự kiện nhận được bộ điều khiển sẽ tăng hoặc giảm

một cách tương ứng giá trị trong mô hình. Ngược lại,

nếu vì một lí do nào đó, giá trị trong mô hình thay đổi,

hàm update view sẽ tự động được gọi để đảm bảo

trạng thái của khung nhìn được cập nhật đồng nhất

với mô hình dữ liệu mà nó phản ánh.

Mô hình

văn bản

Nghe sự

kiện

thay đổi mô hình

cập nhật khung nhìn

tăng/giảm

lấy dữ liệu

H. 2 Cài đặt MVC cho đối tượng tương tác điển hình.

Trong trường hợp sử dụng tiếng nói để điều khiển đối

tượng một bộ nghe sự kiện khác sẽ được cài đặt song

song với bộ nghe sự kiện hiện có. Hình 3 trình bày

một trường hợp mở rộng bài toán hiện tại với bộ nhận

dạng tiếng nói (bộ điều khiển mới). Mô đun nghe sự

kiện này nhận sự kiện từ bộ nhận dạng tiếng nói và

điều khiển mô hình thay đổi theo sự kiện nhận được

(như tăng giảm nhiệt độ điều hòa).

thay đổi mô hình

cập nhật khung nhìn

Nghe sự

kiện

tăng/giảm

lấy dữ liệu

thay đổi mô hình

Nghe sự

kiện

Mô hình

văn bản

micrô

Nhận dạng

tiếng nói

tăng/giảm

H. 3 MVC của một đối tượng tương tác được mở rộng

với bộ điều khiển nhận tín hiệu từ bộ nhận dạng

tiếng nói.

Mỗi khi dữ liệu được thay đổi, khung nhìn sẽ được

cập nhật. Để có thể phản hồi thông tin này đến người

dùng dưới dạng tiếng nói, một bộ tổng hợp tiếng nói

gắn với loa được bổ sung vào hệ thống. Bộ tổng hợp

tiếng nói này đóng vai trò như một khung nhìn mới

của dữ liệu (hình 4).

cập nhật khung nhìn

Mô hình

văn bản

Nghe sự

kiện

thay đổi mô hình

cập nhật khung nhìn

tăng/giảm

lấy dữ liệu

Tổng hợp

tiếng nóiloa

H. 4 MVC của một đối tượng tương tác được mở rộng

với phản hồi bằng tiếng nói tổng hợp.

2.2. Tín hiệu-khe cắm

Tín hiệu - khe cắm là cơ chế được sử dụng trong Qt

[5], một framework lập trình giao diện đa nền. Tín

hiệu-khe cắm được dùng để triển khai khuôn mẫu

quan sát (observer pattern) [6]. Hình 5 minh họa việc

dùng tín hiệu-khe cắm để truyền thông tin giữa các

đối tượng trong chương trình. Nó cho phép nhiều tín

hiệu kết nối đến cùng một khe cắm, một tín hiệu đến

nhiều khe cắm và nối tiếp nhiều tín hiệu với nhau. Khi

tín hiệu A nối tiếp với tín hiệu B, tín hiệu B sẽ tự

động được gửi khi A được gửi.

501

Page 3: Tích hợp tương tác người-máy bằng tiếng nói trong tự động hóa

Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011

VCCA-2011

H. 5 Truyền thông điệp sử dụng tín hiệu-khe cắm.

Với tín hiệu-khe cắm, các điều khiển có thể gửi các

tín hiệu chứa thông tin đến các điều khiển khác thông

qua khe cắm (slot). Do vậy ta có thể thiết kế nhiều

phím bấm vật lí và logic để điều khiển cùng một đối

tượng, sử dụng nhiều công nghệ như tiếp xúc, tiếng

nói, cử chỉ, …) để điều khiển cùng một thiết bị. Hình

6 trình bày bảng cấu hình tín hiệu khe cắm trong Qt

cho bài toán điều khiển đèn. Trong ví dụ này tín hiệu

điều khiển bật tắt (on/off) của các công tắc điều khiển

đèn trong từng phòng được nối tới slot bật tắt (on/off)

của công tắc điều khiển nằm tại bảng điều khiển

chung (hình 6). Nhờ vậy khi lập trình ta chỉ cần tập

trung cài đặt phương thức bật tắt cho công tắc nằm tại

bảng điều khiển chung.

H. 6 Truyền thông điệp sử dụng tín hiệu-khe cắm.

Các kết nối tín hiệu-khe cắm có thể được cài đặt khi

lặp trình hoặc khi thực hiện chương trình. Việc cài đặt

khi thực hiện chương trình cho phép việc kết nối giữa

các mô đun tương tác có khả năng thích nghi theo

điều kiện thực tế khi thực hiện chương trình. Ví dụ

khi có nhiều hơn một bộ điều khiển điều khiển điều

hòa, hoặc khi một bộ điều khiển nào đó bị hỏng cần

thay thế bởi một bộ điều khiển khác có chức năng

tương đương. Tóm lại, cơ chế tín hiệu-khe cắm giúp

việc triển khai chương trình giao diện người dùng trở

nên dễ dàng đồng thời tăng khả năng thích nghi theo

bối cảnh của giao diện.

2.3. Lập trình hướng sự kiện

Lập trình hướng sự kiện là chiến lược lập trình trong

đó dòng chương trình được xác định bởi sự kiện. Các

sự kiện có thể là đầu ra của cảm biến, lệnh điều khiển

của người dùng (bằng thao tác nhấn chuột, ấn phím,

bật công tắc, bằng tiếng nói) hay các thông điệp gửi

đến từ các chương trình khác.

Lập trình hướng sự kiện thích hợp để lập trình giao

diện người dùng đồ họa cũng như lập trình giao diện

người dùng sử dụng tiếng nói. Khi đó kết quả của bộ

nhận dạng tiếng nói được xem như là các sự kiện.

2.4. Quá trình xây dựng giao diện người dùng

Về cơ bản, giao diện người dùng trong quá trình

tương tác người-máy bằng tiếng nói được thiết kế

theo các nguyên tắc đã trình bày ở phần trên. Trình tự

việc xây dựng giao diện người dùng được tiến hành

như sau:

1. Xác định các tín hiệu tương tác có trong hệ thống

và hướng đi của các tín hiệu này. Xem xét tính

đồng bộ, xác định nơi xuất phát và đích đến của

chúng.

2. Xác định các khe cắm trên các mô đun. Các khe

cắm này sẽ tương ứng với các yêu cầu chức năng

của từng mô đun. Việc xác định các khe cắm bao

gồm tên khe cắm, các tham số cần truyền, và khe

cắm đó thuộc mô đun nào, đối tượng nào.

3. Kết nối tín hiệu với khe cắm: trên cơ sở bối cảnh

tương tác, tiến hành kết nối tín hiệu với khe cắm

trong chương trình.

4. Xây dựng các mô đun theo thiết kế có được.

3. Ứng dụng vào việc xây dựng hệ tương

tác người - máy bằng tiếng nói

Giải pháp xây dựng hệ tương tác người - máy bằng

tiếng nói được trình bày ở trên đã được áp dụng cho

việc xây dựng hệ tương tác người - máy bằng tiếng

nói trong phòng thông minh (hình 7) với năm thiết bị

điện dân dụng gồm cửa ra vào, đèn, tivi, điều hòa và

camera an ninh.

H. 7 Ảnh chụp sản phẩm phòng thông minh với 5 thiết bị

điện dân dụng (cửa ra vào, camera an ninh, đèn, vô

tuyến, điều hòa) có khả năng tương tác hai chiều

với người điều khiển bằng tiếng nói tiếng Việt

[KC.03.15/06-10, 2009].

502

Page 4: Tích hợp tương tác người-máy bằng tiếng nói trong tự động hóa

Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011

VCCA-2011

Các mô đun phụ trách tương tác bằng tiếng nói và

giao diện được kết nối với nguồn thông tin cần hiển

thị thông qua cơ chế tín hiệu - khe cắm giúp dễ dàng

xây dựng tương tác đa phương thức với người dùng.

Trong phạm vi bài báo này, phòng thông minh được

sử dụng như một ứng dụng để triển khai tương tác

người - máy bằng tiếng nói làm cơ sở đánh giá chất

lượng tương tác cũng như hiệu quả giải pháp của

chúng tôi.

3.1. Triển khai hệ giám sát điều khiển

Xuất phát điểm hệ thống được thiết kế để điều khiển

tập trung các thiết bị trong phòng bằng bàn phím

/chuột tại máy tính trung tâm. Các mô đun cảm biến

cùng các thiết bị dân dụng được kết nối với máy tính

trung tâm bằng các công nghệ truyền thông khác nhau

như PLC (truyền tín hiệu trên đường dây tải điện),

mạng nội bộ LAN, RS232, Wifi, USB. Để làm được

điều đó, các thiết bị dân dụng có sẵn trên thị trường

được bổ sung các bộ chuyển đổi (adapter) phần cứng

và phần mềm để kết nối được với hệ thống (hình 8).

Ví dụ điều hòa được nối với một bộ chuyển đổi có

nhiệm vụ kết nối với máy tính bằng cáp USB. bộ

chuyển đổi này chuyển lệnh điều khiển nhận được từ

máy tính sang dạng lệnh điều khiển được mã hóa dưới

dạng tín hiệu hồng ngoại để điều khiển trực tiếp điều

hòa.

H. 8 Sơ đồ kết nối của khối tương tác người- máy bằng

tiếng nói trong hệ thống giám sát điều khiển áp

dụng cho phòng thông minh trường hợp điều khiển

điều hòa.

3.2. Triển khai hệ tương tác bằng tay và bằng tiếng

nói

Hệ thống tương tác người - máy bằng tiếng nói được

bổ sung bằng mô đun tổng hợp tiếng nói và nhận dạng

tiếng nói. Hệ thống tương tác người - máy cổ điển và

hệ thống tương tác người - máy bằng tiếng nói được

cài đặt độc lập và được vận hành song song với nhau.

Việc truyền dữ liệu giữa mô đun giao diện người dùng

với mô đun tương tác vào/ra và với hệ thống trung

tâm được thực hiện theo cơ chế tín hiệu-khe cắm

(signal-slot).

Để có thể nhận dạng tiếng nói, hệ thống dùng micrô

không dây. Micrô được nối vào hệ thống qua một bộ

thu nhận không dây, số hóa (bộ chuyển đổi phần

cứng) sau đó dữ liệu được đưa đến bộ thu thập, phân

tích và nhận dạng trong thời gian thực (bộ chuyển đôi

phần mềm). Đầu ra của mô đun tổng hợp tiếng nói là

dữ liệu âm thanh. Dữ liệu này được phát trực tiếp ra

loa nối trực tiếp với máy tính trung tâm.

H. 9 Giao diện chính của chương trình điều khiển.

Mọi thiết bị trong chương trình đều hỗ trợ điều khiển

bằng tay và bằng tiếng nói. Khi muốn điều khiển bằng

bàn phím - chuột, người dùng cần chọn thiết bị tại

giao diện chính (hình 9). Một hộp thoại sẽ mở ra giúp

người dùng truy cập được vào các chức năng điều

khiển tương ứng với thiết bị đó. Hình 10 trình bày cửa

sổ điều khiển điều hòa. Sau đó clíc trực tiếp vào các

nút điều khiển thiết bị trên cửa sổ điều khiển riêng

cho thiết bị đã được chọn. Riêng chức năng điều

khiển cửa, sẽ chỉ được kích hoạt khi người dùng yêu

cầu “mở cửa” bằng tiếng nói và trình thẻ ra vào hợp

lệ.

H. 10 Giao diện điều khiển điều hòa.

Việc điều khiển thiết bị bằng tiếng nói diễn ra khi

người dùng ra lệnh bằng câu lệnh điều khiển. Hiện

nay, câu lệnh điều khiển được qui ước gồm tên thiết

bị theo sau bởi lệnh điều khiển. Ví dụ: điều hòa bật,

điều hòa tắt, điều hòa tăng nhiệt độ, điều hòa 25 độ.

503

Page 5: Tích hợp tương tác người-máy bằng tiếng nói trong tự động hóa

Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011

VCCA-2011

Hệ thống nhận dạng thực hiện nhận dạng câu lệnh và

gửi tín hiệu tương ứng với câu lệnh cho hệ thống. Các

mô đun đã đăng kí nhận tín hiệu này (mô đun xử lí

trung tâm) sẽ nhận tín hiệu và có xử lí tương ứng.

Đồng thời hệ thống cũng sẽ trả về thông tin bằng

tiếng nói báo hiệu hệ thống đã nhận và thực hiện lệnh

như: điều hòa đã bật, điều hòa đã tắt, điều hòa đã đặt

ở x độ (với x là giá trị đặt hiện tại của điều hòa).

Việc ứng dụng giải pháp được đề xuất vào triển khai

xây dựng hệ thống tương tác người - máy bằng tiếng

nói cho phòng thông minh cho thấy giải pháp có các

ưu điểm như:

Tăng hiệu quả của việc tương tác. Kết quả của

một hành động được trả về trên một hoặc nhiều

hình thức tương tác, ví dụ trả về thông qua tiếng

nói kết hợp với màn hình và trạng thái của đối

tượng được điều khiển (ví dụ trạng thái sáng/tối

của đèn). Trong trường hợp trả về trên nhiều hình

thức tương tác khác nhau, các hình thức này sẽ

đóng vai trò dự trữ, bổ sung hoặc thay thế lẫn

nhau.

Một mô đun con chỉ phụ trách một hình thức

tương tác. Ví dụ mô đun tổng hợp tiếng nói sẽ

phụ trách tổng hợp và biểu diễn thông tin dưới

dạng âm thanh người dùng có thể nhận thức được.

Điều này cho phép chia nhỏ bài toán, thuận lợi

trong quá trình kiểm tra, đánh giá từng mô đun và

kiểm tra ghép nối giữa các mô đun với nhau.

4. Kết luận Bài báo đã giới thiệu một cách tiếp cận trong việc xây

dựng và triển khai hệ thống tương tác người - máy

cho các ứng dụng công nghiệp nói chung và ứng dụng

trong phòng thông minh nói riêng. Việc thử nghiệm

triển khai xây dựng hệ tương tác người - máy bằng

tiếng nói cho thấy cách tiếp cận chúng tôi đề xuất đáp

ứng được tất cả các yêu cầu đặt ra ban đầu.

Cách tiếp cận này có thể sử dụng để triển khai các bài

toán điều khiển tập trung và phân tán với các điểm

điều khiển phân tán tại nhiều nơi khác nhau, trên

nhiều thiết bị khác nhau (máy tính, thiết bị di động,

điện thoại di động, …) và dùng nhiều hình thức tương

tác khác nhau (bằng phím bấm vật lí và logic, bằng cử

chỉ, bằng giọng nói, …)

Trong tương lai xa hơn, cách tiếp cận này có thể được

áp dụng để triển khai xây dựng các ứng dụng thử

nghiệm các hình thức tương tác người - máy hiện đại

khác (như tương tác bằng cử chỉ, tương tác bằng cảm

xúc, bằng tiếng nói) trong công nghiệp cũng như dân

dụng vì nó cho phép dễ dàng triển khai song song với

các hệ thống điều khiển sẵn có.

Sản phẩm phòng thông minh của đề tài có thể được

ứng dụng cho các phòng bệnh, phòng ở cho người

khiếm thị, người tàn tật không thể di chuyển hoặc gặp

khó khăn trong việc di chuyển. Sản phẩm này cũng có

thể được triển khai trong các tòa nhà, căn hộ thông

minh nhằm nâng cao tính tiện lợi trong việc giao tiếp

với người dùng. Sản phẩm này cũng là bước đệm để

triển khai các ứng dụng giám sát trong công nghiệp

điều khiển bằng tiếng nói, hoặc giám sát, điều khiển

thiết bị quân sự.

Lời cảm ơn Công trình trình bày trong bài báo nằm trong khuôn

khổ của Đề tài NCKH trọng điểm cấp nhà nước mã số

KC.03.15/06-10 mang tên “Nghiên cứu thiết kế chế

tạo các thiết bị và hệ thống tự động hoá thông minh sử

dụng tương tác người-máy bằng tiếng nói trong điều

khiển”. Nhóm tác giả xin chân thành cảm ơn sự hỗ trợ

về tài chính của Bộ Khoa học và Công nghệ, và các

thành viên trong đề tài đã giúp đỡ trong quá trình thực

hiện công trình.

Tài liệu tham khảo [1] Burbeck, S. Applications Programming in

Smalltalk-80(TM): How to use Model-View-

Controller (MVC), 1992

[2] Trygve Reenskaug: Thing-Model-View-editor –

an Example from a planning system. Technical

note, Xerox PARC, May 1979.

[3] Trygve Reenskaug: The Model-View-Controller

(MVC) Its Past and Present. JavaZONE, Oslo,

2003.

[4] Trygve Reenskaug: Models-View-Controllers.

Technical note, Xerox PARC, December 1979.

[5] Jasmin Blanchette, Mark Summerfield, C++

GUI Programming with Qt 4, Second Edition,

2008.

[6] Erich Gamma, Richard Helm, Ralph Johnson

and John Vlissides Design Patterns Elements of

Reusable Object-Oriented Software Addison-

Wesley, 1995

Thông tin tác giả

TS. Nguyễn Việt Tùng tốt nghiệp

khoa Điện-Điện tử trường Đại học

Kỹ thuật Tp.HCM năm 2000, sau

đó theo học thạc sỹ ngành Các hệ

thống đo lường và điều khiển tại

Đại học Bách Khoa Hà Nội, tốt

nghiệp năm 2002. Nhận bằng Tiến

sĩ ngành Tín hiệu, Hình ảnh, Tiếng

nói và Truyền thông (SIPT) tại Viện Đại học Bách

khoa Quốc gia Grenoble (INPG) Cộng hòa Pháp năm

2008. Hiện tại, TS. Nguyễn Việt Tùng là nghiên cứu

viên / giảng viên tại Viện nghiên cứu quốc tế MICA,

trường Đại học Bách Khoa Hà Nội trong lĩnh vực môi

trường cảm thụ và tương tác người - máy.

GS. TS. Phạm Thị Ngọc Yến tốt nghiệp ngành Kỹ thuật đo

lường tại trường Đại học Bách

Khoa Hà Nội năm 1982, sau đó

theo học thạc sĩ ngành xử lý tín

hiệu - ảnh – tiếng nói năm 1990,

nhận bằng tiến sĩ chuyên ngành

xử lý tiếng nói năm 1995 tại

Viện Bách Khoa quốc gia

504

Page 6: Tích hợp tương tác người-máy bằng tiếng nói trong tự động hóa

Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011

VCCA-2011

Grenoble (INPG), Cộng hòa Pháp, được phong Giáo

sư năm 2010. GS.TS. Phạm Thị Ngọc Yến hiện là

trưởng Bộ môn kỹ thuật đo và tin học công nghiệp và

giám đốc Viện nghiên cứu quốc tế MICA, trường Đại

học Bách Khoa Hà Nội.

505