mfcc trong nhẬn dẠng tiẾng nÓi

Post on 25-Jun-2015

602 Views

Category:

Documents

4 Downloads

Preview:

Click to see full reader

TRANSCRIPT

MFCC TRONG NHẬN DẠNG TiẾNG NÓI

Lớp : D07DTMT

Nhóm 13 : Lê Dương Ngọc

Lê Văn Trọng

Hệ thống nhận dạng tiếng nói

MFCC (Mel frequency cepstral coefficient)

MFCC là phương pháp trích chọn đặc trưng dựa trên các hệ số cepstral

- Tín hiệu tiếng nói sẽ được trích chọn các đặc trưng sau khi thu âm

- Kết quả sau quá trình này là tập các vecto đặc trưng âm học

- Là tiền đề cho quá trình huấn luyện hệ thống sau này

Sơ đồ khối quá trình phân tích MFCC

Quá trình phân tích MFCC

Pre-emphasis

- Tín hiệu tiếng nói s (n) được cho qua một bộ lọc thông cao

s2(n) = s(n) - a*s(n-1)

với hệ số cố định a thường chọn là 0.95

- Hàm truyền đạt:

H(z)=1-a*z-1

- Điều này làm cho phẳng phổ tín hiệu, ít bị ảnh hưởng bởi các phép biến đổi.

Output Pre-emphasis

Frame blocking

Tín hiệu tiếng nói đầu vào được chia nhỏ thành các khung hình từ 20 ~ 30 ms

Gồm các khung có N mẫu

Các khung cạnh nhau cách biệt M mẫu

Hamming windowing

Tín hiệu sẽ được trở về 0 ở phần bắt đầu và kết thúc của mỗi khung

-> Tức là giảm nhỏ sự không liên tục của tín hiệu

Cửa sổ hamming

w(n, a) = (1 - a) - a cos(2pn/(N-1)), 0 n N-1 ≦ ≦

Cửa sổ Hamming

Fast Fourier Transform or FFT

Phổ tín hiệu sau khi nhân với cửa sổ Hamming sẽ sử dụng phép biến đổi Fourier nhanh

-> Thu được biên độ phổ chứa các thông tin có ích của tín hiệu tiếng nói

Triangular Bandpass Filters(bộ lọc dải tam giác)

Hệ lọc này gồm 23 băng con(subbands)

Thành phần FFT phổ được nhân với một tam giác và được tích lũy vào một vùng tần số xác định

-> Đó là thành phần phổ Mel

Công thức tính tần số Mel:

mel (f) = 1.125 * ln (1 + f/700)

Discrete cosine transform(DCT)Để trích chọn thành phần đặc trưng

Ta áp dụng phép biến đổi Cosine rời rạc(DCT) cho logarit phổ Mel

-> Các đặc trưng độc lập này sẽ tạo thuận lợi cho việc mô hình tiếng nói và so sánh đối chiếu mẫu

Công thức thường dùng tính hệ số DCTi

Cm=Sk=1Ncos[m*(k-0.5)*p/N]*Ek, m=1,2, ..., L

Kết luận

Tốc độ tính toán cao

Độ tin cậy lớn

Được sử dụng rất hiệu quả trong các chương trình nhận dạng hiện nay

Tài liệu tham khảo

[1] https://ccrma.stanford.edu/~unjung/mylec/mfcc.html

[2] “Bài giảng xử lý tiếng nói ” Lê xuân Thành

[3] http://vi.wikipedia.org/wiki/Nh%E1%BA%ADn_d%E1%BA%A1ng_ti%E1%BA%BFng_n%C3%B3i

top related