chuong3.pdf

30
14 Chương 3: Cơ sở lý thuyết ca bài toán 3.1 Đặc trưng toàn cục 3.1.1 Đặc trưng Harr[29]: Ảnh được chia thành các khi 64x64 và mi khối được đưa qua phép biến đổi Haar hai lần, để lấy các đặc trưng LL(low-low) ca mi khối. Sau đó, các đặc trưng này được ghép li với nhau để được vector đặc trưng cho tấm nh và được đưa qua LDA để gim chiu. Đặc trưng Harr có ưu điểm chy nhanh và được biết đến vtính hiu qutrong truy tìm mặt người. Tuy nhiên, trong bài toán gom nhóm thì các đặc trưng được xét đến chưa đủ mnh, các mt ncòn khá đơn giản không thhiện được đặc trưng toàn cục ca nh phong cnh. 3.1.2 Đặc trưng cạnh[29]: Khi rút đặc trưng cạnh ta có được đặc trưng thô của nh. Ví d: nh vtòa nhà cao tng thường có các cnh dài theo chiu dc và có thcó các cnh theo chiu ngang. Tương tự, nh vrừng cũng có thể có các cnh theo chiu dc (thân cây), nh vbbiển, đồng quê thường có ít cnh và có một đường chân trời dài… Đặc trưng cnh mạnh trong các trường hp nh thhin các vt cthể, đối tượng. Tuy nhiên trong nh tnhiên, đặc trưng cạnh li không thhiện được skhác nhau ca các nh vbbiển và nông thôn (cùng có đường chân tri dài gia tm nh). Đặc bit, khi rút trích các đặc trưng biên cạnh, thường có rt nhiu nhiu, gây khó khăn trong việc rút trích đặc trưng (PhLc 1). 3.1.3 Đặc trưng màu[29]: Ta có ththấy được màu là một đặc trưng quan trọng trong nh s. Ví d: màu xanh dương schiếm phn ln trong nh vbin; các nh vnúi, rng, nông thôn thường có nhiều màu xanh lá; đường có màu xám; còn các tòa cao tng thì

Upload: tuanf4

Post on 29-Nov-2015

85 views

Category:

Documents


0 download

DESCRIPTION

cv

TRANSCRIPT

14

Chương 3: Cơ sở lý thuyết của bài toán

3.1 Đặc trưng toàn cục

3.1.1 Đặc trưng Harr[29]:

Ảnh được chia thành các khối 64x64 và mỗi khối được đưa qua phép biến

đổi Haar hai lần, để lấy các đặc trưng LL(low-low) của mỗi khối. Sau đó, các đặc

trưng này được ghép lại với nhau để được vector đặc trưng cho tấm ảnh và được

đưa qua LDA để giảm chiều.

Đặc trưng Harr có ưu điểm chạy nhanh và được biết đến về tính hiệu quả

trong truy tìm mặt người. Tuy nhiên, ở trong bài toán gom nhóm thì các đặc trưng

được xét đến chưa đủ mạnh, các mặt nạ còn khá đơn giản không thể hiện được đặc

trưng toàn cục của ảnh phong cảnh.

3.1.2 Đặc trưng cạnh[29]:

Khi rút đặc trưng cạnh ta có được đặc trưng thô của ảnh. Ví dụ: ảnh về tòa

nhà cao tầng thường có các cạnh dài theo chiều dọc và có thể có các cạnh theo chiều

ngang. Tương tự, ảnh về rừng cũng có thể có các cạnh theo chiều dọc (thân cây),

ảnh về bờ biển, đồng quê thường có ít cạnh và có một đường chân trời dài…

Đặc trưng cạnh mạnh trong các trường hợp ảnh thể hiện các vật cụ thể, đối

tượng. Tuy nhiên trong ảnh tự nhiên, đặc trưng cạnh lại không thể hiện được sự

khác nhau của các ảnh về bờ biển và nông thôn (cùng có đường chân trời dài ở giữa

tấm ảnh). Đặc biệt, khi rút trích các đặc trưng biên cạnh, thường có rất nhiều nhiễu,

gây khó khăn trong việc rút trích đặc trưng (Phụ Lục 1).

3.1.3 Đặc trưng màu[29]:

Ta có thể thấy được màu là một đặc trưng quan trọng trong ảnh số. Ví dụ:

màu xanh dương sẽ chiếm phần lớn trong ảnh về biển; các ảnh về núi, rừng, nông

thôn thường có nhiều màu xanh lá; đường có màu xám; còn các tòa cao tầng thì

15

thường có sự biến đổi từ màu tòa nhà (thường những màu này khác với các màu sắc

tự nhiên) sang màu xanh da trời.

Tuy nhiên, đặc trưng màu chỉ có hiệu quả nếu các lớp có màu khác biệt. Nếu

trong trường hợp ảnh về rừng và nông thôn đều có màu cây xanh, hay ảnh núi hay

biển lúc hoàng hôn có màu vàng và ảnh lá cây ở vùng quê cùng có màu vàng. Đặc

biệt các ảnh về đường cao tốc, đường trong thành thị, các tòa nhà đều có màu thiên

về màu xám sẽ rất khó để gom nhóm.

3.1.4 Đặc trưng gist [5,6,7,8]

Đặc trưng gist do Aude Oliva đề xuất năm 1999.

7Hình 3.1: Minh họa kết quả rút trích đặc trưng gist. (a) là ảnh đầu vào. (b) là ảnh

sau khi tiền sử lý và (c) là đặc trưng gist: một vector 960 chiều.

16

Theo Aude Oliva, phương pháp rút trích đặc trưng gist được chia làm 2 bước:

Bước 1: Tiền xử lý:

Trong bước này, ảnh được đưa qua 4 phần:

- Padarray : Chuyển bức ảnh đầu vào thành ma trận vuông.

- Trắng hóa ảnh .

- Chuẩn hóa độ tương phản.

- Cắt ảnh: bước này sẽ làm ảnh có kích thước ảnh giống như đầu vào.

8Hình 3.2: Minh họa các bước tiền xử lý

Bước 2: rút trích đặc trưng:

Ảnh sẽ được đưa qua phép biến đổi Fourier để được ảnh Fourier. Sau đó kết quả

này được đưa qua bộ lọc Gabor và phép biến đổi Fourier ngược để rút trích đặc

trưng.

Cụ thể hơn, ảnh đầu vào được tách ra thành 3 kênh màu R-G-B (được minh

họa trong hình 3.4). Mỗi kênh màu sẽ được qua phép biến đổi Fourier. Sau đó, ứng

17

với mỗi ảnh Fourier tác giả đã sử dụng 3 scale khác nhau, scale đầu tiên có số bộ

lọc Gabor là 8, scale thứ 2 có 8 bộ lọc, scalse cuối cùng có 4 bộ lọc (kích thước của

bộ lọc Gabor được khởi tạo bằng với kích thước ảnh đầu vào). Sau đó, kết quả của

mỗi bộ lọc được đưa qua phép biến đổi Fourier ngược và thu gọn lại còn 16 đặc

trưng. Như vậy số chiều của đặc trưng Gist là : 3*(8+8+4)*16 = 960 chiều.

9Hình 3.3: Minh họa 20 bộ lọc Gabor được sử dụng trong rút trích đặc trưng gist

10Hình 3.4: Minh họa ảnh qua một bộ lọc Gabor theo chiều thẳng đứng

18

Tuy nhiên, chiều dài vector đặc trưng đạt được là 960 chiều là quá lớn nên ta

sẽ sử dụng phương pháp phân tích thành phần chính (Principal Componens

Analysis-PCA) để thu gọn số chiều lại.

Như vậy đặc trưng gist có ưu điểm so với các đặc trưng khác ở chỗ nó là sự

kết hợp giữa đặc trưng màu và vân ảnh. Hơn thế nữa, vân ảnh được lấy bằng cách

vét cạn các hướng. Tuy nhiên, đặc trưng gist có điểm yếu là thời gian rút trích lâu

hơn những đặc trưng khác.

3.2 Mô hình học GMM (Gaussian Mixture Model)

3.2.1 Cực đại kì vọng (expectation maximization-EM)[13]

3.2.1.1 Hàm lồi

11Hình 3.5: là hàm lồi trên nếu

,

Định nghĩa 1: Gọi là một hàm thực trên đoạn . được gọi là hàm lồi

trên nếu :

19

được gọi là lồi nghiêm ngặt nếu dấu không xảy ra. Một cách khác, giá trị của

hàm nằm bên dưới (lồi nghiêm ngặt) hoặc không bao giờ nằm trên đường thẳng

nối ( ) ( ) . Xem hình 3.5.

Định nghĩa 2: là hàm lõm (lõm nghiêm ngặt) nều – là hàm lồi (lồi nghiêm

ngặt).

Định lý 1: Nếu khả vi cấp hai trên và trên thì là hàm lồi

trên .

Chứng minh: Cho và , đặt .Theo định

nghĩa là hàm lồi nếu và chỉ nếu . Hay

ta có .

Chuyển vế các hệ số ta có một định nghĩa tương đương: lồi trên nếu:

(3.2.1)

Vì khả vi trên nên theo định lí Lagrange ta có sao cho

(3.2.2)

Tương tự ta có sao cho

(3.2.3)

Vì ta có và đã giả sử trên (hay đạo hàm cấp 1

tăng trên ) nên

vì (3.2.4)

Chú ý rằng ta có thể viết bởi phương trình tương đương

(3.2.5)

Kết hợp các phương trình trên ta có:

( ) do phương trình (3.2.2)

20

do phương trình (3.2.4)

do phương trình (3.2.5)

do phương trình (3.2.3)

Bổ đề 1: là hàm lồi nghiêm ngặt trên .

Chứng minh: Với , ta có

với . Theo định

lí (1), lồi nghiêm ngặt trên . Và theo định nghĩa (2) ta có lõm

nghiêm ngặt trên .

Định nghĩa hàm lồi có thể được mở rộng cho n điểm (thay vì hai điểm như

trong định nghĩa (1)). Kết quả này được biết đến với tên gọi bất đẳng thức Jensen.

Định lí 2 (bất đẳng thức Jensen): Cho là một hàm lồi định nghĩa trên khoảng .

Nếu và ∑ thì

(∑

) ∑

Chứng minh: Với , định lí hiển nhiên đúng. Với , định lí tương đương

với định nghĩa hàm lồi. Với , dùng qui nạp. Giả sử định lí đúng với n, chứng

minh đúng với .

(∑

) ( ∑

)

(

)

Áp dụng trường hợp với và

(

)

21

(∑

)

Sử dụng giả thuyết qui nạp đúng với n

Vì là hàm lõm ta có thể áp dụng bất đẳng thức Jensen để đạt kết quả sau:

(3.2.6)

Kết quả này cho chúng ta chặn dưới của logarithm của một tổng, kết quả này được

sử dụng trong thuật toán EM. Bất đẳng thức Jensen cũng cung cấp một phương

pháp đơn giản để chứng minh: trung bình cộng các số thực không âm thì lớn hơn

hoặc bằng trung bình nhân của chúng (bất đẳng thức Cauchy).

Bổ đề 2:

Chứng minh: Với thì là hàm lõm nên ta có

(

) ∑

Vì vậy, ta có:

22

3.2.1.2 Thuật toán EM

Thuật toán EM là một phương pháp hiệu quả để ước lượng Maximum

Likelihood (ML) trong bài toán dữ liệu ẩn. Trong ước lượng ML, ta muốn ước

lượng các tham số mô hình sao cho dữ liệu được quan sát là tương thích nhất, cụ thể

hơn trong luận văn này là ước lượng kì vọng và phương sai của mỗi thành phần

Gaussian trong bài toán Mixture of Gaussian. Mỗi vòng lặp của EM gồm hai bước:

Bước E, dữ liệu ẩn được ước lượng dựa trên dữ liệu đã quan sát và các tham số của

mô hình của ước lượng hiện tại. Bước M, hàm likelihood được cực đại hóa với giả

thuyết dữ liệu ẩn đã biết (sự ước lượng của dữ liệu ẩn trong bước E được sử dụng

để thay thế dữ liệu ẩn thật sự). Thuật toán EM luôn hội tụ vì chắc chắn likelihood

luôn tăng sau mỗi vòng lặp.

Cho X là một vector ngẫu nhiên, chúng ta phải ước lượng tham số để cực

đại giá trị . Đây là bài toán Maximum Likelihood(ML). Cực đại hóa

tương đương với việc cực đại hóa hàm với dữ liệu cho trước:

(3.2.7)

Thuật toán EM lặp lại để cực đại hóa . Giả sử sau lần lặp thứ , ước

lượng (giá trị) hiện tại cho là , vì mục tiêu là cực đại hóa nên ta phải cập

nhật sao cho:

(3.2.8)

Tương đương, chúng ta cần cực đại hóa giá trị

(3.2.9)

Ta kí hiệu Z là một vector ngẫu nhiên ẩn. Giá trị có thể viết lại như sau:

(3.2.10)

Chúng ta có thể viết lại phương trình (7) theo cách sau

23

(∑

) (3.2.11)

Áp dụng phương trình (3.2.6) với hằng số ∑ vào phương trình

(3.2.11) với hằng số được xác định. Xem xét hằng số , vì là

một giá trị xác suất nên và ∑ . Ta được:

(∑

)

(∑

)

(

)

(3.2.12)

Vì ∑ nên phương trình trên thành

(

)

(3.2.13)

(3.2.14)

Kí hiệu có nghĩa “được định nghĩa như”. Vậy ta có:

(3.2.15)

Để đơn giản hơn ta định nghĩa

Phương trình (3.2.15) có thể viết lại như sau: .

Hay nói cách khác, hàm likelihood là chặn trên của hàm . Hơn

nữa ta có:

24

(

)

(3.2.16)

12Hình 3.6: Đồ thị biểu diễn một vòng lặp của thuật toán EM. Hàm bị chặn

trên bởi hàm likelihood . Hai hàm bằng nhau tại . Thuật toán EM chọn

giá trị là giá trị cho ở vòng lặp tiếp theo để cực đại . Vì

nên việc tăng đảm bảo cho giá trị hàm likelihood không

giảm sau mỗi vòng lặp.[13]

Vậy, với ta có các hàm và bằng nhau. Mục đích của chúng ta

là ước lượng giá trị sao cho hàm là cực đại. Chúng ta đã chỉ ra rằng hàm

bị chặn trên bởi hàm likelihood và giá trị hai hàm và

bằng nhau tại ước lượng hiện tại (cho ). Vì vậy bất kì giá trị nào tăng

cũng sẽ tăng . Do đó, để cực đại giá trị của , thuật toán EM sẽ lựa

25

chọn sao cho được cực đại. Chúng ta kí hiệu giá trị cập nhật này là .

Tiến trình này được minh họa trong hình 3.6.

Một cách hình thức chúng ta có:

{ }

{ ∑

(

)}

Bỏ các số hạng là hằng số với

{∑

( )}

Nên . Do đó

{∑

}

{ { }} (3.2.17)

Từ phương trình (3.2.17) thuật toán EM gồm 2 bước:

Bước E: Xác định kì vọng điều kiện { }.

Bước M: Cực đại biểu thức này với tham số .

Sự hội tụ của thuật toán EM được thảo luận chi tiết bởi McLachlan và Krishnan.

Ta thấy rằng là ước lượng cho để cực đại giá trị sai khác . Bắt đầu

với ước lượng hiện tại của (là ) ta có . Vì được chọn để cực

đại giá trị nên ta có , vì vậy sau mỗi vòng lặp

giá trị không giảm. Đến một lúc nào đó giá trị , nói cách khác

, ta đạt được một cực đại cục bộ của hàm likelihood

26

Thuật toán Generalized EM: Trong phương trình (9) của thuật toán EM, giá trị

được chọn để cực đại sai khác . Điều này đảm bảo luôn tăng tới

giá trị lớn nhất có thể tại vòng lặp tiếp theo. Tuy nhiên, có thể giảm ràng buộc từ

chọn để cực đại thành chọn sao cho .

Cách tiếp cận này chỉ cần tăng và không nhất thiết phải cực đại sau

mỗi vòng lặp được gọi là Generalized Expectation Maximization (GEM). GEM

thường được sử dụng trong trường hợp khó khăn trong tính toán giá trị cực đại.

3.2.2 Phân phối Gauss và cực đại likelihood [13]

3.2.2.1 Phân phối Gauss (phân phối chuẩn)

Cho một biến , giá trị thực, một chiều, phân phối gauss cho được định

nghĩa như sau:

{

} (3.2.18)

Phân phối này được điều khiển bởi hai hàm số gọi là trung bình (hay kì vọng) và

gọi là phương sai. Căn bậc hai của phương sai: được gọi là phương sai chuẩn.

Hình 3.7 minh họa cho phân phối Gauss. Từ phương trình (3.2.18) ta có:

(3.2.19)

Và ta cũng có

(3.2.20)

Như vậy phân phối Gauss trong phương trình (3.2.18) thỏa mãn hai yêu cầu của

phân phối xác xuất. Kì vọng của biến trong phân phối Gauss được cho bởi:

(3.2.21)

Tương tự moment bậc hai của được cho bởi:

27

(3.2.22)

Từ phương trình (3.2.21) và phương trình (3.2.22), ta tính được phương sai của

(3.2.23)

Từ phương trình (3.2.18) ta thấy phân phối Gauss đạt cực đại khi trùng với kì

vọng của phân phối. Phân phối Gauss cho một biến có D chiều được định nghĩa

như sau:

⁄ {

}

(3.2.24)

13Hình 3.7: Minh họa phân phối Gauss với kì vọng và phương sai chuẩn [13]

Với vector có D chiều được gọi là trung bình (kì vọng) và ma trận kích thước

gọi là hiệp phương sai. là định thức của .

3.2.2.2 Cực đại hóa likelihood của phân phối Gauss

Giả sử chúng ta có tập các điểm dữ liệu trong một chiều (tập các vector 1

chiều) . Ta cần phân biệt với

là một vector D

chiều. Giả sử các điểm dữ liệu là độc lập và được sinh ta từ một phân phối Gauss

với kì vọng và phương sai chưa biết và chúng ta muốn ước lượng các tham số

này từ tập dữ liệu. Chúng ta cũng biết rằng xác suất kết hợp của hai sự kiên độc lập

28

thì bằng tích các xác suất lề của hai sự kiện. Vì tập dữ liệu độc lập nên ta có thể

viết xác suất xuất hiện của tập dữ liệu cho trước và là:

(3.2.25)

là hàm theo biến và , đây là hàm likelihood của Gauss được minh họa trong

hình 3.8. Một tiêu chuẩn thông thường để quyết định các tham số trong một phân

phối xác xuất đã được cho trước tập dữ liệu là tìm các giá trị tham số để cực đại

hàm likelihood này. Thông thường, thay vì cực đại hàm likelihood (phương trình

(3.2.8)), chúng ta có thể cực đại hàm logarithm likelihood (vì hàm ln(f) tăng cùng

với hàm f). Từ phương trình (3.2.18) và phương trình (3.2.25) ta có hàm logarithm

likelihood như sau:

(3.2.26)

14Hình 3.8: Minh họa hàm likelihood của phân phối gauss cho tập dữ liệu một

chiều. Cực đại likelihood là điều chỉnh kì vọng và phương sai để cực đại tích

này.[13]

Cực đại (3.2.26) theo biến (bằng cách lấy đạo hàm theo và gán bằng 0) ta được

giải pháp cực đại likelihood cho kì vọng:

(3.2.27)

29

Giá trị được gọi là kì vọng mẫu, được tính bằng cách lấy trung bình của tất cả

các điểm dữ liệu { }. Tương tự, cực đại (3.2.26) theo biến ta phải cực đại

likelihood cho phương sai:

(3.2.28)

Giá trị được gọi là phương sai mẫu tức trung bình bình phương độ lệch của các

điểm dữ liệu { } đến kì vọng mẫu . Trong thực hành, trước tiên ta ước lượng

bằng phương trình (3.2.27), sau đó dùng giá trị này để ước lượng sử

dụng trong phương trình (3.2.28). Tuy nhiên một vấn đề nảy sinh là: tiếp cận cực

đại likelihood ước lượng dưới phương sai của phân phối (hiện tượng này gọi là

bias). Một cách chi tiết ta có:

[

]

[

∑( )

]

[

]

[

]

nên

[

]

[

]

30

(3.2.29)

Như vậy, ta thấy tính trên trung bình, ML ước lượng dưới phương sai thực sự của

phân phối. Chi tiết hơn ta có:

(3.2.30)

Ta lại có

nên

[

]

Vì các điểm dữ liệu độc lập (bất tương quan)

Vì ∑

(3.2.31)

Từ phương trình (3.2.30) và phương trình (3.2.31) ta có

31

Thay vào phương trình (3.2.29) ta có

(3.2.32)

Như vậy MLE đã ước lượng dưới phương sai với hệ số

. Trong thực hành, từ

phương trình (3.2.32), ta có ước lượng cho phương sai để không “bias” là:

(3.2.33)

Khi số điểm dữ liệu rất lớn thì giải pháp cực đại likelihood cho

phương sai bằng với phương sai thật sự của phân phối.

3.2.3 Mô hình kết hợp Gauss (Gaussian Mixture Model – GMM) [13]

3.2.3.1 Giới thiệu

15Hình 3.9: Minh họa mô hình Gauss cho bộ dữ liệu “Old Faithful”. Các điểm dữ

liệu là các chấm tròn mờ hơn, đường viền của mật độ xác suất có màu rõ hơn. Hình

bên trái là một phân phối Gauss đơn đã khớp với dữ liệu bằng ML. Hình bên phải

mô hình hóa dữ liệu bằng hai Gauss.[13]

Mô hình Gauss đơn không hiệu quả để mô hình hóa dữ liệu thực tế, chúng ta

có thể xem hình 3.9 về minh họa giới hạn của mô hình Gauss đơn trên tập dữ liệu

“Old Faithful”. Chúng ta thấy rằng tập dữ liệu được hình thành từ hai cụm và một

phân phối Gauss đơn không thể mô hình được tập dữ liệu, trong khi một sự kết hợp

32

tuyến tính của hai Gauss sẽ mô hình dữ liệu tốt hơn. Sự chồng lên của các phân

phối đơn (được hình thành từ kết hợp tuyến tính của các phân phối cơ bản) có thể

được hình thức hóa thành một mô hình xác suất gọi là phân phối kết hợp (mixture

distribution). Trong hình 3.10 ta thấy rằng sự kết hợp tuyến tính các Gauss có thể

mô hình hóa (xấp xỉ) các phân phối phức tạp. Bằng cách điều chỉnh số Gauss, kì

vọng và phương sai của mỗi Gauss, hầu như bất kì mật độ liên tục nào cũng có thể

được xấp xỉ rất chính xác.

16Hình 3.10:Minh họa một phân phối hỗn hợp Gauss. 3 phân phối Gauss đơn màu

xanh và tổng của chúng màu đỏ. [13]

3.2.3.2 Chi tiết GMM

Bài toán GMM

Chúng ta xem xét sự kết hợp tuyến tính của K mật độ Gauss

(3.2.34)

trong phương trình trên được gọi là hỗn hợp của các Gauss (Mixture of

Gaussian). Mỗi mật độ Gauss là một thành phần của hỗn hợp có kì

vọng ( ) và phương sai (ma trận hiệp phương sai) ( ) của riêng nó. Đường viền

và bề mặt cho hỗn hợp Gauss có 3 thành phần được minh họa trong hình 3.11.

33

Tham số trong hình trên gọi là hệ số trộn. Các hệ số trộn phải thỏa mãn điều

kiện xác suất:

(3.2.35)

(3.2.36)

17Hình 3.11: Minh họa của hỗn hợp 3 Gauss trong không gian hai chiều. (a) là

đường viền của các thành phần Gauss đơn và hệ số trộn tương ứng.(b) đường viền

phân phối kết hợp . (c) Bề mặt của [13]

Sử dụng công thức xác suất toàn phần ta có:

(3.2.37)

Phương trình này tương đương với phương trình (3.2.34) ở trên nếu chúng ta

xem như xác suất tiền định cho khả năng chọn thành phần Gauss thứ .

Và mật độ là xác suất xuất hiện với điều kiện đã chọn

thành phần Gauss thứ . Áp dụng công thức Bayes ta có:

34

(3.2.38)

Ta có thể thấy GMM được điều khiển bởi các tham số và . Với

{ }, { } và { }. Một cách để xác định giá trị

của các tham số này là sử dụng ML. Từ phương trình (3.2.34), với { },

là các điểm dữ liệu độc lập. Ta có:

∏∑

(3.2.39)

Logarithm của hàm likelihood được xác định:

∑ {∑

}

(3.2.40)

Chúng ta có thể thấy bây giờ bài toán phức tạp hơn một Gauss đơn rất nhiều

vì sự xuất hiện của tổng k bên trong logarithm. Một cách tiếp cận để cực đại

likelihood là sử dụng EM.

Sử dụng mô hình biến ẩn cho GMM

18Hình 3.12: Biểu diễn đồ thị của phân phối kết hợp [13]

Chúng ta bắt đầu bằng việc gọi một biến ngẫu nhiên nhị phân có thành

phần, trong đó chỉ có một thành phần có giá trị 1, còn các thành phần còn lại có

giá trị 0, ví dụ , là vector cột. Giá trị của thánh phần thứ k

35

thỏa mãn { }. Và ∑ Dễ dàng thấy rằng có giá trị khác nhau cho

vector (bằng cách đặt giá trị 1 vào từng thành phần của ). Chúng ta định nghĩa

phân phối kết hợp minh họa như hình 3.12. Đặt

Hay là xác xuất xuất hiện của thành phần Gauss thứ . Vì vector có

thành phần và chỉ có một thành phần thứ bằng một nên xác suất xuất hiện

của vector có thể viết như sau:

(3.2.41)

Tức là chỉ có thành phần thứ k có đóng góp vào giá trị . Xác xuất điều

kiện của cho trước một giá trị cụ thể (biết được thành phần nào của z có giá

trị 1) là một phân phối Gauss

(3.2.42)

Và ta có thể viết tương đương như sau:

(3.2.43)

Sử dụng công thức xác suất toàn phần, ta có phân phối là tổng tất cả các phân

phối kết hợp trên tất cả các trạng thái (giá trị) có thể của

(3.2.44)

Hay phân phối của là hỗn hợp của các Gauss (chính là phương trình (3.2.34)).

Nếu chúng ta có N quan sát (N giá trị vector cho ) ,bởi vì chúng ta đã

biểu diễn phân phối của mỗi quan sát bởi ∑ như vậy với mỗi

điểm dữ liệu sẽ có tương ứng một biến ẩn .

36

Chúng ta đã tìm ra được một công thức tương đương của GMM dưới hình

thức biến ẩn . Việc sử dụng biến ẩn cho chúng ta làm việc với phân phối kết hợp

thay vì làm việc trực tiếp với và điều này cho phép chúng ta sử dụng

EM để ước lượng các tham số , .

Một đại lượng đóng vai trò quan trọng trong việc ước lượng các tham số là

xác suất điều kiện cho trước . Chúng ta sử dụng để kí hiệu xác suất

( là một thành phần của vector ). Sử dụng công thức Bayes ta có

(xét cho một điểm dữ liệu x)

∑ ( ) ( | )

∑ ( )

(3.2.45)

Chúng ta có thể xem là xác suất tiền nghiệm để và đại lượng là

xác suất hậu nghiệm tương ứng khi chúng ta đã quan sát . Nói cách khác chúng ta

có thể xem là ảnh hưởng của thành phần Gauss thứ đến điểm dữ liệu .

19Hình 3.13: 500 điểm dữ liệu được sinh từ hỗn hợp của 3 Gauss. [13]

(a) Các mẫu từ phân phối kết hợp , 3 trạng thái của tương ứng với 3

thành phần của hỗn hợp, được đánh dấu bằng 3 màu đỏ, xanh lá, xanh dương. (b)

37

Các mẫu từ phân phối , có được bằng cách bỏ qua giá trị và chỉ vẽ giá trị .

Tập dữ liệu trong (a) được gọi là hoàn chỉnh còn trong (b) là không hoàn chỉnh. (c)

Các mẫu có màu thể hiện mối quan hệ giữa và điểm dữ liệu , đạt được

bằng cách vẽ các giá trị tướng ứng và sử dụng các màu đỏ, xanh lá, xanh dương

được cho bởi , .

Chúng ta có thể minh họa mô hình GMM như sau: giả sử chúng ta xét GMM

với , giả sử cho trước { }. Cho trước một giá trị , ví dụ

, và

. Ba trạng thái này giả sử minh họa bởi 3 màu như hình 3.13. Cho

mỗi trạng thái của z, chúng ta sinh ra một tập diểm dữ liệu dựa trên phân phối điều

kiện . Chúng ta có thể diễn tả phân phối kết hợp bằng cách vẽ các

điểm bởi giá trị của , sau đó tô màu cho chúng thông qua giá trị của , nói cách

khác màu của mỗi điểm dữ liệu dựa vào thành phần Gauss sinh ra nó được minh

họa trong hình 3.13a. Tương tự các mẫu từ phân phối có thể đạt được bằng

cách lấy các mẫu từ phân phối kết hợp và bỏ qua giá trị z, các mẫu này được

minh họa trong hình 3.13b bằng cách vẽ các giá trị và không có nhãn màu.

Chúng ta cũng có thể sử dụng dữ liệu này để minh họa cho mỗi điểm

dữ liệu bằng việc ước lượng xác suất hậu nghiệm cho mỗi thành phần trong phân

phối hỗn hợp. Chúng ta có thể biểu diễn giá trị của kết hợp với điểm dữ liệu

trong phương trình trên bằng cách vẽ điểm dữ liệu có màu xanh lá sự kết hợp

của các màu đỏ, xanh lá và xanh dương được cho bởi với (hình

3.13c). Ví dụ có một điểm sẽ được tô màu đỏ. Trong khi một điểm dữ

liệu với sẽ được tô màu với tỉ lệ màu xanh dương và xanh lá

bằng nhau.

Cực đại Likelihood:

Giả sử chúng ta có tập dữ liệu { } (là tập các vector cột) và chúng ta

muốn mô hình tập dữ liệu này sử dụng GMM. Chúng ta có thể biểu diễn tập dữ liệu

38

này như một ma trận có kích thước , với hàng thứ của ma trận là .

Tương tự các biến ẩn tương ứng được kí hiệu tương ứng bởi ma trận kích thước

, với các hàng là . Nếu giả sử các điểm dữ liệu là độc lập chúng ta có thể

minh họa GMM cho tập dữ liệu này như hình 3.14.

20Hình 3.14: Biểu diễm đồ thị của GMM cho tập dữ liệu độc lập [13]

Từ phương trình (3.2.40) ta có logarithm của hàm likelihood được xác định là:

∑ {∑

}

(3.2.46)

Tồn tại vấn đề khó khăn khi cực đại hàm likelihood này. Một cách đơn giản, ta xem

xét một GMM mà các thành phần có ma trận hiệp phương sai , với là

ma trận đơn vị. Giả sử một thành phần Gauss thứ có kì vọng bằng một trong

các điểm dữ liệu . Ta có một phân phối Gauss

( | )

( )

{

}

(3.2.47)

Nếu ta xem , thì ta có thể thấy phương trình trên sẽ tiến về vô cùng vì thế log

của hàm likelihood cũng sẽ tiến về vô cùng. Như vậy việc cực đại hóa logarithm

của hàm lilelihood không phải là cách tốt để giải quyết vấn đề vì trường hợp trên có

thể xảy ra khi một thành phần Gauss nào đó chỉ có một điểm dữ liệu đặc biệt, vấn

đề này được minh họa trong hình 3.15.

Như vậy, việc cực đại hàm log likelihood ở phương trình (3.2.46) cho GMM

phức tạp hơn cực đại log likelihood của một Gauss đơn vì sự xuất hiện của tổng k

39

bên trong hàm logarithm. Chúng ta sẽ đạo hàm phương trình (3.2.46) theo các biến

để tìm giá trị cực đại, tuy nhiên chúng ta sẽ không đạt được giải pháp tối ưu

nhất.

21Hình 3.15: Minh họa một trường hợp đặc biệt của GMM [13]

Áp dụng EM để cực đại likelihood cho GMM

Lấy đạo hàm vế phải phương trình (3.2.46) theo kì vọng và gán bằng 0 ta có:

∑ ( ) ⏟

(3.2.48)

Có được kết quả trên do áp dụng phương trình

⁄ {

}

(3.2.49)

Nhân hai vế phương trình (3.2.48) với (Giả sử là ma trận khả nghịch) ta được:

(3.2.50)

(3.2.51)

40

Chúng ta có thể diễn đạt là số điểm dữ liệu hiệu quả được gán tới cluster

k. Chú ý rằng, chúng ta thấy cho thành phần Gauss thứ k đạt được bởi lấy trung

bình của tất cả các điểm trong tập dữ liệu. Với trọng số cho điểm dữ liệu là xác

xuất hậu nghiệm mà thành phần Gauss thứ k chịu trách nhiệm cho việc tạo

ra điểm .

Tương tự, lấy đạo hàm của theo biến và gán bằng 0 ta được:

(3.2.52)

Kết quả tương tự như một Gauss đơn, tuy nhiên mỗi điểm dữ liệu được đánh trọng

số bởi xác suất hậu nghiệm tương ứng và mẫu số là số điểm ảnh hưởng kết hợp với

thành phần Gauss tương ứng.

Cuối cùng chúng ta cực đại theo hệ số trộn với ràng buộc bởi

phương trình (3.2.36), tổng các hệ số trộn bằng 1. Sử dụng nhân tử Lagrange, cực

đại hàm log likelihood kết hợp với ràng buộc tương đương cực đại hàm:

(∑

) (3.2.53)

Đạo hàm phương trình trên theo ta có

∑ ( )

(3.2.54)

Nhân vào hai vế của phương trình trên với ta được hệ phương trình:

{

∑ ( )

∑ ( )

41

Cộng từng vế của hệ phương trình sau đó sử dụng ràng buộc ∑ ta được:

∑( ∑

∑ ( )

)

∑ ∑

∑ ( )

(3.2.55)

Vậy ta có . Thay vào từng phương trình của hệ phương trình ta được:

(3.2.56)

Như vậy, hệ số trộn của thành phần thứ k là trung bình của mà nó biểu diễn

dữ liệu.

Ta thấy rằng các kết quả trong các phương trình (3.2.50), (3.2.52), (3.2.56)

chưa phải là giải pháp tốt nhất. Vì các kết quả này đều phụ thuộc vào xác xuất hậu

nghiệm , tuy nhiên giá trị lại phụ thuộc vào các giá trị

(phương trình (3.2.45)). Tuy nhiên các kết quả này gợi ý cho cúng ta sử dụng EM

để tìm giải pháp cho bài toán cực đại likelihood. Đầu tiên chúng ta khởi tạo các giá

trị cho kì vọng, phương sai và các hệ số trộn. Sau đó chúng ta tiến hành cập nhật

thông qua bước E và M. Tại bước E, chúng ta sẽ sử dụng các giá trị hiện tại của các

tham số để ước lượng xác suất hậu nghiệm dựa trên phương trình

(3.2.45). Sau đó tại bước M, chúng ta sẽ sử dụng để tái ước lượng các giá trị

dựa trên các phương trình (3.2.50), (3.2.52), (3.2.56). Chú ý, chúng ta sẽ

ước lượng kì vọng trong phương trình (3.2.50) trước, sau đó sử dụng giá trị mới

này để ước lượng trong phương trình (3.2.52). Sau mỗi vòng lặp của EM, giá trị

hàm log likelihood luôn không giảm. Khi thực nghiệm, thuật toán EM được coi là

hội tụ khi sự biến đổi giá trị của hàm log likelihood hoặc các tham số nhỏ hơn một

ngưỡng nào đó. Hình 3.16 mô tả thuật toán EM cho hỗn hợp 2 Gauss đối với bộ dữ

liệu “Old Faithful”.

42

22Hình 3.16: Minh họa EM sử dụng tập dữ liệu Old Faithful [13]

Trong hình 3.16a, dữ liệu được khởi tạo có màu xanh lá và hai Gauss với kì vọng và

phương sai chuẩn được vẽ với màu đỏ và xanh dương. Hình 3.16b minh họa kết quả

của bước E đầu tiên, mỗi điểm dữ liệu được mô tả sử dụng tỉ lệ hai thành phần màu

dựa vào tỉ lệ xác xuất hậu nghiệm của hai màu này, như vậy các điểm màu tím có

khả năng thuộc về 2 cluster gần như nhau. Hình 3.16c minh họa kết quả sau bước M

đầu tiên, kì vọng của mỗi thành phần di chuyển về trung tâm của dữ liệu tương ứng

và phương sai cũng dược tái ước lượng. Hình 3.16d, 3.16e, 3.16f chỉ ra kết quả của

EM sau 2, 5,20 vòng lặp. Trong hình 3.16f, EM đã gần đến hội tụ.

Chú ý rằng EM sử dụng nhiều vòng lặp để tiếp cận sự hội tụ (của K-means)

và mỗi vòng lặp của EM yêu cầu một khối lượng tính toán lớn. Vì vậy thông thường

chúng ta thực thi K-means để tìm một sự khởi tạo cho GMM, sau đó chúng ta tối ưu

kết quả bằng cách sử dụng EM. Ma trận hiệp phương sai có thể khởi tạo bẳng với

ma trận hiệp phương sai mẫu của mỗi cluster. Và hệ số trộn cho mỗi cluster có thể

gán bằng tỉ lệ các điểm dữ liệu của mỗi cluster đối với toàn bộ dữ liệu.

43

Thuật toán EM cho GMM:

Cho trước một GMM, yêu cầu cực đại hàm likelihood với các tham số: kì vọng

, ma trận hiệp phương sai của các thành phần và các hệ số trộn tương ứng.

1. Khởi tạo các giá trị và tính toán giá trị khởi tạo của log Likelihood.

2. Bước E: Ước lượng hậu nghiệm sử dụng các tham số hiện tại

∑ ( )

3. Bước M: Tái ước lượng các tham số sử dụng hiện tại

4. Ước lượng lại log likelihood

∑ {∑

}

và kiểm tra sự hội tụ của các tham số. Nếu tiêu chuẩn hội tụ không thỏa mãn, quay

lại bước E. Nếu thỏa mãn thì kết thúc.