phân tích mô tả và pca

31
Phân tích mô tả và PCA Hervé Abdi The university of Texas at Dallas [email protected] Dominique Valentin ENSBANA/CESG [email protected]

Upload: kuper

Post on 15-Jan-2016

73 views

Category:

Documents


3 download

DESCRIPTION

Phân tích mô tả và PCA. Dominique Valentin ENSBANA/CESG [email protected]. Hervé Abdi The university of Texas at Dallas [email protected]. Xét lại ví dụ về sữa chua. Cấu trúc Độ đặc: consistency of the mass in the mouth - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Phân tích mô tả  và PCA

Phân tích mô tả và PCA

Hervé AbdiThe university of Texas at Dallas

[email protected]

Dominique ValentinENSBANA/CESG

[email protected]

Page 2: Phân tích mô tả  và PCA

Cấu trúc Độ đặc: consistency of the mass in the mouthTỷ lệ tan chảy: lượng sản phẩm bị tan chảy dưới một sức ép cụ thể của lưỡiĐộ hạt: lượng mảnh nhỏ có trong khối sản phẩmĐộ dính vòm miệng: lượng màng mỏng còn sót lại trên bề mặt vòm miệng

Các vị cơ bản:Ngọt: đường míaChua: acid lacticĐắng: caffeineMặn: NaCl (muối ăn)

Hương vị:Nước: vị giống nước lọc Bột: 1 muỗng hương liệu pha trong nướcGỗ: mùi gỗ gọt bút chì Phấn: smectaSữa: sữa nguyên kem Vỏ bột bánh: vỏ bột bánh thương mạiKem: kem tươi Hazelnut: bột hazelnutĐất: đất Nấm: nấm khô ngâm trong nước

Xét lại ví dụ về sữa chua

Page 3: Phân tích mô tả  và PCA

9 cảm quan viên

5 loại sữa chua: 3 sữa chua đậu nành 2 sữa chua lên men từ sữa bò

Hoàn toàn không Rất mạnh

Đắng

Hoàn toàn không Rất mạnhMặn

Hoàn toàn khôngChát

Rất mạnh

Xét lại ví dụ về sữa chua

Page 4: Phân tích mô tả  và PCA

Cấu trúcBột

0,00

2,00

4,00

6,00

8,00

10,00

sojacarrefour

sojasun sojade veloutédanone

leaderprice

Inte

nsi

té m

oye

nn

e

ab ab ab b

Đặc

0,00

2,00

4,00

6,00

8,00

10,00

sojacarrefour

sojasun sojade veloutédanone

leaderprice

Inte

nsi

té m

oye

nn

e

bc bca

abd

Béo

0,00

2,00

4,00

6,00

8,00

10,00

sojacarrefour

sojasun sojade veloutédanone

leaderprice

Inte

nsi

té m

oye

nn

e

b abab a

ab

Tan chảy

0,00

2,00

4,00

6,00

8,00

10,00

sojacarrefour

sojasun sojade veloutédanone

leaderprice

Inte

nsi

té m

oye

nn

e

abc abcc

abcab

Xét lại ví dụ về sữa chua

Page 5: Phân tích mô tả  và PCA

Ngọt

0,00

2,00

4,00

6,00

8,00

10,00

sojacarrefour

sojasun sojade veloutédanone

leaderprice

Inte

nsi

té m

oye

nn

e

Đắng

0,00

2,00

4,00

6,00

8,00

10,00

sojacarrefour

sojasun sojade veloutédanone

leaderprice

Inte

nsi

té m

oye

nn

e

Chát

0,00

2,00

4,00

6,00

8,00

10,00

sojacarrefour

sojasun sojade veloutédanone

leaderprice

Inte

nsi

té m

oye

nn

e

Vị

ab ab abab ab

Chua

0,00

2,00

4,00

6,00

8,00

10,00

sojacarrefour

sojasun sojade veloutédanone

leaderprice

Inte

nsi

té m

oye

nn

e

cd cd cd bca

aa a a a

a abc abcc

abc

Xét lại ví dụ về sữa chua

Page 6: Phân tích mô tả  và PCA

MùiBột

0,00

2,00

4,00

6,00

8,00

10,00

sojacarrefour

sojasun sojade veloutédanone

leaderprice

Inte

nsi

té m

oye

nn

e

Phấn

0,00

2,00

4,00

6,00

8,00

10,00

sojacarrefour

sojasun sojade veloutédanone

leaderprice

Inte

nsi

té m

oye

nn

e

Hazelnut

0,00

2,00

4,00

6,00

8,00

10,00

sojacarrefour

sojasun sojade veloutédanone

leaderprice

Inte

nsi

té m

oye

nn

e

Kem

0,00

2,00

4,00

6,00

8,00

10,00

sojacarrefour

sojasun sojade veloutédanone

leaderprice

Inte

nsi

té m

oye

nn

e

cabc

d

abc

d

ab b

b b

aba

ab ab b c cc

ac

Xét lại ví dụ về sữa chua

Page 7: Phân tích mô tả  và PCA

-0.8 -0.4 0 0.4 0.8

-0.8

-0.4

0

0.4

0.8

Facteur 1 - 61.04 %

Facteur 2 - 17.84 %

farineux

epais

gras

fondant

sucre

acide

astringent

eau

farine

bois

craie

lait

creme

noisette

terreuxchampignon

-4.5 -3.0 -1.5 0 1.5 3.0

-2

-1

0

1

2

Facteur 1 - 61.04 %

Facteur 2 - 17.84 %

soja bio

soja champion

Soja leaderpriceSoja carrefour

Soja bifidus

Soja sun

sojade

Soja délice

carrefour

velouté danone

danone bifidus

Leader price

Giải pháp: Phân tích thành phần chính

Page 8: Phân tích mô tả  và PCA

Một kỹ thuật thống kê được dùng để chuyển một lượng lớn các biến số tương quan nhau thành một lượng nhỏ hơn các biến số không tương quan gọi là các thành phần chính.

Thành phần chính thứ nhất biểu diễn mức độ biến thiên nhiều nhất trong các số liệu, và mỗi thành phần tiếp theo biểu diễn càng nhiều mức độ biến thiên còn lại càng tốt.

Kỹ thuật toán học được sử dụng trong PCA được gọi là phân tích giá trị riêng.

Phân tích thành phần chính (PCA) là gì?

Page 9: Phân tích mô tả  và PCA

Sử dụng PCA khi nào ?

Để phân tích các bảng số liệu hai chiều gồm có I quan sát và J biến định lượng

1 … j … J

1...i...I

yij…...

……

...

Biến số

Qua

n sá

t

Page 10: Phân tích mô tả  và PCA

Vì sao sử dụng PCA ?

1. Để đánh giá sự giống nhau giữa các quan sát, ở đây là các sản phẩm

2. Để đánh giá cấu trúc trong mối quan hệ giữa các biến số, ở đây là các thuộc tính mô tả descriptors

3. Để giảm bớt số lượng các biến số, từ đó có thể biểu diễn các số liệu bằng đồ họa

Đưa ra một mô tả tổng hợp cho các sản phẩm

Page 11: Phân tích mô tả  và PCA

Nguyên tắc chung của PCA

1 … j … J1

...i

...I

yij…...

……

...

Biến sốQ

uan

sát

PC1 .. PCk .. PCK

1

...i

...I

Cpik…...

……

...

Các thành phần chính

Phân tích đường chéoHoặc phân tích riêng

Cp1

PC2

PC1

PC2

Vòng tròn tương quan Hình chiếu của các quan sát

++ ++

Page 12: Phân tích mô tả  và PCA

Một ví dụ nhỏ: profile rượu vang

AmberBlackcurrant Coconut Leather Musc

Goose berry Woody Vanilla Rasberry

v1 7.000 3.000 1.000 6.000 9.000 3.000 1.000 0.000 2.000

v2 0.000 5.000 1.000 1.000 0.000 7.000 0.000 1.000 6.000

v3 1.000 9.000 0.000 0.000 0.000 6.000 1.000 1.000 5.000

v4 1.000 6.000 7.000 0.000 1.000 6.000 4.000 6.000 4.000

v5 6.000 1.000 8.000 5.000 4.000 2.000 5.000 5.000 1.000

v6 1.000 6.000 5.000 1.000 0.000 5.000 5.000 7.000 6.000

v7 7.000 3.000 1.000 6.000 8.000 2.000 1.000 0.000 2.000

v8 6.000 3.000 0.000 5.000 5.000 3.000 1.000 1.000 3.000

v9 0.000 4.000 4.000 1.000 0.000 7.000 6.000 5.000 5.000

v10 4.000 2.000 6.000 5.000 6.000 2.000 5.000 7.000 1.000

v11 5.000 1.000 4.000 6.000 7.000 1.000 6.000 7.000 2.000

v12 1.000 6.000 0.000 1.000 0.000 5.000 0.000 1.000 8.000

Page 13: Phân tích mô tả  và PCA

Một ví dụ nhỏ: profile rượu vang

coconut vanilla

woody

leather

amber

goose berry

rasberry

black currant

Page 14: Phân tích mô tả  và PCA

Một ví dụ nhỏ: profile rượu vang

Page 15: Phân tích mô tả  và PCA

Làm thế nào để tìm các thành phần chính?

Bước 1: lấy vài số liệu

Bước 2: lấy hiệu các giá trị trung bình các biến số

Bước 3: tìm các vectơ riêng và các giá trị riêng của ma trận đồng phương sai

Bước 4: tìm các thành phần chính bằng cách chiếu các quan sát lên các vectơ riêng

Bước 5: tính toán các tải (loading) chẳng hạn như sự tương quan giữa các biến số gốc và các thành phần chính

Page 16: Phân tích mô tả  và PCA

Ví dụ 2D: bước 1 lấy số liệu

20 từ :

Biến 1 = số chữ cái

Biến 2 = số dòng dùng để định nghĩa từ trong từ điển

Page 17: Phân tích mô tả  và PCA

Ví dụ 2D: bước 1 lấy số liệu

Số

chữ

cái c

ủa từ

Số dòng của định nghĩa

Page 18: Phân tích mô tả  và PCA

Ví dụ 2D: bước 2 Lấy hiệu trung bình

Y = “Chiều dài của từ ” MY = 6y = (Y −MY)

W = “Số dòng của định nghĩa” MW = 8w = (W −MW)

Page 19: Phân tích mô tả  và PCA

Ví dụ 2D: bước 2 Lấy hiệu trung bình

Page 20: Phân tích mô tả  và PCA

Ví dụ 2D: bước 3 tìm các vectơ riêng

Page 21: Phân tích mô tả  và PCA

Ví dụ 2D: bước 3 tìm các vectơ riêng

Page 22: Phân tích mô tả  và PCA

Ví dụ 2D: chiếu các quan sát

Page 23: Phân tích mô tả  và PCA

Ví dụ 2D: chiếu các quan sát

Page 24: Phân tích mô tả  và PCA

r (W, F1) = 0.97

Hệ số tương quan Pearson

Ví dụ 2D: tính toán các tải (loadings)

Page 25: Phân tích mô tả  và PCA

r (W, F2) = 0.23

Ví dụ 2D: tính toán các tải (loadings)

Hệ số tương quan Pearson

Page 26: Phân tích mô tả  và PCA

r (Y, F1) = -0.87

Ví dụ 2D: tính toán các tải (loadings)

Hệ số tương quan Pearson

Page 27: Phân tích mô tả  và PCA

r (Y, F2) = 0.50

Ví dụ 2D: tính toán các tải (loadings)

Hệ số tương quan Pearson

Page 28: Phân tích mô tả  và PCA

Ví dụ 2D : vẽ vòng tròn tương quan

r (W, F1) = 0.97

r (W, F2) = 0.23

r (Y, F1) = -0.87

r (Y, F2) = 0.50

Độ dài(số lượng chữ cái) Số lượng

dòng của định nghĩa

Page 29: Phân tích mô tả  và PCA

Làm thế nào để tính phương sai explained variance ?

Giá trị riêng % phương sai % phương sai

tích luỹ

392 88 88

52 12 100 444

392

444X 100 = 88%

Page 30: Phân tích mô tả  và PCA

Giữ lại bao nhiêu thành phần

Chuẩn Kaiser. chỉ giữ lại thành phần có giá trị riêng lớn hơn 1

The scree test.

Thông thường. giữ lại những chiều mà có thể phân tích giải thích được

Khảo sát một vài giải pháp và chọn giải pháp “hợp lý nhất”

0

0,5

1

1,5

2

2,5

3

3,5

4

1 2 3 4 5 6 7 8

Page 31: Phân tích mô tả  và PCA

Tôi có nên chuẩn hoá số liệu ?

Có, nếu số liệu không được đo trên cùng một thang

Nếu không thì nó phụ thuộc vào:

Chuẩn hoá: cùng trọng lượng cho toàn bộ biến số

Không chuẩn hoá: trọng lượng tỷ lệ theo độ lệch chuẩn