phân tích mô tả và pca
DESCRIPTION
Phân tích mô tả và PCA. Dominique Valentin ENSBANA/CESG [email protected]. Hervé Abdi The university of Texas at Dallas [email protected]. Xét lại ví dụ về sữa chua. Cấu trúc Độ đặc: consistency of the mass in the mouth - PowerPoint PPT PresentationTRANSCRIPT
Phân tích mô tả và PCA
Hervé AbdiThe university of Texas at Dallas
Dominique ValentinENSBANA/CESG
Cấu trúc Độ đặc: consistency of the mass in the mouthTỷ lệ tan chảy: lượng sản phẩm bị tan chảy dưới một sức ép cụ thể của lưỡiĐộ hạt: lượng mảnh nhỏ có trong khối sản phẩmĐộ dính vòm miệng: lượng màng mỏng còn sót lại trên bề mặt vòm miệng
Các vị cơ bản:Ngọt: đường míaChua: acid lacticĐắng: caffeineMặn: NaCl (muối ăn)
Hương vị:Nước: vị giống nước lọc Bột: 1 muỗng hương liệu pha trong nướcGỗ: mùi gỗ gọt bút chì Phấn: smectaSữa: sữa nguyên kem Vỏ bột bánh: vỏ bột bánh thương mạiKem: kem tươi Hazelnut: bột hazelnutĐất: đất Nấm: nấm khô ngâm trong nước
Xét lại ví dụ về sữa chua
9 cảm quan viên
5 loại sữa chua: 3 sữa chua đậu nành 2 sữa chua lên men từ sữa bò
Hoàn toàn không Rất mạnh
Đắng
Hoàn toàn không Rất mạnhMặn
Hoàn toàn khôngChát
Rất mạnh
Xét lại ví dụ về sữa chua
Cấu trúcBột
0,00
2,00
4,00
6,00
8,00
10,00
sojacarrefour
sojasun sojade veloutédanone
leaderprice
Inte
nsi
té m
oye
nn
e
ab ab ab b
Đặc
0,00
2,00
4,00
6,00
8,00
10,00
sojacarrefour
sojasun sojade veloutédanone
leaderprice
Inte
nsi
té m
oye
nn
e
bc bca
abd
Béo
0,00
2,00
4,00
6,00
8,00
10,00
sojacarrefour
sojasun sojade veloutédanone
leaderprice
Inte
nsi
té m
oye
nn
e
b abab a
ab
Tan chảy
0,00
2,00
4,00
6,00
8,00
10,00
sojacarrefour
sojasun sojade veloutédanone
leaderprice
Inte
nsi
té m
oye
nn
e
abc abcc
abcab
Xét lại ví dụ về sữa chua
Ngọt
0,00
2,00
4,00
6,00
8,00
10,00
sojacarrefour
sojasun sojade veloutédanone
leaderprice
Inte
nsi
té m
oye
nn
e
Đắng
0,00
2,00
4,00
6,00
8,00
10,00
sojacarrefour
sojasun sojade veloutédanone
leaderprice
Inte
nsi
té m
oye
nn
e
Chát
0,00
2,00
4,00
6,00
8,00
10,00
sojacarrefour
sojasun sojade veloutédanone
leaderprice
Inte
nsi
té m
oye
nn
e
Vị
ab ab abab ab
Chua
0,00
2,00
4,00
6,00
8,00
10,00
sojacarrefour
sojasun sojade veloutédanone
leaderprice
Inte
nsi
té m
oye
nn
e
cd cd cd bca
aa a a a
a abc abcc
abc
Xét lại ví dụ về sữa chua
MùiBột
0,00
2,00
4,00
6,00
8,00
10,00
sojacarrefour
sojasun sojade veloutédanone
leaderprice
Inte
nsi
té m
oye
nn
e
Phấn
0,00
2,00
4,00
6,00
8,00
10,00
sojacarrefour
sojasun sojade veloutédanone
leaderprice
Inte
nsi
té m
oye
nn
e
Hazelnut
0,00
2,00
4,00
6,00
8,00
10,00
sojacarrefour
sojasun sojade veloutédanone
leaderprice
Inte
nsi
té m
oye
nn
e
Kem
0,00
2,00
4,00
6,00
8,00
10,00
sojacarrefour
sojasun sojade veloutédanone
leaderprice
Inte
nsi
té m
oye
nn
e
cabc
d
abc
d
ab b
b b
aba
ab ab b c cc
ac
Xét lại ví dụ về sữa chua
-0.8 -0.4 0 0.4 0.8
-0.8
-0.4
0
0.4
0.8
Facteur 1 - 61.04 %
Facteur 2 - 17.84 %
farineux
epais
gras
fondant
sucre
acide
astringent
eau
farine
bois
craie
lait
creme
noisette
terreuxchampignon
-4.5 -3.0 -1.5 0 1.5 3.0
-2
-1
0
1
2
Facteur 1 - 61.04 %
Facteur 2 - 17.84 %
soja bio
soja champion
Soja leaderpriceSoja carrefour
Soja bifidus
Soja sun
sojade
Soja délice
carrefour
velouté danone
danone bifidus
Leader price
Giải pháp: Phân tích thành phần chính
Một kỹ thuật thống kê được dùng để chuyển một lượng lớn các biến số tương quan nhau thành một lượng nhỏ hơn các biến số không tương quan gọi là các thành phần chính.
Thành phần chính thứ nhất biểu diễn mức độ biến thiên nhiều nhất trong các số liệu, và mỗi thành phần tiếp theo biểu diễn càng nhiều mức độ biến thiên còn lại càng tốt.
Kỹ thuật toán học được sử dụng trong PCA được gọi là phân tích giá trị riêng.
Phân tích thành phần chính (PCA) là gì?
Sử dụng PCA khi nào ?
Để phân tích các bảng số liệu hai chiều gồm có I quan sát và J biến định lượng
1 … j … J
1...i...I
yij…...
……
...
Biến số
Qua
n sá
t
Vì sao sử dụng PCA ?
1. Để đánh giá sự giống nhau giữa các quan sát, ở đây là các sản phẩm
2. Để đánh giá cấu trúc trong mối quan hệ giữa các biến số, ở đây là các thuộc tính mô tả descriptors
3. Để giảm bớt số lượng các biến số, từ đó có thể biểu diễn các số liệu bằng đồ họa
Đưa ra một mô tả tổng hợp cho các sản phẩm
Nguyên tắc chung của PCA
1 … j … J1
...i
...I
yij…...
……
...
Biến sốQ
uan
sát
PC1 .. PCk .. PCK
1
...i
...I
Cpik…...
……
...
Các thành phần chính
Phân tích đường chéoHoặc phân tích riêng
Cp1
PC2
PC1
PC2
Vòng tròn tương quan Hình chiếu của các quan sát
++ ++
Một ví dụ nhỏ: profile rượu vang
AmberBlackcurrant Coconut Leather Musc
Goose berry Woody Vanilla Rasberry
v1 7.000 3.000 1.000 6.000 9.000 3.000 1.000 0.000 2.000
v2 0.000 5.000 1.000 1.000 0.000 7.000 0.000 1.000 6.000
v3 1.000 9.000 0.000 0.000 0.000 6.000 1.000 1.000 5.000
v4 1.000 6.000 7.000 0.000 1.000 6.000 4.000 6.000 4.000
v5 6.000 1.000 8.000 5.000 4.000 2.000 5.000 5.000 1.000
v6 1.000 6.000 5.000 1.000 0.000 5.000 5.000 7.000 6.000
v7 7.000 3.000 1.000 6.000 8.000 2.000 1.000 0.000 2.000
v8 6.000 3.000 0.000 5.000 5.000 3.000 1.000 1.000 3.000
v9 0.000 4.000 4.000 1.000 0.000 7.000 6.000 5.000 5.000
v10 4.000 2.000 6.000 5.000 6.000 2.000 5.000 7.000 1.000
v11 5.000 1.000 4.000 6.000 7.000 1.000 6.000 7.000 2.000
v12 1.000 6.000 0.000 1.000 0.000 5.000 0.000 1.000 8.000
Một ví dụ nhỏ: profile rượu vang
coconut vanilla
woody
leather
amber
goose berry
rasberry
black currant
Một ví dụ nhỏ: profile rượu vang
Làm thế nào để tìm các thành phần chính?
Bước 1: lấy vài số liệu
Bước 2: lấy hiệu các giá trị trung bình các biến số
Bước 3: tìm các vectơ riêng và các giá trị riêng của ma trận đồng phương sai
Bước 4: tìm các thành phần chính bằng cách chiếu các quan sát lên các vectơ riêng
Bước 5: tính toán các tải (loading) chẳng hạn như sự tương quan giữa các biến số gốc và các thành phần chính
Ví dụ 2D: bước 1 lấy số liệu
20 từ :
Biến 1 = số chữ cái
Biến 2 = số dòng dùng để định nghĩa từ trong từ điển
Ví dụ 2D: bước 1 lấy số liệu
Số
chữ
cái c
ủa từ
Số dòng của định nghĩa
Ví dụ 2D: bước 2 Lấy hiệu trung bình
Y = “Chiều dài của từ ” MY = 6y = (Y −MY)
W = “Số dòng của định nghĩa” MW = 8w = (W −MW)
Ví dụ 2D: bước 2 Lấy hiệu trung bình
Ví dụ 2D: bước 3 tìm các vectơ riêng
Ví dụ 2D: bước 3 tìm các vectơ riêng
Ví dụ 2D: chiếu các quan sát
Ví dụ 2D: chiếu các quan sát
r (W, F1) = 0.97
Hệ số tương quan Pearson
Ví dụ 2D: tính toán các tải (loadings)
r (W, F2) = 0.23
Ví dụ 2D: tính toán các tải (loadings)
Hệ số tương quan Pearson
r (Y, F1) = -0.87
Ví dụ 2D: tính toán các tải (loadings)
Hệ số tương quan Pearson
r (Y, F2) = 0.50
Ví dụ 2D: tính toán các tải (loadings)
Hệ số tương quan Pearson
Ví dụ 2D : vẽ vòng tròn tương quan
r (W, F1) = 0.97
r (W, F2) = 0.23
r (Y, F1) = -0.87
r (Y, F2) = 0.50
Độ dài(số lượng chữ cái) Số lượng
dòng của định nghĩa
Làm thế nào để tính phương sai explained variance ?
Giá trị riêng % phương sai % phương sai
tích luỹ
392 88 88
52 12 100 444
392
444X 100 = 88%
Giữ lại bao nhiêu thành phần
Chuẩn Kaiser. chỉ giữ lại thành phần có giá trị riêng lớn hơn 1
The scree test.
Thông thường. giữ lại những chiều mà có thể phân tích giải thích được
Khảo sát một vài giải pháp và chọn giải pháp “hợp lý nhất”
0
0,5
1
1,5
2
2,5
3
3,5
4
1 2 3 4 5 6 7 8
Tôi có nên chuẩn hoá số liệu ?
Có, nếu số liệu không được đo trên cùng một thang
Nếu không thì nó phụ thuộc vào:
Chuẩn hoá: cùng trọng lượng cho toàn bộ biến số
Không chuẩn hoá: trọng lượng tỷ lệ theo độ lệch chuẩn