3.3 data mining techniques in technical diagnosis - classification

22
1 Data processing in CĐKT Classification TS. TS. Lê Lê Văn Văn Đim Đim Khoa Khoa MTB MTB 1 Expression in Exp 1 Expression in Exp 2 Proteins Co-Expression Conservation Clustering VS Classification - The Basic Idea Dliu được đặc trưng bi mt hoc Dliu được đặc trưng bi mt hoc nhiu biến (variables/attributes) nhiu biến (variables/attributes) Phân loi/Classification Phân loi/Classification Have Have labels labels for some points for some points Want a “rule” that will accurately assign Want a “rule” that will accurately assign labels to new points labels to new points Supervised learning Supervised learning Phân nhóm/Clustering Phân nhóm/Clustering No labels No labels Group points into clusters based on how Group points into clusters based on how “near” they are to one another “near” they are to one another Identify Identify structure structure in data in data Unsupervised learning Unsupervised learning Genes Feature X Feature Y

Upload: kienhp

Post on 17-Feb-2016

235 views

Category:

Documents


0 download

DESCRIPTION

Máy tàu thủy

TRANSCRIPT

Page 1: 3.3 Data Mining Techniques in Technical Diagnosis - Classification

1

Data processing in CĐKTClassification

�� TS. TS. LêLê VănVăn ĐiểmĐiểm

�� KhoaKhoa MTBMTB

1

Expression in Exp 1

Expression in Exp 2

Proteins

Co-Expression

Conservation

Clustering VS Classification -The Basic Idea

��Dữ liệu được đặc trưng bởi một hoặc Dữ liệu được đặc trưng bởi một hoặc nhiều biến (variables/attributes)nhiều biến (variables/attributes)

��Phân loại/ClassificationPhân loại/Classification�� Have Have labelslabels for some pointsfor some points�� Want a “rule” that will accurately assign Want a “rule” that will accurately assign

labels to new pointslabels to new points�� Supervised learningSupervised learning

��Phân nhóm/ClusteringPhân nhóm/Clustering�� No labelsNo labels�� Group points into clusters based on how Group points into clusters based on how

“near” they are to one another“near” they are to one another�� Identify Identify structurestructure in datain data�� Unsupervised learningUnsupervised learning

Genes

Feature X

Feature Y

Page 2: 3.3 Data Mining Techniques in Technical Diagnosis - Classification

2

3

Supervised vs. unsupervised Learning

�� Supervised learning: classification is seen as Supervised learning: classification is seen as supervised learning from examples. supervised learning from examples. �� Supervision: The data (observations, Supervision: The data (observations,

measurements, etc.) are labeled with premeasurements, etc.) are labeled with pre--defined defined classes. It is like that a “teacher” gives the classes classes. It is like that a “teacher” gives the classes (supervision). (supervision).

�� Test data are classified into these classes too. Test data are classified into these classes too. �� Unsupervised learning (clustering)Unsupervised learning (clustering)

�� Class labels of the data are unknownClass labels of the data are unknown�� Given a set of data, the task is to establish the Given a set of data, the task is to establish the

existence of classes or clusters in the dataexistence of classes or clusters in the data

Sơ đồ thuật toán classification

�� Thu thập, chuẩn bị Thu thập, chuẩn bị dữ liệudữ liệu

�� Lựa chọn thuật Lựa chọn thuật toán phân loạitoán phân loại

�� TrainingTraining

�� EvaluationEvaluation

�� Sử dụng để phân Sử dụng để phân loạiloại

4

Page 3: 3.3 Data Mining Techniques in Technical Diagnosis - Classification

3

Ví dụ 1: Xác định hư hỏng qua đồ thị công

5

Setup bài toán

�� Biến dữ liệu là hình ảnh các đồ thị công đặc Biến dữ liệu là hình ảnh các đồ thị công đặc trưng với các hư hỏng khác nhautrưng với các hư hỏng khác nhau

�� “Labels” là trạng thái hư hỏng, ở đây là K1 “Labels” là trạng thái hư hỏng, ở đây là K1 –– K4K4

�� Data thu thập bằng cách đo đồ thị công ở Data thu thập bằng cách đo đồ thị công ở các chế độ K1 các chế độ K1 –– K4, chia ra:K4, chia ra:

��Training dataTraining data

��CrossCross--validation datavalidation data

��Testing dataTesting data 6

Page 4: 3.3 Data Mining Techniques in Technical Diagnosis - Classification

4

CS583, Bing Liu, UIC 7

Ví dụ 2: Phân loại bệnh nhân

�� Phòng cấp cứu bệnh viện đo 17 chỉ số của bệnh Phòng cấp cứu bệnh viện đo 17 chỉ số của bệnh nhân mới như huyết áp, thân nhiệt, tuổi …. nhân mới như huyết áp, thân nhiệt, tuổi ….

�� A decision is neededA decision is needed: : có đưa bệnh nhân vào khu có đưa bệnh nhân vào khu vực chăm sóc đặc biệt?vực chăm sóc đặc biệt?

�� ProblemProblem: : cần xác định nhóm bệnh nhân có nguy cơ cần xác định nhóm bệnh nhân có nguy cơ cao và phân biệt với nhóm có nguy cơ thấp để đưa cao và phân biệt với nhóm có nguy cơ thấp để đưa vào khu vực chăm sóc đặc biệtvào khu vực chăm sóc đặc biệt

CS583, Bing Liu, UIC 8

Human VS Machine learning

�� Con người: quyết định (học/learning) dựa trên kinh Con người: quyết định (học/learning) dựa trên kinh nghiệm quá khứ (experience)nghiệm quá khứ (experience)

�� Computer không có “experiences”, Computer không có “experiences”, learns learns từ dữ liệu từ dữ liệu quá khứ mà đặc trưng cho quá trình nghiên cứuquá khứ mà đặc trưng cho quá trình nghiên cứu

�� Our focus: Our focus: xây dựng hàm mục tiêu cho phép gán xây dựng hàm mục tiêu cho phép gán các dữ liệu mới vào một trong số các class mục tiêu các dữ liệu mới vào một trong số các class mục tiêu (các lớp K1 (các lớp K1 –– K4 hay đối tượng bệnh nhân có nguy K4 hay đối tượng bệnh nhân có nguy cơ cao/thấpcơ cao/thấp

�� Được gọi là: Được gọi là: Supervised learning, Supervised learning, classificationclassification

Page 5: 3.3 Data Mining Techniques in Technical Diagnosis - Classification

5

Classification—A Two-Step Process

�� Model construction: Model construction: Định nghĩa một tập hợp các lớp trạng Định nghĩa một tập hợp các lớp trạng thái mong muốn thái mong muốn �� Mỗi mẫu dữ liệu được gán thuộc vệ một trong các lớp trạng thái đã Mỗi mẫu dữ liệu được gán thuộc vệ một trong các lớp trạng thái đã

định nghĩa dựa theo các thuộc tính của nóđịnh nghĩa dựa theo các thuộc tính của nó

�� Bộ dữ liệu sử dụng để xây dựng mô hình gọi là: Bộ dữ liệu sử dụng để xây dựng mô hình gọi là: training training datadata

�� Mô hình phân loại được mô tả dựa trên các thuật toán như: Mô hình phân loại được mô tả dựa trên các thuật toán như: classification classification rules, decision trees, or mathematical formulaerules, decision trees, or mathematical formulae

�� Model usage: Model usage: Để phân loại dữ liệu mới (nhận dạng, gán dữ Để phân loại dữ liệu mới (nhận dạng, gán dữ liệu mới vào một trong các lớp trạng thái) liệu mới vào một trong các lớp trạng thái) �� Đánh giá độ chính xác của mô hình xây dựngĐánh giá độ chính xác của mô hình xây dựng

�� Dữ liệu (testing data) đã biết được phân loại sử dụng mô hình xây Dữ liệu (testing data) đã biết được phân loại sử dụng mô hình xây dựng đượcdựng được

�� Độ chính xác là tỷ lệ các mẫu được mô hình phân loại chính xácĐộ chính xác là tỷ lệ các mẫu được mô hình phân loại chính xác

�� Test Test data set phải độc lập với training data setdata set phải độc lập với training data set

10

Supervised learning process: two steps

� Learning (training): Learn a model using the

training data

� Testing: Test the model using unseen test data

to assess the model accuracy

,cases test ofnumber Total

tionsclassificacorrect ofNumber =Accuracy

Page 6: 3.3 Data Mining Techniques in Technical Diagnosis - Classification

6

Một số thuật toán phân loại

�� Decision treeDecision tree

�� Association rulesAssociation rules

�� Bayes Bayes (phân loại xác suất)(phân loại xác suất)

�� Support Support Vector Vector MachinesMachines

�� KK--nearest nearest neighborneighbor

�� Artificial Artificial Neural NetworksNeural Networks

11

12

Decision tree�� Bài toán cấp thẻ tín dụngBài toán cấp thẻ tín dụng

Page 7: 3.3 Data Mining Techniques in Technical Diagnosis - Classification

7

13

A decision tree from the loan data

Decision nodes and leaf nodes (classes)

Đánh giá chất lượng quá trình cháyTkx

(high/low/norm)

∆∆∆∆Tkx_turbo

(high/low)

Tkx_Aturbo

(high/low)

F_Rack

(high/low/norm)

RPM

(norm/low)

Classes

(combus.

quality)

High Low High Normal Low Bad

Normal High Low Normal Normal Good

High Low High High Normal Bad

14

�� High/Low/Norm là các biến rời rạc (catergorial) High/Low/Norm là các biến rời rạc (catergorial)

�� Nếu là các biến liên tục (nhiệt độ khí xả, vị trí Nếu là các biến liên tục (nhiệt độ khí xả, vị trí thanh răng, ….), cần biến đổi thành dạng ký tựthanh răng, ….), cần biến đổi thành dạng ký tự

�� Ví dụ: F_rack:Ví dụ: F_rack: 4040--44 = Norm; >=45 = High; 44 = Norm; >=45 = High; <=39 = Low<=39 = Low

Page 8: 3.3 Data Mining Techniques in Technical Diagnosis - Classification

8

Rule-Based Classifier (Association rules)�� Phân loại sử dụng “if…then…”Phân loại sử dụng “if…then…”

�� Rule: (Rule: (ConditionCondition) ) →→ yy

�� Trong đó Trong đó �� ConditionCondition là điều kiện kết nối các thuộc tính của datalà điều kiện kết nối các thuộc tính của data

�� yy là tên là tên class class (label)(label)

�� Ví dụ:Ví dụ:�� (Blood Type=Warm) (Blood Type=Warm) ∧∧ (Lay Eggs=Yes) (Lay Eggs=Yes) →→ BirdsBirds

�� (Tkx=high) (Tkx=high) ∧∧((∆∆Tkx_turbo=low) Tkx_turbo=low) ∧∧(RPM=Norm) (RPM=Norm) →→ Bad combus.Bad combus.

Rule-based Classifier (Example)

R1: (Give Birth = no) R1: (Give Birth = no) ∧∧ (Can Fly = yes) (Can Fly = yes) →→ BirdsBirdsR2: (Give Birth = no) R2: (Give Birth = no) ∧∧ (Live in Water = yes) (Live in Water = yes) →→ FishesFishesR3: (Give Birth = yes) R3: (Give Birth = yes) ∧∧ (Blood Type = warm) (Blood Type = warm) →→ MammalsMammalsR4: (Give Birth = no) R4: (Give Birth = no) ∧∧ (Can Fly = no) (Can Fly = no) →→ ReptilesReptilesR5: (Live in WaterR5: (Live in Water = sometimes) = sometimes) →→ AmphibiansAmphibians

Name Blood Type Give Birth Can Fly Live in Water Class

human warm yes no no mammalspython cold no no no reptilessalmon cold no no yes fisheswhale warm yes no yes mammalsfrog cold no no sometimes amphibianskomodo cold no no no reptilesbat warm yes yes no mammalspigeon warm no yes no birdscat warm yes no no mammalsleopard shark cold yes no yes fishesturtle cold no no sometimes reptilespenguin warm no no sometimes birdsporcupine warm yes no no mammalseel cold no no yes fishessalamander cold no no sometimes amphibiansgila monster cold no no no reptilesplatypus warm no no no mammalsowl warm no yes no birdsdolphin warm yes no yes mammalseagle warm no yes no birds

Page 9: 3.3 Data Mining Techniques in Technical Diagnosis - Classification

9

17

Bayesian classification�� Supervised Supervised learning learning có thể được nghiên cứu trên quan có thể được nghiên cứu trên quan

điểm xác suấtđiểm xác suất

�� Gọi Gọi AA11 ... ... AAkk là các thuộc tính của dữ liệu với các giá là các thuộc tính của dữ liệu với các giá trị rời rạc và thuộc lớp Ctrị rời rạc và thuộc lớp C

�� Cho một phép thử (trường hợp) Cho một phép thử (trường hợp) dd với các thuộc tính dữ với các thuộc tính dữ liệu có giá trị lần lượt là aliệu có giá trị lần lượt là a11 ... a... akk

�� Việc phân loại dựa trên cơ sở tính toán xác suất hậu Việc phân loại dựa trên cơ sở tính toán xác suất hậu nghiệm (posteriori). Việc dự đoán dữ liệu thuộc nghiệm (posteriori). Việc dự đoán dữ liệu thuộc class class ccjj sao cho xác suất sau sao cho xác suất sau đạt giá trị lớn nhấtđạt giá trị lớn nhất

18

Công thức Bayes

∑=

====

=====

==

=====

===

||

1||||11

||||11

||||11

||||11

||||11

)Pr()|,...,Pr(

)Pr()|,...,Pr(

),...,Pr(

)Pr()|,...,Pr(

),...,|Pr(

C

r

rrAA

jjAA

AA

jjAA

AAj

cCcCaAaA

cCcCaAaA

aAaA

cCcCaAaA

aAaAcC

Page 10: 3.3 Data Mining Techniques in Technical Diagnosis - Classification

10

Giải thích quy luật Bayes

19

�� Pr(C=cPr(C=cjj) là xác suất tiên nghiệm (xác suất dữ liệu ) là xác suất tiên nghiệm (xác suất dữ liệu thuộc lớp cj, thuộc lớp cj, biết trước từ biết trước từ training datatraining data))

�� là xác suất có điều là xác suất có điều kiện (xác suất khi biết phép thử C thuộc ckiện (xác suất khi biết phép thử C thuộc cjj))

�� Xác suất Xác suất loại loại trừ nhau đôi trừ nhau đôi mộtmột,, được được tính bằng tính bằng tổng của tích tất cả các xác suất của các giả thuyết tổng của tích tất cả các xác suất của các giả thuyết loại trừ nhau đôi một và cácloại trừ nhau đôi một và các xác suất có điều kiệnxác suất có điều kiện

�� = =

)|,...,Pr( ||||11 jAA cCaAaA ===

),...,Pr( ||||11 AA aAaA ==

∑=

====||

1||||11 )Pr()|,...,Pr(

C

r

rrAA cCcCaAaA

Bánh quy từ hộp nào?�� CCó ó hai hai hộp hộp bánh quy. bánh quy. Hộp Hộp 11 có có 10 10 bánh quy sôbánh quy sô--côcô--la la và và 30 30 bánh bánh quy quy bơbơ, ,

hộp 2 cóhộp 2 có 20 20 chiếcchiếc mỗi loạimỗi loại. . Nhặt Nhặt ngẫu ngẫu nhiên nhiên một một chiếc bánh thấy đượcchiếc bánh thấy đượcmột chiếc bánh quy bơmột chiếc bánh quy bơ. . KKhả hả năng năng nhặt nhặt chiếc bánh đó từ trong hộp thứ chiếc bánh đó từ trong hộp thứ nhất là bao nhiêu?nhất là bao nhiêu?

�� Một cách trực quanMột cách trực quan, , câu câu trả lời phải lớn hơn 1/2, trả lời phải lớn hơn 1/2, do do số lượng số lượng bánh bánh quy quy bơbơ lớnlớn hơn. Câu trả lời chính xác được tính theo định lý Bayeshơn. Câu trả lời chính xác được tính theo định lý Bayes. .

�� Giả Giả sửsử HH11 tương ứng với hộp 1, vàtương ứng với hộp 1, và HH22 tương ứng với hộp 2tương ứng với hộp 2. . và hai và hai hộp như nhauhộp như nhau,, PP((HH11) =) = PP((HH22)) == 0,50,5..

�� Điều kiệnĐiều kiện DD là quan sát về chiếc bánh là quan sát về chiếc bánh quy quy bơbơ nhặt đượcnhặt được. . TừTừ hai hộp hai hộp bánhbánh, , tính được tính được P(P(DD || HH11) = 30/40 = 0,75 và P() = 30/40 = 0,75 và P(DD || HH22) = 20/40 = 0,5) = 20/40 = 0,5. .

�� Áp dụng Áp dụng công công thức thức Bayes:Bayes:

�� Trước Trước khi quan sát thấy khi quan sát thấy chiếc chiếc bánh, bánh, xác suất cho xác suất cho việc việc chọn chọn hộp 1 là xác hộp 1 là xác suất tiên nghiệm,suất tiên nghiệm, PP((HH11), có giá trị 0,5. Sau khi đã nhìn thấy chiếc bánh, ), có giá trị 0,5. Sau khi đã nhìn thấy chiếc bánh, ta ta tính tính xác suấtxác suất hậu nghiệmhậu nghiệm PP((HH11||DD), có giá trị 0,6.), có giá trị 0,6.

20

Page 11: 3.3 Data Mining Techniques in Technical Diagnosis - Classification

11

21

Support Vector Machine (SVM) �� SVM được phát minh bởi SVM được phát minh bởi Владимир Владимир Наумович Наумович

ВапникВапник và đồng nghiệp từ và đồng nghiệp từ 1970s 1970s tại Nga, sau này được tại Nga, sau này được ứng dụng rộng rãi ở Châu Âu, Mỹ ứng dụng rộng rãi ở Châu Âu, Mỹ

�� SVM phân loại tuyến tính bằng cách tìm hyperplane để SVM phân loại tuyến tính bằng cách tìm hyperplane để phân tách không gian dữ liệu thành 2 lớp phân tách không gian dữ liệu thành 2 lớp

22

Basic concepts�� Giả sử có tập dữ liệu Giả sử có tập dữ liệu training examples training examples DD

{({(xx11, , yy11), (), (xx22, , yy22), …, (), …, (xxrr, , yyrr)}, )}, với với xxii = (= (xx11, , xx22, …, , …, xxnn) ) là là input input vectorvector trong tập số thực trong tập số thực XX⊆⊆ RRnn ;; yyii là là class class labellabel tương ứng(output), tương ứng(output), yyii ∈∈ {1, {1, --1}. 1}. 1: positive class and 1: positive class and --1: negative class. 1: negative class.

�� SVM SVM tìm một hàm tuyến tính: tìm một hàm tuyến tính: ((ww: weight vector) : weight vector) ff((xx)) = = ⟨⟨w w ⋅⋅⋅⋅⋅⋅⋅⋅ xx⟩⟩ + b+ b

<+⟩⋅⟨−

≥+⟩⋅⟨=

01

01

bif

bify

i

i

ixw

xw

Page 12: 3.3 Data Mining Techniques in Technical Diagnosis - Classification

12

23

Mặt phân cách - Hyperplane�� HHyperplane phân tách training yperplane phân tách training data data có dạng:có dạng:

⟨⟨w w ⋅⋅⋅⋅⋅⋅⋅⋅ xx⟩⟩ + b+ b = 0 = 0

�� Còn được gọi là Còn được gọi là decision decision boundary (surface).boundary (surface).

�� Có rất nhiều cách vẽ, chọn cách nào?Có rất nhiều cách vẽ, chọn cách nào?

Support Vector Machines

�� Cách nào tốt hơn? Cách nào tốt hơn? B1 B1 hay hay B2?B2?�� Làm sao khẳng định?Làm sao khẳng định?

Page 13: 3.3 Data Mining Techniques in Technical Diagnosis - Classification

13

Support Vector Machines

�� Tìm hyperplane để Tìm hyperplane để maximizesmaximizes khoảng cách khoảng cách lề (margin) lề (margin) => => B1 B1 tốt hơn tốt hơn B2B2

Support Vector Machines

0=+• bxwrr

1−=+• bxwrr

1+=+• bxwrr

−≤+•−

≥+•=

1bxw if1

1bxw if1)( rr

rrrxf

||||

2Margin

wr=

Page 14: 3.3 Data Mining Techniques in Technical Diagnosis - Classification

14

27

Maximal margin hyperplane�� SVM SVM tìm hyperplane với lề lớn nhất tìm hyperplane với lề lớn nhất �� Hay tối thiểu khoảng lỗiHay tối thiểu khoảng lỗi

28

Linear SVM�� Giả sử dữ liệu có thể phân tách tuyến tính Giả sử dữ liệu có thể phân tách tuyến tính �� Xét 1 cặp điểm về phía dương Xét 1 cặp điểm về phía dương ((xx++, 1, 1) ) và âm và âm ((xx--, , --11) ) gần gần

mặt phân cách nhấtmặt phân cách nhất<<w w ⋅⋅⋅⋅⋅⋅⋅⋅ xx>> + b+ b = 0. = 0.

�� Định nghĩa 2 hyperplanes song song, Định nghĩa 2 hyperplanes song song, HH++ và và HH--, , đi qua các đi qua các điểm điểm xx++ và và xx-- . . HH++ và và HH-- đều song song với mặt đều song song với mặt <<w w ⋅⋅⋅⋅⋅⋅⋅⋅ xx>> + + bb = 0. = 0.

Page 15: 3.3 Data Mining Techniques in Technical Diagnosis - Classification

15

29

Tính khoảng cách lề (margin)�� Tính khoảng cách lề giữa 2 Tính khoảng cách lề giữa 2 margin hyperplanes margin hyperplanes HH++ và và HH--. .

Khoảng cách lề (Khoảng cách lề (dd++ + + dd−− ). ). �� Khoảng cách (trực giao) từ điểm Khoảng cách (trực giao) từ điểm xxii đến mặt hyperplane đến mặt hyperplane ⟨⟨w w ⋅⋅⋅⋅⋅⋅⋅⋅ xx⟩⟩ + b+ b = = 0 0 là:là:

với ||với ||ww|| || là là norm norm của của ww, ,

||||

||

w

xw bi +⟩⋅⟨

222

21 ...|||| nwww +++=>⋅<= www

30

Tính khoảng cách lề (margin)�� Xác định Xác định dd++. .

�� Chọn điểm Chọn điểm xxss trên mặt trên mặt ⟨⟨w w ⋅⋅⋅⋅⋅⋅⋅⋅ xx⟩⟩ + b+ b = = 0, xác định khoảng 0, xác định khoảng cách từ cách từ xxss đến đến ⟨⟨w w ⋅⋅⋅⋅⋅⋅⋅⋅ xx++⟩⟩ + b+ b = = 1 1 theo công thức theo công thức

vvới ới ⟨⟨w w ⋅⋅⋅⋅⋅⋅⋅⋅ xxss⟩⟩ + b+ b = 0, = 0,

||||

1

||||

|1|

ww

xw s =−+⟩⋅⟨

=+

bd

||||

2

w=+= −+ ddmargin

||||

||

w

xw bi +⟩⋅⟨

Page 16: 3.3 Data Mining Techniques in Technical Diagnosis - Classification

16

31

Giải bài toán cực trị�� Cho tập dữ liệu training data set, Cho tập dữ liệu training data set,

DD = {(= {(xx11, , yy11), (), (xx22, , yy22), …, (), …, (xxrr, , yyrr)})}

�� Giải Giải bài toán cực tiểu sau:bài toán cực tiểu sau:

tương ứngtương ứng

⟨⟨w w ⋅⋅⋅⋅⋅⋅⋅⋅ xxii⟩⟩ + b+ b ≥≥ 1 1 với với yyii = 1= 1⟨⟨w w ⋅⋅⋅⋅⋅⋅⋅⋅ xxii⟩⟩ + b+ b ≤≤ --1 với 1 với yyii = = --1.1.

riby ii ..., 2, 1, ,1)( :Subject to2

:Minimize

=≥+⟩⋅⟨

⟩⋅⟨

xw

ww

riby ii ..., 2, 1, ,1( =≥+⟩⋅⟨ xw

Nearest-Neighbor Classifiers�� 3 yêu cầu:3 yêu cầu:

�� Có tập dữ liệu phân loại Có tập dữ liệu phân loại biết trướcbiết trước

�� Tính khoảng cách giữa Tính khoảng cách giữa các điểm dữ liệucác điểm dữ liệu

�� Chọn kChọn k, , số data points số data points lân cậnlân cận

�� Để phân loại data mới:Để phân loại data mới:�� Tính khoảng cách từ data Tính khoảng cách từ data

point mới đến các data point mới đến các data points đã biếtpoints đã biết

�� Xác định k điểm lân cận Xác định k điểm lân cận �� Chọn số đông trong số k Chọn số đông trong số k

điểm lân cận)điểm lân cận)

Unknown record

Page 17: 3.3 Data Mining Techniques in Technical Diagnosis - Classification

17

Lựa chọn số điểm lân cận

X X X

(a) 1-nearest neighbor (b) 2-nearest neighbor (c) 3-nearest neighbor

K-điểm lân cận của data point x là các data points có khoảng cách nhỏ nhất tới x

Nearest Neighbor Classification

�� Tính khoảng cách:Tính khoảng cách:

��Euclidean Euclidean distance (cần chuẩn hóa dữ distance (cần chuẩn hóa dữ liệu để loại trừ đơn vị và khoảng tuyệt liệu để loại trừ đơn vị và khoảng tuyệt đối) đối)

�� Xác định tên lớp từ danh sách điểm lân cậnXác định tên lớp từ danh sách điểm lân cận

�� Chọn theo đa số trong số k điểm gần nhất Chọn theo đa số trong số k điểm gần nhất

∑ −=i ii

qpqpd2)(),(

Page 18: 3.3 Data Mining Techniques in Technical Diagnosis - Classification

18

Nearest Neighbor Classification�� Chọn giá trị kChọn giá trị k::

�� Nếu Nếu k k quả nhỏ, nhạy cảm với nhiễuquả nhỏ, nhạy cảm với nhiễu

�� K quá lớn, khó chọn trong số nhiều điểm thuộc nhiều K quá lớn, khó chọn trong số nhiều điểm thuộc nhiều class khác nhauclass khác nhau

Artificial Neural Networks (ANN)

X1 X2 X3 Y

1 0 0 0

1 0 1 1

1 1 0 1

1 1 1 1

0 0 1 0

0 1 0 0

0 1 1 1

0 0 0 0

Output Y là 1 khi ít nhất 2 input X nhận Output Y là 1 khi ít nhất 2 input X nhận giá giá trị trị 11

Page 19: 3.3 Data Mining Techniques in Technical Diagnosis - Classification

19

Artificial Neural Networks

X1 X2 X3 Y

1 0 0 0

1 0 1 1

1 1 0 1

1 1 1 1

0 0 1 0

0 1 0 0

0 1 1 1

0 0 0 0

=

>−++=

otherwise0

trueis if1)( where

)04.03.03.03.0( 321

zzI

XXXIY

Artificial Neural Networks (ANN)

�� Là sự kết nối có trọng số Là sự kết nối có trọng số của các nơroncủa các nơron

�� Output Output node node là tổng của là tổng của inputs với trọng số inputs với trọng số

�� So sánh giá trị output với So sánh giá trị output với một giá trị ngưỡng một giá trị ngưỡng (threshold) t(threshold) t )( tXwIY

i

ii −= ∑Perceptron Model

)( tXwsignYi

ii −= ∑

or

Page 20: 3.3 Data Mining Techniques in Technical Diagnosis - Classification

20

Cấu trúc cơ bản của ANN

Huấn luyện mạng thực chất Huấn luyện mạng thực chất là tìm ra các hệ số trọng kết là tìm ra các hệ số trọng kết nối giữa các neuronsnối giữa các neurons

Thuật toán huấn luyện ANN

�� Gán giá trị ban đầu trọng số (wGán giá trị ban đầu trọng số (w00, w, w11, …, w, …, wkk))

�� Tính toán output và hiệu chỉnh trọng số sao Tính toán output và hiệu chỉnh trọng số sao cho output của cho output của ANN ANN phù hợp với class phù hợp với class labels labels của của training examplestraining examples

��Hàm mục tiệu:Hàm mục tiệu:

��Tìm trọng số Tìm trọng số weights weights wwii’s ’s sao cho hàm sao cho hàm mục tiêu trên là nhỏ nhấtmục tiêu trên là nhỏ nhất

��Gọi là thuật toán lan truyền ngượcGọi là thuật toán lan truyền ngược

[ ]2

),(∑ −=i

iii XwfYE

Page 21: 3.3 Data Mining Techniques in Technical Diagnosis - Classification

21

Xác định hư hỏng qua đồ thị công bằng ANN

41

Dữ liệu huấn luyện

42

Mau g330 g335 g340 g345 TTKT

1 7.709 9.129 10.932 13.214K1

2 7.696 10.112 11.9 14.179K1

3 8.696 11.112 12.9 16.179K3

4 7.494 8.838 10.568 13.743K1

5 6.575 7.938 9.7 11.925K3

6 6.655 8.075 9.872 12.153K1

7 5.993 7.318 9.263 11.39K1

8 6.993 8.318 10.26 12.39K4

9 7.993 9.318 11.26 13.39K1

10 7.873 9.711 11.396 13.52K2

Page 22: 3.3 Data Mining Techniques in Technical Diagnosis - Classification

22

Kết quả nhận dạng

43

,cases test ofnumber Total

tionsclassificacorrect ofNumber =Accuracy