hệ cơ sở tri thức_ máy học

23
Hệ Cơ Sở Tri Thức HỌC MÁY (MACHINE LEARNING)

Upload: anh-tuan

Post on 22-Apr-2017

214 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Hệ Cơ Sở Tri Thức_ Máy Học

H C S Tri Th cệ ơ ở ứHỌC MÁY (MACHINE LEARNING)

Page 2: Hệ Cơ Sở Tri Thức_ Máy Học

Gi i Thi uớ ệ• Vấn đề ngôn ngữ và học• khả năng học chính là một trong những thành tố

quan trọng của hành vi thông minh.• Các hệ chuyên gia được phát triển nhưng vẫn còn

gặp nhiều khó khăn• Một giải pháp là các chương trình tự học lấy cách

giải quyết vấn đề từ kinh nghiệm, từ sự giống nhau, từ các ví dụ hay từ những ‘chỉ dẫn’, ‘lời khuyên’,...

Page 3: Hệ Cơ Sở Tri Thức_ Máy Học

Đ nh Nghĩa H cị ọ• Theo Herbert Simon: ‘H c đ c đ nh nghĩa nh là ọ ượ ị ư

b t c s thay đ i nào trong m t h th ng cho phép ấ ứ ự ổ ộ ệ ốnó ti n hành t t h n trong l n th hai khi l p l i cùng ế ố ơ ầ ứ ặ ạm t nhi m v ho c v i m t nhi m v khác rút ra t ộ ệ ụ ặ ớ ộ ệ ụ ừcùng m t qu n th các nhi m v đó’ộ ầ ể ệ ụ• Có ba ti p c n h c: ti p c n ký hi uế ậ ọ ế ậ ệ (symbol-based

learning), ti p c n m ng neuron hay k tế ậ ạ ế n i (neuralố or connectionist networks) và ti p cế nậ n i tr i ổ ộ(emergent) hay di truy n và ti nề ế hóa (genetic and evolutionary learning).

Page 4: Hệ Cơ Sở Tri Thức_ Máy Học

Ti p C n Ký Hi u: Gi i Thu t ế ậ ệ ả ậQuy N p Cây Quy t Đ nh ID3ạ ế ị

Page 5: Hệ Cơ Sở Tri Thức_ Máy Học

Giải Thuật Quy Nạp Cây Quyết Định

I. Giới ThiệuII. Giải Thuật ID3 xây dựng cây quyết định từ trên

xuốngIII. Thuộc Tính Dùng Để Phân Loại Tốt NhấtIV. Tìm Kiếm Không Gian Giả Thuyết Trong ID3V. Đánh Giá Hiệu SuấtVI. Chuyển Cây Về Các LuậtVII.Khi Nào Sử Dụng ID3

Page 6: Hệ Cơ Sở Tri Thức_ Máy Học

Gi i Thi uớ ệ• Giải thuật quy nạp cây (ID3) là 1 giải thuật học đơn giản được

ứng dụng trong nhiều lĩnh vực.• ID3 biểu diễn các khái niệm (concept) ở dạng cây quyết định

(decision tree)• Giải thuật có đầu vào và đầu ra là:

Page 7: Hệ Cơ Sở Tri Thức_ Máy Học

Gi i Thi uớ ệ

Page 8: Hệ Cơ Sở Tri Thức_ Máy Học

Gi i Thi uớ ệ• Thuộc tính: quang cảnh, nhiệt độ, độ ẩm và gió • Thuộc tính phân loại ‘chơi Tennis’ (có, không) • Thuộc tính ‘Chơi tennis’ còn được gọi là thuộc tính đích

(target attribute). • Thuộc tính quang cảnh có ba giá trị (âm u, mưa, nắng)• Nhiệt độ có ba giá trị (nóng, mát, ấm áp)• Độ ẩm có hai giá trị (cao, TB) • Gió có hai giá trị (mạnh, nhẹ).• Các giá trị này chính là ký hiệu (symbol)

Page 9: Hệ Cơ Sở Tri Thức_ Máy Học

Gi i Thi uớ ệ

Page 10: Hệ Cơ Sở Tri Thức_ Máy Học

Gi i Thi uớ ệ• Sau khi đã quy nạp được cây quyết định thì cây

này sẽ được sử dụng để phân loại cho các ví dụ trong tương lai.• Ứng với một tập dữ liệu rèn luyện sẽ có nhiều

cây quyết định có thể phân loại đúng tất cả các ví dụ trong tập dữ liệu rèn luyện.• Vậy làm sao để học được cây quyết định có thể

phân loại đúng tất cả các ví dụ trong tập rèn luyện?

Page 11: Hệ Cơ Sở Tri Thức_ Máy Học

Gi i thu t ID3 xây d ng cây quy t đ nh t ả ậ ự ế ị ừtrên–xu ngố

Page 12: Hệ Cơ Sở Tri Thức_ Máy Học

Gi i thu t ID3 xây d ng cây quy t đ nh t ả ậ ự ế ị ừtrên–xu ngố

Page 13: Hệ Cơ Sở Tri Thức_ Máy Học

Thu c tính nào là thu c tính dùng đ ộ ộ ểphân lo i t t nh t?ạ ố ấ

• Shannon (1948) cung c p khái ni mấ ệ entropy đ đo ểtính thu n nh t (hay ng c l i là đ pha tr n) c a ầ ấ ượ ạ ộ ộ ủm t t p h p. M t ộ ậ ợ ộ t p h p là thu n nh t n u nh t t ậ ợ ầ ấ ế ư ấc các ph n t c a t p h p đ u thu c cùng m t lo i, ả ầ ử ủ ậ ợ ề ộ ộ ạvà khi đó ta nói t p h p này có đ pha tr n là th p ậ ợ ộ ộ ấnh t.ấ

• Khi t p ví d là thu n nh t thì có th nói: ta bi t ậ ụ ầ ấ ể ếch c ch n v giá tr phân lo i c a m t ví d thu c ắ ắ ề ị ạ ủ ộ ụ ột p này, hay ta có l ng thông tin v t p đó là cao ậ ượ ề ậnh tấ .

Page 14: Hệ Cơ Sở Tri Thức_ Máy Học

Entropy đo tính thu n nh t c aầ ấ ủ t p ví d ậ ụ

• Khái niệm entropy của một tập S được định nghĩa trong Lý thuyết thông tin là số lượng mong đợi các bít cần thiết để mã hóa thông tin về lớp của một thành viên rút ra một cách ngẫu nhiên từ tập S.

• Theo lý thuyết thông tin, mã có độ dài tối ưu là mã gán -log2p bits cho thông điệp có xác suất là p.

Page 15: Hệ Cơ Sở Tri Thức_ Máy Học

Entropy đo tính thu n nh t c aầ ấ ủ t p ậví d ụ• Entropy có giá trị nằm trong khoảng [0..1].• Entropy(S) = 0 tập ví dụ S chỉ toàn ví dụ thuộc

cùng một loại, hay S là thuần nhất. • Entropy(S) = 1 tập ví dụ S có các ví dụ thuộc các

loại khác nhau với độ pha trộn là cao nhất.• 0 < Entropy(S) < 1 tập ví dụ S có số lượng ví dụ

thuộc các loại khác nhau là không bằng nhau.

Page 16: Hệ Cơ Sở Tri Thức_ Máy Học

Entropy đo tính thu n nh t c aầ ấ ủ t p ậví d ụ

Page 17: Hệ Cơ Sở Tri Thức_ Máy Học

L ng thông tin thu đ c đo m cượ ượ ứ đ gi m ộ ảentropy mong đ iợ• Lượng thông tin thu được là phép đo hiệu suất phân loại các ví

dụ của một thuộc tính, đơn giản là lượng giảm entropy mong đợi gây ra bởi việc phân chia các ví dụ theo thuộc tính này.

Page 18: Hệ Cơ Sở Tri Thức_ Máy Học

Tìm ki m không gian gi thuy t trong ID3ế ả ế

• ID3 th c hi n m t phép tìm ki m t đ n gi n ự ệ ộ ế ừ ơ ảđ n ph c t p, theo gi i thu t leo-núi (hill ế ứ ạ ả ậclimbing)

Page 19: Hệ Cơ Sở Tri Thức_ Máy Học

Tìm ki m không gian gi thuy t trong ID3ế ả ế

• Không gian gi thuy t các cây quy t đ nh c a ID3 làả ế ế ị ủ m t ộkhông gian đ yầ đ các cây quy t đ nh trên các thu c tính ủ ế ị ộđã cho trong t p rèn luy n.ậ ệ

• Trong khi tìm ki m, ID3 ch duy trì m t gi thuy t hi n t iế ỉ ộ ả ế ệ ạ• Gi i thu t thu n ID3 không có kh năng ả ậ ầ ả quay lui trong khi

tìm ki m.ế

Page 20: Hệ Cơ Sở Tri Thức_ Máy Học

Tìm ki m không gian gi thuy t trong ế ả ếID3• Vì ID3 s d ng t t c các ví d m i b c đ đ a ra các ử ụ ấ ả ụ ở ỗ ướ ể ư

quyết đinh d a trên th ng kê,ự ố nên k t qu tìm ki m c a ế ả ế ủID3 r t ít b nh h ng b i m t vài d li u sai ấ ị ả ưở ở ộ ữ ệ (hay d li uữ ệ nhi u). ễ

• Trong quá trình tìm ki m, gi i thu t ID3 có xu h ng ch n ế ả ậ ướ ọcây quy t đ nh ng n h n là nh ng cây quy t đ nh dài. Đây ế ị ắ ơ ữ ế ịlà tính ch t thiên l ch quy n p c a ID3. ấ ệ ạ ủ

Page 21: Hệ Cơ Sở Tri Thức_ Máy Học

Đánh giá hi u su t c a cây quy t đ nh:ệ ấ ủ ế ị

• Đ c đánh giá là t t n u nh cây này có kh năng phânượ ố ế ư ả lo i đúng đ c cácạ ượ tr ng h p hay ví d sẽ g p trong ườ ợ ụ ặt ng lai, hay c th h n là có khươ ụ ể ơ ả năng phân lo iạ đúng các ví d không n m trong t p d li u rèn luy n. ụ ằ ậ ữ ệ ệ

• Đ đánh giá hi u su t c a m t cây quy t đ nh ng i ta ể ệ ấ ủ ộ ế ị ườth ng s d ng m t t p ví d tách r iườ ử ụ ộ ậ ụ ờ và t p d li uậ ữ ệ t p ậki m traể (validation set)

Page 22: Hệ Cơ Sở Tri Thức_ Máy Học

Chuy n cây v các lu t ể ề ậ

Page 23: Hệ Cơ Sở Tri Thức_ Máy Học

Khi nào nên s d ng ID3 ử ụ• Giải thuật này thuộc tiếp cận giải quyết vấn đề

dựa trên ký hiệu (symbol – based approach). • Tập dữ liệu rèn luyện ở đây bao gồm các ví dụ

được mô tả bằng các cặp “Thuộc tính – giá trị” và mỗi ví dụ đều có một thuộc tính phân loại.• ID3 sử dụng các ví dụ rèn luyện ở dạng xác suất

nên nó có ưu điểm là ít bị ảnh hưởng bởi một vài dữ liệu nhiễu.