sbc 2012 - một số thuật toán phân lớp và ứng dụng trong ids (nguyễn Đình chiểu)

33
SECURITY BOOTCAMP 2012 | Make yourself to be an expert! 1 2 Nguyễn Đình Chiểu | [email protected] Một Số Thuật Toán Phân Lớp Và Ứng Dụng Phát Hiện Xâm Nhập Trái Phép 1

Upload: security-bootcamp

Post on 02-Jun-2015

3.437 views

Category:

Technology


7 download

TRANSCRIPT

Page 1: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

1

2

Nguyễn Đình Chiểu | [email protected]

Một Số Thuật Toán Phân Lớp Và Ứng Dụng Phát Hiện Xâm Nhập Trái Phép

1

Page 2: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

2

2

NỘI DUNG CHÍNH

IDS; Data mining; Ba thuật toán Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

2

1. ĐẶT VẤN ĐỀ

3. MỘT SỐ KỸ THUẬT PHÂN LỚP

4. THỰC NGHIỆM

5. KẾT LUẬN

2. TỔNG QUAN HỆ THỐNG PHÁT HIỆN XÂM NHẬP TRÁI PHÉP

Page 3: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

3

2

ĐẶT VẤN ĐỀ

IDS; Data mining; Ba thuật toán Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

3

1. Lý do

3. Đối tượng và phạm vi nghiên cứu

4. Phương pháp nghiên cứu

2. Mục tiêu

Page 4: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

4

2

TỔNG QUAN VỀ IDS

IDS; Data mining; Ba thuật toán Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

4

1. Hệ thống phát hiện xâm nhập

2. Phân loại hệ thống phát hiện xâm nhập.

3. Kiến trúc của hệ thống phát hiện xâm nhập

4. Các kỹ thuật phát hiện xâm nhập trái phép.

5. Kỹ thuật khai phá dữ liệu trong phát hiện xâm nhập trái phép

Page 5: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

5

2

Hệ thống phát hiện xâm nhập

1. Khái niệm:

2. Phát hiện xâm nhập:

3. Chính sách của IDS:

- Phần cứng và phần mềm.- Xâm nhập tính toàn vẹn, tính sẵn sàn, tính tin

cậy của HT.- HT thực hiện giám sát theo dõi, thu thập thông

tin.- Phân tích, đánh giá.

- Network intrusion detection system.

- Host-base Intrusion detection system.

- Ai sẽ giám sát hệ thống IDS?- Ai sẽ điều hành IDS?- Xử lý phát hiện như thế nào?

5

IDS; Data mining; Ba thuật toán Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

Page 6: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

6

2

PHÂN LOẠI IDS

IDS; Data mining; Ba thuật toán Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

6

ƯU ĐIỂM HẠN CHẾ

NIDS

- Quản lý được phân đoạn

mạng.

- Có tính trong suốt, độc

lập.

- Cài đặt, bảo trì đơn giản.

- Tránh bị tấn công bởi một

host cụ thể.

- Xãy ra trường hợp báo động giả.- Không phân tích được lưu lượng

đã mã hoá.- Phải luôn cập nhật thường xuyên.- Khó biết được việc mạng bị tấn

công.- Giới hạn về băng thông.- Hacker vận dụng phân mãnh

chồng chéo.

HIDS

- Xác định được người dùng.- Phát hiện tấn công trên

một máy.- Phân tích dữ liệu đã được

mã hoá.- Cung cấp các thông tin

về host.

- Hệ điều hành cùng thoả hiệp.- HIDS cần thiết lập trên từng host.- Không có khả năng phát hiện,

thăm dò mạng.- Cần tài nguyên host để thực

hiện. - Tấn công từ chối dịch vụ (Dos).

Page 7: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

7

2

KIẾN TRÚC CỦA IDS

IDS; Data mining; Ba thuật toán Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

7

Ngăn chặn (Prevention)

Giám sát xâm nhập (IM)

Kiểm tra xâm nhập (IS)

Trả lời (Response)

Mô phỏng

Phân tích

Thông báo

1. Quá trính thực hiện của IDS

Page 8: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

8

2

KIẾN TRÚC CỦA IDS

IDS; Data mining; Ba thuật toán Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

8

2. Cơ sở hạ tầng IDS

Thêm cơ sở hạ tầng IDS

Thông báo

Giám sát

Hệ thống bảo vệ

Nhiệm vụ của IDS

Page 9: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

9

2

KIẾN TRÚC CỦA IDS

IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

9

3. Kiến trúc của IDS

Page 10: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

10

2

KIẾN TRÚC CỦA IDS

IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

10

4. Giải pháp Kiến trúc đa tác nhân:

Page 11: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

11

2

CÁC KỸ THUẬT PHÁT HIỆN XÂM NHẬP TRÁI PHÉP

IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

11

1) Phát hiện dựa vào dấu hiệu bất thường

2) Phát hiện dựa trên sự bất thường

3) Phát hiện dựa và phân tích trạng thái giao thức.

4) Phát hiện dựa trên mô hình.

Page 12: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

12

2

KỸ THUẬT DATA MINING TRONG IDS

IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

12

Connection/ session records

Packets/event

(ASCII)

Raw audit data

models

Evaluationfeedback

Page 13: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

13

2

MỘT SỐ KỸ THUẬT PHÂN LỚP

IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

13

1. Tổng quan về khai phá dữ liệu

2. Một số kỹ thuật phân lớp dữ liệu.

3. Phân lớp dựa trên phương pháp học Naïve Bayes.

4. Phân lớp dựa trên cây quyết định.

5. Kỹ thuật phân loại máy vector hỗ trợ.

Page 14: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

14

2

TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

14

Khái niệm về khai phá dữ liệu

Ứng dụng trong khai phá dữ liệu

Các bài toán trong khai phá dữ liệu

Tiến trình trong khai phá dữ liệu

Page 15: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

15

2

MỘT SỐ KỸ THUẬT PHÂN LỚP

IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

15

Khái niệm về phân lớp.

Mục đích của phân lớp.

Các tiêu chí đánh giá thuật toán phân lớp.

Các phương pháp đánh giá độ chính xác của mô hình phân lớp.

Page 16: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

16

2

Phân lớp Naïve Bayes Học theo xác suất:

• Tính các xác suất rõ ràng cho các giả thuyết.

• Một trong những hướng thiết thực cho một số vấn đề thuộc phương pháp học.

Có tăng trưởng:

• Mỗi mẫu huấn luyện có thể tăng/giảm dần khả năng đúng của một giả thuyết.

• Tri thức ưu tiên có thể kết hợp với dữ liệu quan sát.

IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

16

Page 17: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

17

2

Phân lớp Naïve Bayes Dự đoán theo xác suất: Dự đoán nhiều giả thuyết,

trọng số cho bởi khả năng xảy ra của chúng.

Chuẩn: Tất cả loại phân lớp nào cũng theo một chuẩn nhất định. Nhằm để tạo ra quyết định ưu tiên đối với từng thuật toán.

Thuật toán này dựa theo định lý Bayes để áp dụng:

P(C|X)= P(X|C).P(C)/P(X)

- P(X) là hằng số cho tất cả các lơp.

- P(C) là tần số liên quan của các mẫu thuộc lớp C.

IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

17

Page 18: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

18

2

Phân lớp Cây quyết định Là một cây phân cấp có cấu trúc được dùng để phân lớp các

đối tượng dựa vào dãy các luật.

Việc xây dựng cây quyết định được tiến hành một cách đề qui. Lần lượt từ nút gốc đến tận nút lá.

Gốc● Nhánh● Lá● Lá● Lá● Nhánh● Lá● Lá● Lá

IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

18

Page 19: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

19

2

Phân lớp Cây quyết địnhHai giai đoạn tạo cây quyết định. Xây dựng cây:

Bắt đầu, lấy tất cả các mẫu huấn luyện đều ở gốc.

Phân chia các mẫu dựa trên các thuộc tính được chọn.

Kiểm tra các thuộc tính được chọn dựa trên một độ đo thông kê hoặc heuristic.

Thu gọn cây:

Xác định và loại bỏ những nhánh nhiễu hoặc tách khỏi nhóm.

Mỗi một đường dẫn từ gốc đến lá trong cây tạo thành một luật.

Mỗi cặp giá trị thuộc tính trên một đường dẫn tạo nên một sự liên quan.

Nút lá giữ quyết định phân lớp dự đoán.

Các luật được tạo dễ hiểu hơn các cây.

IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

19

Page 20: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

20

2

Phân lớp Cây quyết địnhThuật toán căn bản

Xây dựng một cây đệ qui phân chia và xác định đắc tính từ trên xuống.

Các thuộc tính được xem rõ ràng, rời rạc.

Tham lam (có thể truyền cực đại cục bộ).

Nhiều dạng khác nhau: ID3, C4.5, CART, CHAID.

Điểm khác biệt chính: tiêu chuẩn/thuộc tính phân chia, độ đo để lựa chọn

Độ lợi thông tin.

Gini index: - số thống kê bảng ngẫu nhiên (contingency table statistic).

G- Thống kê (statistic)

IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

20

2x∀

2x∀

Page 21: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

21

2

Phân lớp SVM

IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

21

Máy vector hỗ trợ là một khái niệm trong thống kê khoa học máy tính cho một tập hợp các phương pháp học có giám sát liên quan đến nhau để phân loại và phân tích hồi qui.

SVM tuyến tính: Là phân lớp nhị phân, phân biệt giữa lớp + và lớp -. Đây là ý tưởng phân chia biên rộng.

SVM phi tuyến: Ánh xạ vector dữ liệu vào không gian chiều cao có số chiều cao hơn nhiều.

nii

Piii yRxyxD 1}}1,1{,|),{( =−∈∈=

Page 22: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

22

2

Thực Nghiệm

IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

22

1. Phát biểu bài toán

Thu thập dữ liệu trên mạng

Tiền xử lý dữ liệu

Giải nén dữ liệu

Chọn lựa thuộc tính

Xây dựng bộ phân lớp

Page 23: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

23

2

Thực Nghiệm

IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

23

a. Thu thập dữ liệu

Tập dữ liệu bao gồm 1 kiểu bình thường, 22 kiểu tấn công. Chia thành 4 lớp: Từ chối dịch vụ (DOS), trinh sát hệ thống (probe), chiếm quyền hệ thống (U2L), khai thác điểm yếu (R2L).

b. Rút trích dữ liệu

Trong tập dữ liệu KDD Cup 1999 ta trích chọn 10% trong số dữ liệu này để làm thực nghiệm. Bao gồm 91.059 bảng ghi và có 41 thuộc tính. Phân phối của các bảng ghi như sau:

Page 24: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

24

2

Thực Nghiệm

IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

24

2. Kết quả thực nghiệm.

a. Phân lớp dựa trên cây quyết định:Kết quả Sử dụng cây quyết định như bộ phân lớp nhị phân

Thời gian học Thời gian kiểm thử Mức độ đúng (%)

Normal 60,08 0.2 99,91

DoS 55,6 0,18 99,6

Probe 69,38 0,15 98,8

U2R 51,2 0.16 72,7

R2L 75,02 0,19 98,3

Page 25: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

25

2

Thực Nghiệm

IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

25

Lớp Số lượng bảng ghi Tỉ lệ %

Nomal 23872 26,2

DoS 65776 72,2

Probe 1042 1,1

U2R 35 0,03

R2L 334 0,3

Tổng cộng 91059 100

c. Xây dựng bộ phân lớp

Xây dựng bộ phân lớp để phát hiện xâm nhập dựa trên ba thuật toán. Naïve Bayes, Cây quyết định, Support vector machine. Mục đích đánh giá hiệu quả về hai khía cạnh thời gian và độ chính xác của thuật toán.

Page 26: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

26

2

Thực Nghiệm

IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

26

2. Kết quả thực nghiệm.

b. Phân lớp dựa trên naïve bayes:

Thời gian học (s) Thời gian kiểm thử (s) Mức độ đúng (%)

Normal 10,2 3,97 98,8

DoS 10,31 3,85 100

Probe 9,09 3,33 97,0

U2R 9,25 2,68 72,2

R2L 9,41 2,55 97,4

Page 27: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

27

2

Thực Nghiệm

IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

27

2. Kết quả thực nghiệm.

c. Phân lớp dựa trên svm:

Kết quả Sử dụng SVM như bộ phân lớp nhị phân

Thời gian học Thời gian kiểm thử Mức độ đúng (%)

Normal 3120,11 126,37 99,9

DoS 2481,11 115,36 99,6

Probe 1643,2 100,82 88,7

U2R 593,74 86,73 48,3

R2L 1404,22 96,58 85,2

Page 28: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

28

2

3. Phân tích và bình luận.

a. Độ chính xác của ba thuật toán:

0

20

40

60

80

100

120

DC 99.9 99.6 98.8 72.7 98.3

NB 98.8 99.3 97 72.2 97.4

SVM 99.9 100 88.7 48.3 85.2

Normal DoS Probe U2R R2L

Thực Nghiệm

IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

28

Page 29: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

29

2

Thực Nghiệm

IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

29

b. Thời gian học mô hình (s) của ba thuật toán.

0

500

1000

1500

2000

2500

3000

3500

DC 60,08 55,6 69,38 51,2 75,02

NB 10,2 10,31 9,09 9,25 9,41

SVM 3120,11 2481,11 1643,2 592,74 1404,22

Normal DoS Probe U2R R2L

Page 30: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

30

2

Thực Nghiệmc. Thời gian kiểm thử (s) của ba thuật toán.

0

20

40

60

80

100

120

140

DC 0,2 0,18 0,15 0,16 0,19

NB 3,97 3,85 3,33 2,68 2,55

SVM 126,37 115,36 100,82 86,73 96,58

Normal DoS Probe U2R R2L

IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

30

Page 31: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

31

2

KẾT LUẬN

IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

31

1. Về mặt lý luận.

Tổng quan về hệ thống phát hiện xâm nhập trái phép, các loại hệ thống xâm nhập và các thành phần của hệ thống xâm nhập.Tổng quan về các kỹ thuật sử dụng trong phát hiện xâm nhập trái phép: dấu hiệu, sự bất thường, trạng thái giao thức, kỹ thuật khai phá dữ liệu. Đặc biệt nghiên cứu đến 3 thuật toán, DC, NB, SVM.

Page 32: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

32

2

KẾT LUẬN

IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn Đình Chiểu

32

2. Về mặt thực nghiệm.

Dựa trên kỹ thuật phân lớp sử dụng tập dự liệu mô phỏng tấn công KDD99 và trình bày mô hình bài toán. Đã đánh giá được độ chính xác và thời gian của ba thuật toán phân lớp trên tập dữ liệu mô phỏng. Qua thực nghiệm kỹ thuật phân lớp cây quyết định là tốt nhất so với hai thuật toán còn lại.

Page 33: SBC 2012 - Một số thuật toán phân lớp và ứng dụng trong IDS (Nguyễn Đình Chiểu)

SECURITY BOOTCAMP 2012 | Make yourself to be an expert!

33

2

Nguyễn Đình Chiểu | [email protected]

XIN CHÂN THÀNH CẢM ƠN(SCB 2012)

33