xÂy dỰng hỆ thỐng quÉt thƯ rÁc trÊn mÔi trƯỜng phÂn tÁn

22
XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn: GVC. Cao Đăng Tân ThS. Đào Anh Tuấn

Upload: sage

Post on 23-Feb-2016

75 views

Category:

Documents


0 download

DESCRIPTION

XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN. Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271. Giáo viên hướng dẫn: GVC. Cao Đăng Tân ThS. Đào Anh Tuấn. Nội dung. Tổng quan về luận văn . . 1. Tổng quan về thư rác. 2. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN

XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG

PHÂN TÁN

Nhóm thực hiện: Trần Kinh Lý – 0612252Phạm Quốc Mỹ – 0612271

Giáo viên hướng dẫn: GVC. Cao Đăng TânThS. Đào Anh Tuấn

Page 2: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN

Page 2

Nội dung

Tổng quan về luận văn. 1

Tổng quan về thư rác2

3

Hệ thống thử nghiệm4

Các kết quả đạt được5

Hướng phát triển6

Các kỹ thuật quét thư rác sử dụng trong hệ thống

Page 3: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN

Page 3

Mục đích chọn luận văn • Thư rác là một trong những thách thức lớn nhất hiện nay. • Đa số các phần mềm chống thư rác là dựa trên header của

thư hoặc địa chỉ từ người gửi=> luận văn dựa vào nội dung của thư=> tốc độ quét thư chậm=> quét thư trên môi trường song song

Vì những lý do trên đề tài “Xây dựng hệ thống quét thư rác trên môi trường phân tán” được hình thành.

Tổng quan về luận văn

Page 4: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN

Page 4

Định nghĩa thư rác:

thư rác là thư điện tử không theo mong muốn của người nhận và trong số đó các thư điện tử quảng cáo, thương mại chiếm đa số

Tổng quan về thư rác

Page 5: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN

Page 5

Các đặc tính của thư rác: • Thư rác mang tính tương đối. • Tính bất biến trong một thư rác.

Tổng quan về thư rác

Page 6: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN

Page 6

Blacklisting: danh sách địa chỉ không tin cậy. Whitelisting: danh sách địa chỉ tin cậy.Heuristic filtering: dựa vào tập luật. Challenge/ Response: xác thực người dùng. Throttling: khống chế số lượng email được gửi. Address obfuscation: thay đổi định dạng chống thu thập email.

Collaborative filtering: nhóm người dùng tin cậy.

Các kỹ thuật lọc thư rác

Page 7: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN

Page 7

Kỹ thuật thống kêKỹ thuật so khớp

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

Page 8: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN

Page 8

Kỹ thuật thống kê

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

Thư điện tử Tập dữ liệulịch sử

Là spam ? Gửi tới người dùng

Máy phân tích

Bộ tách từ

Huấn luyện

Đánh dấu

Người dùngphản hồi

Bộ lọc xác định đúng?

Sai

Không

PHÂN LOẠI HUẤN LUYỆN

Đúng

Page 9: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN

Page 9

Kỹ thuật thống kê

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

BỘ TÁCH TỪ MÁY PHÂN TÍCH HUẤN LUYỆN

Chức năng

-Tách thông điệp thành các từ dựa trên vnTokenizer.-Tính giá trị cho các từ

- Tính xác xuất chung của thông điệp để xác định thông điệp đó có phải là spam hay không.

- Học lại các thông điệp mà người dùng báo đã phân loại sai

Cải tiến

- Bỏ các tag HTML, các dấu chấm câu, các ký hiệu không có nghĩa.- Đối với tiếng Việt nên bỏ các hư từ (thì, là, mà..). - Quét các tập tin đính kèm để trích văn bản nội dung cho bộ tách từ (word, excel, power point và pdf).

Page 10: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN

Page 10

Kiểm tra độ chính xác của bộ lọc thư rác

Page 11: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN

Page 11

Kỹ thuật so khớp

• Điều kiện» Tỉ số độ dài nội dung hai thư (đã tách từ) cần so khớp xấp xỉ

1,1. » Ngưỡng độ tương tự khi phân loại là thư rác là 0,7.

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

Nội dung thư rác đã lưu Nội dung thư cần phân loại

độ tương tự

Page 12: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN

Page 12

Mô hình hệ thống

Hệ thống thử nghiệm

Page 13: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN

Page 13

Mô hình xử lý trên dữ liệu riêng của mỗi người dùng

Hệ thống thử nghiệm

Page 14: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN

Page 14

Quá trình quét thư rác

Hệ thống thử nghiệm

Là Spam ?

Kỹ thuật thống kê

Kỹ thuật so khớp

Người dùng

Sai

Đúng

Page 15: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN

Page 15

Hệ thống thử nghiệm

Kết quả thử nghiệm trên phân tán

Page 16: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN

Page 16

Hệ thống thử nghiệm

Kết quả thử nghiệm trên phân tán

Chương trình Huấn

luyện

Số lượng

mail mới

False

positive

False

negative

Chín

h xác

Không

chính xác

Độ chính xác

SpamAssassin-

3.3.1

--- 985 33 136 816 169 65.68527919

VietAntiSpam 15 985 36 24 925 60 93.90863

Page 17: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN

Page 17

Lý thuyết• Tìm hiểu được khá chi tiết về đặc điểm của thư rác và các kỹ

thuật phát hiện thư rác đã có.• Mô tả khá đầy đủ về cơ sở lý thuyết của kỹ thuật quét thư

rác thống kê và so khớp dùng trong hệ thống thử nghiệm.

Các kết quả đạt được

Page 18: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN

Page 18

Ứng dụng• Nhóm đã xây dựng thử nghiệm thành công hệ thống quét

thư rác trên môi trường phân tán, ứng dụng kỹ thuật so khớp và kỹ thuật thống kê.

• Với hệ thống thực nghiệm mà nhóm xây dựng đã đạt được tính chính xác xấp xỉ 94% sau khi thực nghiệm.

Các kết quả đạt được

Page 19: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN

Page 19

Đánh giá• Ưu điểm

» Khả năng thích nghi (học) cao với sự tiến hóa của thư rác rất nhanh.

» Thể hiện tính cá nhân hóa mạnh mẽ do mỗi người dùng có thể có một tập dữ liệu riêng. Chính điều này làm cho độ chính xác đối với từng người dùng tăng lên đáng kể.

• Khuyết điểm» Phải mất một khoảng thời gian đầu huấn luyện cho bộ lọc.

Các kết quả đạt được

Page 20: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN

Page 20

• Kết hợp hệ thống thực nghiệm mà nhóm xây dựng với các hệ thống quét thư rác khác (như Spam Assassin, Spam Fighter, …).

• Cài đặt kho dữ liệu chung kết hợp với kho dữ liệu cá nhân.• Nâng khả năng lọc thư rác loại nội dung là hình ảnh, ký tự lạ,

….• Xây dựng hoặc cải tiến “front mail server” để tăng tốc độ

chuyển tiếp mail vào hệ thống quét. • Lọc các token là từ ghép dựa vào việc nó xuất hiện nhiều lần

trong thông điệp.

Hướng phát triển

Page 21: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN

Page 21

Mô hình hệ thống cải tiến

Page 22: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN

Cảm ơn đã lắng nghe!

Nhóm thực hiện: Trần Kinh Lý – 0612252Phạm Quốc Mỹ – 0612271

Giáo viên hướng dẫn: GVC. Cao Đăng TânThS. Đào Anh Tuấn