xÂy dỰng hỆ thỐng quÉt thƯ rÁc trÊn mÔi trƯỜng phÂn tÁn
DESCRIPTION
XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN. Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271. Giáo viên hướng dẫn: GVC. Cao Đăng Tân ThS. Đào Anh Tuấn. Nội dung. Tổng quan về luận văn . . 1. Tổng quan về thư rác. 2. - PowerPoint PPT PresentationTRANSCRIPT
XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG
PHÂN TÁN
Nhóm thực hiện: Trần Kinh Lý – 0612252Phạm Quốc Mỹ – 0612271
Giáo viên hướng dẫn: GVC. Cao Đăng TânThS. Đào Anh Tuấn
Page 2
Nội dung
Tổng quan về luận văn. 1
Tổng quan về thư rác2
3
Hệ thống thử nghiệm4
Các kết quả đạt được5
Hướng phát triển6
Các kỹ thuật quét thư rác sử dụng trong hệ thống
Page 3
Mục đích chọn luận văn • Thư rác là một trong những thách thức lớn nhất hiện nay. • Đa số các phần mềm chống thư rác là dựa trên header của
thư hoặc địa chỉ từ người gửi=> luận văn dựa vào nội dung của thư=> tốc độ quét thư chậm=> quét thư trên môi trường song song
Vì những lý do trên đề tài “Xây dựng hệ thống quét thư rác trên môi trường phân tán” được hình thành.
Tổng quan về luận văn
Page 4
Định nghĩa thư rác:
thư rác là thư điện tử không theo mong muốn của người nhận và trong số đó các thư điện tử quảng cáo, thương mại chiếm đa số
Tổng quan về thư rác
Page 5
Các đặc tính của thư rác: • Thư rác mang tính tương đối. • Tính bất biến trong một thư rác.
Tổng quan về thư rác
Page 6
Blacklisting: danh sách địa chỉ không tin cậy. Whitelisting: danh sách địa chỉ tin cậy.Heuristic filtering: dựa vào tập luật. Challenge/ Response: xác thực người dùng. Throttling: khống chế số lượng email được gửi. Address obfuscation: thay đổi định dạng chống thu thập email.
Collaborative filtering: nhóm người dùng tin cậy.
Các kỹ thuật lọc thư rác
Page 7
Kỹ thuật thống kêKỹ thuật so khớp
Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng
Page 8
Kỹ thuật thống kê
Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng
Thư điện tử Tập dữ liệulịch sử
Là spam ? Gửi tới người dùng
Máy phân tích
Bộ tách từ
Huấn luyện
Đánh dấu
Người dùngphản hồi
Bộ lọc xác định đúng?
Sai
Không
PHÂN LOẠI HUẤN LUYỆN
Đúng
Page 9
Kỹ thuật thống kê
Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng
BỘ TÁCH TỪ MÁY PHÂN TÍCH HUẤN LUYỆN
Chức năng
-Tách thông điệp thành các từ dựa trên vnTokenizer.-Tính giá trị cho các từ
- Tính xác xuất chung của thông điệp để xác định thông điệp đó có phải là spam hay không.
- Học lại các thông điệp mà người dùng báo đã phân loại sai
Cải tiến
- Bỏ các tag HTML, các dấu chấm câu, các ký hiệu không có nghĩa.- Đối với tiếng Việt nên bỏ các hư từ (thì, là, mà..). - Quét các tập tin đính kèm để trích văn bản nội dung cho bộ tách từ (word, excel, power point và pdf).
Page 10
Kiểm tra độ chính xác của bộ lọc thư rác
Page 11
Kỹ thuật so khớp
• Điều kiện» Tỉ số độ dài nội dung hai thư (đã tách từ) cần so khớp xấp xỉ
1,1. » Ngưỡng độ tương tự khi phân loại là thư rác là 0,7.
Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng
Nội dung thư rác đã lưu Nội dung thư cần phân loại
độ tương tự
Page 12
Mô hình hệ thống
Hệ thống thử nghiệm
Page 13
Mô hình xử lý trên dữ liệu riêng của mỗi người dùng
Hệ thống thử nghiệm
Page 14
Quá trình quét thư rác
Hệ thống thử nghiệm
Là Spam ?
Kỹ thuật thống kê
Kỹ thuật so khớp
Người dùng
Sai
Đúng
Page 15
Hệ thống thử nghiệm
Kết quả thử nghiệm trên phân tán
Page 16
Hệ thống thử nghiệm
Kết quả thử nghiệm trên phân tán
Chương trình Huấn
luyện
Số lượng
mail mới
False
positive
False
negative
Chín
h xác
Không
chính xác
Độ chính xác
SpamAssassin-
3.3.1
--- 985 33 136 816 169 65.68527919
VietAntiSpam 15 985 36 24 925 60 93.90863
Page 17
Lý thuyết• Tìm hiểu được khá chi tiết về đặc điểm của thư rác và các kỹ
thuật phát hiện thư rác đã có.• Mô tả khá đầy đủ về cơ sở lý thuyết của kỹ thuật quét thư
rác thống kê và so khớp dùng trong hệ thống thử nghiệm.
Các kết quả đạt được
Page 18
Ứng dụng• Nhóm đã xây dựng thử nghiệm thành công hệ thống quét
thư rác trên môi trường phân tán, ứng dụng kỹ thuật so khớp và kỹ thuật thống kê.
• Với hệ thống thực nghiệm mà nhóm xây dựng đã đạt được tính chính xác xấp xỉ 94% sau khi thực nghiệm.
Các kết quả đạt được
Page 19
Đánh giá• Ưu điểm
» Khả năng thích nghi (học) cao với sự tiến hóa của thư rác rất nhanh.
» Thể hiện tính cá nhân hóa mạnh mẽ do mỗi người dùng có thể có một tập dữ liệu riêng. Chính điều này làm cho độ chính xác đối với từng người dùng tăng lên đáng kể.
• Khuyết điểm» Phải mất một khoảng thời gian đầu huấn luyện cho bộ lọc.
Các kết quả đạt được
Page 20
• Kết hợp hệ thống thực nghiệm mà nhóm xây dựng với các hệ thống quét thư rác khác (như Spam Assassin, Spam Fighter, …).
• Cài đặt kho dữ liệu chung kết hợp với kho dữ liệu cá nhân.• Nâng khả năng lọc thư rác loại nội dung là hình ảnh, ký tự lạ,
….• Xây dựng hoặc cải tiến “front mail server” để tăng tốc độ
chuyển tiếp mail vào hệ thống quét. • Lọc các token là từ ghép dựa vào việc nó xuất hiện nhiều lần
trong thông điệp.
Hướng phát triển
Page 21
Mô hình hệ thống cải tiến
Cảm ơn đã lắng nghe!
Nhóm thực hiện: Trần Kinh Lý – 0612252Phạm Quốc Mỹ – 0612271
Giáo viên hướng dẫn: GVC. Cao Đăng TânThS. Đào Anh Tuấn