Nghiên cứu này giải quyết thách thức phát hiện hiệu quả các chiến dịch email lừa đảo có mức độ tinh vi ngày càng cao và mang tính tuần tự. Mục tiêu chính là xây dựng một phương pháp phát hiện không chỉ phân tích từng email riêng lẻ mà còn nắm bắt được các mẫu hành vi xuyên suốt chuỗi email liên quan. Để đạt được mục tiêu này, một khung học sâu lai được đề xuất nhằm kết hợp các kiến trúc mạng nơ-ron tiên tiến cho phân tích chuỗi nhiều email. Cụ thể, mô hình sử dụng DistilBERT để trích xuất các biểu diễn ngữ nghĩa từ nội dung email, trong khi mạng Bidirectional Long Short-Term Memory (BiLSTM) được áp dụng để mô hình hóa các phụ thuộc theo thời gian trong các luồng email liên tiếp. Tập dữ liệu huấn luyện được xây dựng bằng cách tổng hợp bốn bộ dữ liệu công khai về email lừa đảo và spam, bao gồm CEAS_08, Nazario, Nigerian Fraud và SpamAssassin, tạo thành tập dữ liệu đã được làm sạch gồm 46.616 email, bao phủ giai đoạn từ năm 2000 đến năm 2022. Ngoài ra, hai thước đo heuristic mới —...
Nghiên cứu này giải quyết thách thức phát hiện hiệu quả các chiến dịch email lừa đảo có mức độ tinh vi ngày càng cao và mang tính tuần tự. Mục tiêu chính là xây dựng một phương pháp phát hiện không chỉ phân tích từng email riêng lẻ mà còn nắm bắt được các mẫu hành vi xuyên suốt chuỗi email liên quan. Để đạt được mục tiêu này, một khung học sâu lai được đề xuất nhằm kết hợp các kiến trúc mạng nơ-ron tiên tiến cho phân tích chuỗi nhiều email. Cụ thể, mô hình sử dụng DistilBERT để trích xuất các biểu diễn ngữ nghĩa từ nội dung email, trong khi mạng Bidirectional Long Short-Term Memory (BiLSTM) được áp dụng để mô hình hóa các phụ thuộc theo thời gian trong các luồng email liên tiếp. Tập dữ liệu huấn luyện được xây dựng bằng cách tổng hợp bốn bộ dữ liệu công khai về email lừa đảo và spam, bao gồm CEAS_08, Nazario, Nigerian Fraud và SpamAssassin, tạo thành tập dữ liệu đã được làm sạch gồm 46.616 email, bao phủ giai đoạn từ năm 2000 đến năm 2022. Ngoài ra, hai thước đo heuristic mới — Urgency_score và Suspicious_score — được đề xuất nhằm định lượng các dấu hiệu tiềm ẩn thường xuất hiện trong email lừa đảo. Kết quả thực nghiệm cho thấy khung phương pháp đề xuất đạt độ chính xác 99,36% và giá trị AUC-ROC 0,9991 trên tập xác thực, vượt trội so với một số phương pháp cơ sở. Bên cạnh đó, các thí nghiệm loại bỏ thành phần (ablation study) xác nhận đóng góp của từng thành phần trong mô hình, trong khi phân tích độ nhạy cung cấp cơ sở thực nghiệm cho việc lựa chọn kích thước cửa sổ chuỗi phù hợp.