Phân loại mã độc là một bài toán then chốt trong lĩnh vực an ninh mạng, đối mặt với nhiều thách thức do sự đa dạng, phức tạp và khả năng biến đổi liên tục của các họ mã độc. Trong nghiên cứu này, chúng tôi đề xuất một phương pháp phân loại mã độc mới dựa trên việc chuyển đổi mã byte thành biểu diễn hình ảnh, kết hợp với kiến trúc Vision Transformer (ViT). Quy trình tiền xử lý dữ liệu được thiết kế nhằm bảo tồn các đặc trưng cấu trúc quan trọng của mã độc, đồng thời đơn giản hóa quá trình trích xuất đặc trưng so với các phương pháp phân tích tĩnh truyền thống. Mô hình ViT khai thác hiệu quả cơ chế self-attention để mô hình hóa các mối phụ thuộc dài hạn và phức tạp trong dữ liệu, từ đó khắc phục một số hạn chế của các mạng nơ-ron tích chập (CNN) thông thường. Thực nghiệm được tiến hành trên tập dữ liệu Microsoft Malware Classification Challenge, cho thấy mô hình đề xuất đạt độ chính xác và F1-score cao, đặc biệt đối với các họ mã độc như Kelihos_ver3 và Lollipop. Phân tích ma trận nhầm...
Phân loại mã độc là một bài toán then chốt trong lĩnh vực an ninh mạng, đối mặt với nhiều thách thức do sự đa dạng, phức tạp và khả năng biến đổi liên tục của các họ mã độc. Trong nghiên cứu này, chúng tôi đề xuất một phương pháp phân loại mã độc mới dựa trên việc chuyển đổi mã byte thành biểu diễn hình ảnh, kết hợp với kiến trúc Vision Transformer (ViT). Quy trình tiền xử lý dữ liệu được thiết kế nhằm bảo tồn các đặc trưng cấu trúc quan trọng của mã độc, đồng thời đơn giản hóa quá trình trích xuất đặc trưng so với các phương pháp phân tích tĩnh truyền thống. Mô hình ViT khai thác hiệu quả cơ chế self-attention để mô hình hóa các mối phụ thuộc dài hạn và phức tạp trong dữ liệu, từ đó khắc phục một số hạn chế của các mạng nơ-ron tích chập (CNN) thông thường. Thực nghiệm được tiến hành trên tập dữ liệu Microsoft Malware Classification Challenge, cho thấy mô hình đề xuất đạt độ chính xác và F1-score cao, đặc biệt đối với các họ mã độc như Kelihos_ver3 và Lollipop. Phân tích ma trận nhầm lẫn chứng minh khả năng phân biệt tốt giữa các họ mã độc, đồng thời chỉ ra những khó khăn còn tồn tại trong việc phân loại các họ có cấu trúc tương đồng hoặc mức độ biến đổi cao. Bên cạnh đó, nghiên cứu cũng thảo luận các hạn chế liên quan đến chi phí tính toán của ViT và việc chưa tích hợp dữ liệu hành vi động, đồng thời đề xuất các hướng phát triển trong tương lai nhằm nâng cao hiệu suất và khả năng ứng dụng thực tiễn của mô hình. Kết quả nghiên cứu khẳng định tiềm năng của kiến trúc Vision Transformer trong bài toán phân loại mã độc, mở ra một hướng tiếp cận triển vọng cho các nghiên cứu tiếp theo trong lĩnh vực an ninh mạng.