Bài báo trình bày và so sánh các phương pháp phân loại ảnh dựa trên mạng nơron nhân tạo nhiều lớp (Multi Layer Perceptron - MLP) và mạng nơ ron xoắn (Convolutional Neural Network - CNN). Dữ liệu được đưa vào huấn luyện là 50.000 bức ảnh của 10 đối tượng khác nhau. Kiến trúc thứ nhất được sử dụng là mạng MLP gồm có 3.853.298 tham số (weight), kiến trúc thứ hai là mạng CNN gồm 528.054 tham số. Bài báo đã đề xuất một vài phương pháp và cấu trúc mạng nhằm tránh hiện tượng quá khớp (overfitting), tăng cường độ chính xác cho mô hình xấp xỉ 80%. Bên cạnh đó, bài báo cũng trình bày và so sánh về thời gian huấn luyện khi sử dụng CPU và kết hợp sử dụng CPU với GPU.