no-4

Xây dựng mô hình dự đoán xếp hạng sản phẩm dựa trên phản hồi văn bản của khách hàng bằng một số thuật toán học máy

Tác giả:
Điền Thị Hồng Hà
Trang:
0
Lượt xem:
1
Số trong tạp chí:
2/2
Lượt tải:
0
Nghiên cứu này tập trung vào bài toán dự đoán điểm đánh giá sản phẩm dựa trên phản hồi văn bản của khách hàng - một nhiệm vụ kết hợp giữa thách thức của xử lý ngôn ngữ tự nhiên và hiện tượng mất cân bằng lớp thường gặp trong dữ liệu thực tế. Sử dụng tập dữ liệu Amazon Fine Food Reviews, nhóm nghiên cứu tiến hành tiền xử lý, trích xuất đặc trưng ngôn ngữ và xây dựng các mô hình học máy và học sâu nhằm đánh giá hiệu suất dự đoán. Các mô hình được so sánh bao gồm Logistic Regression, Decision Tree, Random Forest, CatBoost, LightGBM, XGBoost, FastText, CNN và LSTM. Kết quả thực nghiệm cho thấy sự đánh đổi rõ rệt giữa độ chính xác và khả năng nắm bắt thứ bậc: Logistic Regression đạt độ chính xác phân loại cao nhất, trong khi CNN thể hiện chất lượng dự đoán ordinal tốt nhất với chỉ số QWK cao nhất và sai số MAE thấp nhất. FastText nổi bật như một mô hình cơ sở mạnh, đạt hiệu suất cạnh tranh cùng thời gian huấn luyện nhanh nhất, trong khi các mô hình boosting mang lại độ chính xác số học tốt...
Nghiên cứu này tập trung vào bài toán dự đoán điểm đánh giá sản phẩm dựa trên phản hồi văn bản của khách hàng - một nhiệm vụ kết hợp giữa thách thức của xử lý ngôn ngữ tự nhiên và hiện tượng mất cân bằng lớp thường gặp trong dữ liệu thực tế. Sử dụng tập dữ liệu Amazon Fine Food Reviews, nhóm nghiên cứu tiến hành tiền xử lý, trích xuất đặc trưng ngôn ngữ và xây dựng các mô hình học máy và học sâu nhằm đánh giá hiệu suất dự đoán. Các mô hình được so sánh bao gồm Logistic Regression, Decision Tree, Random Forest, CatBoost, LightGBM, XGBoost, FastText, CNN và LSTM. Kết quả thực nghiệm cho thấy sự đánh đổi rõ rệt giữa độ chính xác và khả năng nắm bắt thứ bậc: Logistic Regression đạt độ chính xác phân loại cao nhất, trong khi CNN thể hiện chất lượng dự đoán ordinal tốt nhất với chỉ số QWK cao nhất và sai số MAE thấp nhất. FastText nổi bật như một mô hình cơ sở mạnh, đạt hiệu suất cạnh tranh cùng thời gian huấn luyện nhanh nhất, trong khi các mô hình boosting mang lại độ chính xác số học tốt nhưng phải đánh đổi về chi phí tính toán. Không có mô hình nào vượt trội toàn diện trên tất cả các chỉ số, cho thấy tầm quan trọng của việc lựa chọn mô hình phù hợp với từng mục tiêu ứng dụng cụ thể. Các phát hiện này góp phần làm rõ vai trò của đặc trưng ngôn ngữ trong phản hồi người dùng và cung cấp định hướng thực tiễn cho việc xây dựng hệ thống dự đoán điểm đánh giá trong thương mại điện tử.
Tin liên quan

Tạp chí khoa học Trường Đại học Vinh

Vinh University journal of science (VUJS)

ISSN: 1859 - 2228

Cơ quan chủ quản: Trường Đại học Vinh

  • Địa chỉ: 182 Lê Duẩn - Thành Phố Vinh - tỉnh Nghệ An
  • Điện thoại: (0238)3855.452 - Fax: (0238)3855.269
  • Email: vinhuni@vinhuni.edu.vn
  • Website: https://vinhuni.edu.vn

 

Giấy phép xuất bản tạp chí: 163/GP-BTTTT do Bộ Thông tin và Truyền thông cấp ngày 10/5/2023

Giấy phép truy cập mở: Creative Commons CC BY NC 4.0

 

LIÊN HỆ

Tổng biên tập: PGS.TS. Trần Bá Tiến 
Email: tientb@vinhuni.edu.vn

Phó Tổng biên tập: PGS.TS. Phan Văn Tiến
Email: vantienkxd@vinhuni.edu.vn

Thư ký tòa soạn: TS. Đỗ Mai Trang
Email: domaitrang@vinhuni.edu.vn

Ban thư ký và trị sự: ThS. Lê Tuấn Dũng, ThS. Phan Thế Hoa, ThS. Phạm Thị Quỳnh Nga, ThS. Trần Thị Thái

  • Địa chỉ Toà soạn: Tầng 4, Tòa nhà Điều hành, Số 182 Lê Duẩn, TP. Vinh, Nghệ An, Việt Nam
  • Điện thoại: (0238)3.856.700 | Hotline: 0973.856.700
  • Email: editors@vujs.vn
  • Website: https://vujs.vn

img