Khai thác tập hữu ích cao (High Utility Itemsets - HUIs) là việc tìm ra các tập mục thỏa mãn một ngưỡng độ hữu ích tối thiểu do người dùng xác định. Đã có nhiều thuật toán khai thác tập hữu ích cao hiệu quả, tuy nhiên các thuật toán này đều dựa trên cơ chế Tidset (lưu trữ tập giao của các giao dịch trong cấu trúc dữ liệu). Ở bài báo này, thuật toán DCHUIM được đề xuất nhằm khai thác tập hữu ích cao bằng cơ chế Diffset, tức là thay vì lưu trữ tập giao thì cơ chế này sẽ lưu trữ tập trừ của các giao dịch. Để thực hiện việc này, một cấu trúc dữ liệu DUL được xây dựng để lưu trữ thông tin về độ hữu ích của một tập mục và các giao dịch thuộc tập Diffset. Ngoài ra, thuật toán còn áp dụng các chiến lược cắt tỉa như U-Prune, EUCS-Prune và sử dụng tập hữu ích đóng để nén dữ liệu một cách hiệu quả, từ đó giảm không gian tìm kiếm trong quá trình khai thác. Thực nghiệm được thực hiện trên các bộ dữ liệu lớn gồm Accidents, Mushroom, Retail, Chainstore và tiến hành so sánh hiệu suất thực thi giữa...
Khai thác tập hữu ích cao (High Utility Itemsets - HUIs) là việc tìm ra các tập mục thỏa mãn một ngưỡng độ hữu ích tối thiểu do người dùng xác định. Đã có nhiều thuật toán khai thác tập hữu ích cao hiệu quả, tuy nhiên các thuật toán này đều dựa trên cơ chế Tidset (lưu trữ tập giao của các giao dịch trong cấu trúc dữ liệu). Ở bài báo này, thuật toán DCHUIM được đề xuất nhằm khai thác tập hữu ích cao bằng cơ chế Diffset, tức là thay vì lưu trữ tập giao thì cơ chế này sẽ lưu trữ tập trừ của các giao dịch. Để thực hiện việc này, một cấu trúc dữ liệu DUL được xây dựng để lưu trữ thông tin về độ hữu ích của một tập mục và các giao dịch thuộc tập Diffset. Ngoài ra, thuật toán còn áp dụng các chiến lược cắt tỉa như U-Prune, EUCS-Prune và sử dụng tập hữu ích đóng để nén dữ liệu một cách hiệu quả, từ đó giảm không gian tìm kiếm trong quá trình khai thác. Thực nghiệm được thực hiện trên các bộ dữ liệu lớn gồm Accidents, Mushroom, Retail, Chainstore và tiến hành so sánh hiệu suất thực thi giữa thuật toán DCHUIM với thuật toán HMINER. Kết quả cho thấy thuật toán DCHUIM có hiệu suất tốt hơn thuật toán HMINER về thời gian thực thi trên cơ sở dữ liệu thưa và vượt trội về bộ nhớ sử dụng trên tất cả các cơ sở dữ liệu.