Đăng nhập
 
Tìm kiếm nâng cao
 
Tên bài báo
Tác giả
Năm xuất bản
Tóm tắt
Lĩnh vực
Phân loại
Số tạp chí
 

Bản tin định kỳ
Báo cáo thường niên
Tạp chí khoa học ĐHCT
Tạp chí tiếng anh ĐHCT
Tạp chí trong nước
Tạp chí quốc tế
Kỷ yếu HN trong nước
Kỷ yếu HN quốc tế
Book chapter
Bài báo - Tạp chí
Số Công nghệ TT 2017 (2017) Trang: 155-163
Tải về

Thông tin chung:

Ngày nhận bài: 15/09/2017
Ngày nhận bài sửa: 10/10/2017

Ngày duyệt đăng: 20/10/2017

 

Title:

Mining frequent itemsets in transactional databases with multiple minimum support threshold on multiple-core processors

Từ khóa:

Bộ xử lý đa nhân, luật kết hợp, nhiều ngưỡng phổ biến tối thiều, tập phổ biến, thuật toán song song

Keywords:

Association rule mining, frequent itemsets, multiple-core processor, multiple minimum support thresholds, parallel algorithm

ABSTRACT

Association rule mining, one of the most important and well-researched techniques of data mining. Mining frequent itemsets are one of the most fundamental problems and most time-consuming in association rule mining. Most of the algorithms in literature used to find frequent itemsets satisfying single minimum support threshold. In practice, frequentcy of each item reflects the nature and role of items in transactional databases. This paper proposes an efficient mining parallel algorithm for frequent itemsets with multiple minimum support thresholds (a different minimum item support for each item) on Multiple-core Processors. Proposed algorithm easily extends on distributed computing systems as Hadoop, Spark. Finally, result experiments presented on both synthetic and real-life datasets show the better proposed algorithm than the existing algorithms.

TÓM TẮT

Trong khai thác dữ liệu, kỹ thuật quan trọng và được nghiên cứu nhiều là khai thác luật kết hợp. Khai thác tập phổ biến là một trong những bước cơ bản và chiếm nhiều thời gian trong khai thác luật kết hợp. Hầu hết các thuật toán tìm tập phổ biến thỏa một ngưỡng phổ biến tối thiểu duy nhất. Trong thực tế, độ phổ biến của từng mục hàng phản ánh bản chất, vai trò của mục hàng trong các giao dịch. Trong bài viết này, chúng tôi đề xuất thuật toán song song khai thác hiệu quả tập phổ biến với nhiều ngưỡng phổ biến tối thiểu (mỗi mục hàng có một ngưỡng phổ biến tối thiểu riêng) trên bộ xử lý đa nhân. Thuật toán đề xuất dễ dàng mở rộng trên nhiều hệ thống tính toán phân tán như Hadoop, Spark. Sau cùng, chúng tôi trình bày kết quả thực nghiệm trên bộ dữ liệu thực và giả lập cho thấy thuật toán đề xuất hiệu quả hơn so với thuật toán hiện hành.

Trích dẫn: Phan Thành Huấn và Lê Hoài Bắc, 2017. Khai thác tập phổ biến từ dữ liệu giao dịch với nhiều ngưỡng phổ biến tối thiểu trên bộ xử lý đa nhân. Tạp chí Khoa học Trường Đại học Cần Thơ. Số chuyên đề: Công nghệ thông tin: 155-163.

 


Vietnamese | English






 
 
Vui lòng chờ...