Khai thác tập phổ biến từ dữ liệu giao dịch với nhiều ngưỡng phổ biến tối thiểu trên bộ xử lý đa nhân

doi:10.22144/ctu.jsi.2017.021

Hướng dẫn

Tìm kiếm nâng cao

Tựa bài viết

Tìm

Tác giả

Năm xuất bản

Tóm tắt

Lĩnh vực

Phân loại

Số tạp chí

Bản tin định kỳ

Báo cáo thường niên

Tạp chí khoa học ĐHCT

Tạp chí tiếng anh ĐHCT

Tạp chí trong nước

Tạp chí quốc tế

Kỷ yếu HN trong nước

Kỷ yếu HN quốc tế

Book chapter

Khai thác tập phổ biến từ dữ liệu giao dịch với nhiều ngưỡng phổ biến tối thiểu trên bộ xử lý đa nhân

Số Công nghệ TT 2017 (2017) Trang: 155-163

Tác giả: Phan Thành Huấn, Lê Hoài Bắc

DOI: 10.22144/ctu.jsi.2017.021

Tóm tắt

Tải về

Thông tin chung:

Ngày nhận bài: 15/09/2017
Ngày nhận bài sửa: 10/10/2017

Ngày duyệt đăng: 20/10/2017

Title:

Mining frequent itemsets in transactional databases with multiple minimum support threshold on multiple-core processors

Từ khóa:

Bộ xử lý đa nhân, luật kết hợp, nhiều ngưỡng phổ biến tối thiều, tập phổ biến, thuật toán song song

Keywords:

Association rule mining, frequent itemsets, multiple-core processor, multiple minimum support thresholds, parallel algorithm

ABSTRACT

Association rule mining, one of the most important and well-researched techniques of data mining. Mining frequent itemsets are one of the most fundamental problems and most time-consuming in association rule mining. Most of the algorithms in literature used to find frequent itemsets satisfying single minimum support threshold. In practice, frequentcy of each item reflects the nature and role of items in transactional databases. This paper proposes an efficient mining parallel algorithm for frequent itemsets with multiple minimum support thresholds (a different minimum item support for each item) on Multiple-core Processors. Proposed algorithm easily extends on distributed computing systems as Hadoop, Spark. Finally, result experiments presented on both synthetic and real-life datasets show the better proposed algorithm than the existing algorithms.

TÓM TẮT

Trong khai thác dữ liệu, kỹ thuật quan trọng và được nghiên cứu nhiều là khai thác luật kết hợp. Khai thác tập phổ biến là một trong những bước cơ bản và chiếm nhiều thời gian trong khai thác luật kết hợp. Hầu hết các thuật toán tìm tập phổ biến thỏa một ngưỡng phổ biến tối thiểu duy nhất. Trong thực tế, độ phổ biến của từng mục hàng phản ánh bản chất, vai trò của mục hàng trong các giao dịch. Trong bài viết này, chúng tôi đề xuất thuật toán song song khai thác hiệu quả tập phổ biến với nhiều ngưỡng phổ biến tối thiểu (mỗi mục hàng có một ngưỡng phổ biến tối thiểu riêng) trên bộ xử lý đa nhân. Thuật toán đề xuất dễ dàng mở rộng trên nhiều hệ thống tính toán phân tán như Hadoop, Spark. Sau cùng, chúng tôi trình bày kết quả thực nghiệm trên bộ dữ liệu thực và giả lập cho thấy thuật toán đề xuất hiệu quả hơn so với thuật toán hiện hành.

Trích dẫn: Phan Thành Huấn và Lê Hoài Bắc, 2017. Khai thác tập phổ biến từ dữ liệu giao dịch với nhiều ngưỡng phổ biến tối thiểu trên bộ xử lý đa nhân. Tạp chí Khoa học Trường Đại học Cần Thơ. Số chuyên đề: Công nghệ thông tin: 155-163.

Vietnamese | English

Tạp chí khoa học Trường Đại học Cần Thơ
Khu II, Đại học Cần Thơ, Đường 3/2, Phường Ninh Kiều, Thành phố Cần Thơ, Việt Nam
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn

Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên

Vui lòng chờ...