Với môi trường phát triển ngày càng nhiều của dữ liệu lớn, việc xử lý dữ liệu một cách nhanh chóng và hiệu quả luôn luôn được sự quan tâm từ các nhà nghiên cứu. Trong việc tính toán dữ liệu lớn, hoạt động join là một hoạt động tính toán cơ bản, xuất hiện trong rất nhiều câu truy vấn dữ liệu đặc biệt là join đệ qui. Hoạt động này thực hiện lặp lại nhiều lần hai công việc tính toán bắc cầu và tính khác biệt. Các công việc này sẽ tạo ra nhiều dữ liệu trung gian và chuyển đổi chúng qua mạng. Có thể nói, hoạt động join là một hoạt động tốn khá nhiều chi phí làm giảm hiệu suất cho các câu truy vấn dữ liệu lớn. Vì vậy, bài báo này tiến hành thực hiện cải tiến giải thuật Semi-Naive cho join đệ qui trên tập dữ liệu lớn bằng cách sử dụng giải thuật join ba chiều và bộ lọc trong môi trường MapReduce của Spark. Sự cải tiến này nhằm làm giảm số lần lặp, số công việc MapReduce cần thiết, và giảm dữ liệu dư thừa. Thực nghiệm chỉ ra rằng nghiên cứu này đã cải tiến đáng kể hiệu suất thực thi câu truy vấn Join đệ qui trong môi trường dữ liệu lớn.
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên