Trong bài viết này, chúng tôi trình bày giải thuật DBSCAN cải tiến cho gom cụm các tập dữ liệu lớn. DBSCAN là giải thuật gom cụm hiệu quả, cho phép phát hiện các cụm có hình dạng bất kỳ và có khả năng phát hiện nhiễu tốt. Tuy nhiên, giải thuật DBSCAN có độ phức tạp trung bình bậc hai theo số lượng phần tử, làm cho nó không hiệu quả về tốc độ xử lý các tập dữ liệu lớn. Chúng tôi đề xuất sử dụng cấu trúc chỉ mục Cover Trees, tăng tốc quá trình tìm kiếm k láng giềng, cải thiện tốc độ giải thuật DBSCAN. Kết quả thực nghiệm trên các tập dữ liệu cho thấy giải thuật DBSCAN cải tiến sử dụng cấu trúc chỉ mục Cover Trees chạy nhanh hơn 12 lần so với giải thuật DBSCAN gốc.
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên