Ngày nhận bài:15/09/2017 Ngày nhận bài sửa: 10/10/2017
Ngày duyệt đăng: 20/10/2017
Title:
A revised cluster number estimation algorithm for big datasets
Từ khóa:
Cây phủ tối thiểu, đồ thị tối ưu, tập dữ liệu lớn, tế bào hóa tập dữ liệu, ước lượng số cụm dữ liệu
Keywords:
Big datasets, Cell-MST-based, Cluster number estimation, Weighted-Cell-MST-based
ABSTRACT
This paper presents a revised version of a cluster number estimation algorithm for big datasets. This algorithm was designed to work on a standard personal computer. This is an improvemennt of the Cell-MST-Based cluster number estimation algorithm by appying weighted distance instead of using the Euclidean distance. This new algorithm was named Weighted-Cell-MST-based cluster number estimation algorithm. This revised version can provide more stable results compared to its former version when testing the same datasets in the same environment.
TÓM TẮT
Bài báo này trình bày một giải thuật ước lượng số cụm dữ liệu cải tiến dùng để ước lượng số cụm dữ liệu của tập dữ liệu lớn. Giải thuật được thiết kế chạy trên máy tính cá nhân có cấu hình cơ bản. Đây là một sự cải tiến của giải thuật ước lượng số cụm Cell-MST-Based bằng cách áp dụng khoảng cách có trọng số thay cho khoảng cách Euclid. Thuật toán cải tiến được đặt tên là Weighted-Cell-MST-based cluster number estimation algorithm. Thuật toán cải tiến cho kết quả ổn định hơn so với thuật toán ban đầu khi xét trên cùng các tập dữ liệu và trong cùng một điều kiện thực nghiệm.
Trích dẫn: Dương Văn Hiếu, Trần Huy Long và Phạm Ngọc Giàu, 2017. Giải thuật ước lượng số cụm dữ liệu cải tiến cho tập dữ liệu lớn. Tạp chí Khoa học Trường Đại học Cần Thơ. Số chuyên đề: Công nghệ thông tin: 42-53.
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên