Việc xử lý và phân tích dữ liệu nhanh chóng, hiệu quả trong kỷ nguyên dữ liệu lớn là thách thức quan trọng. Các thuật toán lọc giúp tăng hiệu suất xử lý dữ liệu lớn bằng cách loại bỏ dữ liệu không liên quan, giảm chi phí tính toán, rút ngắn thời gian xử lý truy vấn. Nghiên cứu này đánh giá hiệu năng của 5 thuật toán lọc phổ biến bao gồm Bloom Filter, Cuckoo Filter, Quotient Filter, Morton Filter và Vacuum Filter trong môi trường Apache Spark. Thông qua thực nghiệm trên các tập dữ liệu lớn, kết quả cho thấy Quotient Filter hiệu quả nhất về lưu trữ, Cuckoo Filter thể hiện sự cân bằng tốt giữa tốc độ chèn, tìm kiếm và xóa. Bloom Filter phù hợp với dữ liệu tĩnh, Morton Filter nổi trội về tốc độ tìm kiếm, Vacuum Filter có thời gian chèn chậm nhưng tìm kiếm và xóa nhanh. Việc kết hợp các thuật toán này với Apache Spark giúp cải tiến đáng kể hiệu suất xử lý nhờ khả năng phân tán và song song. Kết quả nghiên cứu cung cấp lựa chọn thuật toán lọc phù hợp và chỉ ra tiềm năng ứng dụng hiệu quả các thuật toán lọc trong xử lý dữ liệu quy mô lớn.
Tạp chí: Hội nghị khoa học quốc gia lần thứ XVII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin, tại Học viện Công nghệ Bưu chính Viễn thông, Hà Nội, ngày 08 - 09/08/2024
Tạp chí: Hội nghị khoa học quốc gia lần thứ XVI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR 2023), Trường Đại học Sư phạm Kỹ thuật - Đại học Đà Nẵng, 28-29/09/2023
Tạp chí: Hội nghị khoa học quốc gia lần thứ XV về về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR 2022), Học Viện Kỹ Thuật Mật Mã, Hà Nội, Ngày 03-04/11/2022
Tạp chí: Hội nghị khoa học quốc gia lần thứ XV về về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR 2022), Học Viện Kỹ Thuật Mật Mã, Hà Nội, Ngày 03-04/11/2022
Tạp chí: Hội nghị khoa học quốc gia lần thứ XV về về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR 2022), Học Viện Kỹ Thuật Mật Mã, Hà Nội, Ngày 03-04/11/2022
Tạp chí: 32ème Conférence sur la Gestion de Données - Principes, Technologies et Applications (BDA 2016), Futuroscop - Poitiers - France, 15 au 18 Novembre, 2016
Tạp chí khoa học Trường Đại học Cần Thơ
Khu II, Đại học Cần Thơ, Đường 3/2, Phường Ninh Kiều, Thành phố Cần Thơ, Việt Nam
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên