Big data processing is attracting the interest of many researchers to process large-scale datasets and extract useful information for supporting and providing decisions. One of the biggest challenges is the problem of querying large datasets. It becomes even more complicated with similarity queries instead of exact match queries. A fuzzy join operation is a typical operation frequently used in similarity queries and big data analysis. Currently, there is very little research on this issue, thus it poses significant barriers to the efforts of improving query operations on big data efficiently. As a result, this study overviews the similarity algorithms for fuzzy joins, in which the data at the join key attributes may have slight differences within a fuzzy threshold. We analyze six similarity algorithms including Hamming, Levenshtein, LCS, Jaccard, Jaro, and Jaro - Winkler, to show the difference between these algorithms through the three criteria: output enrichment, false positives/negatives, and the processing time of the algorithms. Experiments of fuzzy joins algorithms are implemented in the Spark environment, a popular big data processing platform. The algorithms are divided into two groups for evaluation: group 1 (Hamming, Levenshtein, and LCS) and group 2 (Jaccard, Jaro, and Jaro - Winkler). For the former, Levenshtein has an advantage over the other two algorithms in terms of output enrichment, high accuracy in the result set (false positives/negatives), and acceptable processing time. In the letter, Jaccard is considered the worst algorithm considering all three criteria mean while Jaro - Winkler algorithm has more output richness and higher accuracy in the result set. The overview of the similarity algorithms in this study will help users to choose the most suitable algorithm for their problems.
Tạp chí: Hội nghị khoa học quốc gia lần thứ XVI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR 2023), Trường Đại học Sư phạm Kỹ thuật - Đại học Đà Nẵng, 28-29/09/2023
Tạp chí: Hội nghị khoa học quốc gia về "Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin" (Hội nghị FAIR 2021), tại Trường Đại học Công nghiệp Thực phẩm TP. Hồ Chí Minh (HUFI), vào 2 ngày thứ năm và thứ sáu, 23 - 24/12/2021
Tạp chí: Hội nghị khoa học quốc gia về "Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin" (Hội nghị FAIR 2021), tại Trường Đại học Công nghiệp Thực phẩm TP. Hồ Chí Minh (HUFI), vào 2 ngày thứ năm và thứ sáu, 23 - 24/12/2021
Tạp chí: Hội nghị khoa học quốc gia về "Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin" (Hội nghị FAIR 2021), tại Trường Đại học Công nghiệp Thực phẩm TP. Hồ Chí Minh (HUFI), vào 2 ngày thứ năm và thứ sáu, 23 - 24/12/2021
Tạp chí: Hội nghị khoa học quốc gia về "Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin" (Hội nghị FAIR 2021), tại Trường Đại học Công nghiệp Thực phẩm TP. Hồ Chí Minh (HUFI), vào 2 ngày thứ năm và thứ sáu, 23 - 24/12/2021
Tạp chí: Hội nghị khoa học quốc gia về "Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin" (Hội nghị FAIR 2021), tại Trường Đại học Công nghiệp Thực phẩm TP. Hồ Chí Minh (HUFI), vào 2 ngày thứ năm và thứ sáu, 23 - 24/12/2021
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên