Đăng nhập
 
Tìm kiếm nâng cao
 
Tên bài báo
Tác giả
Năm xuất bản
Tóm tắt
Lĩnh vực
Phân loại
Số tạp chí
 

Bản tin định kỳ
Báo cáo thường niên
Tạp chí khoa học ĐHCT
Tạp chí tiếng anh ĐHCT
Tạp chí trong nước
Tạp chí quốc tế
Kỷ yếu HN trong nước
Kỷ yếu HN quốc tế
Book chapter
Bài báo - Tạp chí
1 (2024) Trang: 265-279
Tạp chí: Intelligent Systems and Data Science

Document clustering plays a crucial role in various information retrieval tasks. Existing approaches often struggle with capturing the semantic relationships between documents, especially when dealing with long and complex texts. To address this issue, we propose SBoC, a novel Segment-based Bag-of-Clusters approach. SBoC first divides documents into segments, capturing local semantic information. It then applies clus- tering algorithms to these segments, forming clusters that represent distinct semantic concepts. Finally, a Bag-of-Clusters representation is constructed for each document, encoding its semantic content based on the assigned segment clusters. SBoC shows promising results, particularly in terms of capturing semantic relationships in document clustering. While not surpassing all existing methods, SBoC demonstrates competitive performance on benchmark datasets, particularly when handling long and complex texts. This approach provides a potential solution for enhancing document clustering for various information retrieval tasks.

 


Vietnamese | English






 
 
Vui lòng chờ...