Đăng nhập
 
Tìm kiếm nâng cao
 
Tên bài báo
Tác giả
Năm xuất bản
Tóm tắt
Lĩnh vực
Phân loại
Số tạp chí
 

Bản tin định kỳ
Báo cáo thường niên
Tạp chí khoa học ĐHCT
Tạp chí tiếng anh ĐHCT
Tạp chí trong nước
Tạp chí quốc tế
Kỷ yếu HN trong nước
Kỷ yếu HN quốc tế
Book chapter
Bài báo - Tạp chí
141 (2023) Trang: 489-501
Tạp chí: Lecture Notes on Data Engineering and Communications Technologies

Automatic text summarization tasks play an important role in natural language processing. In this work, we introduce the single-document extractive summarization model based on clustering and word embedding. In the model, we use K-Means clustering to create the clusters on the large-scale dataset by using word embedding as the feature vector, then use these clusters to extract the most relevant sentences on the document to summarize. At first, we collected the articles on the Vietnamese online newspapers, cleaned them and built up the dataset with a total of 1,101,101 articles. After that, we applied our summarization model for the experimentation. The average time cost for summarizing one document in the test set is 6.22 ms, and the best F-Score of this model based on ROUGE-1, ROUGE-2, and ROUGE-L are 51.40, 16.15, and 29.18%.

Các bài báo khác
2024 (2024) Trang: 1-18
Tạp chí: Vietnam Journal of Computer Science
(2024) Trang: 100-111
Tạp chí: International Conference on Information Technology and Its Applications
20 (2022) Trang: 309-316
Tạp chí: Journal of information and communication convergence engineering
Harish Sharma, Vivek Shrivastava, Kusum Kumari Bharti, Lipo Wang (2023) Trang: 65-77
Tạp chí: Lecture Notes in Networks and Systems
1925 (2023) Trang: 273-288
Tạp chí: Communications in Computer and Information Science
In Hamido Fujita · Philippe Fournier-Viger · Moonis Ali · Yinglin Wang (2022) Trang: 737-746
Tạp chí: Lecture Notes in Computer Science
(2020) Trang: 180-187
Tạp chí: Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, 2020
 


Vietnamese | English






 
 
Vui lòng chờ...