Đăng nhập
 
Tìm kiếm nâng cao
 
Tên bài báo
Tác giả
Năm xuất bản
Tóm tắt
Lĩnh vực
Phân loại
Số tạp chí
 

Bản tin định kỳ
Báo cáo thường niên
Tạp chí khoa học ĐHCT
Tạp chí tiếng anh ĐHCT
Tạp chí trong nước
Tạp chí quốc tế
Kỷ yếu HN trong nước
Kỷ yếu HN quốc tế
Book chapter
Tạp chí quốc tế 2024
Số tạp chí 2024(2024) Trang: 1-18
Tạp chí: Vietnam Journal of Computer Science

Our investigation aims at pre-training clustering models to summarize Vietnamese texts. For this purpose, we create a large-scale dataset by collecting Vietnamese articles from newspaper websites and extracting the plain text to build the dataset, including 1,101,101 documents. We propose a new single-document extractive text summarization model based on clustering models. Our proposal clusters the documents with the hard clustering k-means algorithm and the soft clustering LDA (Latent Dirichlet Allocation) algorithm. Then, based on the pre-training clustering models, a summary model is used to select the salient sentence in the input text to construct the summary. The empirical results showed that our summary model achieved 51.22% ROUGE-1, 17.62% ROUGE-2 and 29.16% ROUGE-L on the testing set. Besides the traditional word representation such as BoW (Bag-of-Words), we also use the word meaning-based tools like FastText and BERT (Bidirectional Encoder Representations from Transformers) in our model. The additional benefit of our proposed extractive summary model is that the output summary is a long-text, readable document. Furthermore, the model’s architecture is straightforward, easy to understand and runs on cost-efficient resources like arm CPU and GPU too.

Các bài báo khác
Số tạp chí 31(2024) Trang: 173-189
Tạp chí: The International Journal of Learning in Higher Education
Số tạp chí 22(2024) Trang: 165-171
Tạp chí: Journal of Information and Communication Convergence Engineering Journal of information and communication convergence engineering
Số tạp chí 31(2024) Trang: 219-235
Tạp chí: The International Journal of Learning in Higher Education
Số tạp chí 20(2024) Trang: 48-65
Tạp chí: International Journal of Web Information Systems
Số tạp chí 16(2024) Trang: 568-574
Tạp chí: Medicinal Plants - International Journal of Phytomedicines and Related Industries
Số tạp chí 2310(2024) Trang: 171-182
Tạp chí: Communications in Computer and Information Science
Số tạp chí 2310(2024) Trang: 283-298
Tạp chí: Communications in Computer and Information Science
Số tạp chí 2309(2024) Trang: 254-268
Tạp chí: Communications in Computer and Information Science
Số tạp chí 2309(2024) Trang: 153-167
Tạp chí: Communications in Computer and Information Science
Số tạp chí 9(2024) Trang: 1-15
Tạp chí: Environment and Social Psychology
Số tạp chí 0(2024) Trang: 1-34
Tạp chí: Proceedings of the Institution of Civil Engineers - Structures and Buildings
Số tạp chí 2(2024) Trang: 82-90
Tạp chí: Indonesian Journal of Biotechnology
Số tạp chí In: Bhateja, V., Tang, J., Sharma, D.K., Polkowski, Z., Ahmad, A.(2024) Trang: 193-204
Tạp chí: Lecture Notes in Networks and Systems
Số tạp chí 13(2024) Trang: 3814-3826
Tạp chí: IAES International Journal of Artificial Intelligence


Vietnamese | English






 
 
Vui lòng chờ...