Extractive text summarization is one of the most important tasks in natural language processing. In this work, we use K-Means clustering to create the clusters on the Vietnamese large-scale dataset, then use these clusters to extract the most relevant sentences on the single-document to produce the summary. At first, we collected the articles in the Vietnamese online newspapers, cleaned up and packaged them into the dataset, after that we applied our summarization model for the experimentation. The best F-Score of this model based on ROUGE-2 and ROUGE-L are 15.48% and 28.68%.
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên