Trong bài viết này chúng tôi thực hiện huấn luyện mô hình tóm tắt tự động văn bản tiếng Việt trên tập dữ liệu lớn. Chúng tôi bắt đầu từ việc thu thập tập dữ liệu văn bản bao gồm 830.643 bài báo tiếng Việt từ trang Thông tin điện tử VnExpress. Các bài báo được tiền xử lý và chuyển về định dạng thích hợp làm đầu vào cho các thuật toán huấn luyện mô hình tóm tắt tự động. Chúng tôi đề xuất thực hiện huấn luyện mô hình Pointer-generator-Networks theo tiếp cận tóm tắt tóm lược (abstractive text summarization) và mô hình Centroid-based theo hướng tóm tắt rút trích (extractive text summarization), trên tập dữ liệu văn bản lớn. Kết quả thực nghiệm cho thấy mô hình Centroid-based đạt F-score tốt nhất là 49,04 % theo phương pháp đánh giá ROUGE-1 với số trọng tâm k = 2. Mô hình Pointer-generator-Networks cho kết quả tốt hơn so với Centroid-based, đạt F-score là 51,28 % theo phương pháp đánh giá ROUGE-1, trong khi cần nhiều thời gian hơn cho việc huấn luyện mô hình và tóm tắt tự động.
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên