Tóm tắt văn bản là một bài toán rất được quan tâm trong lĩnh vực xử lý ngôn ngữ tự nhiên. Sản phẩm của quá trình tóm tắt văn bản thường ngắn hơn văn bản ban đầu, súc tích, nhưng vẫn giữ nguyên ý chính. Bài báo này trình bày thực nghiệm các phương pháp tóm tắt rút trích trên các văn bản tiếng Việt. Chúng tôi xây dựng tập dữ liệu gồm 150.000 bài báo được rút trích từ các trang báo mạng phổ biến ở Việt Nam. Tập dữ liệu này được dùng để đào tạo bộ từ vựng cho tiếng Việt và là tập dữ liệu mẫu dùng trong bài toán tóm tắt văn bản. Phương pháp centroid-based và mô hình GRU-RNN 2 chiều được áp dụng để xây dựng tóm tắt rút trích.
Tạp chí: Association for Computational Linguistics (ACL 2023), In Findings of the Association for Computational Linguistics: ACL 2023, Toronto, Canada, 2023
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên