Tóm tắt văn bản tiếng Việt tự động với mô hình Sequence-to-Sequence

doi:10.22144/ctu.jsi.2017.017

Hướng dẫn

Tìm kiếm nâng cao

Tựa bài viết

Tìm

Tác giả

Năm xuất bản

Tóm tắt

Lĩnh vực

Phân loại

Số tạp chí

Bản tin định kỳ

Báo cáo thường niên

Tạp chí khoa học ĐHCT

Tạp chí tiếng anh ĐHCT

Tạp chí trong nước

Tạp chí quốc tế

Kỷ yếu HN trong nước

Kỷ yếu HN quốc tế

Book chapter

Tóm tắt văn bản tiếng Việt tự động với mô hình Sequence-to-Sequence

Số Công nghệ TT 2017 (2017) Trang: 125-132

Tác giả: Lâm Quang Tường, Phạm Thế Phi, Đỗ Đức Hào

DOI: 10.22144/ctu.jsi.2017.017

Tóm tắt

Tải về

Thông tin chung:

Ngày nhận bài: 15/09/2017
Ngày nhận bài sửa: 10/10/2017

Ngày duyệt đăng: 20/10/2017

Title:

Vietnamese text summarization with Sequence-to-Sequence

Từ khóa:

Beam Search, học sâu,

Sequence-to-sequence, tóm tắt văn bản

Keywords:

Beam Search, deep learning,

Sequence-to-sequence,

text summarization

ABSTRACT

Deep learning is a machine learning method that has been studied and used extensively in recent years, opening up new directions for problems such as image processing, speech processing, and natural language processing, etc. This article focuses on the use of deep learning for automatic text summarization for Vietnamese. Previous approaches such as statistics, machine learning, language analysis, etc. have been successful at different levels and purposes. In this paper, the Word2vec model was used to extract the specific characteristics of Vietnamese text for the Sequence to Sequence with Attention model to produce a sequence of words. Finally, the results were re-selected using the Beam Search algorithm, and a summary sentence was generated. The accuracy of the model was estimated using the ROUGE method on a dataset of over twenty-seven million words collected from newspapers in the country. The result was the summary statement reflecting the text content. Although the results were not high yet, the model has successfully solved the problem, and the dataset needs improving to enhance the efficiency of the model.

TÓM TẮT

Học sâu là phương pháp học máy được nghiên cứu và sử dụng rộng rãi trong những năm gần đây, mở ra hướng đi mới cho các bài toán như xử lý ảnh, xử lý tiếng nói và xử lý ngôn ngữ tự nhiên... Bài báo tập trung nghiên cứu sử dụng học sâu cho bài toán tóm tắt văn bản tự động đối với tiếng Việt. Các hướng tiếp cận trước đây như: thống kê, máy học, phân tích ngôn ngữ… đã thành công trên những cấp độ và mục đích tóm tắt khác nhau. Trong bài báo này, chúng tôi sử dụng mô hình Word2vec để rút trích những đặc trưng riêng của văn bản tiếng Việt, phục vụ cho mô hình Sequence to sequence with Attention nhằm tạo kết quả đầu ra là chuỗi các từ. Cuối cùng kết quả được chọn lọc lại bằng giải thuật Beam Search và sinh ra câu tóm tắt. Độ chính xác của mô hình được đánh giá bằng phương pháp ROUGE trên tập dữ liệu hơn hai mươi bảy triệu từ thu thập từ các trang báo trong nước. Kết quả thu được là các câu tóm tắt phản ánh đúng nội dung văn bản. Tuy kết quả còn chưa cao nhưng mô hình đã giải quyết thành công mục tiêu của bài toán, chúng tôi sẽ cố gắng cải thiện tập dữ liệu để nâng cao hiệu quả của mô hình.

Trích dẫn: Lâm Quang Tường, Phạm Thế Phi và Đỗ Đức Hào, 2017. Tóm tắt văn bản tiếng Việt tự động với mô hình Sequence-to-Sequence. Tạp chí Khoa học Trường Đại học Cần Thơ. Số chuyên đề: Công nghệ thông tin: 125-132.

Vietnamese | English

Tạp chí khoa học Trường Đại học Cần Thơ
Khu II, Đại học Cần Thơ, Đường 3/2, Phường Ninh Kiều, Thành phố Cần Thơ, Việt Nam
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn

Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên

Vui lòng chờ...