Đăng nhập
 
Tìm kiếm nâng cao
 
Tên bài báo
Tác giả
Năm xuất bản
Tóm tắt
Lĩnh vực
Phân loại
Số tạp chí
 

Bản tin định kỳ
Báo cáo thường niên
Tạp chí khoa học ĐHCT
Tạp chí tiếng anh ĐHCT
Tạp chí trong nước
Tạp chí quốc tế
Kỷ yếu HN trong nước
Kỷ yếu HN quốc tế
Book chapter
Bài báo - Tạp chí
Số Công nghệ TT 2017 (2017) Trang: 125-132
Tải về

Thông tin chung:

Ngày nhận bài: 15/09/2017
Ngày nhận bài sửa: 10/10/2017

Ngày duyệt đăng: 20/10/2017

 

Title:

Vietnamese text summarization with Sequence-to-Sequence

Từ khóa:

Beam Search, học sâu,

Sequence-to-sequence, tóm tắt văn bản

Keywords:

Beam Search, deep learning,

Sequence-to-sequence,

text summarization

ABSTRACT

Deep learning is a machine learning method that has been studied and used extensively in recent years, opening up new directions for problems such as image processing, speech processing, and natural language processing, etc. This article focuses on the use of deep learning for automatic text summarization for Vietnamese. Previous approaches such as statistics, machine learning, language analysis, etc. have been successful at different levels and purposes. In this paper, the Word2vec model was used to extract the specific characteristics of Vietnamese text for the Sequence to Sequence with Attention model to produce a sequence of words. Finally, the results were re-selected using the Beam Search algorithm, and a summary sentence was generated. The accuracy of the model was estimated using the ROUGE method on a dataset of over twenty-seven million words collected from newspapers in the country. The result was the summary statement reflecting the text content. Although the results were not high yet, the model has successfully solved the problem, and the dataset needs improving to enhance the efficiency of the model.

TÓM TẮT

Học sâu là phương pháp học máy được nghiên cứu và sử dụng rộng rãi trong những năm gần đây, mở ra hướng đi mới cho các bài toán như xử lý ảnh, xử lý tiếng nói và xử lý ngôn ngữ tự nhiên... Bài báo tập trung nghiên cứu sử dụng học sâu cho bài toán tóm tắt văn bản tự động đối với tiếng Việt. Các hướng tiếp cận trước đây như: thống kê, máy học, phân tích ngôn ngữ… đã thành công trên những cấp độ và mục đích tóm tắt khác nhau. Trong bài báo này, chúng tôi sử dụng mô hình Word2vec để rút trích những đặc trưng riêng của văn bản tiếng Việt, phục vụ cho mô hình Sequence to sequence with Attention nhằm tạo kết quả đầu ra là chuỗi các từ. Cuối cùng kết quả được chọn lọc lại bằng giải thuật Beam Search và sinh ra câu tóm tắt. Độ chính xác của mô hình được đánh giá bằng phương pháp ROUGE trên tập dữ liệu hơn hai mươi bảy triệu từ thu thập từ các trang báo trong nước. Kết quả thu được là các câu tóm tắt phản ánh đúng nội dung văn bản. Tuy kết quả còn chưa cao nhưng mô hình đã giải quyết thành công mục tiêu của bài toán, chúng tôi sẽ cố gắng cải thiện tập dữ liệu để nâng cao hiệu quả của mô hình.

Trích dẫn: Lâm Quang Tường, Phạm Thế Phi và Đỗ Đức Hào, 2017. Tóm tắt văn bản tiếng Việt tự động với mô hình Sequence-to-Sequence. Tạp chí Khoa học Trường Đại học Cần Thơ. Số chuyên đề: Công nghệ thông tin: 125-132.

 


Vietnamese | English






 
 
Vui lòng chờ...