Trong bài báo này chúng tôi trình bày một hướng tiếp cận phân lớp các bản tin tiếng Việt mà không dựa trên nội dung toàn văn của bản tin đó. Chúng tôi đề xuất sử dụng một trong hai thông tin: 1- tóm tắt; 2- từ khóa đại diện, trong đó tóm tắt và từ khóa đại diện được tạo tự động từ nội dung của văn bản, để phân lớp văn bản. Chúng tôi sử dụng tổng cộng 2000 bản tin được tải về từ các trang báo điện tử như vnexpress.net, vietnamnet.vn để kiểm thử giải pháp đề xuất. Kết quả thực nghiệm cho thấy hướng tiếp cận không toàn văn cho bài toán phân lớp văn bản là khả thi và có thể cải tiến để ứng dụng thực tế.
Tạp chí: Proceedings of UHD-CTU Annual Economics and Business conference, ISSN: 2472-9329 (Print) 2472-9319 (Online), Can Tho University, Vietnam, pp. 161-167, January 13-14-8, 2017
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên