Semantic smoothing of the Bag-of-Words model for improving short text classification using k nearest neighbors
Từ khóa:
Phân lớp văn bản ngắn, mô hình túi từ, ngữ nghĩa, k láng giềng
Keywords:
Text classification, Bag-of-Words, semantic smoothing, k nearest neighbors
ABSTRACT
This paper presents the semantic smoothing of the Bag-of-Words (BoW) model to improve the positive class prediction of k nearest neighbors (kNN) in the short text classification. The BoW model, a representation of the text constructed by counting the occurrence of each word in the text, is popularly used in text classification. The drawback of the BoW model is that it does not take the semantic similarity of words into account. That is often the cause of mismatches in the vocabulary used by kNN. And then, it leads to the poor prediction of the positive class in short text classification. We propose to use the semantic smoothing of BoW to improve the positive class prediction of kNN. The numerical test results on a real dataset show that our approach improves 8% in terms of the positive class prediction while degradesing less than 1% in term of the negative class prediction of kNN algorithm in short text classification.
TóM TắT
Trong bài này, chúng tôi giới thiệu tiếp cận tích hợp ngữ nghĩa với mô hình túi từ nhằm cải tiến hiệu quả dự đoán lớp dương của giải thuật k láng giềng trong phân lớp văn bản ngắn. Mô hình túi từ là mô hình biểu diễn văn bản như véc tơ tần số xuất hiện của từ trong văn bản, được sử dụng phổ biến hiện nay trong vấn đề phân lớp văn bản. Tuy nhiên, khuyết điểm của mô hình túi từ là không quan tâm đến sự đồng nghĩa của từ, điều này làm giảm hiệu quả dự đoán lớp dương (lớp quan tâm) của giải thuật k láng giềng trong phân lớp văn bản ngắn. Chúng tôi đề xuất tích hợp ngữ nghĩa vào mô hình túi từ để cải thiện kết quả dự đoán lớp dương của k láng giềng. Kết quả thực nghiệm với tập dữ liệu thực cho thấy rằng các phương pháp của chúng tôi đề xuất cải thiện dự đoán lớp dương hơn 8% trong giảm chưa đến 1% dự đoán lớp âm của giải thuật k láng giềng trong phân lớp văn bản ngắn.
Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Minh Trung, 2014. PHÂN LỚP DỮ LIỆU VỚI GIẢI THUẬT NEWTON SVM. Tạp chí Khoa học Trường Đại học Cần Thơ. 32: 35-41
Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Minh Trung, Trịnh Trung Hưng, 2014. PHÁT HIỆN MÔN HỌC QUAN TRỌNG ẢNH HƯỞNG ĐẾN KẾT QUẢ HỌC TẬP SINH VIÊN NGÀNH CÔNG NGHỆ THÔNG TIN. Tạp chí Khoa học Trường Đại học Cần Thơ. 33: 49-57
Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Nhị Gia Vinh, Văn Phạm Đăng Trí, 2013. SO SÁNH CÁC MÔ HÌNH DỰ BÁO LƯỢNG MƯA CHO THÀNH PHỐ CẦN THƠ. Tạp chí Khoa học Trường Đại học Cần Thơ. Chuyên Đề CNTT: 80-90
Đỗ Thanh Nghị, Phạm Nguyên Khang, 2013. PHÂN LOẠI VĂN BẢN: MÔ HÌNH TÚI TỪ VÀ TẬP HỢP MÔ HÌNH MÁY HỌC TỰ ĐỘNG. Tạp chí Khoa học Trường Đại học Cần Thơ. 28: 9-16
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên