Text classification: Bag-of-words and ensemble-based learning methods
Từ khóa:
Phân loại văn bản, Mô hình túi từ, Phương pháp tập hợp mô hình máy học, Phân loại có giám sát
Keywords:
Text classification, Bag-of-Words, Ensemble-based Learning Model, Supervised Classification
Abstract
This paper presents an approach to classify text documents usingthe Bag-of-Word (BoW) model and ensemble-based learning algorithms. The ensemble-based learning algorithms include random multinomial naive Bayes (rMNB) and random oblique decision stump (rODS) models. The bag-of-word model is used to look for the sparse vectors of occurrence counts of words in text documents. The pre-processing step using the bag-of-word model brings out a dataset with a very large number of dimensions. Thus, we propose the new algorithms, called boosting of random multinomial naive Bayes and oblique decision stump models,whichare usually suited for classifying very-high-dimensional datasets. The results of the experiment on a real dataset show that our proposed algorithms have a high performance compared with other algorithms. The new approach has achieved an accuracy of 94.8%.
Tóm tắt
Trong bài này, chúng tôi giới thiệu tiếp cận phân lớp văn bản với độ chính xác cao. Nghiên cứu của chúng tôi dựa trên sự kết hợp giữa phương pháp biểu diễn văn bản bằng mô hình túi từ và các giải thuật xây dựng tập hợp các mô hình học tự động như Bayes thơ ngây ngẫu nhiên (random multinomial naive Bayes (rMNB)), cây xiên phân ngẫu nhiên đơn giản (random oblique decision stump (rODS)). Bước tiền xử lý, bao gồm phân tích từ vựng, xây dựng mô hình túi từ để biểu diễn văn bản dưới dạng véc tơ tần số xuất hiện của từ trong văn bản, số chiều rất lớn. Chúng tôi đề xuất các giải thuật boosting mới dựa trên mô hình cơ bản như cây ngẫu nhiên xiên phân đơn giản (rODS), Bayes thơ ngây ngẫu nhiên (rMNB), cho phép phân lớp hiệu quả tập dữ liệu này. Kết quả thực nghiệm với tập dữ liệu thực cho thấy rằng phương pháp của chúng tôi đề xuất phân lớp rất hiệu quả khi so sánh với các giải thuật hiện có, đạt được chính xác 94.8%.
Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Minh Trung, 2014. PHÂN LỚP DỮ LIỆU VỚI GIẢI THUẬT NEWTON SVM. Tạp chí Khoa học Trường Đại học Cần Thơ. 32: 35-41
Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Minh Trung, Trịnh Trung Hưng, 2014. PHÁT HIỆN MÔN HỌC QUAN TRỌNG ẢNH HƯỞNG ĐẾN KẾT QUẢ HỌC TẬP SINH VIÊN NGÀNH CÔNG NGHỆ THÔNG TIN. Tạp chí Khoa học Trường Đại học Cần Thơ. 33: 49-57
Đỗ Thanh Nghị, Trần Cao Đệ, 2014. KếT HợP NGữ NGHĩA VớI MÔ HìNH TúI Từ Để CảI TIếN GIảI THUậT K LáNG GIềNG TRONG PHÂN LớP VăN BảN NGắN. Tạp chí Khoa học Trường Đại học Cần Thơ. 34: 66-73
Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Nhị Gia Vinh, Văn Phạm Đăng Trí, 2013. SO SÁNH CÁC MÔ HÌNH DỰ BÁO LƯỢNG MƯA CHO THÀNH PHỐ CẦN THƠ. Tạp chí Khoa học Trường Đại học Cần Thơ. Chuyên Đề CNTT: 80-90
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên