Thông tin chung: Ngày nhận:19/09/2015 Ngày chấp nhận: 10/10/2015 Title: Twitter sentiment analysis Từ khóa: Phân loại văn bản, phân loại ý kiến, mô hình túi từ Bow, máy học vectơ hỗ trợ SVM, giải thuật Naïve Bayes, mạng ngữ nghĩa Keywords: Text classification, Twitter sentiment analysis, Bag-of-Words-(Bow), Support Vector Machines (SVM), Multinomial Naïve Bayes (MNB), WordNet | ABSTRACT Twitter sentiment analysis aims at classifying the comment into positive or negative sentiment. In this paper, we propose to use the bag-of-words model and the Multinomial Naïve Bayes algorithm for dealing with the sentiment classification task. In the first step, raw data sets are the comments on Twitter collected following topic. It is necessary to perform the preprocessing task, including the special characters of Twitter, continuously repeatable characters, acronyms, slang, emoticons, WordNet, and representation in Bow model. Preprocessing stage provides the large dimensional datasets in which almost values (about 99%) are zero. And then, the data set is stored in the LibSVM format (dim_index: non_zero_value). This strategy is to reduce the memory complexity and also require our new implementation of Multinomial Naïve Bayes (MNB) for dealing with the new data format. Theexperimental results on the data sets show that our implementation of Multinomial Naïve Bayes (MNB) algorithm is very simple and accurate. TÓM TẮT Phân loại ý kiến trên Twitter là phân loại cho từng bình luận theo hướng quan điểm tích cực hay tiêu cực dựa trên nội dung bình luận. Trong bài viết này, chúng tôi đề xuất sử dụng mô hình túi từ và giải thuật máy học Multinomial Naïve Bayes để phân loại ý kiến. Ở bước đầu tiên, từ tập dữ liệu thô là những ý kiến trên Twitter được thu thập theo chủ đề, chúng tôi tiến hành tiền xử lý các kí tự đặc biệt của Twitter, các kí tự trùng lặp gần nhau, từ viết tắt, tiếng lóng, biểu tượng cảm xúc, mạng ngữ nghĩa, biểu diễn văn bản theo mô hình túi từ. Giai đoạn tiền xử lý cho ra tập dữ liệu có số chiều lớn, nhưng trong đó đa số (khoảng 99%) các giá trị bằng 0. Để tiết kiệm bộ nhớ, chiến lược lưu trữ chỉ lưu những giá trị khác 0 (theo định dạng LibSVM). Cách lưu trữ này dẫn đến yêu cầu cài đặt lại giải thuật máy học Multinomial Naïve Bayes để có thể xử lý định dạng mới của tập dữ liệu. Kết quả thực nghiệm trên các tập dữ liệu cho thấy bản cài đặt mới của giải thuật Multinomial Naïve Bayes (MNB) phân lớp hiệu quả, đơn giản và chính xác. |