PHÂN LOẠI Ý KIẾN TRÊN TWITTER

Hướng dẫn

Tìm kiếm nâng cao

Tên bài báo

Tìm

Tác giả

Năm xuất bản

Tóm tắt

Lĩnh vực

Phân loại

Số tạp chí

Bản tin định kỳ

Báo cáo thường niên

Tạp chí khoa học ĐHCT

Tạp chí tiếng anh ĐHCT

Tạp chí trong nước

Tạp chí quốc tế

Kỷ yếu HN trong nước

Kỷ yếu HN quốc tế

Book chapter

PHÂN LOẠI Ý KIẾN TRÊN TWITTER

Số Công nghệ TT 2015 (2015) Trang: 32-38

Tác giả: Võ Tuyết Ngân, Đỗ Thanh Nghị

Tóm tắt

Tải về

Thông tin chung:

Ngày nhận:19/09/2015

Ngày chấp nhận: 10/10/2015

Title:

Twitter sentiment analysis

Từ khóa:

Phân loại văn bản, phân loại ý kiến, mô hình túi từ Bow, máy học vectơ hỗ trợ SVM, giải thuật Naïve Bayes, mạng ngữ nghĩa

Keywords:

Text classification, Twitter sentiment analysis, Bag-of-Words-(Bow), Support Vector Machines (SVM), Multinomial Naïve Bayes (MNB), WordNet

ABSTRACT

Twitter sentiment analysis aims at classifying the comment into positive or negative sentiment. In this paper, we propose to use the bag-of-words model and the Multinomial Naïve Bayes algorithm for dealing with the sentiment classification task. In the first step, raw data sets are the comments on Twitter collected following topic. It is necessary to perform the preprocessing task, including the special characters of Twitter, continuously repeatable characters, acronyms, slang, emoticons, WordNet, and representation in Bow model. Preprocessing stage provides the large dimensional datasets in which almost values (about 99%) are zero. And then, the data set is stored in the LibSVM format (dim_index: non_zero_value). This strategy is to reduce the memory complexity and also require our new implementation of Multinomial Naïve Bayes (MNB) for dealing with the new data format. Theexperimental results on the data sets show that our implementation of Multinomial Naïve Bayes (MNB) algorithm is very simple and accurate.

TÓM TẮT

Phân loại ý kiến trên Twitter là phân loại cho từng bình luận theo hướng quan điểm tích cực hay tiêu cực dựa trên nội dung bình luận. Trong bài viết này, chúng tôi đề xuất sử dụng mô hình túi từ và giải thuật máy học Multinomial Naïve Bayes để phân loại ý kiến. Ở bước đầu tiên, từ tập dữ liệu thô là những ý kiến trên Twitter được thu thập theo chủ đề, chúng tôi tiến hành tiền xử lý các kí tự đặc biệt của Twitter, các kí tự trùng lặp gần nhau, từ viết tắt, tiếng lóng, biểu tượng cảm xúc, mạng ngữ nghĩa, biểu diễn văn bản theo mô hình túi từ. Giai đoạn tiền xử lý cho ra tập dữ liệu có số chiều lớn, nhưng trong đó đa số (khoảng 99%) các giá trị bằng 0. Để tiết kiệm bộ nhớ, chiến lược lưu trữ chỉ lưu những giá trị khác 0 (theo định dạng LibSVM). Cách lưu trữ này dẫn đến yêu cầu cài đặt lại giải thuật máy học Multinomial Naïve Bayes để có thể xử lý định dạng mới của tập dữ liệu. Kết quả thực nghiệm trên các tập dữ liệu cho thấy bản cài đặt mới của giải thuật Multinomial Naïve Bayes (MNB) phân lớp hiệu quả, đơn giản và chính xác.

Vietnamese | English

Tạp chí khoa học Trường Đại học Cần Thơ
Khu II, Đại học Cần Thơ, Đường 3/2, Phường Ninh Kiều, Thành phố Cần Thơ, Việt Nam
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn

Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên

Vui lòng chờ...