PHÂN LOẠI VĂN BẢN VỚI MÁY HỌC VECTOR HỖ TRỢ VÀ CÂY QUYẾT ĐỊNH

Abstract

Text document classification, basically, can be considered as a classification problem. Automatic text document classification is to assign a label to a new document based on the similarity of the document with labeled documents in the training set. Many machine learning and data mining methods have been applied in text document classification such as: Naive Bayes, decision tree, k ? Nearest neighbor, neural network,?

Support vector machine (SVM) is an efficient classification algorithm. It has been applied to machine learning and recognition field. However, it is still not efficient in applying to text document classification because, by the nature, this problem often deals with a large feature space. This paper focuses on applying SVM to text document classification and compares the efficiency of the method with the one of decision tree, a traditional classification algorithm. The research illustrates that SVM along with the feature selection based on the singular value decomposition (SVD) is much better than decision tree method.

Keywords: Decision tree, Support vector machine (SVM), text document classification, single value decomposition (SVD)

Title: Text document classification with support vector machine and decision tree

Tóm tắt

Bài toán phân loại văn bản, thực chất, có thể xem là bài toán phân lớp. Phân loại văn bản tự động là việc gán các nhãn phân loại lên một văn bản mới dựa trên mức độ tương tự của văn bản đó so với các văn bản đã được gán nhãn trong tập huấn luyện. Nhiều kỹ thuật máy học và khai phá dữ liệu đã được áp dụng vào bài toán phân loại văn bản, chẳng hạn: phương pháp quyết định dựa vào Bayes ngây thơ (Naive Bayes), cây quyết định (decision tree), k?láng giềng gần nhất (KNN), mạng nơron (neural network),?

Máy học vectơ hỗ trợ (SVM) là một giải thuật phân lớp có hiệu quả cao và đã được áp dụng nhiều trong lĩnh vực khai phá dữ liệu và nhận dạng. Tuy nhiên SVM chưa được áp dụng một cách có hiệu quả vào phân loại văn bản vì đặc điểm của bài toán phân loại văn bản là không gian đặc trưng thường rất lớn. Bài viết này nghiên cứu máy học vector hỗ trợ (SVM), áp dụng nó vào bài toán phân loại văn bản và so sánh hiệu quả của nó với hiệu quả của giải thuật phân lớp cổ điển, rất phổ biến đó là cây quyết định. Nghiên cứu chỉ ra rằng SVM với cách lựa chọn đặc trưng bằng phương pháp tách giá trị đơn (SVD) cho kết quả tốt hơn so với cây quyết định.

Từ khóa: Cây quyết định, máy học vector hỗ trợ, phân loại văn bản, tách giá trị đơn

Các bài báo khác

ÁNH XẠ TỌA ĐỘ GPS VÀO BẢN ĐỒ SỐ VÀ ỨNG DỤNG VÀO HỆ THỐNG TỰ ĐỘNG THÔNG BÁO TRẠM DỪNG XE BUS

Số 17b (2011) Trang: 148-157

Tác giả: Trần Cao Đệ

PHÁT TRIỂN HỆ THỐNG PHÁT HIỆN ĐẠO VĂN CHO TRƯỜNG ĐẠI HỌC VIỆT NAM

Số 35 (2014) Trang: 31-39

Tác giả: Trần Cao Đệ, Trần Cao Trị, Lê Văn Lâm, Nguyễn Gia Hưng, Bùi Võ Quốc Bảo

TỔNG QUAN VỀ AN NINH TRÊN ĐIỆN TOÁN ĐÁM MÂY

Số Công nghệ TT 2013 (2013) Trang: 39-46

Tác giả: Trần Cao Đệ

ĐIệN TOáN ĐáM MÂY Và BàI TOáN Xử Lí Dữ LIệU LớN THEO MÔ HìNH ÁNH Xạ - RúT GọN

Số 27 (2013) Trang: 56-63

Tác giả: Trần Cao Đệ

Dùng Inception Score Trong Lựa Chọn Mẫu Sinh Ra Từ Mạng GAN Để Giải Quyết Vấn Đề Mất Cân Bằng Dữ Liệu

(2022) Trang: 42-47

Tác giả: Trần Cao Đệ, Trần Võ Khánh Ngân

Tạp chí: Hội thảo quốc gia lần thứ XXV: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông – Hà Nội, 8-9/12/2022

NGHIÊN CỨU NHẬN DẠNG ĐIỂM SỐ VIẾT TAY CÓ PHẦN THẬP PHÂN

(2017) Trang: 1-15

Tác giả: Trần Cao Đệ, Võ Ngọc Lợi

Tạp chí: HỘI THẢO TOÀN QUỐC VỀ CÔNG NGHỆ THÔNG TIN 2017

ỨNG DỤNG PHƯƠNG PHÁP THỦY VÂN ĐỂ BẢO VỆCƠ SỞDỮLIỆU ĐIỂM HỌC TẬP TRONG TRƯỜNG ĐẠI HỌC

(2017) Trang: 113-128

Tác giả: Trần Cao Đệ, Chung Nam Phong

Tạp chí: NGHIÊN CỨU CƠ BẢN VÀ ỨNG DỤNG CÔNG NGHỆ THÔNG TIN, FAIR'2017, 17-18/8/2017

TÌM KIẾM MỘT ĐỐI TƯỢNG TRONG NHIỀU VIDEO

(2016) Trang:

Tác giả: Trần Cao Đệ, Trần Thị Mộng Cầm

Tạp chí: NACIS, 2016, Đà Nẳng, tháng 11-2016

Key-Point Matching with Post-Filter using SIFT and BRIEF in Logo Spotting

1 (2015) Trang:

Tác giả: Trần Cao Đệ, Le Viet Phuong

Tạp chí: Proceedings Hội thảo quốc tế (IEEE) ISBN: 78-1-4799-8043-7

Applying Model-Driven Development to Environment Monitoring System

1 (2015) Trang:

Tác giả: Trần Cao Đệ

Tạp chí: MODELSWARD 2015

SUPER RESOLUTION OF VIDEO WITH DYNAMIC TEXTURES

Vol. 52, No 4A, 2014. (2014) Trang: 403-412

Tác giả: Trần Cao Đệ, Phạm Nguyên Hoàng

Tạp chí: Tạp chí Khoa học và Công nghệ

Xu hướng điện toán đám mây và ứng dụng của nó vào hệ thống thông tin địa lý

1 (2013) Trang: 146

Tác giả: Trần Cao Đệ

Tạp chí: Công nghệ sáng tạo phát triển nông nghiệp VN lần thứ nhất 2013

Logo Spotting for document Categorization

1 (2012) Trang: 1

Tác giả: Trần Cao Đệ

Tạp chí: ICPR 2012

An Efficient method for online Vietnamese Handwriting Character Recognition

1 (2012) Trang: 1

Tác giả: Trần Cao Đệ

Tạp chí: SoICT 2012

Hệ thống thông tin địa lý tích hợp quản lí kết cấu hạ tầng thành phố Cần Thơ

1 (2012) Trang: 1

Tác giả: Trần Cao Đệ, Phạm Thị Trúc Phương

Tạp chí: Hội thảo CNTT

Phân loại VB với máy học vector hỗ trợ kết hợp với phân tích giá trị đơn

1 (2011) Trang: 438

Tác giả: Trần Cao Đệ

Tạp chí: @2011

Measuring software complexity for early estimation of development effort

(2009) Trang:

Tác giả: Trần Cao Đệ, G. LEVESQUE, J.-G. MEUNIER

Tạp chí: WIT Transaction on Modelingd and Simulation

Bi-character model for on-line cursive handwriting recognition

(2011) Trang:

Tác giả: Trần Cao Đệ

Tạp chí: Khoa học và Công nghệ

Tìm kiếm tài liệu học tập đa ngôn ngữ với kỹ thuật chỉ mục ngữ nghĩa tiềm ẩn (Latent Semantic Indexing)

(2008) Trang:

Tác giả: Trần Cao Đệ

Tạp chí: Hội thảo Khoa học Quốc gia về Công nghệ phần mềm và phần mềm nhóm…