PHÂN LOẠI VĂN BẢN: MÔ HÌNH TÚI TỪ VÀ TẬP HỢP MÔ HÌNH MÁY HỌC TỰ ĐỘNG

Thông tin chung:

Ngày nhận: 17/04/2013

Ngày chấp nhận: 29/10/2013

Title:

Text classification: Bag-of-words and ensemble-based learning methods

Từ khóa:

Phân loại văn bản, Mô hình túi từ, Phương pháp tập hợp mô hình máy học, Phân loại có giám sát

Keywords:

Text classification, Bag-of-Words, Ensemble-based Learning Model, Supervised Classification

Abstract

This paper presents an approach to classify text documents usingthe
Bag-of-Word (BoW) model and ensemble-based learning algorithms. The ensemble-based learning algorithms include random multinomial naive Bayes (rMNB) and random oblique decision stump (rODS) models. The bag-of-word model is used to look for the sparse vectors of occurrence counts of words in text documents. The pre-processing step using the bag-of-word model brings out a dataset with a very large number of dimensions. Thus, we propose the new algorithms, called boosting of random multinomial naive Bayes and oblique decision stump models,whichare usually suited for classifying very-high-dimensional datasets. The results of the experiment on a real dataset show that our proposed algorithms have a high performance compared with other algorithms. The new approach has achieved an accuracy of 94.8%.

Tóm tắt

Trong bài này, chúng tôi giới thiệu tiếp cận phân lớp văn bản với độ chính xác cao. Nghiên cứu của chúng tôi dựa trên sự kết hợp giữa phương pháp biểu diễn văn bản bằng mô hình túi từ và các giải thuật xây dựng tập hợp các mô hình học tự động như Bayes thơ ngây ngẫu nhiên (random multinomial naive Bayes (rMNB)), cây xiên phân ngẫu nhiên đơn giản (random oblique decision stump (rODS)). Bước tiền xử lý, bao gồm phân tích từ vựng, xây dựng mô hình túi từ để biểu diễn văn bản dưới dạng véc tơ tần số xuất hiện của từ trong văn bản, số chiều rất lớn. Chúng tôi đề xuất các giải thuật boosting mới dựa trên mô hình cơ bản như cây ngẫu nhiên xiên phân đơn giản (rODS), Bayes thơ ngây ngẫu nhiên (rMNB), cho phép phân lớp hiệu quả tập dữ liệu này. Kết quả thực nghiệm với tập dữ liệu thực cho thấy rằng phương pháp của chúng tôi đề xuất phân lớp rất hiệu quả khi so sánh với các giải thuật hiện có, đạt được chính xác 94.8%.

Các bài báo khác

PHÂN LỚP ẢNH VỚI GIẢI THUẬT GIẢM GRADIENT NGẪU NHIÊN ĐA LỚP

Số 29 (2013) Trang: 1-7

PHÂN LỚP DỮ LIỆU VỚI GIẢI THUẬT NEWTON SVM

Số 32 (2014) Trang: 35-41

Tác giả: Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Minh Trung

PHÁT HIỆN MÔN HỌC QUAN TRỌNG ẢNH HƯỞNG ĐẾN KẾT QUẢ HỌC TẬP SINH VIÊN NGÀNH CÔNG NGHỆ THÔNG TIN

Số 33 (2014) Trang: 49-57

Tác giả: Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Minh Trung, Trịnh Trung Hưng

NHậN DạNG Ký Tự Số VIếT TAY BằNG GIảI THUậT MáY HọC

Số 27 (2013) Trang: 64-71

KếT HợP NGữ NGHĩA VớI MÔ HìNH TúI Từ Để CảI TIếN GIảI THUậT K LáNG GIềNG TRONG PHÂN LớP VăN BảN NGắN

Số 34 (2014) Trang: 66-73

Tác giả: Đỗ Thanh Nghị, Trần Cao Đệ

SO SÁNH CÁC MÔ HÌNH DỰ BÁO LƯỢNG MƯA CHO THÀNH PHỐ CẦN THƠ

Số Công nghệ TT 2013 (2013) Trang: 80-90

Tác giả: Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Nhị Gia Vinh, Văn Phạm Đăng Trí

GIẢI THUẬT GIẢM GRADIENT NGẪU NHIÊN CHO PHÂN LỚP DỮ LIỆU LỚN

Số Công nghệ TT 2015 (2015) Trang: 98-104

Tác giả: Đỗ Thanh Nghị

ImageNet classification with Raspberry Pis: federated learning algorithms of local classifiers

20 (2024) Trang: 48-65

Tạp chí: International Journal of Web Information Systems

Federated Learning of Random Oblique Stumps Tailored on the Raspberry Pi Zero for the ImageNet Challenge

882 (2024) Trang: 136-146

Tác giả: Đỗ Thanh Nghị, Võ Trí Thức

Tạp chí: Lecture Notes in Networks and Systems

Enhancing Gene Expression Classification Through Explainable Machine Learning Models

5 (2024) Trang: 606

Tác giả: Đỗ Thanh Nghị

Tạp chí: SN Computer Science

GIẢI THUẬT HỌC TĂNG TRƯỞNG GIẢM GRADIENT NGẪU NHIÊN CỤC BỘ TRÊN MÁY TÍNH NHÚNG RASPBERRY PI CHO PHÂN LỚP THÁCH THỨC IMAGENET

(2022) Trang: 218-224

Tác giả: Đỗ Thanh Nghị, Trần Nguyễn Minh Thư, Bùi Võ Quốc Bảo

Tạp chí: HỘI NGHỊ KHOA HỌC CÔNG NGHỆ QUỐC GIA LẦN THỨ XV

Improved Gene Expression Classification Through Multi-class Support Vector Machines Feature Selection

Nguyen Thai-Nghe, Thanh-Nghi Do, Peter Haddawy (2023) Trang: 119-130

Tạp chí: Communications in Computer and Information Science

Ensemble Learning with SVM for High-Dimensional Gene Expression Data

Nguyen Thai-Nghe, Thanh-Nghi Do, Peter Haddawy (2023) Trang: 29–40

Tạp chí: Communications in Computer and Information Science

Training Neural Networks on Top of Support Vector Machine Models for Classifying Fingerprint Images

2021 (2021) Trang: 355

Tác giả: Đỗ Thanh Nghị

Tạp chí: SN Computer Science

Incremental and parallel proximal SVM algorithm tailored on the Jetson Nano for the ImageNet challenge

18 (2022) Trang: 137-155

Tác giả: Đỗ Thanh Nghị

Tạp chí: International Journal of Web Information Systems

SVM on Top of Deep Networks for Covid-19 Detection from Chest X-ray Images

20 (2022) Trang: 219-225

Tác giả: Đỗ Thanh Nghị, Van-Thanh Le, Thi-Huong Doan

Tạp chí: Journal of information and communication convergence engineering

ImageNet Challenging Classification with the Raspberry Pis: A Federated Learning Algorithm of Local Stochastic Gradient Descent Models

Tran Khanh Dang·Josef Küng·Tai M. Chung (2022) Trang: 131-144

Tạp chí: Communications in Computer and Information Science

Visual Classification of Intangible Cultural Heritage Images in the Mekong Delta

Abdelhak Belhi • Abdelaziz Bouras Abdulaziz Khalid Al-Ali • Abdul Hamid Sadka (2021) Trang: 71-89

Tác giả: Đỗ Thanh Nghị, Phạm Thế Phi, Nguyễn Hữu Hòa, Phạm Nguyên Khang

Tạp chí: Data Analytics for Cultural Heritage: Current Trends and Concepts

Deep Networks for Monitoring Waterway Traffic in the Mekong Delta

Janusz Kacprzyk (2021) Trang: 315-326

Tác giả: Đỗ Thanh Nghị, Trần Nguyễn Minh Thư, Trang Thanh Trí, Võ Trí Thức

Tạp chí: Lecture Notes in Networks and Systems

Training Deep Network Models for Fingerprint Image Classification

Janusz Kacprzyk (2021) Trang: 327-337

Tạp chí: Lecture Notes in Networks and Systems

Training Support Vector Machines for Dealing with the ImageNet Challenging Problem

Janusz Kacprzyk (2021) Trang: 235-246

Tác giả: Đỗ Thanh Nghị, Le Thi Hoai An

Tạp chí: Lecture Notes in Networks and Systems

Multi-class Bagged Proximal Support Vector Machines for the ImageNet Challenging Problem

13076 (2021) Trang: 99-112

Tác giả: Đỗ Thanh Nghị

Tạp chí: Lecture Notes in Computer Science

Fine-tuning Deep Network Models for Classifying Fingerprint Images

(2020) Trang: 79-84

Tác giả: Đỗ Thanh Nghị, Phạm Thế Phi, Trần Nguyễn Minh Thư

Tạp chí: KNOWLEDGE AND SYSTEMS ENGINEERING (KSE 2020)

Stacking of SVMs for Classifying Intangible Cultural Heritage Images

(2019) Trang: 186-196

Tác giả: Đỗ Thanh Nghị, Phạm Thế Phi, Phạm Nguyên Khang, Nguyễn Hữu Hòa, Karim Tabia, Salem Benferhat

Tạp chí: International Conference on Computer Science, Applied Mathematics and Applications

Automatic Learning Algorithms for Local Support Vector Machines

1 (2020) Trang: 1-11

Tác giả: Đỗ Thanh Nghị

Tạp chí: SN Computer Science

BAG-SVM-SGD FOR DEALING WITH LARGE-SCALE MULTI-CLASS DATASETS

(2019) Trang: 41-48

Tác giả: Đỗ Thanh Nghị, Phạm Thế Phi, Nguyễn Hữu Hòa

Tạp chí: Hội nghị Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công Nghệ thông tin (FAIR)

CHATBOT CHO SINH VIÊN CÔNG NGHỆ THÔNG TIN

(2019) Trang: 85-92

Tác giả: Đỗ Thanh Nghị, Hoàng Tùng

Tạp chí: Hội nghị Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công Nghệ thông tin (FAIR)

Parallel learning algorithms of local support vector regression for dealing with large datasets

41 (2019) Trang: 59-77

Tác giả: Đỗ Thanh Nghị, Bùi Lê Diễm

Tạp chí: The LNCS Journal Transactions on Large-Scale Data- and Knowledge-Centered Systems

Automatic Hyper-parameters Tuning for Local Support Vector Machines

(2018) Trang: 185-199

Tạp chí: Intl Conf. on Future Data and Security Engineering 2018

Latent-lSVM classification of very high-dimensional and large scale multi-class datasets

CPE 2017 (2017) Trang: 1-16

Tạp chí: Concurrency and Computation: Practice and Experience

Parallel learning of local SVM algorithms for classifying large datasets

31 (2017) Trang: 67-93

Tạp chí: The LNCS Journal Transactions on Large-Scale Data- and Knowledge-Centered Systems

MÔ HÌNH PHÂN CẤP CHO DỰ BÁO LƯỢNG MƯA

12 (2014) Trang: 98-103

Tạp chí: Tạp chí nông nghiệp và phát triển nông thôn

GIẢI THUẬT RỪNG NGẪU NHIÊN VỚI LUẬT GÁN NHÃN CỤC BỘ CHO PHÂN LỚP

(2015) Trang: 277-285

Tác giả: Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Minh Trung, Nguyễn Hữu Hòa

Tạp chí: Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 2015, ĐHCN Hà Nội, 7/2015

Incremental Parallel Support Vector Machines for Classifying Large-Scale Multi-class Image Datasets

(2016) Trang: 20-39

Tạp chí: The annual International Conference on Future Data and Security Engineering

Classifying very high-dimensional and large-scale multi-class image datasets with Latent-lSVM

(2016) Trang: 714-721

Tạp chí: The IEEE Intl Conf. on Cloud and Big Data Computing 2016, Toulouse, France, 7/2016

GIẢI THUẬT tSVM CHO PHÂN LỚP PHI TUYẾN TẬP DỮ LIỆU LỚN

(2016) Trang: 200-208

Tác giả: Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Hữu Hòa, Trần Nguyễn Minh Thư

Tạp chí: Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 2016, ĐH. Cần Thơ 8/2016

XÂY DỰNG VÀ CÂN CHỈNH MÔ HÌNH DỰ BÁO MẬT SỐ RẦY NÂU TRÊN NỀN APACHE SPARK

(2016) Trang: 871-879

Tác giả: Đỗ Thanh Nghị, Phạm Nguyên Khang, Trần Nguyễn Minh Thư, Bùi Võ Quốc Bảo

Tạp chí: Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 2016, ĐH. Cần Thơ 8/2016

PHÂN LỚP HIỆU QUẢ TẬP DỮ LIỆU LỚN VỚI GIẢI THUẬT GIẢM GRADIENT NGẪU NHIÊN

(2016) Trang: 538-544

Tác giả: Đỗ Thanh Nghị, Phạm Thế Phi

Tạp chí: Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR, ĐH. Cần Thơ, 8/2016

Using Local Rules in Random Forests of Decision Trees

(2015) Trang: 32-45

Tác giả: Đỗ Thanh Nghị

Tạp chí: The 2nd International Conference on Future Data and Security Engineering 2015, Ho Chi Minh City, Vietnam, November 23-25, 2015

Massive Classification with Support Vector Machines

XVIII (2015) Trang: 147-165

Tác giả: Đỗ Thanh Nghị, Le Thi Hoai An

Tạp chí: Transactions on Computational Collective Intelligence

Parallel Multiclass Logistic Regression for Classifying Large Scale Image Datasets

(2015) Trang: 255-266

Tạp chí: International Conference on Computer Science, Applied Mathematics and Applications

Non-linear classification of massive datasets with a parallel algorithm of local support vector machines

(2015) Trang: 231-241

Tác giả: Đỗ Thanh Nghị

Tạp chí: International Conference on Computer Science, Applied Mathematics and Applications

Classifying many-class high-dimensional fingerprint datasets using random forest of oblique decision trees

Vol.2(1) (2015) Trang: 3-12

Tác giả: Đỗ Thanh Nghị, Philippe Lenca, Stephane Lallich

Tạp chí: Vietnam Journal of Computer Science

HANDWRITTEN DIGIT RECOGNITION USING GIST DESCRIPTORS AND RANDOM OBLIQUE DECISION TREES

(2014) Trang: 285-296

Tạp chí: NAFOSTED Conference on Information and Computer Science

RANDOM FOREST OF OBLIQUE DECISION TREES FOR ERP SEMI-AUTOMATIC CONFIGURATION

(2014) Trang: 25-34

Tác giả: Đỗ Thanh Nghị, Sorin Moga, Philippe Lenca

Tạp chí: Advanced Approaches to Intelligent Information and Database Systems

PARALLEL MULTICLASS STOCHASTIC GRADIENT DESCENT ALGORITHMS FOR CLASSIFYING MILLION IMAGES WITH VERY-HIGH-DIMENSIONAL SIGNATURES INTO THOUSANDS CLASSES

Vol 1:(1) (2014) Trang: 107-115

Tác giả: Đỗ Thanh Nghị

Tạp chí: Vietnam Journal of Computer Science

Parallel algorithms of random forests for classifying very large datasets

1 (2013) Trang: 1

Tác giả: Đỗ Thanh Nghị, Phạm Nguyên Khang, NGUYEN VAN HOA, Ly Hoang Trong

Tạp chí: Tạp chí khoa học ĐHĐL Số chuyên đề: Công nghệ Thông tin

THỬ NGHIỆM CÁC MÔ HÌNH DỰ BÁO LƯỢNG MƯA Ở TPCT

1 (2013) Trang: 210

Tác giả: Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Nhị Gia Vinh, Văn Phạm Đăng Trí

Tạp chí: KY Hội nghị Khoa học tự nhiên 2013

PHÂN LOẠI THƯ RÁC VỚI GIẢI THUẬT ARCX4-RMNB

1 (2012) Trang: 427

Tác giả: Đỗ Thanh Nghị

Tạp chí: Các hệ thống hỗ trợ quyết định

TÌM KIẾM CHUYÊN GIA VỚI PHẢN HỒI TỪ NGƯỜI DÙNG VÀ KNN-C4.4, KNN-RF-C4.4

1 (2012) Trang: 46

Tác giả: Đỗ Thanh Nghị, Văn Thị Xuân Hồng

Tạp chí: ICTFIT 2012

Giải thuật song song rừng ngẫu nhiên cho phân lớp dữ liệu lớn

1 (2012) Trang: 1

Tạp chí: Công nghệ thông tin

Xây dựng dịch vụ web cho khai mỏ dữ liệu

1 (2012) Trang: 563

Tác giả: Đỗ Thanh Nghị, Lê Quyết Thắng

Tạp chí: Các hệ thống hỗ trợ quyết định

Giải thuật ARCX4-IODT cho phân lớp dữ liệu gen

1 (2011) Trang: 37

Tác giả: Đỗ Thanh Nghị

Tạp chí: FAIR

10 năm nghiên cứu khai mỏ dữ liệu

1 (2011) Trang: 41

Tạp chí: Hội nghị tổng kết 5 năm NCKH &ĐT

Kernel-based Algorithm and Visualization for Interval Data Mining

(2008) Trang:

Tạp chí: Proceedings of the 6th IEEE International Conference on Data Mining

Enhancing network instrusion classfication through the kolmogorov-smirnov splitting criterion

(2011) Trang:

Tác giả: Đỗ Thanh Nghị, PHILIPPE LENCA, STEPHANE LALLICH

Tạp chí: Khoa học và Công nghệ

Visualisation exploratoire des résultats d’algorithmes d’arbre de décision

(2008) Trang:

Tác giả: Đỗ Thanh Nghị, Phạm Nguyên Khang, Francois Poulet

Tạp chí: Revue des Nounelles Technilogies de l’Information RNTI

Classifying fingerprint images using sift method and support vector machine algorithm

(2010) Trang:

Tác giả: Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Trọng Nghĩa

Tạp chí:

A fast parallel SVM Algorithm for massive classification tasks

(2010) Trang:

Tác giả: Đỗ Thanh Nghị, Nguyễn Văn Hòa, Phạm Nguyên Khang, FRANCOIN POULET, NGO DUC LUU

Tạp chí:

Un nouvel algorithme de forết aléatoires d’arbres obiliques particulèrement adapé à la classification de donne’é en grandes dimensions

(2010) Trang:

Tác giả: Đỗ Thanh Nghị, STEPHANE LALLICH, Phạm Nguyên Khang, PHILIPPE LENCA

Tạp chí:

Hàm Entropy tổng quát cho giải thuật cây quyết định

(2011) Trang:

Tạp chí: Tuyển tập Công trình nghiên cứu CNTT&TT năm 2009

SVM incrémental, pararellèle et distribué pour le traitement de grandes quantités de données

(2008) Trang:

Tạp chí: Revue des Nouvelles Technologies de l’Information (RNTI)

Vis-SVM: approche coopérative en fouille de données

(2008) Trang:

Tạp chí: Revue des Nounelles Technilogies de l’Information RNTI

Large Scale Classification with Support Vector Machine Algorithms

(2008) Trang:

Tác giả: Đỗ Thanh Nghị, JEAN-DANIEL FEKETE

Tạp chí: 6th International Conference on Machine Learning and Applications

Classifying one billion data with a new distribited SVM algorithm

(2008) Trang:

Tạp chí: International Conference Research, Innovation and Vision for the Future

GPU – based parallel SVM algorithm

(2010) Trang:

Tác giả: Đỗ Thanh Nghị, NGUYEN VAN HOA, FRANCOIN POULET

Tạp chí:

V4Miner pour la fouille de donneés

(2010) Trang:

Tác giả: Đỗ Thanh Nghị, JEAN – DANIEL FEKETE

Tạp chí:

Kernel – based Algorithms and visualization for interval Data mining

(2010) Trang:

Tác giả: Đỗ Thanh Nghị, FRANCOIN POULET

Tạp chí:

Classification de grands ensembles de donnees avec un nouvel algorithme de SVM

(2009) Trang:

Tác giả: Đỗ Thanh Nghị

Tạp chí:

Algorithmes rapides de boosting de SVM

(2009) Trang:

Tác giả: Đỗ Thanh Nghị

Tạp chí:

Zame: Interactive large-Scale Graph Visualization

(2009) Trang:

Tác giả: Đỗ Thanh Nghị

Tạp chí:

Vis-SVM: approche cooperative en fouille de donnees

(2009) Trang:

Tác giả: Đỗ Thanh Nghị

Tạp chí:

Classification de grands ensembles de données avec un nouvel algorithm de SVM

(2008) Trang:

Tạp chí: Revue des Nounelles Technilogies de l’Information RNTI

Classifying very high dimensional data with random forests of oblique decision trees

(2011) Trang:

Tác giả: Đỗ Thanh Nghị, PHILIPPE LENCA, STEPHANE LALLICH, Phạm Nguyên Khang

Tạp chí: Springer

Detection of pornographic images using bag-of-visual-words and ARCX4 of random multinomial naive bayes

(2012) Trang:

Tác giả: Đỗ Thanh Nghị

Tạp chí: Viện KH&CN Việt Nam

Algorithmes rapides de boosting de SVM

(2008) Trang:

Tác giả: Đỗ Thanh Nghị, JEAN-DANIEL FEKETE, Francois Poulet

Tạp chí: Revue des Nounelles Technilogies de l’Information RNTI

Nhận dạng tấn công mạng với mô hình trực quan cây quyết định

(2012) Trang:

Tác giả: Đỗ Thanh Nghị, Lê Quyết Thắng

Tạp chí: Công nghệ Thông tin & Truyền thông

Visualistation exploratoire des résultats d’algorithmes d’arbres de decision

(2009) Trang:

Tạp chí: