Đăng nhập
 
Tìm kiếm nâng cao
 
Tên bài báo
Tác giả
Năm xuất bản
Tóm tắt
Lĩnh vực
Phân loại
Số tạp chí
 

Bản tin định kỳ
Báo cáo thường niên
Tạp chí khoa học ĐHCT
Tạp chí tiếng anh ĐHCT
Tạp chí trong nước
Tạp chí quốc tế
Kỷ yếu HN trong nước
Kỷ yếu HN quốc tế
Book chapter
Bài báo - Tạp chí
Số 22b (2012) Trang: 9-17
Tải về

Abstract

Our investigation aims to propose random trees to classify gene data which have very small amount of samples in very high dimensions and noise. The random forest algorithm proposed by Breiman is usually suited for classifying very-high-dimensional datasets. However, the classical majority rule of a decision tree degrades the classification accuracy of random forests. We have proposed to improve the classification performance of random forests by using in each leaf of the tree a local class labeling rule instead of the majority rule. The numerical test results on gene datasets from datam.i2r.a-star.edu.sg/datasets/krbd/ showed that that our proposal gives good classification results compared with classical random forests and support vector machine (SVM) in terms of Precision, Recall, F1 and Accuracy.

Keywords: Genes expression classification, Decision trees, Random forests, k nearest neighbors

Title: Improved random forests for classifying gene data

TóM TắT

Trong bài viết này, chúng tôi đề xuất giải thuật rừng ngẫu nhiên cải tiến cho phân lớp dữ liệu gien thường có rất ít các phần tử dữ liệu nhưng số chiều rất lớn và có nhiễu. Trong thực tế, giải thuật rừng ngẫu nhiên của Breiman thường được sử dụng cho phân lớp kiểu dữ liệu như dữ liệu gien. Tuy nhiên, do sử dụng luật bình chọn số đông ở nút lá của cây quyết định làm dự báo của rừng ngẫu nhiên bị giảm. Để cải thiện kết quả dự báo của rừng ngẫu nhiên, chúng tôi đề xuất thay thế luật bình chọn số đông bởi luật gán         nhãn cục bộ. Kết quả thử nghiệm trên các tập dữ liệu gien từ site datam.i2r.a-star.edu.sg/datasets/krbd/ cho thấy rằng giải thuật rừng ngẫu nhiên cải tiến do chúng tôi đề xuất cho kết quả phân loại tốt khi so sánh với rừng ngẫu nhiên của cây quyết định C4.5 và máy học véctơ hỗ trợ dựa trên các tiêu chí Precision, Recall, F1, Accuracy.

Từ khóa: Phân loại dữ liệu gien, giải thuật học cây quyết định, rừng ngẫu nhiên, k láng giềng

Các bài báo khác
Số 19b (2011) Trang: 1-9
Tải về
1 (2024) Trang: 330-335
Tạp chí: Hội thảo quốc gia lần thứ XXVII: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông
1 (2013) Trang: 275
Tạp chí: KY Hội nghị Khoa học tự nhiên 2013
 


Vietnamese | English






 
 
Vui lòng chờ...