Our investigation aims to propose random trees to classify gene data which have very small amount of samples in very high dimensions and noise. The random forest algorithm proposed by Breiman is usually suited for classifying very-high-dimensional datasets. However, the classical majority rule of a decision tree degrades the classification accuracy of random forests. We have proposed to improve the classification performance of random forests by using in each leaf of the tree a local class labeling rule instead of the majority rule. The numerical test results on gene datasets from datam.i2r.a-star.edu.sg/datasets/krbd/ showed that that our proposal gives good classification results compared with classical random forests and support vector machine (SVM) in terms of Precision, Recall, F1 and Accuracy.
Keywords: Genes expression classification, Decision trees, Random forests, k nearest neighbors
Title: Improved random forests for classifying gene data
TóM TắT
Trong bài viết này, chúng tôi đề xuất giải thuật rừng ngẫu nhiên cải tiến cho phân lớp dữ liệu gien thường có rất ít các phần tử dữ liệu nhưng số chiều rất lớn và có nhiễu. Trong thực tế, giải thuật rừng ngẫu nhiên của Breiman thường được sử dụng cho phân lớp kiểu dữ liệu như dữ liệu gien. Tuy nhiên, do sử dụng luật bình chọn số đông ở nút lá của cây quyết định làm dự báo của rừng ngẫu nhiên bị giảm. Để cải thiện kết quả dự báo của rừng ngẫu nhiên, chúng tôi đề xuất thay thế luật bình chọn số đông bởi luật gán nhãn cục bộ. Kết quả thử nghiệm trên các tập dữ liệu gien từ site datam.i2r.a-star.edu.sg/datasets/krbd/ cho thấy rằng giải thuật rừng ngẫu nhiên cải tiến do chúng tôi đề xuất cho kết quả phân loại tốt khi so sánh với rừng ngẫu nhiên của cây quyết định C4.5 và máy học véctơ hỗ trợ dựa trên các tiêu chí Precision, Recall, F1, Accuracy.
Từ khóa: Phân loại dữ liệu gien, giải thuật học cây quyết định, rừng ngẫu nhiên, k láng giềng
Huỳnh Phụng Toàn, Nguyễn Minh Trung, Đỗ Thanh Nghị, Nguyễn Vũ Lâm, 2011. PHÂN LOẠI THƯ RÁC VỚI GIẢI THUẬT BOOSTING CÂY QUYẾT ĐỊNH NGẪU NHIÊN XIÊN PHÂN ĐƠN GIẢN. Tạp chí Khoa học Trường Đại học Cần Thơ. 19b: 1-9
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên