In this paper, we propose a new algorithm, called ArcX4-rODT (ArcX4 of random oblique decision trees) to classify gene data which have very small amount of samples in very high dimensions and noise. Our ArcX4-rODT algorithm constructs sequentially k random oblique trees so that each tree concentrates mostly on the errors produced by the previous ones. Furthermore, the hyper-plane obtained by Fisher's linear discriminant analysis is also used to perform multivariate splitting data at each internal node of the decision tree. Thus, the ArcX4-rODT can deal with very-high-dimensional data and noise. The experimental results on gene datasets from datam.i2r.a-star.edu.sg/datasets/krbd/ showed that our ArcX4-rODT algorithm outperforms randomforestofC4.5(RF-C4.5) and SVM (LibSVM).
Keywords: ArcX4, Random oblique decision tree, Linear discriminant analysis, gene classification
Title: Classification of Gene Expression using ArcX4-rODT Learning Algorithm
Tóm tắt
Trong bài viết này, chúng tôi trình bày giải thuật máy học mới ArcX4 của cây quyết định ngẫu nhiên xiên phân (ArcX4-rODT). Giải thuật ArcX4-rODT xây dựng tuần tự tập hợp cây xiên phân ngẫu nhiên, cây xây dựng sau sẽ tập trung lên các mẫu bị phân lớp sai bởi các cây trước, mỗi cây thành viên sử dụng siêu phẳng phân chia dữ liệu hiệu quả tại mỗi nút của cây dựa trên phân tích biệt lập tuyến tính. Việc xây dựng cây xiên phân ngẫu nhiên vì thế tạo cho giải thuật có khả năng làm việc tốt trên dữ liệu có số chiều lớn và nhiễu như dữ liệu gien. Kết quả thử nghiệm trên các tập dữ liệu gien từ site datam.i2r.a-star.edu.sg/datasets/krbd/ cho thấy rằng giải thuật ArcX4-rODT mới do chúng tôi đề xuất phân loại tốt hơn khi so sánh với rừng ngẫu nhiên của cây quyết định C4.5 và máy học véctơ hỗ trợ.
Từ khóa: Giải thuật ArcX4, Cây ngẫu nhiên xiên phân, Phương pháp phân tích biệt lập tuyến tính, Phân loại dữ liệu gien
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên