Data classification using The Newton Support Vector Machine algorithm
Từ khóa:
Giải thuật Newton support vector machine, trọng số thích nghi và kết hợp, ARC-x4, phân lớp dữ liệu lớn
Keywords:
Newton support vector machine algorithm, adaptive reweighting and combining, ARC-x4, classifying large datasets
ABSTRACT
In this paper, we propose a new machine learning algorithm, called the ARC-x4 of finite Newton Support Vector Machine (NSVM) for classifying very large datasets on standard personal computers (PCs). SVM and kernel related methods have provided accurate classification models but their learning tasks usually need a quadratic programming with the requirement of large memory capacity and long time. We extend the recent NSVM proposed by Mangasarian for building a boosting-SVM algorithm. We have used the Sherman-Morrison-Woodbury formula to adapt the NSVM to process datasets with a very large number of dimensions. We have also applied the ARC-x4 approach proposed by Breiman to NSVM for classifying massive datasets with a very large number of datapoints as well as a very large number of dimensions. We have evaluated its performance on bio-medical datasets with a PC (2.4 GHz Pentium IV, 2 GB RAM).
TóM TắT
Chúng tôi trình bày trong bài viết một giải thuật học mới, ARC-x4 Newton support vector machine (ARC-x4-NSVM), cho phân loại tập dữ liệu lớn trên máy tính cá nhân. Máy học véc-tơ hỗ trợ (SVM) và phương pháp hàm nhân cung cấp mô hình phân lớp dữ liệu chính xác nhưng quá trình huấn luyện mô hình cần giải bài toán quy hoạch toàn phương rất mất thời gian và cần nhiều bộ nhớ. Chúng tôi đề xuất mở rộng giải thuật học NSVM của Mangasarian để xây dựng giải thuật cải tiến SVM. Chúng tôi đề xuất áp dụng công thức Sherman-Morrison-Woodbury vào giải thuật NSVM để có thể xử lý dữ liệu có số chiều rất lớn. Tiếp theo sau, chúng tôi kết hợp với phương pháp ARC-x4 của Breiman để xây dựng giải thuật ARC-x4-NSVM có thể phân loại dữ liệu với kích thước lớn về số phần tử cũng như số chiều. Chúng tôi đánh giá hiệu quả của giải thuật đề xuất trên tập dữ liệu y sinh học sử dụng máy tính cá nhân (2.4 GHz Pentium IV, 2 GB RAM).
Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Minh Trung, Trịnh Trung Hưng, 2014. PHÁT HIỆN MÔN HỌC QUAN TRỌNG ẢNH HƯỞNG ĐẾN KẾT QUẢ HỌC TẬP SINH VIÊN NGÀNH CÔNG NGHỆ THÔNG TIN. Tạp chí Khoa học Trường Đại học Cần Thơ. 33: 49-57
Đỗ Thanh Nghị, Trần Cao Đệ, 2014. KếT HợP NGữ NGHĩA VớI MÔ HìNH TúI Từ Để CảI TIếN GIảI THUậT K LáNG GIềNG TRONG PHÂN LớP VăN BảN NGắN. Tạp chí Khoa học Trường Đại học Cần Thơ. 34: 66-73
Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Nhị Gia Vinh, Văn Phạm Đăng Trí, 2013. SO SÁNH CÁC MÔ HÌNH DỰ BÁO LƯỢNG MƯA CHO THÀNH PHỐ CẦN THƠ. Tạp chí Khoa học Trường Đại học Cần Thơ. Chuyên Đề CNTT: 80-90
Đỗ Thanh Nghị, Phạm Nguyên Khang, 2013. PHÂN LOẠI VĂN BẢN: MÔ HÌNH TÚI TỪ VÀ TẬP HỢP MÔ HÌNH MÁY HỌC TỰ ĐỘNG. Tạp chí Khoa học Trường Đại học Cần Thơ. 28: 9-16
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên