Stochastic gradient descent for classifying very large datasets
Từ khóa:
Máy học véc-tơ hỗ trợ (SVM), giảm gradient ngẫu nhiên (SGD), phân lớp dữ liệu lớn
Keywords:
Support vector machines (SVM), Stochastic gradient descent (SGD), classifying very large datasets
ABSTRACT
In this paper, we present the support vector machines algorithm using the stochastic gradient descent for classifying very large datasets. To reach the sparsity in the solution, the support vector machines algorithm uses the hinge loss in classification tasks. Thus, the direct optimization using the stochastic gradient descent is difficult due to the differentiation of the hinge loss. Our proposal is to substitute the hinge loss used in the problem formula of the support vector machines algorithm by the smooth ones to improve the convergence rate of the stochastic gradient descent. The numerical test results on two large textual datasets (RCV1, twitter) show that our approach is more efficient than the usual hinge loss.
TÓM TẮT
Trong bài viết, chúng tôi trình bày giải thuật giảm gradient ngẫu nhiên sử dụng trong máy học véc-tơ hỗ trợ cho phân lớp dữ liệu lớn. Máy học véc-tơ hỗ trợ sử dụng hàm hinge loss trong phân lớp nhằm đạt được tính chất thưa trong lời giải. Tuy nhiên, do hàm hinge loss không khả vi là nguyên nhân làm chậm hội tụ đến lời giải khi áp dụng giải thuật giảm gradient ngẫu nhiên. Chúng tôi nghiên cứu thay thế hàm hinge loss được sử dụng trong vấn đề tối ưu của giải thuật máy học véc-tơ hỗ trợ bằng các hàm xấp xỉ, khả vi nhằm cải tiến tốc độ hội tụ của giải thuật giảm gradient ngẫu nhiên. Kết quả thực nghiệm trên 2 tập dữ liệu văn bản lớn (RCV1, twitter) cho thấy hiệu quả của đề xuất sử dụng hàm xấp xỉ so với hàm hinge loss.
Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Minh Trung, 2014. PHÂN LỚP DỮ LIỆU VỚI GIẢI THUẬT NEWTON SVM. Tạp chí Khoa học Trường Đại học Cần Thơ. 32: 35-41
Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Minh Trung, Trịnh Trung Hưng, 2014. PHÁT HIỆN MÔN HỌC QUAN TRỌNG ẢNH HƯỞNG ĐẾN KẾT QUẢ HỌC TẬP SINH VIÊN NGÀNH CÔNG NGHỆ THÔNG TIN. Tạp chí Khoa học Trường Đại học Cần Thơ. 33: 49-57
Đỗ Thanh Nghị, Trần Cao Đệ, 2014. KếT HợP NGữ NGHĩA VớI MÔ HìNH TúI Từ Để CảI TIếN GIảI THUậT K LáNG GIềNG TRONG PHÂN LớP VăN BảN NGắN. Tạp chí Khoa học Trường Đại học Cần Thơ. 34: 66-73
Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Nhị Gia Vinh, Văn Phạm Đăng Trí, 2013. SO SÁNH CÁC MÔ HÌNH DỰ BÁO LƯỢNG MƯA CHO THÀNH PHỐ CẦN THƠ. Tạp chí Khoa học Trường Đại học Cần Thơ. Chuyên Đề CNTT: 80-90
Đỗ Thanh Nghị, Phạm Nguyên Khang, 2013. PHÂN LOẠI VĂN BẢN: MÔ HÌNH TÚI TỪ VÀ TẬP HỢP MÔ HÌNH MÁY HỌC TỰ ĐỘNG. Tạp chí Khoa học Trường Đại học Cần Thơ. 28: 9-16
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên