In this paper, we propose an indexing approach for camera-based document image retrieval and spotting systems. The proposed approach is based on randomized hierarchical trees without storing database vector points in the memory. To construct the trees, k-means-based clustering is used for splitting the data points of every non-leaf node into 2 distinct groups. Instead of using the entire dimensions, only a small number of dimensions is chosen randomly and they are combined with the dimension with the highest variance which is computed along all dimensions and the maximum variance is selected. Experimental results demonstrate the usefulness of the proposed approach for limited memory situations, as the proposed random trees could approximately reach the accuracy of state-of-the-art methods on Tobacco dataset without storing the database descriptors in memory.
Đặng Quốc Bảo, Đỗ Thanh Nghị, Trần Huỳnh Lê, 2011. PHÂN LOẠI DỮ LIỆU GIEN VỚI GIẢI THUẬT MÁY HỌC ARCX4-RODT. Tạp chí Khoa học Trường Đại học Cần Thơ. 19b: 30-38
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên