Dữ liệu số dạng văn bản là dạng dữ liệu có mật độ thông tin lớn, tương đối dễ khai thác. Tuy nhiên, khi tập dữ liệu văn bản đạt kích thước quá lớn, thì việc khai thác chúng cũng trở nên khó khăn. Người khai thác tập dữ liệu văn bản phải đối mặt với một lượng thông tin khổng lồ, trong khi chỉ một phần nhỏ trong số đó là đáp ứng được nhu cầu của họ. Đã có rất nhiều giải pháp được đưa ra để giúp người khai thác dữ liệu nhanh chóng tiếp cận với những thông tin mà họ quan tâm, nhưng nổi trội hơn cả vẫn là giải pháp xây dựng hệ thống tìm kiếm thông tin cho tập tài liệu cần khai thác. Trong bài báo này, chúng tôi sẽ trình bày giải pháp xây dựng một hệ thống tìm kiếm hiệu suất cao, trên tập tài liệu văn bản tiếng Việt có tính chất cá nhân, được lưu trữ cục bộ và có kích thước lớn. Các kỹ thuật chủ yếu được sử dụng là: kỹ thuật xử lý dữ liệu phân tán với mô hình MapReduce, kỹ thuật tính độ tương đồng giữa các tài liệu văn bản với mô hình không gian véctơ.
Ngô Bá Hùng, Quách Kim Hải, 2015. Một số thực nghiệm để xác định tải cho ứng dụng thi trực tuyến trên Moodle. Tạp chí Khoa học Trường Đại học Cần Thơ. 37: 25-32
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên