Dữ liệu số dạng văn bản là dạng dữ liệu có mật độ thông tin lớn, tương đối dễ khai thác. Tuy nhiên, khi tập dữ liệu văn bản đạt kích thước quá lớn, thì việc khai thác chúng cũng trở nên khó khăn. Người khai thác tập dữ liệu văn bản phải đối mặt với một lượng thông tin khổng lồ, trong khi chỉ một phần nhỏ trong số đó là đáp ứng được nhu cầu của họ. Đã có rất nhiều giải pháp được đưa ra để giúp người khai thác dữ liệu nhanh chóng tiếp cận với những thông tin mà họ quan tâm, nhưng nổi trội hơn cả vẫn là giải pháp xây dựng hệ thống tìm kiếm thông tin cho tập tài liệu cần khai thác. Trong bài báo này, chúng tôi sẽ trình bày giải pháp xây dựng một hệ thống tìm kiếm hiệu suất cao, trên tập tài liệu văn bản tiếng Việt có tính chất cá nhân, được lưu trữ cục bộ và có kích thước lớn. Các kỹ thuật chủ yếu được sử dụng là: kỹ thuật xử lý dữ liệu phân tán với mô hình MapReduce, kỹ thuật tính độ tương đồng giữa các tài liệu văn bản với mô hình không gian véctơ.
Tạp chí: The 3rd International conference on sustainable energy: "RISE towards a green future". Ho Chi Minh City University of Technology, Octorber 29-30,2013
Tạp chí: The 3rd International conference on sustainable energy: "RISE towards a green future". Ho Chi Minh City University of Technology, October 29-30,2013
Tạp chí: The 3rd International conference on sustainable energy: "RISE towards a green future". Ho Chi Minh City University of Technology, October 29-30,2013
Tạp chí: Hội thảo khoa học Ứng dụng công nghệ sáng tạo trong phát triển nông nghiệp Việt Nam tỉnh Kiên Giang lần thứ I năm 2013. Thời gian hội thảo 15-16/7/2013
Tạp chí: Hội thảo Quốc gia lần thứ XV "Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông", tổ chức tại Hà Nội từ ngày 03 đến ngày đến ngày 04 tháng 12 năm 2012
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên