Thông tin chung: Ngày nhận: 22/10/2014 Ngày chấp nhận: 29/12/2014 Title: Developing plagiarism detection system for Vietnamese university Từ khóa: Đạo văn, phát hiện sao chép, hệ thống phân tán, tính toán hiệu năng cao, chỉ mục nghịch đảo Keywords: Plagiarism, plagiarism detection system, plagiarism detector | ABSTRACT Plagiarism is known as a serious concern in academic environment. Beside strict policy applied to plagiarist, there could be some kind of tools to help both educators and students prevent it. There are commercial products produced to detect plagiarism. However, these products are too expensive to educators in Vietnam and they have not given any proof whether these products work well in Vietnamese. Moreover, there are some detection methods available that could be a good choice to work in Vietnamese academic environment. However, these products have their own detection methods and these methods could not be changed. In addition, scalability is also an important feature for a plagiarism detection system because the number of documents in database is very large and increases rapidly. In this paper, we present a plagiarism detection system to detect plagiarism that have three above features: working on one’s own database, flexibility, and scalability. TÓM TẮT Đạo văn được biết đến như một vấn nạn trong môi trường học thuật. Bên cạnh các chế tài nghiêm ngặt cho người đạo văn, cần có những công cụ hiệu quả để ngăn chặn, không để xảy ra tình trạng đạo văn trong trường đại học và trong sinh viên. Đã có nhiều ứng dụng được xây dựng để phát hiện đạo văn. Tuy nhiên, các sản phẩm này thường là khá đắt đỏ và chưa được kiểm chứng có thực sự phù hợp với nguồn tài liệu tiếng Việt hay không. Chúng thường dựa trên các thuật toán phát hiện đạo văn của riêng mình và thường thì không thể bổ sung hay tùy biến nhằm phù hợp với môi trường và ngôn ngữ tiếng Việt. Ngoài ra, khả năng mở rộng cũng là một tính năng quan trọng đối với một hệ thống phát hiện đạo văn vì số lượng tài liệu trong cơ sở dữ liệu là rất lớn và tăng lên nhanh chóng. Trong bài báo này, chúng tôi trình bày một hệ thống phát hiện sao chép để phát hiện đạo văn với các tính năng quan trọng: làm việc trên một cơ sở dữ liệu riêng, lớn của một tổ chức như trường đại học; linh hoạt, dễ mở rộng; đáp ứng hiệu năng tính toán mong đợi. Chúng tôi đề xuất giải pháp sử dụng hệ thống phân tán, sử dụng công nghệ NoSQL, lập chỉ mục nghịch đảo với công nghệ Hyperdex. Việc tính toán xử lí trong hệ thống là tính toán song song được trên nền tảng công nghệ JPPF. |