Plagiarism detection problem has been taken into account both individuals and organizations. This problem can be used to detect the copy of documents, e.g., publications, books, theses, and more. There are many approaches that have been proposed for plagiarism detection and they work well for English. Different countries may use different languages, thus, natural language processing (e.g. processing of acute accent, circumflex accent, etc.) as well as semantic or order of the words are still challenging. This work proposes an approach for plagiarism detection, especially for Vietnamese documents in learning/researching resources. The input data were pre-processed, extracted, vectorized and represented in term of TF-IDF. Then, Cosine similarity and word-order similarity of the documents are computed. Finally, an ensemble of these similarities is combined. Experimental results on a Vietnamese journal dataset show that the proposed approach is feasibility.
Trích dẫn: Trần Thanh Điện và Nguyễn Thái Nghe, 2017. Các mô hình e-learning hỗ trợ dạy và học. Tạp chí Khoa học Trường Đại học Cần Thơ. Số chuyên đề: Công nghệ thông tin: 103-111.
Trích dẫn: Trần Thanh Điện, Thái Nhựt Thanh và Nguyễn Thái Nghe, 2019. Giải pháp phân loại bài báo khoa học bằng kĩ thuật máy học. Tạp chí Khoa học Trường Đại học Cần Thơ. 55(4A): 29-37.
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên