Cơ sở dữ liệu từ vựng hay mạng từ (WordNet) là nguồn tài nguyên từ vựng được sử dụng phổ biến trong lĩnh vực xử lý ngôn ngữ tự nhiên như tóm tắt văn bản, rút trích thông tin và máy dịch. Bài báo trình bày phương pháp xây dựng WordNet cho tiếng Việt (VWN). Mục tiêu của nghiên cứu là xây dựng VWN có cùng cấu trúc với Princeton WordNet (PWN). Đầu tiên, các synset trong PWN được dịch về tiếng Việt để tạo ra các ứng viên tiềm năng (candidates). Một phương pháp ranking được sử dụng để loại bỏ các mục dịch không chính xác. Nhằm tăng độ bao phủ (coverage) về số lượng các synset trong VWN so với PWN, WordNet có cùng cấu trúc với PWN ở các ngôn ngữ khác nhau sẽ được sử dụng. Cuối cùng, mối quan hệ giữa các synset trong VWN được thiết lập dựa trên các mối quan hệ của synset trong PWN. VWN hiện tại chứa 78.285 synset (tỷ lệ bao phủ của synset là 66,54%) và 80.413 mối quan hệ ngữ nghĩa.
Tạp chí: Association for Computational Linguistics (ACL 2023), In Findings of the Association for Computational Linguistics: ACL 2023, Toronto, Canada, 2023
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên