Cơ sở dữ liệu từ vựng hay mạng từ (WordNet) là nguồn tài nguyên từ vựng được sử dụng phổ biến trong lĩnh vực xử lý ngôn ngữ tự nhiên như tóm tắt văn bản, rút trích thông tin và máy dịch. Bài báo trình bày phương pháp xây dựng WordNet cho tiếng Việt (VWN). Mục tiêu của nghiên cứu là xây dựng VWN có cùng cấu trúc với Princeton WordNet (PWN). Đầu tiên, các synset trong PWN được dịch về tiếng Việt để tạo ra các ứng viên tiềm năng (candidates). Một phương pháp ranking được sử dụng để loại bỏ các mục dịch không chính xác. Nhằm tăng độ bao phủ (coverage) về số lượng các synset trong VWN so với PWN, WordNet có cùng cấu trúc với PWN ở các ngôn ngữ khác nhau sẽ được sử dụng. Cuối cùng, mối quan hệ giữa các synset trong VWN được thiết lập dựa trên các mối quan hệ của synset trong PWN. VWN hiện tại chứa 78.285 synset (tỷ lệ bao phủ của synset là 66,54%) và 80.413 mối quan hệ ngữ nghĩa.
Tạp chí: Hội thảo khoa học quốc tế "Ứng dụng GIS và viễn thám trong nghiên cứu Địa lý và quản lý, giám sát tài nguyên môi trường, Trường Đại học sư phạm Hà Nội, tháng 12/2017
Tạp chí: Hội thảo "Bảo tồn và phát huy các giá trị văn hóa sông nước Đồng bằng sông Cửu Long trong quá trình hội nhập và phát triển", tại Trường Đại học Cần Thơ, ngày 28/11/2017
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên