Để xây dựng một từ điển mới từ một ngôn ngữ nguồn A sang một ngôn ngữ đích C, ký hiệu là Dict(A,C), các phương pháp hiện tại cần nhiều nguồn tài nguyên có sẵn như các tự điển trung gian hoặc một lượng lớn tài liệu văn bản ở ngôn ngữ A, C và ở một hoặc nhiều ngôn ngữ trung gian B. Tuy nhiên, không phải ngôn ngữ nào cũng có các nguồn tài nguyên sẵn có như vậy, đặc biệt là các ngôn ngữ ít tài nguyên hoặc ngôn ngữ “nguy cấp” được UNESCO thống kê. Bài báo này trình bày phương pháp làm tăng số lượng entry trong từ điển sẵn có và xây dựng một từ điển mới Dict(A,C) bằng phương pháp ánh xạ trung gian từ 2 tự điển sẵn có Dict(A,B) và Dict(B,C) với B là một ngôn ngữ phổ biến. Cụ thể hơn, chúng tôi sử dụng tiếng Anh như một ngôn ngữ trung gian để thực hiện việc ánh xạ ngữ nghĩa các từ vựng ở ngôn ngữ A sang ngôn ngữ C. Để loại bỏ các mục dịch không chính xác, chúng tôi sử dụng phương pháp tính trọng số. Nếu một mục dịch có trọng lượng lớn hơn một ngưỡng δ, nó được xem như là mục dịch tốt và sẽ được thêm vào tự điển mới Dict(A,C). Nghiên cứu của chúng tôi không chỉ giúp giảm đáng kể chi phí xây dựng các tự điển mới, mà nó còn góp phần hỗ trợ các cộng đồng sử dụng ngôn ngữ không có nhiều nguồn tài nguyên từ vựng.
Tạp chí: Association for Computational Linguistics (ACL 2023), In Findings of the Association for Computational Linguistics: ACL 2023, Toronto, Canada, 2023
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên