Automatically creating description sentences for images is a task that involves aligning image under-standing with natural language processing. This paper presents a model for image captioning that employs a vision Transformer model with re-attention as the encoder and a T5-based model as the decoder. We conduct exper-iments with several Transformer-based models for image captioning on the Flickr8k datasets in both English and Vietnamese. The DeepViT+ViT5 model achieves a BLEU-4 score of 37.98, which is the best result so far for Vietnamese image captioning on the Flickr8k dataset.
Tạp chí: Association for Computational Linguistics (ACL 2023), In Findings of the Association for Computational Linguistics: ACL 2023, Toronto, Canada, 2023
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên