Automatically creating description sentences for images is a task that involves aligning image under-standing with natural language processing. This paper presents a model for image captioning that employs a vision Transformer model with re-attention as the encoder and a T5-based model as the decoder. We conduct exper-iments with several Transformer-based models for image captioning on the Flickr8k datasets in both English and Vietnamese. The DeepViT+ViT5 model achieves a BLEU-4 score of 37.98, which is the best result so far for Vietnamese image captioning on the Flickr8k dataset.
Tạp chí: Enhancing cooperation to promote sustainable tourism in response to climate change, the fourth industrial revolution and artificial intelligence
Tạp chí khoa học Trường Đại học Cần Thơ
Khu II, Đại học Cần Thơ, Đường 3/2, Phường Ninh Kiều, Thành phố Cần Thơ, Việt Nam
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên