Automatically creating description sentences for images is a task that involves aligning image under-standing with natural language processing. This paper presents a model for image captioning that employs a vision Transformer model with re-attention as the encoder and a T5-based model as the decoder. We conduct exper-iments with several Transformer-based models for image captioning on the Flickr8k datasets in both English and Vietnamese. The DeepViT+ViT5 model achieves a BLEU-4 score of 37.98, which is the best result so far for Vietnamese image captioning on the Flickr8k dataset.
Tạp chí: Enhancing cooperation to promote sustainable tourism in response to climate change, the fourth industrial revolution and artificial intelligence
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên