Trong nhận dạng chữ viết nói chung và nhận dạng chữ viết tay nói riêng, trích đặc trưng là một bước rất quan trọng. Nó có ảnh hưởng lớn đến độ chính xác của kết quả nhận dạng. Nhận dạng kí tự chữ viết tay đã được nghiên cứu từ hơn 40 năm qua với nhiều bộ kí tự của các ngôn ngữ khác nhau, bao gồm các ngôn ngữ dựa trên bộ chữ cái Latin, tiếng A-rập, tiếng Trung Quốc,… Tuy nhiên, việc rút trích đặc trưng kí tự để nhận dạng là rất đặc thù, mỗi ngôn ngữ hay mỗi bộ chữ cái có những đặc trưng khác nhau. Đối với tiếng Việt, đã có một số nghiên cứu nhận dạng kí tự viết tay tiếng Việt. Các nghiên cứu khác nhau đề xuất các đặc trưng khác nhau cùng với các kết quả thực nghiệm trên các tập dữ liệu khác nhau, vì thế rất khó để so sánh các đặc trưng đó với nhau. Nghiên cứu này sẽ trình bày tóm lược một số đặc trưng đã biết và đi vào nghiên cứu so sánh một số phương pháp trích đặc trưng đã được đề xuất gần đây cho nhận dạng tiếng Việt có dấu. Các thực nghiệm so sánh dựa trên tập dữ liệu viết tay trực tuyến UNPEN và trên tập kí tự tiếng Việt tự thu thập gồm hơn 21000 mẫu các kí tự tiếng Việt viết hoa có dấu.
Tạp chí: Hội nghị Khoa học toàn quốc lần thứ 6 - Báo cáo khoa học về Sinh thái và Tài nguyên sinh vật, Viện Sinh thái và Tài nguyên Sinh vật, Hà Nội, 21/10/2015
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên