Trong bài báo này, chúng tôi trình bày ý tưởng điều khiển robot Pioneer P3-DX bằng tiếng nói theo thời gian thực với giải thuật Naïve Bayes Nearest Neighbor (NBNN) sử dụng đặc trưng MFCC (Mel-scale Frequency Cepstral Coefficient). Tập dữ liệu cho quá trình huấn luyện và nhận dạng là các mẫu tiếng nói tương ứng với các lệnh điều khiển robot được thu âm từ 20 người đọc khác nhau. Bước xử lý tiếp theo là thực hiện rút trích 39 đặc trưng MFCC từ mỗi mẫu âm thanh của tập dữ liệu thu được. Chúng tôi đề xuất sử dụng giải thuật máy học NBNN để nhận dạng trực tiếp các tiếng nói là các lệnh điều khiển hoạt động robot từ các đặc trưng MFCC tương ứng không cần bất kỳ thao tác xử lý trung gian nào khác. Kết quả thực nghiệm cho thấy rằng phương pháp đề xuất (NBNN sử dụng đặc trưng MFCC) có thể nhận dạng chính xác tiếng nói là các lệnh điều khiển robot, đáp ứng thời gian thực. Giải thuật NBNN cho độ chính xác trong nhận dạng là 98.5%, cao hơn khi so sánh với giải thuật (Support vector machines - máy học véc-tơ hỗ trợ) SVM và mô hình túi từ với độ chính xác tương ứng là 97.14%, giải thuật (Dynamic time warping – xoắn thời gian động) DTW có độ chính xác tương ứng là 98.4%, và (Hidden Markov model - mô hình Markov ẩn) HMM có độ chính xác là 97.8%. Hơn nữa, phương pháp NBNN sử dụng MFCC đơn giản và có thời gian thực hiện nhanh hơn, đáp ứng được yêu cầu điều khiển robot thời gian thực.
Tạp chí: Hội thảo "Hệ thống thông tin trong kinh tế - WISE15", Phòng B201, trường ĐH Kinh Tế TPHCM, 279 Nguyễn Tri Phương, Q10, Thời gian: ngày 19/12/2015
Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn
Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên