Đăng nhập
 
Tìm kiếm nâng cao
 
Tên bài báo
Tác giả
Năm xuất bản
Tóm tắt
Lĩnh vực
Phân loại
Số tạp chí
 

Bản tin định kỳ
Báo cáo thường niên
Tạp chí khoa học ĐHCT
Tạp chí tiếng anh ĐHCT
Tạp chí trong nước
Tạp chí quốc tế
Kỷ yếu HN trong nước
Kỷ yếu HN quốc tế
Book chapter
Bài báo - Tạp chí
(2015) Trang: 197-206
Tạp chí: Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 2015, ĐHCN Hà Nội, 7/2015

Trong bài báo này, chúng tôi trình bày ý tưởng điều khiển robot Pioneer P3-DX bằng tiếng nói theo thời gian thực với giải thuật Naïve Bayes Nearest Neighbor (NBNN) sử dụng đặc trưng MFCC (Mel-scale Frequency Cepstral Coefficient). Tập dữ liệu cho quá trình huấn luyện và nhận dạng là các mẫu tiếng nói tương ứng với các lệnh điều khiển robot được thu âm từ 20 người đọc khác nhau. Bước xử lý tiếp theo là thực hiện rút trích 39 đặc trưng MFCC từ mỗi mẫu âm thanh của tập dữ liệu thu được. Chúng tôi đề xuất sử dụng giải thuật máy học NBNN để nhận dạng trực tiếp các tiếng nói là các lệnh điều khiển hoạt động robot từ các đặc trưng MFCC tương ứng không cần bất kỳ thao tác xử lý trung gian nào khác. Kết quả thực nghiệm cho thấy rằng phương pháp đề xuất (NBNN sử dụng đặc trưng MFCC) có thể nhận dạng chính xác tiếng nói là các lệnh điều khiển robot, đáp ứng thời gian thực. Giải thuật NBNN cho độ chính xác trong nhận dạng là 98.5%, cao hơn khi so sánh với giải thuật (Support vector machines - máy học véc-tơ hỗ trợ) SVM  và mô hình túi từ với độ chính xác tương ứng là 97.14%, giải thuật (Dynamic time warping – xoắn thời gian động) DTW có độ chính xác tương ứng là 98.4%, và (Hidden Markov model - mô hình Markov ẩn) HMM có độ chính xác là 97.8%. Hơn nữa, phương pháp NBNN sử dụng MFCC đơn giản và có thời gian thực hiện nhanh hơn, đáp ứng được yêu cầu điều khiển robot thời gian thực.

 


Vietnamese | English






 
 
Vui lòng chờ...