Nhận dạng tiếng nói tự động (ASR) cho tiếng Việt thường bị suy giảm độ chính xác đáng kể trong môi trường thực tế, nơi tín hiệu tiếng nói bị nhiễu bởi tiếng nói xen, nhạc nền, tiếng giao thông và âm thanh từ các thiết bị văn phòng. Nghiên cứu này đề xuất giải pháp mô hình hoá tạp âm trong quá trình huấn luyện mô hình âm học. Chúng tôi mô hình hóa 200 giờ lời nói sạch bằng cách trộn với 2 000 giờ tạp âm thu thập tại Việt Nam, ứng với sáu mức tỷ số tín hiệu-tạp âm (0-15 dB). Các đoạn chỉ chứa tạp âm được gắn thẻ trong nhãn huấn luyện, cho phép mạng học các “noise phone” chuyên biệt. Mô hình TDNN-LSTM được tối ưu hoá bằng tiêu chí lattice-free MMI trên tập dữ liệu mở rộng này giúp giảm WER tới 39% trên năm bộ kiểm thử nhiễu, đồng thời duy trì - thậm chí cải thiện - hiệu suất trên lời nói sạch. Kết quả chứng minh rằng mô hình hoá tạp âm là giải pháp khả thi để tăng cường độ bền vững cho hệ thống ASR tiếng Việt trong các ứng dụng tiêu dùng và doanh nghiệp. Hướng nghiên cứu tiếp theo sẽ tập...
Nhận dạng tiếng nói tự động (ASR) cho tiếng Việt thường bị suy giảm độ chính xác đáng kể trong môi trường thực tế, nơi tín hiệu tiếng nói bị nhiễu bởi tiếng nói xen, nhạc nền, tiếng giao thông và âm thanh từ các thiết bị văn phòng. Nghiên cứu này đề xuất giải pháp mô hình hoá tạp âm trong quá trình huấn luyện mô hình âm học. Chúng tôi mô hình hóa 200 giờ lời nói sạch bằng cách trộn với 2 000 giờ tạp âm thu thập tại Việt Nam, ứng với sáu mức tỷ số tín hiệu-tạp âm (0-15 dB). Các đoạn chỉ chứa tạp âm được gắn thẻ trong nhãn huấn luyện, cho phép mạng học các “noise phone” chuyên biệt. Mô hình TDNN-LSTM được tối ưu hoá bằng tiêu chí lattice-free MMI trên tập dữ liệu mở rộng này giúp giảm WER tới 39% trên năm bộ kiểm thử nhiễu, đồng thời duy trì - thậm chí cải thiện - hiệu suất trên lời nói sạch. Kết quả chứng minh rằng mô hình hoá tạp âm là giải pháp khả thi để tăng cường độ bền vững cho hệ thống ASR tiếng Việt trong các ứng dụng tiêu dùng và doanh nghiệp. Hướng nghiên cứu tiếp theo sẽ tập trung vào tự động hoá phân đoạn tạp âm và tích hợp các mô hình ngôn ngữ tiên tiến hơn nhằm nâng cao hơn nữa độ chính xác của hệ thống.