no-4

Nâng cao mô hình âm học cho nhận dạng tiếng nói tiếng Việt sử dụng mô hình hoá tạp âm

Tác giả:
Nguyễn Thu Phương
Trang:
0
Lượt xem:
2
Số trong tạp chí:
8/8
Lượt tải:
0
Nhận dạng tiếng nói tự động (ASR) cho tiếng Việt thường bị suy giảm độ chính xác đáng kể trong môi trường thực tế, nơi tín hiệu tiếng nói bị nhiễu bởi tiếng nói xen, nhạc nền, tiếng giao thông và âm thanh từ các thiết bị văn phòng. Nghiên cứu này đề xuất giải pháp mô hình hoá tạp âm trong quá trình huấn luyện mô hình âm học. Chúng tôi mô hình hóa 200 giờ lời nói sạch bằng cách trộn với 2 000 giờ tạp âm thu thập tại Việt Nam, ứng với sáu mức tỷ số tín hiệu-tạp âm (0-15 dB). Các đoạn chỉ chứa tạp âm được gắn thẻ trong nhãn huấn luyện, cho phép mạng học các “noise phone” chuyên biệt. Mô hình TDNN-LSTM được tối ưu hoá bằng tiêu chí lattice-free MMI trên tập dữ liệu mở rộng này giúp giảm WER tới 39% trên năm bộ kiểm thử nhiễu, đồng thời duy trì - thậm chí cải thiện - hiệu suất trên lời nói sạch. Kết quả chứng minh rằng mô hình hoá tạp âm là giải pháp khả thi để tăng cường độ bền vững cho hệ thống ASR tiếng Việt trong các ứng dụng tiêu dùng và doanh nghiệp. Hướng nghiên cứu tiếp theo sẽ tập...
Nhận dạng tiếng nói tự động (ASR) cho tiếng Việt thường bị suy giảm độ chính xác đáng kể trong môi trường thực tế, nơi tín hiệu tiếng nói bị nhiễu bởi tiếng nói xen, nhạc nền, tiếng giao thông và âm thanh từ các thiết bị văn phòng. Nghiên cứu này đề xuất giải pháp mô hình hoá tạp âm trong quá trình huấn luyện mô hình âm học. Chúng tôi mô hình hóa 200 giờ lời nói sạch bằng cách trộn với 2 000 giờ tạp âm thu thập tại Việt Nam, ứng với sáu mức tỷ số tín hiệu-tạp âm (0-15 dB). Các đoạn chỉ chứa tạp âm được gắn thẻ trong nhãn huấn luyện, cho phép mạng học các “noise phone” chuyên biệt. Mô hình TDNN-LSTM được tối ưu hoá bằng tiêu chí lattice-free MMI trên tập dữ liệu mở rộng này giúp giảm WER tới 39% trên năm bộ kiểm thử nhiễu, đồng thời duy trì - thậm chí cải thiện - hiệu suất trên lời nói sạch. Kết quả chứng minh rằng mô hình hoá tạp âm là giải pháp khả thi để tăng cường độ bền vững cho hệ thống ASR tiếng Việt trong các ứng dụng tiêu dùng và doanh nghiệp. Hướng nghiên cứu tiếp theo sẽ tập trung vào tự động hoá phân đoạn tạp âm và tích hợp các mô hình ngôn ngữ tiên tiến hơn nhằm nâng cao hơn nữa độ chính xác của hệ thống.
Tin liên quan

Tạp chí khoa học Trường Đại học Vinh

Vinh University journal of science (VUJS)

ISSN: 1859 - 2228

Cơ quan chủ quản: Trường Đại học Vinh

  • Địa chỉ: 182 Lê Duẩn - Thành Phố Vinh - tỉnh Nghệ An
  • Điện thoại: (0238)3855.452 - Fax: (0238)3855.269
  • Email: vinhuni@vinhuni.edu.vn
  • Website: https://vinhuni.edu.vn

 

Giấy phép xuất bản tạp chí: 163/GP-BTTTT do Bộ Thông tin và Truyền thông cấp ngày 10/5/2023

Giấy phép truy cập mở: Creative Commons CC BY NC 4.0

 

LIÊN HỆ

Tổng biên tập: PGS.TS. Trần Bá Tiến 
Email: tientb@vinhuni.edu.vn

Phó Tổng biên tập: PGS.TS. Phan Văn Tiến
Email: vantienkxd@vinhuni.edu.vn

Thư ký tòa soạn: TS. Đỗ Mai Trang
Email: domaitrang@vinhuni.edu.vn

Ban thư ký và trị sự: ThS. Lê Tuấn Dũng, ThS. Phan Thế Hoa, ThS. Phạm Thị Quỳnh Nga, ThS. Trần Thị Thái

  • Địa chỉ Toà soạn: Tầng 4, Tòa nhà Điều hành, Số 182 Lê Duẩn, TP. Vinh, Nghệ An, Việt Nam
  • Điện thoại: (0238)3.856.700 | Hotline: 0973.856.700
  • Email: editors@vujs.vn
  • Website: https://vujs.vn

img