no-1

Kết hợp học sâu với svm để nâng cao chất lượng xử lý tiếng nói con người trong các thiết bị IoT

Tác giả:
Nguyễn Năng An
Trang:
120
Lượt xem:
1118
Số trong tạp chí:
1/1
Lượt tải:
550
Cùng với sự phát triển của khoa học kỹ thuật, đặc biệt là internet vạn vật kết nối (IoT), các sản phẩm liên quan đến IoT thường được điều khiển bằng tiếng nói con người. Nhận dạng tiếng nói con người là kỹ thuật bị ảnh hưởng bởi các nguyên nhân như môi trường, độ dài của thời gian. Các kỹ thuật nhận dạng tiếng nói hiện nay vẫn chưa khắc phục được hết các nguyên nhân kể trên, do đó các kỹ thuật nhận dạng, xử lý tiếng nói có nhu cầu bắt buộc phải cải tiến. Để tăng cường khả năng nhận dạng xử lý tiếng nói đảm các yêu cầu trên. Nhóm nghiên cứu chúng tôi đã đề xuất một phương pháp mới kết hợp các kỹ thuật nhận dạng tiếng nói: Đầu tiên là thông qua CNN, VGG-CNN và RNN để lấy các âm đặc trưng của tín hiệu đầu vào sau đó lợi dụng vào máy hỗ trợ Vector (SVM) để tiến hành phân loại các âm đặc trưng, cuối cùng chúng tôi dùng hàm số Softmax để phán đoán kết quả nhận dạng. Kết quả thử nghiệm được sử dụng trong cơ sở dữ liệu tiêu chuẩn Voxcelb thể hiện sự vượt trội trong nhận dạng tiếng nói con...
Cùng với sự phát triển của khoa học kỹ thuật, đặc biệt là internet vạn vật kết nối (IoT), các sản phẩm liên quan đến IoT thường được điều khiển bằng tiếng nói con người. Nhận dạng tiếng nói con người là kỹ thuật bị ảnh hưởng bởi các nguyên nhân như môi trường, độ dài của thời gian. Các kỹ thuật nhận dạng tiếng nói hiện nay vẫn chưa khắc phục được hết các nguyên nhân kể trên, do đó các kỹ thuật nhận dạng, xử lý tiếng nói có nhu cầu bắt buộc phải cải tiến. Để tăng cường khả năng nhận dạng xử lý tiếng nói đảm các yêu cầu trên. Nhóm nghiên cứu chúng tôi đã đề xuất một phương pháp mới kết hợp các kỹ thuật nhận dạng tiếng nói: Đầu tiên là thông qua CNN, VGG-CNN và RNN để lấy các âm đặc trưng của tín hiệu đầu vào sau đó lợi dụng vào máy hỗ trợ Vector (SVM) để tiến hành phân loại các âm đặc trưng, cuối cùng chúng tôi dùng hàm số Softmax để phán đoán kết quả nhận dạng. Kết quả thử nghiệm được sử dụng trong cơ sở dữ liệu tiêu chuẩn Voxcelb thể hiện sự vượt trội trong nhận dạng tiếng nói con người so với phương pháp i-vector truyền thống hay các phương pháp CNN khác.
Tin liên quan

Tạp chí khoa học Trường Đại học Vinh

Vinh University journal of science (VUJS)

ISSN: 1859 - 2228

Cơ quan chủ quản: Trường Đại học Vinh

  • Địa chỉ: 182 Lê Duẩn - Thành Phố Vinh - tỉnh Nghệ An
  • Điện thoại: (0238)3855.452 - Fax: (0238)3855.269
  • Email: vinhuni@vinhuni.edu.vn
  • Website: https://vinhuni.edu.vn

 

Giấy phép xuất bản tạp chí: 163/GP-BTTTT do Bộ Thông tin và Truyền thông cấp ngày 10/5/2023

Giấy phép truy cập mở: Creative Commons CC BY NC 4.0

 

LIÊN HỆ

Tổng biên tập: PGS.TS. Trần Bá Tiến 
Email: tientb@vinhuni.edu.vn

Phó Tổng biên tập: TS. Phan Văn Tiến
Email: vantienkxd@vinhuni.edu.vn

Thư ký tòa soạn: TS. Đỗ Mai Trang
Email: domaitrang@vinhuni.edu.vn

Ban thư ký và trị sự: ThS. Lê Tuấn Dũng, ThS. Phan Thế Hoa, ThS. Phạm Thị Quỳnh Nga, ThS. Trần Thị Thái

  • Địa chỉ Toà soạn: Tầng 4, Tòa nhà Điều hành, Số 182 Lê Duẩn, TP. Vinh, Nghệ An, Việt Nam
  • Điện thoại: (0238)3.856.700 | Hotline: 0973.856.700
  • Email: editors@vujs.vn
  • Website: https://vujs.vn

img