Một nhóm các nhà nghiên cứu của Apple và Đại học Tel Aviv đã tìm ra cách để tăng tốc độ tạo giọng nói dựa trên AI mà không làm giảm khả năng hiểu. Phương pháp này tập trung vào các mô hình tự hồi quy, vốn tạo ra các token âm thanh từng cái một.
Điểm cốt lõi của giải pháp là nhóm các token giọng nói có âm thanh tương tự nhau, tạo ra một bước xác minh linh hoạt hơn. Thay vì coi mỗi âm thanh là hoàn toàn khác biệt, cách tiếp cận của Apple cho phép mô hình chấp nhận một token thuộc cùng một nhóm “tương tự âm thanh” nói chung. Điều này giúp tăng tốc độ tạo giọng nói lên khoảng 40% so với các phương pháp trước đây, trong khi vẫn duy trì tỷ lệ lỗi từ thấp và chất lượng âm thanh tự nhiên.
Điểm đáng chú ý là phương pháp này không yêu cầu huấn luyện lại mô hình đích, mà là một thay đổi trong quá trình giải mã. Nó cũng chỉ yêu cầu tài nguyên bổ sung tối thiểu, làm cho nó trở nên thiết thực cho việc triển khai trên các thiết bị có bộ nhớ hạn chế.
Theo nghiên cứu được công bố trên trang Machine Learning của Apple, công nghệ này có thể liên quan đến các tính năng giọng nói trong tương lai của Apple, đòi hỏi sự cân bằng giữa tốc độ, chất lượng và hiệu quả.





























