Vall-E, AI do Microsoft tạo ra, có thể bắt chước âm sắc và cách nói của người thật bằng cách lắng nghe giọng của họ trong ba giây dù âm thanh vẫn sẽ hơi giống giọng nói robot.
Hệ thống AI này của Microsoft có tên gọi là "Mô hình ngôn ngữ codec". Codec là công cụ sử dụng các thuật toán để xử lý video và lưu trữ trong một luồng byte. File âm thanh hoặc video được thu nhỏ và sau đó giải nén cho các mục đích khác nhau.
Vall-E được Microsoft xây dựng trên nền tảng EnCodec, một codec âm thanh sử dụng kỹ thuật máy học được phát triển năm 2022 bởi Meta. Vall-E tạo codec âm thanh riêng biệt bằng cách thu nhận và phân tích âm thanh của mỗi người, sau đó thông tin được chia nhỏ thành các phần gọi là "token" thông qua EnCodec. Cách này khác với các phương pháp chuyển văn bản thành giọng nói trước đây thường ở dạng sóng.
Sau đó, Vall-E sử dụng dữ liệu huấn luyện để khớp với những gì nó "biết" về ngữ điệu giọng nói, từ đó có thể nói các cụm từ khác theo đúng những gì "học" được.
Toàn bộ quá trình bắt chước giọng nói này được thực hiện trong ba giây - chưa từng có hệ thống AI bắt chước ngôn ngữ nào hiện nay đạt được.
Microsoft sử dụng một thư viện chứa 60.000 giờ nói tiếng Anh từ hơn 7.000 người để huấn luyện Vall-E. Thư viện này sẽ được bổ sung theo thời gian và nhiều ngôn ngữ khác.
Microsoft hy vọng Vall-E sẽ được ứng dụng trong phần mềm chuyển văn bản thành giọng nói chất lượng cao.
Tuy nhiên, Vall-E khiến giới chuyên gia lo ngại nó có thể bị dùng cho mục đích xấu. AI này có thể bị kẻ xấu lợi dụng để giả dạng giọng cho mục đích lừa đảo, thực hiện hành vi tống tiền. Nếu AI này kết hợp với video deepfake, mức độ nguy hiểm có thể nhân lên nhiều lần.