AI “bá đạo” này có thể “nhại” giọng nói chính xác chỉ sau 3 giây học hỏi

Vall-E, được phát triển bởi một nhóm các nhà nghiên cứu tại Microsoft, sử dụng một hệ thống hoàn toàn mới để học cách trò chuyện.

Theo PC Gamer, nhân loại đã tiến thêm một bước đến gần với cuộc chiến không thể tránh khỏi đó là sự thống trị của máy móc trong tương lai, với việc tạo ra Vall-E, một trí tuệ nhân tạo (AI) được phát triển bởi các nhà nghiên cứu tại Microsoft. AI này có khả năng tạo ra các bản sao chất lượng cao của giọng nói con người chỉ trong vài giây sau khi được đào tạo.

Vall-E không phải là AI giọng nói đầu tiên trên thế giới, trước đó từng có xVASynth, nhưng khả năng của Vall-E dự kiến có thể vượt xa những “bậc tiền bối” trước đây.

Trong một bài báo của Đại học Cornell, các nhà nghiên cứu của Vall-E cho biết hầu hết các hệ thống chuyển văn bản thành giọng nói hiện tại đều bị hạn chế bởi sự phụ thuộc vào "high-quality clean data – dữ liệu sạch chất lượng cao" để tổng hợp chính xác kết quả và đưa ra giọng nói với chất lượng tốt nhất, giống nhất và tự nhiên nhất.

Nhưng lượng dữ liệu quy mô lớn được thu thập từ Internet hiện không thể đáp ứng yêu cầu nói trên và luôn dẫn đến hiệu suất bị suy giảm. Bởi vì dữ liệu đào tạo cho AI tương đối hạn chế nên kết quả về sự tương đồng của người nói và độ tự nhiên của giọng nói bị giảm đáng kể, vì AI không thể tìm thấy dữ liệu và “kịch bản” cần thiết để vận hành.

“Kịch bản” ở đây được hiểu là khả năng AI tái tạo giọng nói mà không cần được đào tạo cụ thể về chúng.

Nhưng Vall-E được đào tạo với cơ sở dữ liệu lớn và đa dạng hơn nhiều với hơn 60.000 giờ nói bằng tiếng Anh được lấy từ hơn 7.000 người khác nhau, tất cả đều được phiên âm bằng phần mềm nhận dạng giọng nói.

Dữ liệu được cung cấp cho AI chứa cả những lời nói trong môi trường ồn ào và cả trường hợp phiên âm không chính xác, tiên tiến hơn so với dữ liệu được sử dụng bởi các hệ thống chuyển văn bản thành giọng nói hiện có. Nhưng các nhà nghiên cứu tin rằng quy mô tuyệt đối của dữ liệu đầu vào và sự đa dạng của nó khiến Vall-E linh hoạt hơn, dễ thích nghi hơn và đặc biệt là mang đến giọng nói tự nhiên hơn.

AI “bá đạo” này có thể “nhại” giọng nói chính xác chỉ sau 3 giây học hỏi - 2

Quy trình hoạt động của Vall-E.

Hiện nhóm nghiên cứu đã chia sẻ về Vall-E cũng như cách nó hoạt động và nhiều mẫu âm thanh gốc và do AI tạo ra trên trang GitHub tại địa chỉ này. Kết quả cho thấy một số giọng nói được tạo bởi Vall-E khá tương đồng với giọng nói của người nhưng vẫn còn một vài âm tiết giống như robot. Nhưng với một bản AI demo thì kết quả này thực sự ấn tượng. Hãy tưởng tượng công nghệ này sẽ “bá đạo” ra sao trong một vài năm nữa, khi các hệ thống được cải thiện và bộ dữ liệu đào tạo giọng nói sẽ mở rộng hơn nữa.

Bên cạnh sự vui mừng, điều này thực sự là một mối lo ngại. Dall-E, công cụ tạo ra tranh nghệ thuật bằng trí tuệ nhân tạo, đang phải đối mặt với sự phản đối về những lo ngại về quyền riêng tư và quyền sở hữu và bot ChatGPT nổi tiếng gần đây đang bị bộ giáo dục của thành phố New York ban bố lệnh cấm vì sức mạnh đáng gờm của nó. Với Vall-E, khả năng của nó còn đáng lo ngại hơn vì có thể được sử dụng trong các cuộc gọi lừa đảo hoặc hỗ trợ mạnh mẽ cho các video deepfake.

Nhóm nghiên cứu cho biết để giảm thiểu những rủi ro như vậy, có thể xây dựng một mô hình phát hiện để phân biệt xem một đoạn âm thanh có được tổng hợp bởi VALL-E hay không. Nhóm cũng sẽ áp dụng Microsoft AI Principles khi phát triển thêm các mô hình này.