Các nhà nghiên cứu đã trình bày mô hình của họ, được đặt tên là VASA-1, có thể tạo ra các video chân thực chỉ dựa trên một hình ảnh tĩnh duy nhất và một đoạn âm thanh giọng nói. Kết quả rất ấn tượng và đánh bại tất cả các công cụ sử dụng trí tuệ nhân tạo (AI) tổng hợp trước đây để tạo ra các tác phẩm sâu thực tế.
Điều đặc biệt thú vị ở VASA-1 là khả năng mô phỏng tổng thể các nét mặt tự nhiên, nhiều cảm xúc và khả năng hát nhép với rất ít tạo tác.
Các nhà nghiên cứu thừa nhận rằng người mẫu trong nghiên cứu của họ vẫn gặp khó khăn với các yếu tố cứng nhắc, chẳng hạn như tóc. Tuy nhiên, đó cũng là cách để giúp mọi người chú ý hơn khi cần phát hiện video giả mạo.
Đại diện Microsoft cho biết, VASA-1 tạo ra các khung hình video kích thước 512 x 512 ở tốc độ 45 khung hình/giây khi xử lý ngoại tuyến và lên đến 40 khung hình/giây khi phát ngoại tuyến với độ trễ chỉ 170 ms. Kết quả này được đánh giá trên PC có CPU NVIDIA RTX 4090.
Công cụ dựa trên mô hình mới rất dễ sử dụng và thậm chí còn cung cấp khả năng kiểm soát “tín hiệu tùy chọn theo điều kiện”, nghĩa là người dùng có thể đặt hướng nhìn của mắt chính, khoảng cách đầu và bù đắp cảm xúc. Hơn nữa, VASA-1 cũng xử lý các đầu vào phi thực tế, chẳng hạn như nghệ thuật. Vì vậy, nó có thể làm cho những bức tranh trở nên sống động.
VASA-1 có thể làm cho khuôn mặt trong các bức ảnh hát, đọc rap hoặc nói chuyện bằng các ngôn ngữ khác ngoài tiếng Anh. Là một trong những ví dụ, Microsoft đã trình bày một đoạn clip vui nhộn về màn rap điên cuồng của Mona Lisa như trong video bài viết.
Điều quan trọng là phải nhấn mạnh tác hại tiềm tàng mà công nghệ như vậy có thể gây ra khi được sử dụng để tạo ra nội dung bắt chước người thật. Tin vui là các nhà nghiên cứu của Microsoft đã nhận thức được rủi ro, vì vậy công ty không có kế hoạch phát hành bản demo trực tuyến, API, sản phẩm, chi tiết triển khai bổ sung hoặc bất kỳ dịch vụ liên quan nào cho đến khi họ chắc chắn rằng công nghệ này sẽ được sử dụng một cách có trách nhiệm và tuân thủ các quy định phù hợp.
Microsoft thừa nhận khả năng sử dụng sai mục đích của VASA-1 có thể xảy ra, tuy nhiên công cụ này có thể tạo ra những lợi ích tiềm năng, từ việc nâng cao tính công bằng trong giáo dục, cải thiện khả năng tiếp cận cho những cá nhân gặp khó khăn trong giao tiếp và cung cấp sự đồng hành hoặc hỗ trợ trị liệu cho những người có nhu cầu.
Điều đáng nói là đối thủ của Microsoft là OpenAI cũng phải đối mặt với tình thế khó xử tương tự. Mới gần đây, OpenAI đã trình bày một mô hình AI mạnh mẽ mang tên Sora để nhân bản giọng nói, nhưng cuối cùng đã chọn không công khai nó. Công ty tuyên bố rằng việc phát hành rộng rãi công nghệ này phải đi đôi với các chính sách và biện pháp đối phó để ngăn chặn việc sử dụng sai mục đích.