Công nghệ Video-to-Audio (V2A) của Google DeepMind được coi là bước đột phá quan trọng trong sản xuất phim sử dụng AI, khi nó khắc phục được điểm yếu lớn của các công cụ tạo video hiện tại: thiếu âm thanh sinh động đi kèm. Công nghệ này có khả năng phân tích từng pixel của video và sử dụng lời nhắc văn bản để tạo ra nhạc nền phù hợp với nội dung đang chiếu.
Các công cụ tạo video AI như Sora của OpenAI, Dream Machine của Luma AI, Gen-3 Alpha của Runway, và Veo của Google đã nhận được nhiều sự chú ý khi chúng có thể tạo ra các đoạn video rất sống động và thực tế. Tuy nhiên, sự thiếu hụt của âm thanh đồng hành đã hạn chế khả năng ứng dụng của chúng trong ngành công nghiệp phim ảnh. V2A của Google được đánh giá cao vì nó không chỉ khắc phục được điểm yếu này mà còn mở rộng khả năng sáng tạo cho các nhà làm phim chuyên nghiệp và người dùng nghiệp dư, giúp họ kết hợp nhiều công cụ AI để tạo ra các đoạn phim theo ý muốn của bản thân.
Theo Google, V2A có thể "tạo số lượng bản nhạc không giới hạn cho bất kỳ đầu vào video nào, cho bất kỳ cảnh nào". Điều này cho thấy khả năng của công cụ trong việc đáp ứng nhu cầu đa dạng về âm thanh cho các tình huống khác nhau trong một bộ phim.
Mặc dù công nghệ này mở ra nhiều khả năng, Google cũng nhận thức được rủi ro lạm dụng công cụ này cho mục đích không chính đáng. Do đó, công ty cho biết họ đang coi đây là một dự án nghiên cứu và chưa có kế hoạch cho phép truy cập rộng rãi. "Trước khi xem xét việc mở quyền truy cập cho công chúng, công nghệ V2A sẽ trải qua quá trình đánh giá và thử nghiệm an toàn nghiêm ngặt", đại diện Google cho biết.