Google vừa tiết lộ Lumiere, mô hình AI mới nhất của công ty cho phép người dùng cuyển văn bản hoặc hình ảnh thành video một cách nhanh chóng.
Trong nghiên cứu, Google cho biết Lumiere là một cải tiến trong việc tạo ra video "chuyển động chân thực, đa dạng và mạch lạc" luôn là một trong những khó khăn lớn khi sử dụng AI tạo video.
Lumiere sử dụng "Space-Time U-Net architecture" mới để tạo ra toàn bộ video clip cùng một lúc, thông qua một lần chuyển trong mô hình AI. Trong quá trình tạo, mô hình sẽ kiểm tra xem mọi thứ từ khía cạnh “không gian” của clip cũng như thời điểm và chuyển động hoặc yếu tố “thời gian” trong video. Mô hình thực hiện cả hai khía cạnh cùng một lúc trong một lần chạy để tạo ra chuyển động mượt mà nhất.
Lumiere cũng bao gồm cách điệu hóa, biến tấu video với nhiều phong cách khác nhau và Cinemagraphs, cung cấp cách tạo hoạt ảnh cho một phần giới hạn, được đánh dấu trong hình ảnh nguồn. Tính năng Video Inpainting có thể thay đổi từng phần của video nguồn, chẳng hạn như thay đổi màu sắc, chất liệu hoặc họa tiết trên trang phục của một cô gái.
Google cho biết Lumiere có thể tạo các video 1024×1024 có độ phân giải thấp, kéo dài không quá 5 giây. Tuy nhiên, Google khẳng định rằng người dùng thích sản phẩm của Lumiere hơn các mô hình AI hiện có.
Vì được đào tạo trên một tập dữ liệu lớn chứa 30 triệu video cùng với mô tả văn bản, giúp Lumiere học hỏi về các mẫu phổ biến trong video và sử dụng kiến thức đó để tạo ra các video mới có nội dung phong phú và hấp dẫn hơn các mô hình AI khác.
Hiện tại, Lumiere mới chỉ trong giai đoạn nghiên cứu và Google đang xem xét những rủi ro khi ra mắt toàn cầu, điều mà Deepfakes từng tạo nên làn sóng tẩy chay.
Việc phát triển AI là một quá trình phức tạp và có nhiều rủi ro cần được cân nhắc. Bằng cách thực hiện các biện pháp kiểm soát và giám sát chặt chẽ, các nhà phát triển có thể giúp giảm thiểu những rủi ro này và đảm bảo rằng AI được phát triển và sử dụng một cách an toàn và có trách nhiệm.