Mới đây, Microsoft đã ra mắt một công cụ AI mới có khả năng tạo ra một đoạn video sống động giống như thật từ hình ảnh duy nhất của bất kỳ người nào.
Theo Microsoft, VASA-1 không chỉ tạo cử động môi "đồng bộ một cách tinh tế" kèm âm thanh, còn thể hiện thần thái nhân vật thông qua chuyển động khuôn mặt và đầu tự nhiên, từ đó tăng tính chân thực.
Chia sẻ của Microsoft, đây là "hệ thống động học cho khuôn mặt" được huấn luyện thông qua mô hình tạo chuyển động tốt hơn một cách toàn diện so với các phương pháp trước đó. AI này hỗ trợ xử lý ảnh chân dung với phần đầu và phần trên của thân, với nhiều biểu cảm khác nhau, như: vui vẻ, tức giận, ngạc nhiên hoặc nghiêm nghị.
Microsoft ra mắt công cụ AI có thể chuyển động và nói chuyện. Ảnh minh họa |
Microsoft đã đăng tải một đoạn video cho thấy cách thức sử dụng VASA-1 rất đơn giản. Người dùng chỉ việc lựa chọn một hình ảnh chân dung bất kỳ, có thể là ảnh chụp hoặc tranh vẽ, chọn file âm thanh muốn thể hiện, sau đó điều chỉnh góc nghiêng gương mặt, giọng nói để tạo ra đoạn video sao cho phù hợp và ưng ý nhất.
VASA-1 cũng tích hợp tính năng biến văn bản thành giọng nói để lồng ghép vào đoạn video.
Microsoft cho biết công cụ AI của hãng có thể tạo ra những video thuyết trình với nội dung tùy chọn của người dùng mà họ không cần phải xuất hiện trong video.
Tuy nhiên, nhiều người lo ngại rằng công cụ AI của Microsoft có thể bị lợi dụng để tạo ra những đoạn video có nội dung giả mạo, sử dụng gương mặt và giọng nói của những người nổi tiếng để truyền đi các thông điệp không chính xác hoặc mang tính kích động.
Microsoft cho biết hãng chưa thể cung cấp công cụ VASA-1 ra cộng đồng vì những lo ngại về tính an toàn của công cụ này. Microsoft vẫn sẽ tiếp tục phát triển VASA-1 và phải đảm bảo có giải pháp đảm bảo công cụ AI này không bị lợi dụng cho mục đích xấu trước khi triển khai ra cộng đồng.
Ngoài làn sóng chatbot như ChatGPT hay Google Gemini, lĩnh vực AI cũng chứng kiến cuộc đua giữa các mô hình có khả năng tạo video như thật từ ảnh tĩnh. Cách đây 1 tháng, Alibaba giới thiệu công cụ tương tự là EMO (Emotive Portrait Alive). AI này có thể tạo nét mặt, tư thế, di chuyển phần lông mày, nhíu mắt hay thậm chí lắc lư theo điệu nhạc.