Emu Video 是一款尖端的文本轉視頻生成工具,利用擴散模型將過程簡化為兩個高效步驟。首先根據文本提示生成圖像,然後使用該提示和生成的圖像創建視頻,Emu Video 在有效性和簡單性方面脫穎而出。這種創新的方法僅需兩個擴散模型即可訓練高品質的視頻生成模型,生成令人印象深刻的 512px、4 秒視頻,幀率為 16fps。與其他文本轉視頻生成模型相比,Emu Video 在質量和對提示的忠實度方面都表現優異,這一點得到了人類評審的確認。憑藉尖端的成果,Emu Video 在各項指標上超越了像 Make-a-Video (MAV)、Imagen-Video (Imagen) 等知名模型。Emu Video 由一群專注的作者團隊開發,並得到了眾多合作者的支持,代表了文本轉視頻生成領域的一次重要進展。