Emu Video 是一个尖端的文本生成视频工具,利用扩散模型将生成过程简化为两个高效的步骤。首先,根据文本提示生成图像,然后使用该提示和生成的图像创建视频,Emu Video 在有效性和简单性方面脱颖而出。这种创新的方法使得仅通过两个扩散模型即可训练出高质量的视频生成模型,能够生成令人印象深刻的 512px、4 秒视频,帧率为 16fps。与其他文本生成视频模型相比,Emu Video 在质量和对提示的忠实度方面表现优异,得到了人类评估者的认可。凭借最先进的成果,Emu Video 在各种指标上超越了如 Make-a-Video (MAV)、Imagen-Video (Imagen) 等知名模型。由一支专注的团队开发,并得到了众多合作者的支持,Emu Video 代表了文本生成视频领域的重大进展。