就在东半球的我们欢度国庆长假的时候,西半球美国的跨国科技公司Meta偷偷发了个大招:官宣了他们新的视频生成AI模型—Movie Gen。
Movie Gen由Meta的AI研究团队开发,在多项功能上都展现了领先的技术成果,能够提供高质量且稳定的内容生成结果,且支持精细的局部编辑。为专业创意人员和业余爱好者们,开启了全新的创作可能性。
Movie Gen的横空出世,给了我们亿点震撼,顺便给了曾经风光无两的OpenAI文生视频AI模型Sora一记重击。
这么说吧,Sora做得到的,Movie Gen都可以(如创建不同宽高比的高清长视频,支持1080p分辨率、16秒长度以及每秒16帧的帧率);Sora做不到的,Movie Gen好像…也行(如生成匹配的背景音乐/音效、依据文本指令进行视频编辑,还能根据用户上传的图像生成个性化视频)。
Movie Gen是Meta对基础AI研究的一部分,是生成AI工作的第三波成果,集合了图像、视频、音频等多种模态,以一种前所未有的方式让用户能够进行更加精细的控制。相比前几代模型,Movie Gen拥有更多的灵活性和控制选项。
Meta称它为“迄今为止最先进的媒体基础模型”,显然想利用它和OpenAI的Sora以及PikaLabs Pika 1.5一较高下。
作为一套先进的用于创建沉浸式叙事体验的模型组合,Movie Gen具备四大能力:视频生成、个性化视频生成、精准视频编辑和音频生成。
Movie Gen拥有30亿参数,能够理解物体的运动、主体与客体之间的互动以及摄像机移动,同时可以学会为各种概念生成合理的运动。
能够根据用户提供的文本提示,创建长达16秒、每秒16帧的高质量、高清晰度图像/视频。
这些通过简单文本描述来创建的独特高清视频支持不同高宽比例屏幕,可以在不同的设备和平台上以最佳的形式观看。
文本输入:一个穿着牛仔短裤和黄色T恤的女孩正在海滩上奔跑,手里拿着风筝。阳光照耀下来。
文本输入:一个女人坐在南瓜田的草地上,她戴着围巾,手里拿着一杯饮料。背景里是一排排的南瓜。
文本输入: 摄像机位于一个男人的背后。这个男人赤裸上身,腰间系着一块绿色布料,并且赤脚。他双手各持一个燃烧的物体,做出大范围的圆周运动。背景是一片宁静的海。火舞表演的氛围非常迷人。
文本输入:一只红脸白毛的猴子正在一个天然温泉中洗澡。猴子在水中玩耍,面前有一个木质的小帆船,船上有白色的帆和一个小舵。温泉周围是茂密的绿植,还有岩石和树木。
可以根据用户提供的个人照片和一些具体的文字描述,生成包含个人形象的视频。生成的视频不仅视觉细节丰富,符合描述性提示内容,还能保持人物的个性特征,且动作自然流畅。
文本输入:一个表情严肃戴着眼镜的男人,在一间有着彩虹壁纸的实验室里做科学实验。他穿着一件白色实验服,口袋里插着一支笔。将液体倒入玻璃烧杯中,一团白色的烟雾随之腾起。
文本输入:在一个木质的房间里,一个穿着白色衬衫的女人在画架上作画。她表情平静,专心于她的作品。一只小熊站在她的脚边。室内的光线是冷色调的。
文本输入: 制作一个可爱的自拍视频,视频中一名男子和他的小狗在一起。这名男子穿着黑色的衬衫,而狗是一只小比格犬。背景是一个树木环绕的后院露台。男子脸上带着灿烂的笑容,试图和他的狗狗一起拍出完美的自拍。光线温暖。
文本输入: 一个男人坐在沙漠中,戴着一顶宽边帽,身着棕色外套和围巾。男人手里拿着一杯琥珀色的茶。镜头从沙漠景色移到这个人身上。光线是温暖的,太阳为整个场景投射出柔和的光芒。
文本输入:一名女性DJ在洛杉矶的一个屋顶上播放唱片。她穿着一件粉红色的夹克,戴着大耳机。旁边有一只猎豹。背景是城市风光。
基于同样的基础模型,Movie Gen的编辑功能可以通过接受视频和文本提示来精确地执行用户需求。结合了视频生成与高级图像编辑的功能,支持局部编辑(如添加、删除或替换视频中的元素)和全局修改(如改变背景或整体风格),并且仅对视频中的相关内容进行改动,保证编辑精度。
此外,Movie Gen支持从整体风格和过渡效果到细节上的微调等。这意味着用户可以用文本命令来完成复杂的编辑工作,无论是改变视频的整体观感还是进行细微的局部调整。
Movie Gen训练了一个包含13亿参数的音频生成模型,可以根据视频内容以及可选的文本提示生成最高达45秒的高品质音频(包括环境音效、拟音效果和背景音乐,并且这些音频可以与视频内容同步)。
此外,Movie Gen还引入了一种新技术,可以为任何长度的视频生成连贯的音频或整段配乐。同时保证生成的音频不仅质量高,还能与视频内容保持同步,并且与提供的文本提示保持一致。
不过目前模型本身还没有开源,除了现有的演示视频,Meta还公开了92页的研究论文,其中详细介绍了Movie Gen 的架构和训练细节。感兴趣的小伙伴可以戳链接↓