作为 aigc 里程碑式的产品,Sora一经推出便重现了 “ChatGPT式的震惊”,每次小迭代,甚至每次原生作品的推出都高度吸睛(可参考、)。

  不争气的是,Sora一直没向用户开放,各种渠道的爆料也显示,它的每个惊艳作品的生成都经过了“修图”()。

  这回跳出来挑战的是快手,一时间风评甚好,也可见的投入了不少营销资源鼓吹。

  产品信息显示,可灵采用与类Sora的DiT结构,并结合了快手自研的技术创新。它可以生成长达2分钟、30fps、1080p分辨率的视频,并支持多种宽高比。

  据官网 (链接:) 介绍,可灵大模型不仅具备强大的概念组合能力和想象力,还能生成大幅度的合理运动、模拟物理世界特性。

  可灵采用3D时空联合注意力机制,能够更好地建模复杂时空运动,生成较大幅度运动的视频内容,同时能够符合运动规律。

  ·提示词:一名宇航员在月球表面奔跑,低角度镜头展现了月球的广阔背景,动作流畅且显得轻盈

  通过上面的示例,不得不说“可灵”生成的视频其动作的连贯性、流畅性和运镜比国内市面上大多数的AI生成的视频都要丝滑。

  得益于高效的 训练基础设施、极致的推理优化和可扩展的基础架构,可灵大模型能够生成长达2分 钟的视频,且帧率达到30fps。

  基于自研模型架构及Scaling Law激发出的强大建模能力,可灵能够模拟真实世界的物理特性,生成符合物理规律的视频。

  这个吃汉堡和倒牛奶的视频真的很难让人怀疑是AI生成,只不过还有会有小瑕疵的,比如,在厨师切洋葱的视频中,仔细看的话,不难发现在厨师还未切下去的时候完整的洋葱就变成洋葱块了。

  基于对文本-视频语义的深刻理解和 Diffusion Transformer 架构的能力,可灵能够将用户丰富的想象力转化为具体的画面,虚构真实世界中不会出现的的场景。

  视频整体上还是不错的,但还是会存在一些小问题,比如,猫在车里驾驶时,两旁的车有时会出现在人行道上,不过在细节上可灵做的还挺不错的,比如,车的引擎盖上会有猫咪耳朵的倒影,好评!

  基于自研3D VAE,可灵能够生成1080p分辨率的电影级视频,无论是浩瀚壮阔的宏大场景,还是细腻入微的特写镜头,都能够生动呈现。

  这个电影级的画面确实没得说,尤其蓝色玫瑰花,感觉比现实中拍出来的还要线-

  可灵采用了可变分辨率的训练策略,在推理过程中可以做到同样的内容输出多种多样的视频宽高比,满足更丰富场景中的视频素材使用需求。

  除视频生成外,小编还注意到,快手还基于此模型推出了其他应用,如AI舞王、AI小说 转漫画、AI变装、AI幻术等,并即将推出图生视频功能。