文生视频在Sora后终于来了个能打的我们封快手可灵为mini版Sora

　　作为 aigc 里程碑式的产品，Sora一经推出便重现了 “ChatGPT式的震惊”，每次小迭代，甚至每次原生作品的推出都高度吸睛（可参考、）。

　　不争气的是，Sora一直没向用户开放，各种渠道的爆料也显示，它的每个惊艳作品的生成都经过了“修图”（）。

　　这回跳出来挑战的是快手，一时间风评甚好，也可见的投入了不少营销资源鼓吹。

　　产品信息显示，可灵采用与类Sora的DiT结构，并结合了快手自研的技术创新。它可以生成长达2分钟、30fps、1080p分辨率的视频，并支持多种宽高比。

　　据官网（链接：）介绍，可灵大模型不仅具备强大的概念组合能力和想象力，还能生成大幅度的合理运动、模拟物理世界特性。

　　可灵采用3D时空联合注意力机制，能够更好地建模复杂时空运动，生成较大幅度运动的视频内容，同时能够符合运动规律。

　　·提示词：一名宇航员在月球表面奔跑，低角度镜头展现了月球的广阔背景，动作流畅且显得轻盈

　　通过上面的示例，不得不说“可灵”生成的视频其动作的连贯性、流畅性和运镜比国内市面上大多数的AI生成的视频都要丝滑。

　　得益于高效的训练基础设施、极致的推理优化和可扩展的基础架构，可灵大模型能够生成长达2分钟的视频，且帧率达到30fps。

　　基于自研模型架构及Scaling Law激发出的强大建模能力，可灵能够模拟真实世界的物理特性，生成符合物理规律的视频。

　　这个吃汉堡和倒牛奶的视频真的很难让人怀疑是AI生成，只不过还有会有小瑕疵的，比如，在厨师切洋葱的视频中，仔细看的话，不难发现在厨师还未切下去的时候完整的洋葱就变成洋葱块了。

　　基于对文本-视频语义的深刻理解和 Diffusion Transformer 架构的能力，可灵能够将用户丰富的想象力转化为具体的画面，虚构真实世界中不会出现的的场景。

　　视频整体上还是不错的，但还是会存在一些小问题，比如，猫在车里驾驶时，两旁的车有时会出现在人行道上，不过在细节上可灵做的还挺不错的，比如，车的引擎盖上会有猫咪耳朵的倒影，好评！

　　基于自研3D VAE，可灵能够生成1080p分辨率的电影级视频，无论是浩瀚壮阔的宏大场景，还是细腻入微的特写镜头，都能够生动呈现。

　　这个电影级的画面确实没得说，尤其蓝色玫瑰花，感觉比现实中拍出来的还要线-

　　可灵采用了可变分辨率的训练策略，在推理过程中可以做到同样的内容输出多种多样的视频宽高比，满足更丰富场景中的视频素材使用需求。

　　除视频生成外，小编还注意到，快手还基于此模型推出了其他应用，如AI舞王、AI小说转漫画、AI变装、AI幻术等，并即将推出图生视频功能。

花草网