始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。欢迎《》以及《》。
Inf-DiT是清华大学联合智谱AI联合推出的一款超高分辨率图片上采样模型,通过提出的单向块注意力机制,可以显著降低DiT推理时的显存占用,对任意大小的图片进行上采样,最低可以在30G显存内支持8192分辨率图片的生成,同时也可以根据显存上限自适应进行并行生成。该模型已经上线 始智AI wisemodel.cn开源社区,欢迎大家前往wisemodel社区下载体验。
文章发现在用Diffusion做超高分辨率生成时,模型内部的hidden state会占据大量的显存,例如一个2048*2048*1280的hidden state就会占据20GB的显存,而仅仅对attention,CNN算子做显存优化并不能减少这一部分的占用。另一种方法是对将图片分块分别生成,同时用一些统计量(均值,方差)来聚合不同的块,但这种简单的聚合并不能统一不同块中的高阶语义信息,例如花纹的形状等等。
对此作者提出了一种单向块注意力机制:每个块只对自己以及自己左上角三个块做局部的attention操作。这种左上-右下的单向依赖可以让模型不必同时生成整张图像,从而推理时将hidden state的显存占用从O(N^2)减少为O(N),同时在各层hidden statue上都进行交互,有效的聚合不同块之间的语义信息。
不同于自回归式模型,Inf-DiT可以同时生成多个块,因此可以根据显存上线来自动调整每次生成块的个数进行加速。
结合单向块注意力机制和之前提出的DiT(Diffusion Transformer)架构,作者设计出了Inf-DiT上采样模型:
局部一致性:低分辨率图片在简单的resize后会与带噪图片concat作为DiT的输入,位置一一映射能提供良好的inductive bias。但单向块注意力会导致每个块无法看到低分辨率图片的右下角部分,对此文章提出了nearby LR cross attention来对低分辨率图片的局部做attention。
全局一致性:为了保证和低分辨率图片的全局语义一致性(艺术风格、物体材质等),作者用CLIP的image encoder获取了低分辨率图片的embedding并与DiT的time embedding相加。同时因为CLIP可以将图文对齐到同一空间中,文章发现还可以用文本来对生成结果进行控制,即使模型没有在任何文本上进行训练:
Inf-DiT共使用了两种位置编码:RoPE和block-level relative learnable position encoding。为了解决训练和生成时分辨率不同的问题,作者预先创建了一个很大的位置编码表,在训练过程中随机选取图像左上角在表中的坐标,来保证每一个位置编码都被训练到。
同时,因为attention的输入序列会非常长,模型在训练中还采取了bf16,QK-Layernorm等方法来稳定训练。
1、超高分辨率图片生成:文中选取了HPSv2中的1k个prompt生成了对应的2048、4096的图片进行比较。
2、超分辨率:文中使用了DIV2K valid,是一个包含多种真实场景的摄影数据集。
3、人工评测:在用HPSv2 prompt生成的图片上,文章让志愿者在细节保真度、全局一致性以及原图一致性(超分辨率)三个方面对模型进行排序。Inf-DiT在三个方面都取得了最优的结果。
其中FID_crop是指在每张图中随机截取299*299的区域计算FID,更能体现高分辨率图片细节的真实度。
因为Inf-DiT可以接受各种分辨率的图像作为输入,所以可以拿来对低分辨率图像做迭代式上采样,文中测试了从32*32分辨率上采样到2048*2048分辨率的过程,可以看到模型可以在不同的分辨率下生成不同频率的细节:脸型、眼球、眉毛….
始智AI wisemodel开源社区最近上线了开源模型的在线个大模型可以直接进行在线体验。在线体验的创建无需任何代码开发,人人都可以来玩开源大模型。欢迎前往wisemodel.cn社区进行体验,若需指引可以参考《》。大家研发的模型也可以发布到wisemodel社区,同时适配一下wisemodel-API,相应模型就可以直接在线运行了。如果有需要模型的在线推理运行托管服务,也欢迎联系我们。
开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。
始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:
欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到,也可以扫码添加wisemodel微信。
始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。