CogView3-文本生成图像模型

登录后查看价格

项目更新

  • 🔥🔥 2024/10/13: 我们适配和开源了 diffusers 版本的 CogView-3Plus-3B 模型。你可以前往在线体验
  • 🔥 2024/9/29: 我们已经开源了 CogView3 以及 CogView-3Plus-3B 。CogView3 是一个基于级联扩散的文本生成图像系统,采用了接力扩散框架。 CogView-3Plus 是一系列新开发的基 Diffusion Transformer 的文本生成图像模型。

模型介绍

CogView-3-Plus 在 CogView3(ECCV’24) 的基础上引入了最新的 DiT 框架,以实现整体性能的进一步提升。CogView-3-Plus 采用了 Zero-SNR 扩散噪声调度,并引入了文本-图像联合注意力机制。与常用的 MMDiT 结构相比,它在保持模型基本能力的同时,有效降低了训练和推理成本。CogView-3Plus 使用潜在维度为 16 的 VAE。

下表显示了我们目前提供的文本生成图像模型列表及其基础信息。

模型名称 CogView3-Base-3B CogView3-Base-3B-distill CogView3-Plus-3B
模型描述 CogView3 的基础阶段和接力阶段模型,支持 512×512 文本生成图像以及 2x 超分辨率生成。 CogView3 的蒸馏版本,分别在两个阶段采样 4 和 1 步(或 8 和 2 步)。 DIT 版本的图像生成模型 ,支持从 512 到 2048 范围内的图像生成。
分辨率 512 * 512 512 <= H, W <= 2048
H * W <= 2^{21}
H, W \mod 32 = 0
推理精度 FP16(推荐), BF16, FP32 BF16*(推荐), FP16, FP32
显存占用 (bs = 4) 17G 64G 30G(2048 * 2048)
20G(1024 * 1024)
提示词语言 English*
提示词长度上限 225 Tokens 224 Tokens
下载链接 (SAT) SAT
下载链接 (Diffusers) 未适配 🤗 HuggingFace
🤖 ModelScope
🟣 WiseModel

数据解释

  • 所有推理测试均在单卡A100上运行,批量大小为4。并使用PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True以节约显存。
  • 模型仅支持英语输入,其他语言可以通过大模型润色时翻译为英语。

库观3是一种利用继电器扩散生成文本图像的新系统。它将生成光分辨率图像的过程分解为多个阶段。通过继电器的超分辨率过程,高斯噪声被添加到TLOO-分辨率生成结果中,扩散过程从这些噪声图像开始。我们的结果显示,COGVO3表现优于SDXL,获胜率为77.0%。此外,通过对扩散模型的逐步精馏,COGVER3可以产生可比的结果,同时将推理时间减少到SDXL的1/10。

导览3展示 管道3

人类评价的比较结果:

评价3

供应商信息

供应商:hzzlss