- 🔥🔥
2024/10/13
: 我们适配和开源了 diffusers 版本的 CogView-3Plus-3B 模型。你可以前往在线体验。 - 🔥
2024/9/29
: 我们已经开源了 CogView3 以及 CogView-3Plus-3B 。CogView3 是一个基于级联扩散的文本生成图像系统,采用了接力扩散框架。 CogView-3Plus 是一系列新开发的基 Diffusion Transformer 的文本生成图像模型。
CogView-3-Plus 在 CogView3(ECCV’24) 的基础上引入了最新的 DiT 框架,以实现整体性能的进一步提升。CogView-3-Plus 采用了 Zero-SNR 扩散噪声调度,并引入了文本-图像联合注意力机制。与常用的 MMDiT 结构相比,它在保持模型基本能力的同时,有效降低了训练和推理成本。CogView-3Plus 使用潜在维度为 16 的 VAE。
下表显示了我们目前提供的文本生成图像模型列表及其基础信息。
模型名称 | CogView3-Base-3B | CogView3-Base-3B-distill | CogView3-Plus-3B |
---|---|---|---|
模型描述 | CogView3 的基础阶段和接力阶段模型,支持 512×512 文本生成图像以及 2x 超分辨率生成。 | CogView3 的蒸馏版本,分别在两个阶段采样 4 和 1 步(或 8 和 2 步)。 | DIT 版本的图像生成模型 ,支持从 512 到 2048 范围内的图像生成。 |
分辨率 | 512 * 512 | 512 <= H, W <= 2048 H * W <= 2^{21} H, W \mod 32 = 0 |
|
推理精度 | FP16(推荐), BF16, FP32 | BF16*(推荐), FP16, FP32 | |
显存占用 (bs = 4) | 17G | 64G | 30G(2048 * 2048) 20G(1024 * 1024) |
提示词语言 | English* | ||
提示词长度上限 | 225 Tokens | 224 Tokens | |
下载链接 (SAT) | SAT | ||
下载链接 (Diffusers) | 未适配 | 🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel |
数据解释
- 所有推理测试均在单卡A100上运行,批量大小为4。并使用
PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
以节约显存。 - 模型仅支持英语输入,其他语言可以通过大模型润色时翻译为英语。
库观3是一种利用继电器扩散生成文本图像的新系统。它将生成光分辨率图像的过程分解为多个阶段。通过继电器的超分辨率过程,高斯噪声被添加到TLOO-分辨率生成结果中,扩散过程从这些噪声图像开始。我们的结果显示,COGVO3表现优于SDXL,获胜率为77.0%。此外,通过对扩散模型的逐步精馏,COGVER3可以产生可比的结果,同时将推理时间减少到SDXL的1/10。
人类评价的比较结果: