混元DiT(Hunyuan-DiT)是由腾讯混元团队开源的一款高性能的文本到图像的扩散Transformer模型,具备细粒度的中英文理解能力,能够根据文本提示生成多分辨率的高质量图像。混元DiT采用了创新的网络架构,结合了双语CLIP和多语言T5编码器,通过精心设计的数据管道进行训练和优化,支持多轮对话,能够根据上下文生成并完善图像。在中文到图像生成领域,混元DiT达到了开源模型中的领先水平。
为了全面比较HunyuanDiT与其他模型的生成能力,混元团队构建了4个维度的测试集,超过50名专业评估人员进行评估,包括文本图像一致性、排除AI伪影、主题清晰度、审美。

(图片来源网络,侵删)

(图片来源网络,侵删)
全部评论
留言在赶来的路上...
发表评论