Show-o是集成了多模态理解和生成的统一Transformer模型。通过结合自回归和离散扩散建模,能灵活处理包括视觉问答、文本到图像生成、文本引导的修复和扩展,混合模态生成在内的广泛视觉语言任务。Show-o模型在多模态理解和生成基准测试中展现出与现有专门模型相当或更优的性能,能减少图像生成所需的采样步骤,提高效率。Show-o支持多种下游应用,如文本引导的图像修复和扩展,无需额外微调。


Show-o是集成了多模态理解和生成的统一Transformer模型。通过结合自回归和离散扩散建模,能灵活处理包括视觉问答、文本到图像生成、文本引导的修复和扩展,混合模态生成在内的广泛视觉语言任务。Show-o模型在多模态理解和生成基准测试中展现出与现有专门模型相当或更优的性能,能减少图像生成所需的采样步骤,提高效率。Show-o支持多种下游应用,如文本引导的图像修复和扩展,无需额外微调。
全部评论
留言在赶来的路上...
发表评论