DiffSensei是北京大学、上海AI实验室及南洋理工大学的研究人员共同推出的框架,能生成可控的黑白漫画面板。DiffSensei整合基于扩散的图像生成器和多模态大型语言模型(MLLM),实现对漫画中多角色外观和互动的精确控制。框架用掩码交叉注意力机制和MLLM适配器,根据文本提示动态调整角色特征,包括表情、姿势和动作,生成具有连贯性和视觉吸引力的漫画面板。DiffSensei引入MangaZero数据集,支持多角色、多状态的漫画生成任务。

DiffSensei – AI 漫画生成框架,能生成可控的黑白漫画面板  第1张
(图片来源网络,侵删)
DiffSensei – AI 漫画生成框架,能生成可控的黑白漫画面板  第2张
(图片来源网络,侵删)