MM-StoryAgent 是上海交通大学X-LANCE实验室和阿里巴巴集团联合推出的开源多模态、多智能体框架,用在生成沉浸式的有声故事绘本视频。基于结合大型语言模型(LLMs)和多种模态的生成工具(如文本、图像、音频),用多阶段写作流程和模态特定的提示修订机制,提升故事的吸引力和沉浸感。框架支持灵活的模块化设计,能替换不同的生成模型和API。MM-StoryAgent 提高了故事质量,在图像、语音、音乐和音效之间实现更好的对齐效果,为儿童故事书的自动化创作提供了高效、灵活且富有表现力的解决方案。


全部评论
留言在赶来的路上...
发表评论