Ichigo是开源的多模态AI语音助手,采用混合模态模型,能实时处理语音和文本的交织序列。基于将语音直接量化为离散令牌,用统一的变换器架构同时处理语音和文本,实现跨模态的联合推理和生成。基于此方法提高了处理速度,降低算力消耗,让首令牌生成的延迟仅为111毫秒,远低于现有模型,让Ichigo能提供接近实时的语音交互体验。

(图片来源网络,侵删)

(图片来源网络,侵删)
Ichigo是开源的多模态AI语音助手,采用混合模态模型,能实时处理语音和文本的交织序列。基于将语音直接量化为离散令牌,用统一的变换器架构同时处理语音和文本,实现跨模态的联合推理和生成。基于此方法提高了处理速度,降低算力消耗,让首令牌生成的延迟仅为111毫秒,远低于现有模型,让Ichigo能提供接近实时的语音交互体验。
全部评论
留言在赶来的路上...
发表评论