Falcon Mamba 7B是阿联酋技术创新研究所(TII)推出的开源AI大模型,性能超越了Meta的Llama 3.1-8B等模型。Falcon Mamba 7B采用编码器-解码器结构和多头注意力技术,优化了长序列处理能力。训练效率高,能在单个A10 24GB GPU上运行,使用了约5500GT的精选数据集,训练中采用了恒定学习率和学习率衰减策略。

Falcon Mamba 7B – 首个通用Mamba开源AI大模型  第1张
(图片来源网络,侵删)
Falcon Mamba 7B – 首个通用Mamba开源AI大模型  第2张
(图片来源网络,侵删)