Emotion-baidu09LLaMA – 多模态情绪识别与推理模型，融合音频、视觉和文本输入

baidu09_com 2025-08-28 6 0

Emotion-LLaMA是多模态情绪识别与推理模型，融合了音频、视觉和文本输入，通过特定情绪编码器整合信息。模型基于修改版LLaMA，经指令调整以提升情感识别能力。研究者构建了MERR数据集助力训练与评估，使模型能从多场景学习并应用于现实。Emotion-LLaMA在多个数据集和挑战赛中表现优异，如在MER2024挑战赛MER-NOISE赛道中以84.52%的WAF超越其他团队。其架构设计巧妙，充分发挥LLaMA优势，纳入关键情感线索。