Mistral人工智能团队很自豪地发布了Mistral 7B,这是迄今为止最强大的语言模型。
Mistral 7B 简述
Mistral 7B是一个7.3B参数模型,它:
- 在所有基准测试中均超过Llama 2 13B
- 在许多基准测试中表现超过Llama 1 34B
- 接近CodeLlama 7B的代码性能,同时保持良好的英语任务
- 使用分组查询注意力(GQA)进行更快的推理
- 使用滑动窗口注意力(SWA)以较小的成本处理较长的序列
- 我们将在Apache 2.0许可证下发布Mistral 7B,它可以不受限制地使用。
- 下载它并在任何地方(包括本地)使用我们的参考实现,
- 使用vLLM推理服务器和skypilot在任何云(AWS/GCP/Azure)上部署它,
- 在HuggingFace上使用。
Mistral 7B很容易在任何任务中进行微调。作为演示,我们提供了一个针对聊天进行微调的模型,它的性能优于Llama 2 13B聊天。
详细性能
我们将Mistral 7B与Llama 2家族进行了比较,并自行重新运行所有模型评估,以进行公平比较。
Mistral 7B和不同Llama模型在各种基准上的性能。对于所有指标,所有模型都使用我们的评估管道进行了重新评估,以进行准确的比较。Mistral 7B在所有指标上都显著优于Llama 2 13B,与Llama 34B不相上下(由于Llama 3 34B尚未发布,我们报告了Llama 34 B的结果)。它在代码和推理基准测试方面也非常出色。
基准按主题分类:
- 常识推理:Hellaswag、Winogrande、PIQA、SIQA、OpenbookQA、ARC Easy、ARC Challenge和CommonsenseQA的0次平均值。
- 世界知识:NaturalQuestions和TriviaQA的平均5分。
- 阅读理解:BoolQ和QuAC的0次平均值。
- 数学:8发GSM8K的平均值maj@8和四热数学maj@4
- 代码:0次射击Humaneval和3次射击MBPP的平均值
- 热门汇总结果:5题MMLU、3题BBH和3-5题AGI评估(仅限英语多项选择题)
比较模型在成本/性能层面上的表现的一个有趣的指标是计算“等效模型大小”。在推理、理解和STEM推理(MMLU)方面,Mistral 7B的性能相当于Llama 2的3倍以上。这既节省了内存,又提高了吞吐量。
Mistral 7B和Llama 2的MMLU、常识推理、世界知识和阅读理解结果(7B/13/70B)。Mistral 7B在所有评估中都在很大程度上优于Llama 2 13B,但在知识基准方面除外,在知识基准上它是不相上下的(这可能是因为它的参数计数有限,这限制了它可以压缩的知识量)。
注:我们的评估与LLaMA2论文的重要区别在于:
- 对于MBPP,我们使用手工验证的子集
- 对于TriviaQA,我们不提供维基百科上下文
闪光与愤怒:注意力漂移
Mistral 7B使用滑动窗口注意力(SWA)机制(Child等人,Beltagy等人),其中每一层关注之前的4096个隐藏状态。主要的改进,以及最初对此进行研究的原因,是O(sliding_window.seq_len)的线性计算成本。在实践中,对FlashAttention和xFormers的更改使序列长度为16k、窗口为4k的情况下的速度提高了2倍。非常感谢Tri-Dao和Daniel Haziza在紧张的日程安排中帮助完成这些更改。
滑动窗口注意力利用转换器的堆叠层来关注过去超过窗口大小的内容:第k层的令牌i关注第k-1层的令牌[i-Sliding_window,i]。这些令牌涉及令牌[i-2*sliding_window,i]。与注意力模式似乎所包含的内容相比,更高层在过去可以访问更多的信息。
最后,固定的注意力跨度意味着我们可以使用旋转缓冲区将缓存限制为sliding_window令牌的大小(请参阅我们的参考实现回购)。这节省了一半的高速缓冲存储器,用于对8192的序列长度进行推理,而不会影响模型质量。
微调Mistral 7B聊天
为了展示Mistral 7B的泛化能力,我们在HuggingFace上公开的指令数据集上对其进行了微调。没有技巧,没有专有数据。由此产生的模型Mistral 7B Instruction优于MT Bench上的所有7B模型,与13B聊天模型相当。
Mistral 7B Instruction模型快速演示了基础模型可以轻松微调,以实现引人注目的性能。它没有任何调节机制。我们期待着与社区合作,探讨如何使模型更好地尊重护栏,以便在需要适度输出的环境中进行部署。
- 登录 发表评论