[大语言模型] Mistral 7B 模型介绍
developer.chat
20 January 2024
Mistral人工智能团队很自豪地发布了Mistral 7B,这是迄今为止最强大的语言模型。
Mistral 7B 简述
Mistral 7B是一个7.3B参数模型,它:
- 在所有基准测试中均超过Llama 2 13B
- 在许多基准测试中表现超过Llama 1 34B
- 接近CodeLlama 7B的代码性能,同时保持良好的英语任务
- 使用分组查询注意力(GQA)进行更快的推理
- 使用滑动窗口注意力(SWA)以较小的成本处理较长的序列
- 我们将在Apache 2.0许可证下发布Mistral 7B,它可以不受限制地使用。
- 下载它并在任何地方(包括本地)使用我们的参考实现,
- 使用vLLM推理服务器和skypilot在任何云(AWS/GCP/Azure)上部署它,
- 在HuggingFace上使用。
Mistral 7B很容易在任何任务中进行微调。作为演示,我们提供了一个针对聊天进行微调的模型,它的性能优于Llama 2 13B聊天。