跳转到主要内容

标签(标签)

资源精选(342) Go开发(108) Go语言(103) Go(99) angular(83) LLM(79) 大语言模型(63) 人工智能(53) 前端开发(50) LangChain(43) golang(43) 机器学习(39) Go工程师(38) Go程序员(38) Go开发者(36) React(34) Go基础(29) Python(24) Vue(23) Web开发(20) Web技术(19) 精选资源(19) 深度学习(19) Java(18) ChatGTP(17) Cookie(16) android(16) 前端框架(13) JavaScript(13) Next.js(12) 安卓(11) 聊天机器人(10) typescript(10) 资料精选(10) NLP(10) 第三方Cookie(9) Redwoodjs(9) ChatGPT(9) LLMOps(9) Go语言中级开发(9) 自然语言处理(9) PostgreSQL(9) 区块链(9) mlops(9) 安全(9) 全栈开发(8) OpenAI(8) Linux(8) AI(8) GraphQL(8) iOS(8) 软件架构(7) RAG(7) Go语言高级开发(7) AWS(7) C++(7) 数据科学(7) 智能体(6) whisper(6) Prisma(6) 隐私保护(6) JSON(6) DevOps(6) 数据可视化(6) wasm(6) 计算机视觉(6) 算法(6) Rust(6) 微服务(6) 隐私沙盒(5) FedCM(5) 语音识别(5) Angular开发(5) 快速应用开发(5) 提示工程(5) Agent(5) LLaMA(5) 低代码开发(5) Go测试(5) gorm(5) REST API(5) kafka(5) 推荐系统(5) WebAssembly(5) GameDev(5) CMS(5) CSS(5) machine-learning(5) 机器人(5) 游戏开发(5) Blockchain(5) Web安全(5) nextjs(5) Kotlin(5) 低代码平台(5) 机器学习资源(5) Go资源(5) Nodejs(5) PHP(5) Swift(5) RAG架构(4) devin(4) Blitz(4) javascript框架(4) Redwood(4) GDPR(4) 生成式人工智能(4) Angular16(4) Alpaca(4) 编程语言(4) SAML(4) JWT(4) JSON处理(4) Go并发(4) 移动开发(4) 移动应用(4) security(4) 隐私(4) spring-boot(4) 物联网(4) 网络安全(4) API(4) Ruby(4) 信息安全(4) flutter(4) 专家智能体(3) Chrome(3) CHIPS(3) 3PC(3) SSE(3) 人工智能软件工程师(3) LLM Agent(3) Remix(3) Ubuntu(3) GPT4All(3) 软件开发(3) 问答系统(3) 开发工具(3) 最佳实践(3) RxJS(3) SSR(3) Node.js(3) Dolly(3) 移动应用开发(3) 低代码(3) IAM(3) Web框架(3) CORS(3) 基准测试(3) Go语言数据库开发(3) Oauth2(3) 并发(3) 主题(3) Theme(3) earth(3) nginx(3) 软件工程(3) azure(3) keycloak(3) 生产力工具(3) gpt3(3) 工作流(3) C(3) jupyter(3) 认证(3) prometheus(3) GAN(3) Spring(3) 逆向工程(3) 应用安全(3) Docker(3) Django(3) R(3) .NET(3) 大数据(3) Hacking(3) 渗透测试(3) C++资源(3) Mac(3) 微信小程序(3) Python资源(3) JHipster(3) 语言模型(2) 可穿戴设备(2) JDK(2) SQL(2) Apache(2) Hashicorp Vault(2) Spring Cloud Vault(2) Go语言Web开发(2) Go测试工程师(2) WebSocket(2) 容器化(2) AES(2) 加密(2) 输入验证(2) ORM(2) Fiber(2) Postgres(2) Gorilla Mux(2) Go数据库开发(2) 模块(2) 泛型(2) 指针(2) HTTP(2) PostgreSQL开发(2) Vault(2) K8s(2) Spring boot(2) R语言(2) 深度学习资源(2) 半监督学习(2) semi-supervised-learning(2) architecture(2) 普罗米修斯(2) 嵌入模型(2) productivity(2) 编码(2) Qt(2) 前端(2) Rust语言(2) NeRF(2) 神经辐射场(2) 元宇宙(2) CPP(2) 数据分析(2) spark(2) 流处理(2) Ionic(2) 人体姿势估计(2) human-pose-estimation(2) 视频处理(2) deep-learning(2) kotlin语言(2) kotlin开发(2) burp(2) Chatbot(2) npm(2) quantum(2) OCR(2) 游戏(2) game(2) 内容管理系统(2) MySQL(2) python-books(2) pentest(2) opengl(2) IDE(2) 漏洞赏金(2) Web(2) 知识图谱(2) PyTorch(2) 数据库(2) reverse-engineering(2) 数据工程(2) swift开发(2) rest(2) robotics(2) ios-animation(2) 知识蒸馏(2) 安卓开发(2) nestjs(2) solidity(2) 爬虫(2) 面试(2) 容器(2) C++精选(2) 人工智能资源(2) Machine Learning(2) 备忘单(2) 编程书籍(2) angular资源(2) 速查表(2) cheatsheets(2) SecOps(2) mlops资源(2) R资源(2) DDD(2) 架构设计模式(2) 量化(2) Hacking资源(2) 强化学习(2) flask(2) 设计(2) 性能(2) Sysadmin(2) 系统管理员(2) Java资源(2) 机器学习精选(2) android资源(2) android-UI(2) Mac资源(2) iOS资源(2) Vue资源(2) flutter资源(2) JavaScript精选(2) JavaScript资源(2) Rust开发(2) deeplearning(2) RAD(2)

Mistral人工智能团队很自豪地发布了Mistral 7B,这是迄今为止最强大的语言模型。

Mistral 7B 简述

Mistral 7B是一个7.3B参数模型,它:

  • 在所有基准测试中均超过Llama 2 13B
  • 在许多基准测试中表现超过Llama 1 34B
  • 接近CodeLlama 7B的代码性能,同时保持良好的英语任务
  • 使用分组查询注意力(GQA)进行更快的推理
  • 使用滑动窗口注意力(SWA)以较小的成本处理较长的序列
  • 我们将在Apache 2.0许可证下发布Mistral 7B,它可以不受限制地使用。
  • 下载它并在任何地方(包括本地)使用我们的参考实现,
  • 使用vLLM推理服务器和skypilot在任何云(AWS/GCP/Azure)上部署它,
  • 在HuggingFace上使用。

Mistral 7B很容易在任何任务中进行微调。作为演示,我们提供了一个针对聊天进行微调的模型,它的性能优于Llama 2 13B聊天。

详细性能

我们将Mistral 7B与Llama 2家族进行了比较,并自行重新运行所有模型评估,以进行公平比较。

Mistral 7B和不同Llama模型在各种基准上的性能。对于所有指标,所有模型都使用我们的评估管道进行了重新评估,以进行准确的比较。Mistral 7B在所有指标上都显著优于Llama 2 13B,与Llama 34B不相上下(由于Llama 3 34B尚未发布,我们报告了Llama 34 B的结果)。它在代码和推理基准测试方面也非常出色。

基准按主题分类:

  • 常识推理:Hellaswag、Winogrande、PIQA、SIQA、OpenbookQA、ARC Easy、ARC Challenge和CommonsenseQA的0次平均值。
  • 世界知识:NaturalQuestions和TriviaQA的平均5分。
  • 阅读理解:BoolQ和QuAC的0次平均值。
  • 数学:8发GSM8K的平均值maj@8和四热数学maj@4
  • 代码:0次射击Humaneval和3次射击MBPP的平均值
  • 热门汇总结果:5题MMLU、3题BBH和3-5题AGI评估(仅限英语多项选择题)

比较模型在成本/性能层面上的表现的一个有趣的指标是计算“等效模型大小”。在推理、理解和STEM推理(MMLU)方面,Mistral 7B的性能相当于Llama 2的3倍以上。这既节省了内存,又提高了吞吐量。

Mistral 7B和Llama 2的MMLU、常识推理、世界知识和阅读理解结果(7B/13/70B)。Mistral 7B在所有评估中都在很大程度上优于Llama 2 13B,但在知识基准方面除外,在知识基准上它是不相上下的(这可能是因为它的参数计数有限,这限制了它可以压缩的知识量)。

注:我们的评估与LLaMA2论文的重要区别在于:

  • 对于MBPP,我们使用手工验证的子集
  • 对于TriviaQA,我们不提供维基百科上下文

闪光与愤怒:注意力漂移

Mistral 7B使用滑动窗口注意力(SWA)机制(Child等人,Beltagy等人),其中每一层关注之前的4096个隐藏状态。主要的改进,以及最初对此进行研究的原因,是O(sliding_window.seq_len)的线性计算成本。在实践中,对FlashAttention和xFormers的更改使序列长度为16k、窗口为4k的情况下的速度提高了2倍。非常感谢Tri-Dao和Daniel Haziza在紧张的日程安排中帮助完成这些更改。

滑动窗口注意力利用转换器的堆叠层来关注过去超过窗口大小的内容:第k层的令牌i关注第k-1层的令牌[i-Sliding_window,i]。这些令牌涉及令牌[i-2*sliding_window,i]。与注意力模式似乎所包含的内容相比,更高层在过去可以访问更多的信息。

最后,固定的注意力跨度意味着我们可以使用旋转缓冲区将缓存限制为sliding_window令牌的大小(请参阅我们的参考实现回购)。这节省了一半的高速缓冲存储器,用于对8192的序列长度进行推理,而不会影响模型质量。

微调Mistral 7B聊天

为了展示Mistral 7B的泛化能力,我们在HuggingFace上公开的指令数据集上对其进行了微调。没有技巧,没有专有数据。由此产生的模型Mistral 7B Instruction优于MT Bench上的所有7B模型,与13B聊天模型相当。

Mistral 7B Instruction模型快速演示了基础模型可以轻松微调,以实现引人注目的性能。它没有任何调节机制。我们期待着与社区合作,探讨如何使模型更好地尊重护栏,以便在需要适度输出的环境中进行部署。

 

文章链接