QLoRA——如何在单个GPU上微调LLM
Python示例代码介绍(ft.Mistral-7b)
本文是关于在实践中使用大型语言模型(LLM)的更大系列文章的一部分。在上一篇文章中,我们看到了如何使用OpenAI对LLM进行微调。然而,这种方法的主要限制是,OpenAI的模型隐藏在其API后面,这限制了我们可以使用它们构建什么以及如何构建。在这里,我将讨论一种使用开源模型和QLoRA来微调LLM的替代方法。
微调是指我们采用现有的模型,并根据特定的用例对其进行调整。这是最近人工智能创新爆发的关键部分,催生了ChatGPT等。
尽管微调是一个简单(强大)的想法,但将其应用于LLM并不总是那么简单。关键的挑战是LLM在计算上(非常)昂贵(即它们不能在典型的笔记本电脑上进行训练)。
例如,70B参数模型的标准微调需要超过1TB的内存[1]。就上下文而言,A100 GPU具有高达80GB的内存,所以你(最多)需要十几张这样的20000美元的卡!
虽然这可能会让你构建自定义人工智能的梦想破灭,但现在还不要放弃。开源社区一直在努力使使用这些模型的建筑更容易访问。从这些努力中产生的一种流行方法是QLoRA(量化低秩自适应),这是一种在不牺牲性能的情况下微调模型的有效方法。
【软件架构】最佳软件架构书籍终极榜单(2024)
在这篇文章中,我为您列出了2024年应该阅读的最佳软件架构书籍。
软件架构是软件产品成功开发的基础。
一个精心设计的软件架构可以对系统的质量产生很大的影响。它还可以帮助降低出错的风险,并使将来添加新特性和功能变得更容易。
在这篇博客文章中,我为您列出了2024年应该阅读的最佳软件架构书籍,以及2024年将出版哪些有趣的软件架构书籍。
当然,这些书中的大多数也是2023年最好的软件架构和设计书籍之一。
我希望这份软件架构师书籍清单能帮助你找到你需要学习更多关于软件架构的书籍,并成为一名更好的软件架构师。
【人工智能】新的人工智能模型可以简化机器人仓库的操作
通过将棘手的问题分解成更小的块,深度学习技术可以确定仓库中减少流量的最佳区域。
【人工智能】Pienso 将人工智能交到有问题需要解决的人手中
校友创立的Pienso开发了一款用户友好的人工智能构建器,因此领域专家可以在不编写任何代码的情况下构建解决方案。
新模型确定了不应该一起服用的药物
使用机器学习算法,研究人员可以预测可能干扰药物有效性的相互作用。
【物联网芯片】这个小巧、防篡改的ID标签几乎可以验证任何东西
麻省理工学院的工程师开发了一种标签,可以近乎完美地揭示物品是真是假。钥匙在标签背面的胶水里。
AI工具
- 阅读更多 关于 AI工具
- 登录 发表评论
【人工智能】用于智能电网建模的生成人工智能
麻省理工学院LIDS获得了阿巴拉契亚地区委员会的资助,这是一个多州合作项目的一部分,该项目旨在为农村地区使用的新型智能电网技术建模和测试。
【AI新闻】使用人工智能发现坚硬的微观结构
麻省理工学院CSAIL的创新人工智能系统融合了模拟和物理测试,打造出具有新发现的耐用性和灵活性的材料,用于各种工程用途。
【AI新闻】一种让人工智能聊天机器人全天聊天而不崩溃的新方法
研究人员为一个令人困惑的问题开发了一个简单而有效的解决方案,该问题可能会恶化大型语言模型(如ChatGPT)的性能。