| 人工智能开发者中心

【大模型工具】Ollama 介绍

developer.chat

29 January 2025

Ollama 是一款面向企业和开发者的人工智能平台，专注于帮助用户快速构建和部署生成式AI应用。它的目标是简化AI应用的开发流程，并使之更易于集成和使用。

Ollama的主要特点包括：

阅读更多关于【大模型工具】Ollama 介绍
登录发表评论

【LLM评估】LLM 评估指标：终极 LLM 评估指南

developer.chat

27 January 2025

尽管对于任何希望交付强大的 LLM 应用程序的人来说，评估大型语言模型 (LLM) 的输出都是必不可少的，但 LLM 评估对许多人来说仍然是一项艰巨的任务。无论您是通过微调来提高模型的准确性，还是增强检索增强生成 (RAG) 系统的上下文相关性，了解如何为您的用例开发和决定适当的 LLM 评估指标集对于构建坚不可摧的 LLM 评估管道都是必不可少的。

本文将教您有关 LLM 评估指标的所有知识，并附上代码示例。我们将深入探讨：

什么是 LLM 评估指标，如何使用它们来评估 LLM 系统，常见的陷阱，以及是什么让优秀的 LLM 评估指标变得优秀。
对 LLM 评估指标进行评分的所有不同方法，以及为什么 LLM-as-a-judge 最适合 LLM 评估。
如何使用 DeepEval (⭐https://github.com/confident-ai/deepeval) 实现并决定在代码中使用的适当的 LLM 评估指标集。
您准备好阅读这份长长的清单了吗？让我们开始吧。

（更新：如果您正在寻找评估 LLM 聊天机器人/对话的指标，请查看这篇新文章！）

【LLM架构】用于评估LLM生成内容的指标列表

developer.chat

24 January 2025

评估方法衡量我们的系统性能如何。对每个摘要进行人工评估（人工审查）既费时又昂贵，而且不可扩展，因此通常会辅以自动评估。许多自动评估方法试图衡量人类评估者会考虑的文本质量。这些品质包括流畅性、连贯性、相关性、事实一致性和公平性。内容或风格与参考文本的相似性也可能是生成文本的重要质量。

下图包括用于评估LLM生成内容的许多指标，以及如何对其进行分类。

通过我们的综合实践测试掌握CAIS

通过USAII认证的人工智能科学家（CAIS）实践测试为成功做好准备！

你的目标是成为一名认证的人工智能科学家（CAIS）吗？我们详细而富有挑战性的实践测试旨在帮助您脱颖而出。我们的测试侧重于人工智能伦理、偏见、可解释性、隐私和对抗性攻击等核心领域，将确保您为CAIS考试做好充分准备。

为什么选择我们的CAIS实践测试？

对关键主题的全面报道

我们的实践测试涵盖了基本主题，包括偏见、可解释性、隐私问题和对抗性攻击。通过熟悉这些领域，你将能够自信而准确地应对复杂的问题。

与CAIS考试目标一致

每个问题都经过精心设计，与认证人工智能科学家考试的目标保持一致。这确保您正在学习反映您在考试中遇到的内容的相关材料。

真实的考试体验

我们的问题旨在模仿实际CAIS考试的格式和难度。通过练习这些问题，您将获得宝贵的经验并减少考试焦虑。

详细说明

每个问题都有一个彻底的解释，帮助你理解正确答案背后的推理。这不仅有助于掌握复杂的概念，而且有助于有效地应用它们。

【AI模型】LLM中检查点上的检查点

developer.chat

18 January 2025

如果你一直在关注深度学习的最新消息，你就会意识到深度学习中的数据和模型非常庞大。数据集的大小可能达到PB级，模型本身的大小也可能达到数百GB。这意味着，即使是模型本身也无法放入标准GPU芯片的内存中。高效和智能的并行化以及可恢复性在深度学习领域至关重要。

最近的一些文献主要关注LLM系统的基础设施配置。如果你了解VAST，你就会知道这正是我们的专长，因为我们不仅喜欢谈论数据基础设施，还喜欢谈论所有可以推动技术从数据中获得最大价值的神奇方法。因此，事不宜迟，我们想向您介绍并行性如何影响当今最复杂模型中的检查点和恢复操作。

在所有维度上并行化

对于LLM和其他大规模深度学习算法中固有的大型数据集和大型模型，数据和模型本身都太大，无法放入内存。例如，具有数十亿个参数的典型LLM将不适合内存。GPT-3的大小大于500 GB，典型的GPU限制为80 GB的VMEM。此外，单个A100 GPU需要几百年的时间来训练GPT-3（实际上需要300多年）。因此，多维并行性对于训练和微调模型至关重要。

这一论点基于该领域的广泛研究，特别是斯坦福大学、英伟达和微软研究院的开创性论文《威震天LM大规模训练》。作者提出，并在现场得到证实，三种并行性的综合允许LLM中更易于管理和恢复的工作负载：

阅读更多关于【AI模型】LLM中检查点上的检查点
登录发表评论

Dify与Ragflow：LLM应用程序开发的关键差异

使用大型语言模型（LLM）的应用程序开发随着Dify和Ragflow等平台的发展而显著发展。了解这两者之间的关键区别可以帮助开发人员根据自己的需求选择合适的工具。

数据准备

Dify通过提供数据收集和预处理的集成工具，在数据准备方面表现出色。这最大限度地减少了对大量编码的需求，使开发人员能够专注于更高级别的任务。相比之下，Ragflow可能需要在数据清理和注释方面进行更多的手动干预，这可能会减缓开发过程。

提示工程

Dify提供了一个所见即所得（WYSIWYG）界面，用于快速编辑和调试。此功能允许基于用户输入进行实时优化，使在没有深厚技术知识的情况下更容易细化提示。Ragflow虽然功能强大，但可能无法提供相同水平的用户友好的快速工程工具，这可能会导致新用户的学习曲线更陡峭。

嵌入和上下文管理

借助Dify，嵌入和上下文管理实现了自动化，从而增强了可扩展性和效率。开发人员不需要编写大量代码来管理长上下文，因为Dify可以无缝地处理这个问题。另一方面，Ragflow可能需要更多的手动编码来实现类似的结果，这可能会增加开发时间和复杂性。

阅读更多关于【LLM架构】Dify与Ragflow的比较
登录发表评论

【前端开发】JavaScript框架的进步：2025年React、NextJS、Angular、Vue.js和Svelte的新进展

developer.chat

12 January 2025

太长；未阅读：

2025年，React、Next.js、Angular、Vue.js和Svelte等主要JavaScript框架引入了增强web开发的尖端功能。React在并发模式下的加载速度提高了40%，而Next.js则彻底改变了服务器端渲染和代码优化。Angular专注于增量水合的开发人员体验，Vue.js拥有改进的开发人员工具和组件API标准化，Svelte为快速加载提供零运行时间编译。这些框架强调性能、TypeScript集成和服务器端渲染，塑造了web应用程序的未来。

JavaScript框架将在2025年彻底改变游戏规则，我很高兴能分析一下正在发生的事情。服务器优先方法的最新发展改变了我们构建web应用程序的方式。

React、Next.js、Angular、Vue.js和Svelte不再只是工具，它们正在塑造web开发的未来。

【大型语言模型】建立有效的智能体

developer.chat

3 January 2025

在过去的一年里，我们与数十个团队合作，在各个行业构建了大型语言模型（LLM）智能体。一直以来，最成功的实现并没有使用复杂的框架或专门的库。相反，他们用简单、可组合的模式进行构建。

在这篇文章中，我们分享了我们从与客户和构建智能体合作中学到的东西，并为开发人员提供了构建有效智能体的实用建议。

什么是智能体？

“Agent”可以通过多种方式定义。一些客户将智能体定义为在长时间内独立运行的完全自主的系统，使用各种工具来完成复杂的任务。其他人则使用该术语来描述遵循预定义工作流的更规范的实现。在Anthropic，我们将所有这些变体归类为智能体系统，但在工作流和智能体之间进行了重要的架构区分：

工作流是通过预定义的代码路径编排LLM和工具的系统。
另一方面，智能体是LLM动态指导自己的流程和工具使用的系统，保持对它们如何完成任务的控制。

下面，我们将详细探讨这两种类型的智能体系统。在附录1（“实践中的智能体”）中，我们描述了客户发现使用这些系统具有特殊价值的两个领域。

阅读更多关于【大型语言模型】建立有效的智能体
登录发表评论

【ChatGPT】ChatGPT与置信度评分

developer.chat

25 December 2024

在这篇文章中，我们将着眼于使用通过OpenAI API可用的置信度分数。

在第一部分中，我们将从对这些分数的温和探索开始，并在自定义聊天界面的帮助下了解它们的含义。

在第二节中，我们将探讨在代码中使用置信度得分。

探索“信心”

首先，快速入门LLM在其响应中为每个令牌做了什么：

该模型为其词汇表中的每个标记输出一个值（~100000个值）
然后，这些值被转化为我们（怀疑地）称之为“概率”的值。这些价值观是本文的重点。
然后以概率方式选择单个令牌（有时是具有最高值的令牌，有时不是）并在响应中使用

现在，让我们对一些术语进行排序：我们在这篇文章中使用的值并不是真正的“概率”（在“某事发生的可能性有多大”的意义上），也不是任何有意义的“信心”。它们只是LLM输出的数字，经过调整使其为正并加1（对于数学家来说，这足以获得任何一组数字的标签“概率分布”）。

因此，你可以将“概率”添加到术语列表中，这些术语在学术界意味着一件事，但在现实世界中却略有不同，导致广泛的误解（以及“理论”、“意义”等）。

阅读更多关于【ChatGPT】ChatGPT与置信度评分
登录发表评论

【RAG架构】RAG的四个层次——微软的研究

developer.chat

25 December 2024

改进检索增强生成（RAG）涉及基于用户意图和关注上下文对查询进行分类。还利用SLM和微调来提供更准确和相关的结果。

简而言之

选择正确的RAG（检索增强生成）架构主要取决于具体的用例和实现要求，确保系统与任务需求保持一致。

Agent RAG的重要性将越来越高，与Agent X的概念相一致，其中Agent能力嵌入个人助理、工作流程和流程中。

在这里，“X”代表了代理系统的无限适应性，实现了无缝的任务自动化和跨不同环境的知情决策，以提高组织效率和自主性。

综合不同的文档源对于有效解决复杂的多部分查询至关重要。

介绍

提供准确的RAG实施的挑战包括检索相关数据、准确解释用户意图，以及利用LLM的推理能力完成复杂任务。

推理可以通过像ReAct这样的RAG代理方法来增强，在这种方法中，可以创建事件的推理和行为序列。

我从这项研究中发现了一个有趣的事实，即它指出没有一种单一的解决方案适用于所有数据增强的LLM应用程序。

上下文是指围绕对话的信息，帮助人工智能理解用户的意图并提供相关、连贯的回应。
这包括用户之前的输入、当前任务、环境以及可能影响对话的任何外部数据等因素。

热门内容

今日:

总体:

最近浏览：

标签（标签）

【大模型工具】Ollama 介绍

【LLM评估】LLM 评估指标：终极 LLM 评估指南

【LLM架构】用于评估LLM生成内容的指标列表

【职业发展】CAIS：认证人工智能科学家考试准备

通过我们的综合实践测试掌握CAIS

为什么选择我们的CAIS实践测试？

对关键主题的全面报道

与CAIS考试目标一致

真实的考试体验

详细说明

【AI模型】LLM中检查点上的检查点

在所有维度上并行化

【LLM架构】Dify与Ragflow的比较

Dify与Ragflow：LLM应用程序开发的关键差异

数据准备

提示工程

嵌入和上下文管理

【前端开发】JavaScript框架的进步：2025年React、NextJS、Angular、Vue.js和Svelte的新进展

太长；未阅读：

【大型语言模型】建立有效的智能体

什么是智能体？

【ChatGPT】ChatGPT与置信度评分

探索“信心”

【RAG架构】RAG的四个层次——微软的研究

简而言之

介绍

标签（标签）

Search

通过我们的综合实践测试掌握CAIS

为什么选择我们的CAIS实践测试？

对关键主题的全面报道

与CAIS考试目标一致

真实的考试体验

详细说明

在所有维度上并行化

Dify与Ragflow：LLM应用程序开发的关键差异

数据准备

提示工程

嵌入和上下文管理

太长；未阅读：

什么是智能体？

探索“信心”

简而言之

介绍