模型评估

【LLM架构】用于评估LLM生成内容的指标列表

developer.chat

24 January 2025

评估方法衡量我们的系统性能如何。对每个摘要进行人工评估（人工审查）既费时又昂贵，而且不可扩展，因此通常会辅以自动评估。许多自动评估方法试图衡量人类评估者会考虑的文本质量。这些品质包括流畅性、连贯性、相关性、事实一致性和公平性。内容或风格与参考文本的相似性也可能是生成文本的重要质量。

下图包括用于评估LLM生成内容的许多指标，以及如何对其进行分类。

developer.chat

10 June 2024

pgmr.cloud

12 May 2023

Auto-Evaluator Opportunities

编者按：这是兰斯·马丁的一篇客座博客文章。

TL;DR

我们最近开源了一个自动评估工具，用于对LLM问答链进行评分。我们现在发布了一个开源、免费的托管应用程序和API，以扩展可用性。下面我们将讨论一些进一步改进的机会。

文档问答是一个流行的LLM用例。LangChain可以轻松地将LLM组件（例如，模型和检索器）组装成支持问答的链：输入文档被分割成块并存储在检索器中，在给定用户问题的情况下检索相关块并传递给LLM以合成答案。

质量保证系统的质量可能有很大差异；我们已经看到由于特定的参数设置而产生幻觉和回答质量差的情况。但是，（1）评估答案质量和（2）使用此评估来指导改进的QA链设置（例如，块大小、检索到的文档数）或组件（例如，模型或检索器选择）并不总是显而易见的。