跳转到主要内容

标签(标签)

资源精选(342) Go开发(108) Go语言(103) Go(99) angular(82) LLM(75) 大语言模型(63) 人工智能(53) 前端开发(50) LangChain(43) golang(43) 机器学习(39) Go工程师(38) Go程序员(38) Go开发者(36) React(33) Go基础(29) Python(24) Vue(22) Web开发(20) Web技术(19) 精选资源(19) 深度学习(19) Java(18) ChatGTP(17) Cookie(16) android(16) 前端框架(13) JavaScript(13) Next.js(12) 安卓(11) 聊天机器人(10) typescript(10) 资料精选(10) NLP(10) 第三方Cookie(9) Redwoodjs(9) LLMOps(9) Go语言中级开发(9) 自然语言处理(9) PostgreSQL(9) 区块链(9) mlops(9) 安全(9) 全栈开发(8) ChatGPT(8) OpenAI(8) Linux(8) AI(8) GraphQL(8) iOS(8) 软件架构(7) Go语言高级开发(7) AWS(7) C++(7) 数据科学(7) whisper(6) Prisma(6) 隐私保护(6) RAG(6) JSON(6) DevOps(6) 数据可视化(6) wasm(6) 计算机视觉(6) 算法(6) Rust(6) 微服务(6) 隐私沙盒(5) FedCM(5) 语音识别(5) Angular开发(5) 快速应用开发(5) 提示工程(5) Agent(5) LLaMA(5) 低代码开发(5) Go测试(5) gorm(5) REST API(5) 推荐系统(5) WebAssembly(5) GameDev(5) CMS(5) CSS(5) machine-learning(5) 机器人(5) 游戏开发(5) Blockchain(5) Web安全(5) Kotlin(5) 低代码平台(5) 机器学习资源(5) Go资源(5) Nodejs(5) PHP(5) Swift(5) 智能体(4) devin(4) Blitz(4) javascript框架(4) Redwood(4) GDPR(4) 生成式人工智能(4) Angular16(4) Alpaca(4) 编程语言(4) SAML(4) JWT(4) JSON处理(4) Go并发(4) kafka(4) 移动开发(4) 移动应用(4) security(4) 隐私(4) spring-boot(4) 物联网(4) nextjs(4) 网络安全(4) API(4) Ruby(4) 信息安全(4) flutter(4) 专家智能体(3) Chrome(3) CHIPS(3) 3PC(3) SSE(3) 人工智能软件工程师(3) LLM Agent(3) Remix(3) Ubuntu(3) GPT4All(3) 软件开发(3) 问答系统(3) 开发工具(3) 最佳实践(3) RxJS(3) SSR(3) Node.js(3) Dolly(3) 移动应用开发(3) 低代码(3) IAM(3) Web框架(3) CORS(3) 基准测试(3) Go语言数据库开发(3) Oauth2(3) 并发(3) 主题(3) Theme(3) earth(3) nginx(3) 软件工程(3) azure(3) keycloak(3) 生产力工具(3) gpt3(3) 工作流(3) C(3) jupyter(3) 认证(3) prometheus(3) GAN(3) Spring(3) 逆向工程(3) 应用安全(3) Docker(3) Django(3) R(3) .NET(3) 大数据(3) Hacking(3) 渗透测试(3) C++资源(3) Mac(3) 微信小程序(3) Python资源(3) JHipster(3) 大型语言模型(2) 语言模型(2) 可穿戴设备(2) JDK(2) SQL(2) Apache(2) Hashicorp Vault(2) Spring Cloud Vault(2) Go语言Web开发(2) Go测试工程师(2) WebSocket(2) 容器化(2) AES(2) 加密(2) 输入验证(2) ORM(2) Fiber(2) Postgres(2) Gorilla Mux(2) Go数据库开发(2) 模块(2) 泛型(2) 指针(2) HTTP(2) PostgreSQL开发(2) Vault(2) K8s(2) Spring boot(2) R语言(2) 深度学习资源(2) 半监督学习(2) semi-supervised-learning(2) architecture(2) 普罗米修斯(2) 嵌入模型(2) productivity(2) 编码(2) Qt(2) 前端(2) Rust语言(2) NeRF(2) 神经辐射场(2) 元宇宙(2) CPP(2) 数据分析(2) spark(2) 流处理(2) Ionic(2) 人体姿势估计(2) human-pose-estimation(2) 视频处理(2) deep-learning(2) kotlin语言(2) kotlin开发(2) burp(2) Chatbot(2) npm(2) quantum(2) OCR(2) 游戏(2) game(2) 内容管理系统(2) MySQL(2) python-books(2) pentest(2) opengl(2) IDE(2) 漏洞赏金(2) Web(2) 知识图谱(2) PyTorch(2) 数据库(2) reverse-engineering(2) 数据工程(2) swift开发(2) rest(2) robotics(2) ios-animation(2) 知识蒸馏(2) 安卓开发(2) nestjs(2) solidity(2) 爬虫(2) 面试(2) 容器(2) C++精选(2) 人工智能资源(2) Machine Learning(2) 备忘单(2) 编程书籍(2) angular资源(2) 速查表(2) cheatsheets(2) SecOps(2) mlops资源(2) R资源(2) DDD(2) 架构设计模式(2) 量化(2) Hacking资源(2) 强化学习(2) flask(2) 设计(2) 性能(2) Sysadmin(2) 系统管理员(2) Java资源(2) 机器学习精选(2) android资源(2) android-UI(2) Mac资源(2) iOS资源(2) Vue资源(2) flutter资源(2) JavaScript精选(2) JavaScript资源(2) Rust开发(2) deeplearning(2) RAD(2)

category

上下文

LLM操作平台,如LangChain,可以很容易地将LLM组件(例如,模型、文档检索器、数据加载器)组装到链中。问答是这些链中最受欢迎的应用之一。但是,确定哪些参数(例如,块大小)或组件(例如,模型选择、VectorDB)产生最佳QA性能通常并不总是显而易见的。

在这里,我们介绍了一种用于评估QA链的简单工具(请参阅此处的代码),称为自动评估器

  1. 要求用户输入一组感兴趣的文档
  2. 使用LLM(GPT-3.5-turbo)从这些文档中自动生成问答对
  3. 使用指定的一组用户界面选择的配置生成问答链
  4. 使用链生成对每个问题的回答
  5. 使用LLM(GPT-3.5-turbo)对回答进行评分
  6. 探索各种链条配置的评分

用户输入

这是作为一个Streamlight应用程序实现的,用户可以在其中提供一组文档。可选地,用户还可以提供一组相应的问答对(参见此处的示例)。如果用户不提供这一点,应用程序会使用QAGenerationChain自动生成一个评估集。您可以在这里看到用于此操作的提示,它从随机块中选择问答对进行输入。


链条

UI有各种旋钮,可以用来创建QA链。例如,您可以从较新的文档检索器(例如SVM)中进行选择,也可以在向量库中使用相似性搜索。您可以选择各种文档拆分方法、拆分大小和拆分重叠。您还可以从检索到的文档中选择用于问题答案的最终摘要的LLM。这些不同的零件可以使用Langchain快速轻松地组装成一个链条进行评估。

评分

我们使用LLM(GPT-3.5-turbo)来对检索到的文档的质量进行评分,这是一个受LLama Index(此处)与Jerry Liu讨论启发的想法。我们还使用LLM来对相对于评估集的答案质量进行评分。在这两种情况下,我们都会公开提示。用户可以很容易地设计它们。我们还将结果公布给人类检查;描述性提示可用于向LLM评分者询问其评估的详细解释。


比较

我们积累了实验结果,以便在各种测试中进行比较,并提供了平均分数(答案和检索)与模型延迟(以秒为单位)的表格和散点图。


未来发展方向

欢迎反馈和贡献;例如,我们希望包括其他检索器(如LLama Index)和其他模型(如各种HuggingFace模型)。我们希望提高eval过程中各个阶段的性能(例如,特别是延迟),并将其作为一个免费的托管工具提供(因为现在有些用户将无法访问GPT-4或Claude)。最后,我们想将其扩展到其他任务(例如聊天),并在给定用户指定目标(例如聊天或QA目标)的情况下,自动化最佳链组装过程(例如使用代理)。

文章链接