【LLM】用LlamaIndex建立和评估QA保证体系
介绍
LlamaIndex(GPT Index)提供了一个将大型语言模型(LLM)与外部数据连接起来的接口。LlamaIndex提供了各种数据结构来索引数据,如列表索引、向量索引、关键字索引和树索引。它提供了高级API和低级API——高级API允许您仅用五行代码构建问题解答(QA)系统,而低级API允许您定制检索和合成的各个方面。
然而,将这些系统投入生产需要仔细评估整个系统的性能,即给定输入的输出质量。检索增强生成的评估可能具有挑战性,因为用户需要针对给定的上下文提出相关问题的数据集。为了克服这些障碍,LlamaIndex提供了问题生成和无标签评估模块。
在本博客中,我们将讨论使用问题生成和评估模块的三步评估过程:
- 从文档生成问题
- 使用LlamaIndex QueryEngine抽象生成问题的答案/源节点,该抽象管理LLM和数据索引之间的交互。
- 评估问题(查询)、答案和源节点是否匹配/内联
【OpenAI】我如何使用OpenAI将公司的文档转化为可搜索数据库
以及如何对您的文档进行同样的处理
在过去的六个月里,我一直在一个初创公司Voxel51工作,该公司是开源计算机视觉工具包FiftyOne的创始人。作为一名机器学习工程师和开发人员,我的工作是倾听我们的开源社区,并为他们带来他们需要的东西——新功能、集成、教程、研讨会,你能想到的。
几周前,我们在FiftyOne中添加了对矢量搜索引擎和文本相似性查询的原生支持,这样用户就可以通过简单的自然语言查询在他们的(通常是海量的,包含数百万或数千万个样本)数据集中找到最相关的图像。
这让我们陷入了一个奇怪的境地:现在,使用开源FiftyOne的人可以通过自然语言查询轻松搜索数据集,但使用我们的文档仍然需要传统的关键字搜索。
我们有很多文档,这些文档有其优点和缺点。作为一名用户,我有时会发现,考虑到文档的数量,准确地找到我想要的内容需要比我想要的更多的时间。
【ChatGPT】如何在你的电脑上离线运行类似LLM的ChatGPT
目前市场上有许多人工智能玩家,包括ChatGPT、Google Bard、Bing人工智能聊天等等。然而,所有这些都需要你有互联网连接才能与人工智能交互。如果你想在电脑上安装类似的大型语言模型(LLM)并在本地使用它怎么办?一个人工智能聊天机器人,你可以在没有互联网连接的情况下私下使用。好吧,通过斯坦福大学发布的新羊驼模型,你可以接近这个现实。是的,你可以离线在你的电脑上运行类似ChatGPT的语言模型。因此,请注意,让我们继续学习如何在没有互联网的情况下在本地使用LLM。
在没有互联网的情况下本地运行类似于LLM的ChatGPT(私有且安全)
在这篇文章中,我提到了如何在没有互联网的情况下在本地PC上运行类似ChatGPT的LLM的所有内容。您可以展开下表,详细了解步骤。
目录
【ChatGPT】Hello Dolly:用开放模型民主化ChatGPT的魔力
总结
我们表明,任何人都可以使用高质量的训练数据,在一台机器上用30分钟对其进行训练,从而获得过时的开源大型语言模型(LLM),并赋予其神奇的ChatGPT般的指令跟随能力。令人惊讶的是,指令遵循似乎不需要最新或最大的模型:我们的模型只有60亿个参数,而GPT-3的参数为1750亿。我们为我们的模型(Dolly)开源代码,并展示如何在Databricks上重新创建它。我们相信,像Dolly这样的模特将有助于LLM的民主化,将它们从很少有公司能负担得起的东西转变为每个公司都可以拥有和定制的商品,以改进他们的产品。
出身背景
ChatGPT是一种专有的指令遵循模型,于2022年11月发布,风靡全球。该模型是根据网络上数万亿个单词进行训练的,需要大量的GPU来开发。这很快导致谷歌和其他公司发布了自己的专有指令遵循模型。2023年2月,Meta向学术研究人员发布了一组名为LLaMA的高质量(但不遵循指令)语言模型的权重,每个模型训练超过80000 GPU小时。然后,在三月份,斯坦福大学建立了Alpaca模型,该模型基于LLaMA,但调整了一个由50000个类似人类的问答组成的小数据集,令人惊讶的是,这使它表现出了类似ChatGPT的交互性。
【ChatGPT】新的开源ChatGPT克隆—称为Dolly
随着Databricks企业软件公司创建的Dolly大型语言模型(DLL)的发布,开源GPT聊天又向前迈出了一步。
新的ChatGPT克隆被称为多利,以该名称的著名绵羊命名,这是第一种被克隆的哺乳动物。
开源大型语言模型
Dolly LLM是日益增长的开源人工智能运动的最新表现,该运动旨在提供更多的技术访问权限,使其不被大公司垄断和控制。
推动开源人工智能运动的一个担忧是,企业可能不愿意将敏感数据交给控制人工智能技术的第三方。
基于开源
Dolly是由非营利的EleutherAI研究所创建的开源模型和斯坦福大学Alpaca模型创建的,后者本身是由Meta创建的650亿参数开源LLaMA模型创建的。
LLaMA代表大型语言模型元人工智能,是一种基于公开数据训练的语言模型。