LangChain的核心价值支柱之一是能够将大型语言模型与您自己的文本数据相结合。有多种(四种!)不同的方法可以做到这一点,并且可以为许多不同的应用程序提供动力。
使用文本数据的上游一步是将数据转换为文本形式。由于存在多种不同的格式,这可能相当棘手。
进unstructured.io。
Unstructured是一家致力于将自然语言数据从原始数据转换为可供机器使用的数据的公司。他们实现这一点的主要方法之一是使用开源Python包。此包支持多种不同类型的文件扩展名:.txt、.docx、.pptx、.jpg、.png、.eml、.html和.pdf文档。