跳转到主要内容

标签(标签)

资源精选(342) Go开发(108) Go语言(103) Go(99) LLM(84) angular(83) 大语言模型(67) 人工智能(56) 前端开发(50) LangChain(43) golang(43) 机器学习(39) Go工程师(38) Go程序员(38) Go开发者(36) React(34) Go基础(29) Python(24) Vue(23) Web开发(20) 深度学习(20) Web技术(19) 精选资源(19) Java(19) ChatGTP(17) Cookie(16) android(16) 前端框架(13) JavaScript(13) Next.js(12) LLMOps(11) 聊天机器人(11) 安卓(11) ChatGPT(10) typescript(10) 资料精选(10) mlops(10) NLP(10) 第三方Cookie(9) Redwoodjs(9) RAG(9) Go语言中级开发(9) 自然语言处理(9) PostgreSQL(9) 区块链(9) 安全(9) 智能体(8) 全栈开发(8) OpenAI(8) Linux(8) AI(8) GraphQL(8) iOS(8) 数据科学(8) 软件架构(7) Go语言高级开发(7) AWS(7) C++(7) whisper(6) Prisma(6) 隐私保护(6) 提示工程(6) JSON(6) DevOps(6) 数据可视化(6) wasm(6) 计算机视觉(6) 算法(6) Rust(6) 微服务(6) 隐私沙盒(5) FedCM(5) 语音识别(5) Angular开发(5) 快速应用开发(5) 生成式AI(5) Agent(5) LLaMA(5) 低代码开发(5) Go测试(5) gorm(5) REST API(5) kafka(5) 推荐系统(5) WebAssembly(5) GameDev(5) 数据分析(5) CMS(5) CSS(5) machine-learning(5) 机器人(5) 游戏开发(5) Blockchain(5) Web安全(5) nextjs(5) Kotlin(5) 低代码平台(5) 机器学习资源(5) Go资源(5) Nodejs(5) PHP(5) Swift(5) RAG架构(4) devin(4) Blitz(4) javascript框架(4) Redwood(4) GDPR(4) 生成式人工智能(4) Angular16(4) Alpaca(4) 编程语言(4) SAML(4) JWT(4) JSON处理(4) Go并发(4) 移动开发(4) 移动应用(4) security(4) 隐私(4) spring-boot(4) 物联网(4) 网络安全(4) API(4) Ruby(4) 信息安全(4) flutter(4) 专家智能体(3) Chrome(3) CHIPS(3) 3PC(3) SSE(3) 人工智能软件工程师(3) LLM Agent(3) Remix(3) Ubuntu(3) GPT4All(3) 模型评估(3) 软件开发(3) 问答系统(3) 开发工具(3) 最佳实践(3) RxJS(3) SSR(3) Node.js(3) Dolly(3) 移动应用开发(3) 低代码(3) IAM(3) Web框架(3) CORS(3) 基准测试(3) Go语言数据库开发(3) Oauth2(3) 并发(3) 主题(3) Theme(3) earth(3) nginx(3) 软件工程(3) azure(3) keycloak(3) 生产力工具(3) gpt3(3) 工作流(3) C(3) jupyter(3) 认证(3) prometheus(3) GAN(3) Spring(3) 逆向工程(3) 应用安全(3) Docker(3) Django(3) R(3) .NET(3) 大数据(3) Hacking(3) 渗透测试(3) C++资源(3) Mac(3) 微信小程序(3) Python资源(3) JHipster(3) JDK(2) SQL(2) Apache(2) Hashicorp Vault(2) Spring Cloud Vault(2) Go语言Web开发(2) Go测试工程师(2) WebSocket(2) 容器化(2) AES(2) 加密(2) 输入验证(2) ORM(2) Fiber(2) Postgres(2) Gorilla Mux(2) Go数据库开发(2) 模块(2) 泛型(2) 指针(2) HTTP(2) PostgreSQL开发(2) Vault(2) K8s(2) Spring boot(2) R语言(2) 深度学习资源(2) 半监督学习(2) semi-supervised-learning(2) architecture(2) 普罗米修斯(2) 嵌入模型(2) productivity(2) 编码(2) Qt(2) 前端(2) Rust语言(2) NeRF(2) 神经辐射场(2) 元宇宙(2) CPP(2) spark(2) 流处理(2) Ionic(2) 人体姿势估计(2) human-pose-estimation(2) 视频处理(2) deep-learning(2) kotlin语言(2) kotlin开发(2) burp(2) Chatbot(2) npm(2) quantum(2) OCR(2) 游戏(2) game(2) 内容管理系统(2) MySQL(2) python-books(2) pentest(2) opengl(2) IDE(2) 漏洞赏金(2) Web(2) 知识图谱(2) PyTorch(2) 数据库(2) reverse-engineering(2) 数据工程(2) swift开发(2) rest(2) robotics(2) ios-animation(2) 知识蒸馏(2) 安卓开发(2) nestjs(2) solidity(2) 爬虫(2) 面试(2) 容器(2) C++精选(2) 人工智能资源(2) Machine Learning(2) 备忘单(2) 编程书籍(2) angular资源(2) 速查表(2) cheatsheets(2) SecOps(2) mlops资源(2) R资源(2) DDD(2) 架构设计模式(2) 量化(2) Hacking资源(2) 强化学习(2) flask(2) 设计(2) 性能(2) Sysadmin(2) 系统管理员(2) Java资源(2) 机器学习精选(2) android资源(2) android-UI(2) Mac资源(2) iOS资源(2) Vue资源(2) flutter资源(2) JavaScript精选(2) JavaScript资源(2) Rust开发(2) deeplearning(2) RAD(2)

category

大型语言模型(LLM)将彻底改变我们构建和维护人工智能系统和产品的方式。在OpenAI的GPT、Meta的Llama和谷歌的BERT等LLM发布后,它们能够生成类似人类的文本、理解上下文并执行广泛的自然语言处理(NLP)任务。一种被称为“LLMOps”的新方法已经发展起来,并成为每个AI/ML社区的话题,以简化我们在生产中开发、部署和维护LLM的方式。

什么是LLMOps?


LLMOps代表大型语言模型操作,字面意思是“LLM的MLOps”,这意味着它是MLOps的一个子类别,专注于新的工具集、架构原则和最佳实践,以操作基于LLM的应用程序的生命周期。

以下是LLMOps的关键方面,展示了它们在成功实现基于LLM的应用程序中的重要性。

  • 数据管理:摄入、清洁、贴标签、储存。
  • 模型开发:选择基础模型,微调,评估。
  • 模型部署:监控、维护、优化。
  • 安全和隐私:护栏、访问控制、加密、合规、保密。
  • 道德和公平:解决偏见,负责任,透明。

MLOps与LLMOps🥊


MLOps和LLMOps有很多相似之处,然而,它们之间的差异是基于我们使用经典ML模型与LLM构建人工智能产品的方式。

https://media.giphy.com/media/N9oq9rijUWT3q/giphy-downsized-large.gif

1) 数据管理


在MLOps中,数据预处理是ML模型开发过程中最关键的一步,因为它会影响模型的质量和性能。从头开始训练神经网络通常需要大量的标记数据,然而,微调预先训练的模型所需的数据量相对较少。

在LLMOps中,数据质量和多样性对于有效的大型语言模型非常重要。然而,微调预先训练的模型与MLOps非常相似。此外,即时工程引入了零样本和少热点学习等新技术,包括使用谨慎手工挑选的样本和精确策划的数据,而不是大量潜在的不规则数据,最终提高了模型完成特定任务的能力。

2) 模型实验


在MLOps中,开发过程包括运行许多实验,并将其结果与其他实验进行比较,以及开发性能最佳的配置,其中包括跟踪输入,如代码、训练和验证数据、模型架构和超参数,以及输出,如评估指标和模型权重。

在LLMOps中,由于LLM能够从原始数据中有效学习,因此特征工程的重要性变得不那么重要。微调与MLOps有着相似的路径,但它旨在使用特定领域的数据集提高模型在特定任务上的性能。即时工程在LLM中也越来越受欢迎,LLM对输入进行调整,使输出以更少的精力和资源与预期相匹配。

3) 模型评估


在MLOps中,根据问题类型(分类、回归等)和其他技术,如交叉验证、学习曲线、基线模型比较、交叉验证、超参数调整和混淆矩阵,通过评估其在保留验证集上执行的能力来评估模型性能,评估指标包括准确性、精确度、召回率、F1分数或均方误差(MSE)。

在LLMOps中,使用ROUGE、BERT和BLEU分数等内在指标来评估模型性能,这些指标侧重于测量响应与提供的参考答案的相似性。人工评估涉及专家或众包员工在特定背景下评估LLM的产出或绩效。特定于任务的基准,如GLUE或SuperGLUE,使用一组预定义的任务来评估LLM,每个任务都有完善的指标。

4) 成本


在MLOps中,成本因素包括与数据收集和准备、实验计算资源、特征工程和超参数调整相关的费用。

而在LLMOps中,主要的成本因素是生产中的模型推理,这需要昂贵的基于GPU的计算实例才能获得更好的性能,而像OpenAI的GPT-3.5和GPT-4模型这样的闭源适当LLM的使用也会导致API服务成本。

5) 延迟


在MLOps中,由于计算复杂性、模型大小、硬件限制、数据预处理开销、网络延迟、并发用户需求和软件相关的低效率等因素,可能会出现延迟问题。它可能会阻碍依赖及时预测的应用程序的实时或接近实时的性能,影响自治系统、实时决策和快速响应至关重要的场景中的用户体验等领域。

在LLMOps中,由于LLM的巨大规模和复杂性,加上文本理解和生成所需的大量计算,延迟问题更加突出,这可能会导致大量的处理时间,影响使用这些模型的应用程序的响应能力。此类延迟问题可能会影响实时交互、聊天机器人、内容生成和其他与语言相关的任务,在这些任务中,快速无缝的语言理解和生成对于获得满意的用户体验至关重要。

简而言之


LLMOps是MLOps的一个特殊用例,预计它将继续以新的维度发展,并以巨大的速度增长。在某种程度上,LLMOps可以被视为MLOps关键方面的重大偏差,包括训练、部署和维护,这就是为什么它需要一种不同的理解方法和话语。

References

[1] Chip Huyen, Building LLM applications for production (2023), Chip Huyen’s Blog

[2] Cyces Innovation Labs, The A to Z of LLMOps: Breakdown for beginners (2023), Cyces’ Blog

[3] Hakan Tekgul, A Developer’s Guide To LLMOps: MLOps for Operationalizing LLMs (2023), Arize AI’s Blog

[4] Leonie, Understanding LLMOps: Large Language Model Operations (2023), Weights & Biases

[5] Tim Leers, From MLOps to LLMOps — what’s the difference? (2023), Dataroots

[6] Vinija Jain, LLMOps (2023), Vinija Jain’s Blog

 

标签