developer.chat
10 July 2025
SEO Title
category
我拖延了几年才深入研究Transformers 。最后,不知道是什么让它们滴答作响的不适感对我来说太大了。
2017年的这篇论文中引入了转换器作为序列转导的工具——将一个符号序列转换为另一个。最常见的例子是翻译,比如从英语翻译成德语。它也被修改为执行序列完成——给出一个开始提示,以相同的方式进行。它们已迅速成为自然语言处理研究和产品开发中不可或缺的工具。
在我们开始之前,先提醒一下。我们将深入探讨矩阵乘法,并探讨反向传播(用于训练模型的算法),但您无需事先了解任何相关内容。我们将逐一添加所需的概念,并附上解释。
这不是一次短途旅行,但我希望你会很高兴你来了。
- ► 一种热编码
► 点积
► 矩阵乘法
► 矩阵乘法作为表查找
► 一阶序列模型
► 二阶序列模型
► 带跳跃的二阶序列模型
► 掩蔽
► 休息站和出口匝道
► 注意矩阵乘法
► 作为矩阵乘法的二阶序列模型
► 序列完成
► 嵌入
► 位置编码
► 去嵌入
► 软最大值
► 多头注意力
► 重新审视单头注意力
► 跳过连接
► 多层
► 解码器堆栈
► 编码器堆栈
► 交叉关注
► 令牌化
► 字节对编码
► 音频输入
► 资源和信用
原文:https://e2eml.school/transformers.html
- 登录 发表评论