一、Transformer 解决了什么问题

传统模型(RNN/LSTM)

  • 痛点:无法并行处理、长距离依赖失效、上下文理解局限
  • 举例:传话游戏,只能一传一,不能互相通信,第1个人接收到的信息跟第10个人比肯定会有信息丢失

Transformer

  • 优点:通过自注意力机制并行处理所有词,捕捉全局上下文、引入位置编码保留词序信息,替代RNN
  • 举例:所有人加入电话会议,不存在信息丢失,大家可以互相讨论、互通有无

RNN VS Transformer场景对比总结

问题 RNN(传话游戏) Transformer(电话会议)
长距离依赖失效 信息经多人传递后丢失关键细节 所有参与者直接访问原始信息
上下文理解局限 只能基于前一个人的片面信息猜测 全局视角动态关联所有信息
并行处理 必须逐人传递,速度慢 所有人同时沟通,效率高

二、为什么自注意力机制这么重要

Transformer中的注意力机制(特别是自注意力机制)是其核心组成部分,能够有效捕捉序列中元素之间的长距离依赖关系。

注意力机制通过动态计算序列中每个元素与其他元素的关联程度(权重),从而确定在特定任务中哪些信息需要重点关注。

这种机制使模型能够:

  • 并行处理序列:避免RNN的逐步计算瓶颈
  • 捕捉全局依赖:直接建模任意两个位置的关系,无论距离远近。
  • 动态聚焦关键信息:根据上下文动态调整权重,而非依赖固定模式。