IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    从零构建大模型之Transformer公式解读

    wireless_com发表于 2025-04-13 20:25:49
    love 0
    解码器层是相似的,但有一个额外的多头注意力子层,允许参与编码器的输出。另一方面,交叉注意力专注于故事的具体细节,以确保随着你的进步,能将最相关的信息融入到你的理解中。解码器的多头注意力子层,包括掩蔽的多头注意力和标准的多头注意力(注意编码器的输出) ,共同生成输出序列。【引】收到图灵寄来的两本书《大模型应用开发极简入门》和《从零构建大模型》,重新点燃了自己深入理解大模型内部机制的热情,不能只知其然而不知其所以然,于是重温大模型核心的transformer架构, 尝试用25个公式进行解读,遂成此文。


沪ICP备19023445号-2号
友情链接