IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    大模型的性能提升:KV-Cache

    wireless_com发表于 2025-06-18 08:00:13
    love 0
    这样一来,在后续的 softmax 操作中,这些位置的值会趋近于零,从而确保每个 token 在预测时只能关注到它之前的历史 token,而不会看到未来的输入。其核心思想在于缓存每一步计算生成的 Key 和 Value 向量,使得在生成新 token 时,模型无需重复计算历史上下文中的 K 和 V 值,从而大幅减少冗余计算,加快响应生成。KV-Cache的运行速度实际上受到多种因素的综合影响,其中包括模型的规模(具体体现在注意力层数的多少)、输入文本的长度n、所使用的硬件设备以及具体的实现细节等。


沪ICP备19023445号-2号
友情链接