这样一来,在后续的 softmax 操作中,这些位置的值会趋近于零,从而确保每个 token 在预测时只能关注到它之前的历史 token,而不会看到未来的输入。其核心思想在于缓存每一步计算生成的 Key 和 Value 向量,使得在生成新 token 时,模型无需重复计算历史上下文中的 K 和 V 值,从而大幅减少冗余计算,加快响应生成。KV-Cache的运行速度实际上受到多种因素的综合影响,其中包括模型的规模(具体体现在注意力层数的多少)、输入文本的长度n、所使用的硬件设备以及具体的实现细节等。