Transformer优化 – 联合国创新及产品管理能力建设项目(UNSDGT)

什么是KV Cache优化？

KV Cache优化是一种在Transformer架构的大型语言模型推理过程中使用的关键技术，通过缓存自注意力机制中的键（Key）和值（Value）矩阵，避免在生成每个新token时重复计算之前的键值对，从而显著降低计算复杂度和内存开销，提 […]

FlashAttention是一种高效的自注意力计算算法，由Tri Dao等人在2022年提出，旨在优化Transformer模型的核心组件。它通过重新组织计算顺序和利用GPU的快速内存层次结构（如SRAM），减少对高延迟全局内存的访问，从 […]