第08篇:FlashAttention 与高效注意力——把 O(n²) 显存打回 O(n) 的工程奇迹

发布时间:2026/7/2 6:37:55
第08篇:FlashAttention 与高效注意力——把 O(n²) 显存打回 O(n) 的工程奇迹 前置知识:第05篇的 Attention 机制 / 第06篇的 Transformer 架构引言:为什么 Attention 不能直接用?仔细想一下标准注意力的计算过程:S=Q @ K^T# [n, d] × [d, n] → [n, n] ← O(n²) 显存!P=softmax(S)# [n, n] ← O(n²) 显存!O=P @ V# [n, n] × [n, d] → [n, d]中间矩阵 S 和 P 的大小是