
AI API 的 Token 计费其实分三种类型1️⃣ 输入 Token2️⃣ 输出 Token补全3️⃣ 缓存读取 Token换算成单 Token 价格类型单价输入$0.0000025输出$0.000015缓存$0.00000025而三者价格差距 最高能达到 60 倍。很多 AI 产品能盈利靠的就是 缓存机制。今天这篇文章我会带你彻底搞懂Token 到底是什么为什么缓存读这么便宜为什么长对话成本不会爆炸如何把 AI API 成本降低 10 倍如果你在做AI AgentRAG 系统AI API 网关OpenAI 兼容接口LLM 完整工具调用业务流程全解析一、分步翻译 流程释义1. Receive Input Message 接收输入消息说明大模型接收完整输入上下文包含系统提示词、历史对话、用户最新提问、前置知识库片段等全部 Prompt 内容。对应底层进入 Prefill 预填充阶段构建 / 复用 KV 缓存是 Token 计费统计的起点。2. Determine Response 预判回复逻辑说明模型对输入文本做首轮语义解析判断两种分支 分支 A仅靠现有上下文就能直接回答跳过工具调用环节直达最终生成 分支 B缺少外部实时数据 / 计算能力需要触发工具调用进入下一环节。3. Identify Need for Tool Call 识别工具调用需求说明模型识别当前问题存在信息缺口输出结构化工具调用指令Function Call指定要调用的工具名称、入参。典型场景联网查实时时间、查询数据库、数学运算、文件检索、RAG 知识库检索。4. Execute Tool Call 执行外部工具说明系统侧动作不消耗模型推理 Token。业务后端解析模型输出的工具指令发起接口 / 函数请求获取外部原始数据。例调用搜索引擎 API、SQL 查询、代码解释器执行计算。5. Process Data 处理工具返回数据说明将工具返回的原始数据格式化、拼接进对话上下文作为新的输入重新送入大模型。关键影响新增数据会增加输入 Token若每次工具返回内容都变化会破坏 KV 缓存复用大幅拉高成本。6. Generate Final Response 生成最终回复说明模型整合原始上下文 工具返回数据逐 Token 解码生成面向用户的自然语言回答。计费特征此阶段生成的输出 Token 统一按高价补全计费无缓存折扣。二、两种运行分支无工具调用简化流程接收输入 → 判断直接回复 → 生成最终回答带工具调用完整流程接收输入 → 判断需工具 → 识别工具指令 → 执行工具 → 拼接工具数据 → 生成最终回答三、结合 KV 缓存 计费的关键业务启示关联你之前的计费截图工具调用会破坏缓存复用拉高成本每次工具返回的数据属于动态可变内容上下文前缀发生改变下一轮请求无法复用历史 KV Cache全部输入 Token 按原价计费失去缓存读低价优惠。降本优化方案将固定不变的知识库、系统角色放在上下文最前端把工具动态返回数据放在末尾尽可能保留前缀文本不变提升缓存命中率。Token 消耗分层步骤 1、5 属于输入 Prefill 阶段分「全新输入 Token高价/ 缓存复用 Token1 折低价」两类计费步骤 6 属于 Decode 输出阶段统一高价补全 Token 计费步骤 4 纯系统接口调用不产生任何模型 Token 费用。多轮工具循环损耗复杂场景会出现「调用工具→返回数据→再次调用工具」多轮循环每一轮都会新增输入 Token持续增加计费成本工程上需限制最大工具调用轮次。四、技术适用范围这套工具调用流程是通用标准OpenAI、Claude、通义千问、DeepSeek、Gemini 等主流大模型 API 均遵循相同业务逻辑仅各厂商的工具调用格式、缓存计费优惠规则存在差异。图中 LLM 底层 KV Cache 推理流程完整解读一、流程逐环节翻译与原理拆解1. Prompt输入提示词用户传入全部上下文系统角色、历史对话、知识库文档、当前提问是模型所有输入 Token 的来源。2. Prefill预填充阶段构建 KV Cache行为一次性对整段 Prompt 做并行编码计算生成 Key、Value 向量缓存KV Cache存入显存。两种计费场景对应你之前的计费截图全新无匹配上下文完整计算全部 Token →标准输入原价计费前缀文本和历史请求完全一致直接复用旧 KV 缓存仅计算新增片段 →缓存读低价计费仅原价 10%算力特征并行计算速度快长文本的主要算力消耗集中在此阶段。3. Decode解码生成阶段Predict the Next token/ word by using KV Cache依靠 Prefill 生成好的 KV 缓存串行逐字预测下一个输出 Token无需重复计算前置上下文大幅降低重复算力开销。Output Token/ Word is added back to KV cache每生成 1 个输出 Token就把该 Token 对应的 KV 向量追加进缓存用于下一轮对话复用。计费规则所有生成的输出 Token 统一按高价「补全 Token」计费无缓存折扣。4. Response模型输出结果拼接所有 Decode 阶段生成的 Token整理成自然语言返回给调用方。二、Prefill vs Decode 核心对比表格维度Prefill预填充Decode解码生成计算方式并行一次性计算全部输入串行逐个生成输出 TokenKV Cache 作用创建 / 复用缓存读取缓存 追加新缓存Token 计费全新输入 / 缓存读两档低价统一高价输出计费耗时占比长输入占大头输出越长耗时越高三、和业务工具流程图联动解释成本变化若工具调用新增动态数据Prompt 前缀发生变化 → Prefill 无法复用历史 KV 缓存全部输入按原价收费成本上升固定系统提示、固定知识库放在 Prompt 最前端仅末尾放动态提问 → 前缀完全匹配大量 Token 走缓存低价就是你 15 万 Token 仅 0.058 美元案例的底层原理每一轮对话生成的回答会追加进 KV 缓存下一轮带完整历史对话请求时能持续复用。完整闭环链路梳理纠正流程断点对齐两张图逻辑你说的完全正确LLM 识别工具需求 → MCP 执行 API → 工具结果回传给 LLM 二次推理是完整闭环这张架构图只画出了单向调用分支省略了「工具数据回流 LLM」的回程链路下面把完整闭环补齐。一、先拆分图里两条主线 完整闭环走向链路 1终端用户 Query内置 Agent 流程最完整用户 Query 进入网关内置AI AgentAgent 将上下文送入LLM对应上层流程图Receive Input MessageLLM 分析输入识别需要调用工具Identify Need for Tool Call输出结构化 Function Call 指令Agent 把工具指令转发给Tools from OpenAPI spec底层由 MCP 能力承载执行MCP 调度对应Rest API完成接口请求Execute Tool Call回程图中省略的关键回流步骤API 返回业务数据 → MCP 格式化工具结果 → 塞回 AI Agent 上下文Agent 携带「原始提问 工具返回数据」再次发给LLMProcess DataLLM 整合全部信息生成最终自然语言回答Generate Final Response返回用户链路 2外部独立 AI Agent 接入 MCP 通道外部 AI Agent 请求网关内MCP ServerMCP Server 携带 Agent 下发的工具调用指令调度Tools from OpenAPI spec调用 Rest API 拿到业务数据回程工具数据原路返回 MCP Server → 返还给外部 AI Agent外部 Agent 自行拼接上下文再主动发起 LLM 推理请求这套链路 LLM 不在网关内部由外部 Agent 管控回流六、Token 计费结构图Token 计费结构图完整解读结合前面 KV 缓存、分层定价体系一、左右两类任务基础翻译与定义左图Input Heavy: Summarization输入重任务文档摘要 / 长文本总结原文翻译在长文档摘要这类任务中输入 Token 的数量远大于输出 Token。图例深绿色 Input Tokens输入 Token浅青色 Output Tokens输出 Token特征环形占比输入部分占绝大多数输出仅很小一块。典型场景RAG 知识库问答、合同总结、论文提炼、工具调用批量拉取参考资料。右图Output Heavy: Elaboration输出重任务扩写 / 创意生成原文翻译对于短篇提示词写故事这类创意任务输出 Token 数量会远超输入。特征环形占比输出部分占绝大多数输入仅很小一块。典型场景小说创作、文案扩写、代码完整生成、长报告撰写。八、缓存机制对 AI 产品的意义缓存机制对于 AI 产品来说极其重要。例如这些场景系统Prompt工具描述历史对话RAG 系统RAG 请求通常包含用户问题 历史对话 知识库片段AI API 网关如果你做OpenAI API 代理AI 聚合平台AI SaaS缓存策略甚至会决定你的产品是盈利还是亏钱。AI 成本优化漏斗图完整解读串联前面 KV 缓存、Token 计费、RAG 全知识点漏斗从上到下是循序渐进、由基础到落地的 4 层优化执行步骤越往下落地降本效果越直接、幅度越大。1. 第一层Understand cost model | 吃透计费模型基础前提释义先完整搞懂厂商分层 Token 计价规则是所有优化的前置条件区分三类 Token 定价全新输入、缓存读输入、输出补全 Token分清两类业务负载输入重RAG / 文档摘要、输出重创意写作看懂用量预测曲线Token 总量上涨、单价逐年下跌的对冲关系。对应前文知识点OpenAIv1/responses分层计费、输入 / 输出环形占比图、10 年 Token 成本预测图都属于这一层认知基础没搞懂计价规则缓存、限流等优化都无从下手。2. 第二层Identify cost drivers | 定位成本消耗源头释义量化拆解账单找出高额消耗的业务场景精准锁定浪费点按场景拆分RAG 知识库、Agent 工具调用、创意生成、客服对话分别消耗多少 Token定位无效开销超长冗余上下文、无限制 max_tokens、频繁变更前缀破坏缓存、重复检索文档区分成本大头输入重场景成本在长文档输入输出重场景成本在超长生成内容。落地动作在 API 网关 / 聚合平台开启 Token 用量日志按接口、用户、业务场景做账单分片统计定位高消耗链路。3. 第三层Implement caching strategies | 落地缓存优化核心降本手段释义部署 KV 上下文缓存机制复用重复上下文获取低价计费是输入重场景RAG最有效的降本方案对应你开篇 15 万 Token 仅 $0.058 的案例。实操规范固定 System Prompt、静态知识库放在上下文最前端最大化缓存命中动态提问、工具返回数据放在上下文末尾避免破坏可缓存前缀聚合平台 / API 网关统一托管全局缓存跨用户、跨请求复用 KV 向量区分隐式短期缓存、显式持久缓存两种模式适配不同业务。降本幅度缓存命中高的 RAG 业务输入 Token 成本可直接降低 90%。4. 第四层Use TTL values | 设置缓存过期时间精细化管控释义给 KV 缓存配置 TTL生存时间平衡算力开销、缓存命中率与数据新鲜度静态不变知识库长 TTL几小时 / 全天长期复用缓存最大化省钱实时动态业务实时订单、当日资讯短 TTL几分钟定时淘汰过期缓存避免基于过时数据推理清理冷缓存自动淘汰长期无访问的 KV 缓存释放 GPU 显存降低推理闲置算力成本。业务价值防止无限堆积无效缓存占用硬件资源同时保证业务数据时效性兼顾成本与推理准确性。漏斗逻辑总结与落地顺序顺序不可颠倒先懂计费 → 找到花钱的地方 → 做缓存降本 → 用 TTL 精细化管控缓存生命周期收益逐级放大越往下执行单位 Token 节省的成本越高缓存 TTL 是落地后能直接体现在账单上的优化适配架构这套流程适配 OpenAI 代理、AI 聚合平台、自建 MCPAgent 整套体系企业 RAG 知识库场景收益最显著创意输出类场景缓存收益有限重点放在第二层控制输出 Token 长度。配套落地优先级建议短期1-3 天完成 1、2 层梳理账单、定位高消耗接口中期1-2 周落地第三层 KV 上下文缓存快速削减输入 Token 成本长期配置 TTL 缓存过期策略搭建自动化成本监控告警闭环。常见 AI 成本优化方式1 控制上下文长度建议只保留最近 10 轮对话AI写代码12 使用 Prompt 压缩例如摘要历史对话AI写代码1减少 Token。3 提高缓存命中率例如系统Prompt缓存知识库缓存工具描述缓存AI写代码1234 控制输出 Token输出 Token 是最贵的$15 / 1M tokensAI写代码1比输入贵 6倍。5 选择合适模型很多轻量模型价格更低DeepSeekQwenDoubao适合高并发调用。十、为什么 /v1/responses 更先进这条调用记录使用接口/v1/responsesAI写代码1而不是传统/v1/chat/completionsAI写代码1原因是responses API 支持多模态输入推理模型streaming工具调用reasoning示例POST /v1/responses{model: xxx,input: 你好,stream: true}AI写代码json1234567未来很多 AI 平台都会逐步迁移到这个接口。————————————————版权声明本文为CSDN博主「码农阿豪新空间」的原创文章遵循CC 4.0 BY-SA版权协议转载请附上原文出处链接及本声明。原文链接https://blog.csdn.net/weixin_44976692/article/details/160154227