
093、成本控制与 Token 监控:用量统计、预算预警、模型降级与成本报告上周五凌晨三点,我被PagerDuty的告警吵醒。不是服务挂了,是Claude Code的API账单在四小时内飙了三千美金。查日志发现,某个CI流水线里跑了个死循环——代码审查Agent在同一个PR上反复调用Claude 3.5 Sonnet,每次返回“建议合并”,Agent觉得不够确定,又调了一次,再调一次……直到我把API Key吊销。那次之后,我彻底重构了团队的Token监控体系。今天这篇笔记,就是那次事故的血泪总结。用量统计:别只盯着总Token数很多人以为用量统计就是看“用了多少Token”,这是典型的监控盲区。真正要盯的是三个维度:调用频率、Token分布、模型分布。调用频率要按分钟级打点。我们用的是Prometheus + 自定义Exporter,在Claude Code的SDK层埋了个中间件,每次请求都记录:claude_api_calls_total{model="claude-3-5-sonnet-20241022", endpoint="/messages", status="200"}。这里踩过坑——一开始只统计了成功请求,结果失败重试的Token全漏了。失败请求的Token消耗往往更大,因为错误信息会塞进上下文。Token分布要区分输入和输出。Claude的定价是输入便宜、输出贵,但很多人只算总账。我们写了个脚本,每天凌晨跑一次,把每条请求的i