LLM运行机制

发布时间:2026/6/23 15:53:44
LLM运行机制 以下知识整理来自网络。一、自回归生成Autoregressive GenerationLLM基于用户提供的上下文每次只“补”一个 Token文本碎片然后把这个碎片加进上下文再预测下一个如此循环直到生成完整回答这个过程叫自回归生成。Token文本碎片。Temperature/Top-p/Top-k模型选择Token的策略。Max Tokens允许模型最多“补”多少步。二、Token估算英文1 Token 大约对应 3~4 个字符。中文1 Token 大约对应 1~2 个汉字。Token 成本与 Tokenizer 版本强相关。精确计数时建议使用模型对应的官方 Tokenizer 工具。三、上下文窗口上下文窗口是 LLM 的“工作记忆”Working Memory。它决定了模型在单次对话可以处理或“记住”的文本量以 Token 为单位。上下文窗口并非越大越好它受限于Transformer 架构的自注意力机制Self-Attention。上下文窗口包括System Prompt调节模型行为的系统指令对用户隐藏但占用窗口。工具调用 Schema函数定义与参数结构。User Prompt业务数据与指令。多轮对话历史过往的消息记录。RAG 检索片段从外部知识库检索到的补充信息。格式开销特殊字符、换行符、Markdown 标记等。模型生成的输出 Token输出也占用上下文窗口。四、Prompt CachingPrompt Caching 是供应商会缓存请求中“可复用的前缀部分”。下次请求如果前缀相同这部分就不重新计费只收“缓存读取”的费用通常是正常价格的 10%~50%。降低Token成本的建议把不变的内容放前面System Prompt、工具定义、RAG Context把变化的内容放后面User Prompt。监控cache_read_tokens和cache_creation_tokens指标验证缓存命中率。批量任务尽量在缓存时间窗口内完成不同模型的缓存时长不一样。五、Logits到概率采样模型每一步会给词表中每个候选 Token 打一个分数叫logits分数越高说明模型越觉得这个词应该出现在这里。原始分数经过一次数学变换softmax变成每个候选Token被选中的概率。最后模型按这个概率分布“抽签”采样决定输出哪个 Token。解码参数Temperature、Top-p、Top-k 等就是在这个“打分 → 概率 → 抽签”的过程中施加控制Temperature调整概率分布的“形状”让高分选项更突出或者让各选项更均匀。Top-p / Top-k直接砍掉不靠谱的候选项缩小“抽签池”。Penalty 系列对已经出现过的词降分防止“复读机”。5.1Temperature 的工作原理在 softmax 之前先把所有分数除以温度值 T。温度越低输出越确定温度越高输出越随机。Temperature词表里所有 Token 理论上都有被选中的可能。5.2Top-k 5只保留概率最高的 5 个候选Token。Top-p 0.8从高到低累加概率保留累计刚好达到 80% 的最小Token集合。六、Penalty与复读问题Penalty 参数用来缓解这类问题模型反复输出同一句话或者在长回答里不断重复相同观点。方法是在解码时降低已出现 Token 的分数参数作用Repetition Penalty降低所有已出现 Token 的概率Presence Penalty只要 Token 出现过就扣分不看次数Frequency PenaltyToken 出现次数越多扣分越重建议如果不确定这些参数的精确语义不同供应商定义可能不同建议保持默认值。用低温 更强 Prompt 约束 更短输出来获得稳定性比调 Penalty 更可控。七、首字延迟TTFTTime-To-First-Token价值改善用户体验。批量处理图片时TTFT会显著增加。上下文变长后TTFT会显著增加。八、参数配置建议场景TemperatureTop-pPenalty其他JSON / 结构化输出0-0.31.0保持默认配合 Strict Mode 重试策略代码评审 / 技术分析0.4-0.70.9保持默认结合 CoT(Chain of Thought) Prompt多轮对话0.6-0.80.9适度开启控制历史消息长度创意写作 / 头脑风暴0.8-1.20.95按需开启接受输出多样性做好后处理思维链模型不支持--通过prompt控制