LLM运行机制

发布时间：2026/6/23 15:53:44

以下知识整理来自网络。一、自回归生成Autoregressive GenerationLLM基于用户提供的上下文每次只“补”一个 Token文本碎片然后把这个碎片加进上下文再预测下一个如此循环直到生成完整回答这个过程叫自回归生成。Token文本碎片。Temperature/Top-p/Top-k模型选择Token的策略。Max Tokens允许模型最多“补”多少步。二、Token估算英文1 Token 大约对应 3~4 个字符。中文1 Token 大约对应 1~2 个汉字。Token 成本与 Tokenizer 版本强相关。精确计数时建议使用模型对应的官方 Tokenizer 工具。三、上下文窗口上下文窗口是 LLM 的“工作记忆”Working Memory。它决定了模型在单次对话可以处理或“记住”的文本量以 Token 为单位。上下文窗口并非越大越好它受限于Transformer 架构的自注意力机制Self-Attention。上下文窗口包括System Prompt调节模型行为的系统指令对用户隐藏但占用窗口。工具调用 Schema函数定义与参数结构。User Prompt业务数据与指令。多轮对话历史过往的消息记录。RAG 检索片段从外部知识库检索到的补充信息。格式开销特殊字符、换行符、Markdown 标记等。模型生成的输出 Token输出也占用上下文窗口。四、Prompt CachingPrompt Caching 是供应商会缓存请求中“可复用的前缀部分”。下次请求如果前缀相同这部分就不重新计费只收“缓存读取”的费用通常是正常价格的 10%~50%。降低Token成本的建议把不变的内容放前面System Prompt、工具定义、RAG Context把变化的内容放后面User Prompt。监控cache_read_tokens和cache_creation_tokens指标验证缓存命中率。批量任务尽量在缓存时间窗口内完成不同模型的缓存时长不一样。五、Logits到概率采样模型每一步会给词表中每个候选 Token 打一个分数叫logits分数越高说明模型越觉得这个词应该出现在这里。原始分数经过一次数学变换softmax变成每个候选Token被选中的概率。最后模型按这个概率分布“抽签”采样决定输出哪个 Token。解码参数Temperature、Top-p、Top-k 等就是在这个“打分 → 概率 → 抽签”的过程中施加控制Temperature调整概率分布的“形状”让高分选项更突出或者让各选项更均匀。Top-p / Top-k直接砍掉不靠谱的候选项缩小“抽签池”。Penalty 系列对已经出现过的词降分防止“复读机”。5.1Temperature 的工作原理在 softmax 之前先把所有分数除以温度值 T。温度越低输出越确定温度越高输出越随机。Temperature词表里所有 Token 理论上都有被选中的可能。5.2Top-k 5只保留概率最高的 5 个候选Token。Top-p 0.8从高到低累加概率保留累计刚好达到 80% 的最小Token集合。六、Penalty与复读问题Penalty 参数用来缓解这类问题模型反复输出同一句话或者在长回答里不断重复相同观点。方法是在解码时降低已出现 Token 的分数参数作用Repetition Penalty降低所有已出现 Token 的概率Presence Penalty只要 Token 出现过就扣分不看次数Frequency PenaltyToken 出现次数越多扣分越重建议如果不确定这些参数的精确语义不同供应商定义可能不同建议保持默认值。用低温更强 Prompt 约束更短输出来获得稳定性比调 Penalty 更可控。七、首字延迟TTFTTime-To-First-Token价值改善用户体验。批量处理图片时TTFT会显著增加。上下文变长后TTFT会显著增加。八、参数配置建议场景TemperatureTop-pPenalty其他JSON / 结构化输出0-0.31.0保持默认配合 Strict Mode 重试策略代码评审 / 技术分析0.4-0.70.9保持默认结合 CoT(Chain of Thought) Prompt多轮对话0.6-0.80.9适度开启控制历史消息长度创意写作 / 头脑风暴0.8-1.20.95按需开启接受输出多样性做好后处理思维链模型不支持--通过prompt控制

资讯详情

LLM运行机制

相关新闻

RAG 系统化学习教程（含查询改写、混合检索、重排序、上下文增强与评估闭环）

YOLO系列目标检测数据集大全【第四十一期】

Kubernetes 之资源对象 Pod详解

2025年南昌高考复读机构如何选择？五点关键因素解析

vite+vue3 遇到报错 Uncaught SyntaxError: Cannot use import statement outside a module (at main.js:1:1)

SpingMVC学习小记

工作测试方法复盘（修改重传版）

【路径规划】整合ACO和FMO的算法机器人路径规划（采用五次PH曲线进行路径平滑）【含Matlab源码 15655期】

android compose Card 卡片 使用

2026年京东云 618 活动 Hermes Agent/OpenClaw配置Token Plan新手必看指南

2026年北京电子沙盘制作公司深度评测：从技术选型到落地效果，谁在真正定义“数字+实体”的融合边界？

音视频场景下的 Java 开发者面试：技术与挑战

ComfyUI ControlNet Aux插件：解决模型下载失败的终极指南

轻量级多模态智能体实战：本地部署Qwen-VL图文理解与报告生成

手撕CNN：从卷积计算到工程落地的全链路解析

android compose Card 卡片使用