大模型专有名词速查手册

发表于2026-03-17|更新于2026-03-25

按类别整理的大模型领域常用术语，方便快速检索。每个词给出中文解释和一句话定义。

目录

目录
一、基础概念
二、模型架构
三、训练方法
四、Prompt 工程
五、RAG 与知识库
六、Agent 与工具调用
七、推理与部署优化
八、评估与基准
九、安全与对齐
十、多模态

一、基础概念

术语	全称 / 中文名	一句话解释
LLM	Large Language Model，大语言模型	用海量文本训练出来、能理解和生成自然语言的神经网络模型，如 GPT-4、Claude、Llama。
Token	词元	模型处理文本的最小单位，不等于一个字或一个词。英文大约 1 token ≈ 0.75 个单词；中文大约 1 个汉字 ≈ 1.5~2 个 token。
Tokenizer	分词器	将原始文本切分成 token 序列的工具，不同模型使用不同的 tokenizer（如 BPE、WordPiece）。
Context Window	上下文窗口	模型单次能”看到”的最大 token 数量，超出则自动截断。GPT-4 支持 128K，Claude 3 支持 200K。
Parameter	参数量	模型中可学习的数值的总数量，通常以”B”（十亿）为单位，如 GPT-3 有 175B 参数。参数越多，模型能力通常越强，但推理成本也越高。
Inference	推理	模型训练完成后，实际使用阶段输入问题、输出回答的过程，区别于”训练”阶段。
Hallucination	幻觉	模型生成了听起来合理但实际上错误或捏造的内容，是目前 LLM 最主要的缺陷之一。
Perplexity (PPL)	困惑度	衡量语言模型对文本预测能力的指标，数值越低说明模型越”确定”，质量越好。
Emergent Ability	涌现能力	模型在参数量超过某个阈值后，突然出现的、在小模型上几乎不存在的能力（如逻辑推理、代码生成）。
Multimodal	多模态	模型能同时处理多种形式的输入/输出，如文字+图像、文字+音频等。
Foundation Model	基础模型	在超大规模数据上预训练的通用模型，可以作为下游任务的起点进行微调，如 GPT、BERT、Llama。

二、模型架构

术语	全称 / 中文名	一句话解释
Transformer	—	2017 年 Google 提出的革命性架构，几乎所有现代 LLM 的基础，核心机制是”自注意力”。
Attention	注意力机制	让模型在处理每个 token 时，动态地”关注”其他位置的 token，从而捕捉长距离依赖关系。
Self-Attention	自注意力	Attention 的一种形式，序列中的每个元素都与同一序列中的所有其他元素计算注意力权重。
Multi-Head Attention	多头注意力	将注意力并行运行多次（多个”头”），每个头关注不同的语义角度，最后拼接结果。
MHA / MQA / GQA	多头/多查询/分组查询注意力	注意力机制的三种变体，MQA 和 GQA 是对 MHA 的优化，减少 KV Cache 内存占用，加快推理速度。
MLP / FFN	多层感知机 / 前馈网络	Transformer 中与注意力层交替出现的全连接层，负责对特征进行非线性变换。
Layer Norm	层归一化	对某一层的激活值做标准化，稳定训练过程，防止梯度爆炸/消失。
Residual Connection	残差连接	将层的输入直接加到层的输出上（`output = f(x) + x`），解决深层网络的梯度消失问题。
Positional Encoding	位置编码	由于 Attention 本身不感知顺序，需要额外注入位置信息。常见方式：正弦位置编码（绝对）、RoPE（旋转，相对）。
RoPE	Rotary Position Embedding，旋转位置编码	主流相对位置编码方式，通过旋转矩阵为 token 注入位置信息，在长文本上效果更好，Llama/ChatGLM 等均采用。
KV Cache	Key-Value 缓存	推理时缓存已计算的 Key/Value 矩阵，避免重复计算，大幅提升生成速度，但会占用大量显存。
MoE	Mixture of Experts，混合专家模型	模型内部有多个”专家”子网络，每次推理只激活其中少数几个，在保持参数量庞大的同时降低推理计算量。GPT-4、Mixtral 采用此架构。
Decoder-only	仅解码器架构	当前主流 LLM 架构（GPT 系列、Llama、Claude），适合文本生成任务，输入和输出共享同一个 Transformer 栈。
Encoder-Decoder	编码器-解码器架构	T5、BART 采用的架构，编码器处理输入、解码器生成输出，适合翻译、摘要等 seq2seq 任务。
Encoder-only	仅编码器架构	BERT 采用的架构，擅长理解任务（分类、NER），不擅长生成。

三、训练方法

术语	全称 / 中文名	一句话解释
Pre-training	预训练	在海量无标签文本上用”预测下一个 token”任务训练模型，让模型学习语言规律和世界知识，是 LLM 的第一阶段。
Fine-tuning	微调	在预训练模型基础上，用特定领域/任务的数据继续训练，使模型专注于某一用途，成本远低于从头训练。
SFT	Supervised Fine-Tuning，监督微调	微调的一种，用人工标注的”问题-答案”对训练模型，让模型学会按指令回答，通常是 RLHF 的第一步。
RLHF	Reinforcement Learning from Human Feedback，人类反馈强化学习	让人类对模型输出进行偏好排序，训练一个奖励模型，再用 RL 优化 LLM，使输出更符合人类期望。ChatGPT 的核心训练方法。
PPO	Proximal Policy Optimization	RLHF 中常用的强化学习算法，通过限制每步更新幅度来稳定训练。
DPO	Direct Preference Optimization，直接偏好优化	RLHF 的替代方案，不需要单独训练奖励模型，直接从偏好数据中学习，训练更稳定简单。
PEFT	Parameter-Efficient Fine-Tuning，参数高效微调	只微调模型的少部分参数（而非全部），大幅降低微调的显存和计算成本。LoRA 是最典型代表。
LoRA	Low-Rank Adaptation，低秩适配	PEFT 的主流方法，在原权重矩阵旁注入两个小矩阵的乘积来学习增量，参数量可减少 99%+ 但效果接近全量微调。
QLoRA	Quantized LoRA	LoRA + 量化，将基础模型量化为 4-bit 存储，再用 LoRA 微调，使单张消费级显卡也能微调 70B 级别模型。
Continual Pre-training	持续预训练	在已有预训练模型基础上，继续用新领域数据（如医疗、法律）做预训练，注入领域知识。
Instruction Tuning	指令微调	用大量”指令-回复”对微调模型，使其能理解和遵循自然语言指令，是现代对话模型的标配。
Gradient Checkpointing	梯度检查点	训练时不保存所有中间激活值，而是在反向传播时重新计算，以时间换空间，降低显存占用。
Mixed Precision Training	混合精度训练	训练时同时使用 FP16/BF16（低精度）和 FP32（高精度），在节省显存的同时保持数值稳定性。
Knowledge Distillation	知识蒸馏	用大模型（教师）的软输出来指导小模型（学生）训练，使小模型尽量逼近大模型的性能。

四、Prompt 工程

术语	全称 / 中文名	一句话解释
Prompt	提示词	输入给模型的文本，包括问题、指令、上下文等，直接决定模型输出质量。
System Prompt	系统提示词	对话开始前设置的隐藏指令，用于定义模型的角色、行为规范和输出格式，用户通常看不到。
Zero-shot	零样本	在 Prompt 中不提供任何示例，直接让模型完成任务，依赖模型的通用能力。
Few-shot	少样本	在 Prompt 中提供 2~5 个示例，帮助模型理解任务格式和期望输出。
One-shot	单样本	Few-shot 的特例，只提供一个示例。
CoT	Chain of Thought，思维链	在 Prompt 中加入”请逐步思考”或给出推理步骤示例，引导模型在回答前展示推理过程，显著提升复杂问题的准确率。
Zero-shot CoT	零样本思维链	在 Prompt 末尾加上”Let’s think step by step”，无需示例就能触发模型的逐步推理。
ReAct	Reasoning + Acting	让模型交替进行”推理（Thought）→行动（Action）→观察（Observation）”的循环，用于 Agent 场景。
Self-Consistency	自一致性	对同一问题多次采样，取投票最多的答案，提升推理准确率。
Tree of Thoughts (ToT)	思维树	CoT 的扩展，模型生成多条推理分支，通过搜索/评估选出最优路径，适合需要探索的复杂问题。
Role Prompting	角色扮演提示	让模型扮演特定角色（”你是一位资深Python工程师”），往往能提升该领域的输出质量。
Temperature	温度	控制模型输出随机性的参数（0~~2），值越低输出越确定，值越高输出越多样。生产环境一般设 0~~0.3，创意场景可设 0.7~1.2。
Top-p (Nucleus Sampling)	核采样	采样时只从累计概率达到 p 的 token 集合中选择，过滤掉低概率的”奇葩”词，常与 temperature 配合使用。
Top-k	—	采样时只从概率最高的 k 个 token 中选择。
Max Tokens	最大输出 token 数	限制单次生成的最大长度，防止输出过长或无限生成。
Stop Sequence	停止序列	指定特定字符串，模型生成到此处时自动停止，用于控制输出边界。

五、RAG 与知识库

术语	全称 / 中文名	一句话解释
RAG	Retrieval-Augmented Generation，检索增强生成	先从外部知识库检索相关文档，再把文档和问题一起喂给 LLM 生成答案，解决知识截止和幻觉问题。
Embedding	向量嵌入	将文本（或图像）映射到高维数值向量的过程，语义相近的内容在向量空间中距离也近。
Embedding Model	嵌入模型	专门用于生成 Embedding 的模型，如 `text-embedding-3-small`（OpenAI）、`all-MiniLM-L6-v2`（开源）。
Vector Database	向量数据库	专门存储和检索高维向量的数据库，内置 ANN 索引，支持毫秒级相似性搜索。代表：Chroma、Milvus、Pinecone。
Similarity Search	相似性搜索	在向量数据库中找到与查询向量最相似的 K 个向量，是 RAG 的核心检索步骤。
Cosine Similarity	余弦相似度	衡量两个向量夹角余弦值的相似度指标，值在 [-1,1] 之间，值越大越相似，最常用于文本语义相似度。
ANN	Approximate Nearest Neighbor，近似最近邻	用近似算法（如 HNSW、IVF）快速找到”足够近”的邻居，而不是精确最近邻，以小代价换取大幅性能提升。
HNSW	Hierarchical Navigable Small World	主流 ANN 索引算法，多层图结构，精度高速度快，是大多数向量数据库的默认索引。
Chunking	文本分块	将长文档切分成较短片段的过程，是构建 RAG 知识库的第一步。分块策略（大小、重叠）直接影响检索质量。
Chunk Overlap	分块重叠	相邻文本块之间共享一部分内容，防止关键信息被切割在两个块的边界处而丢失。
Reranking	重排序	对向量检索召回的候选文档，用更精确的模型（如 Cross-Encoder）重新打分排序，提升最终结果质量。
Hybrid Search	混合检索	将向量相似度检索（语义）和关键词检索（BM25 等）结合，兼顾语义理解和精确匹配。
BM25	Best Match 25	经典关键词检索算法，基于词频和文档频率打分，在精确词匹配场景下往往优于纯向量检索。
Context Stuffing	上下文填充	将检索到的多个文档片段直接拼接塞入 Prompt，是最简单的 RAG 实现方式。
Lost in the Middle	中间遗失问题	研究发现 LLM 更容易关注上下文开头和结尾的内容，中间部分容易被忽略，影响长文档 RAG 效果。

六、Agent 与工具调用

术语	全称 / 中文名	一句话解释
Agent	智能体	能够自主感知环境、制定计划、调用工具并执行多步骤任务的 LLM 应用模式，而非单轮问答。
Tool Use / Function Calling	工具调用 / 函数调用	LLM 在生成回答时，可以触发外部函数（搜索、计算器、数据库查询等）并将结果整合进回答。
Agentic Loop	智能体循环	Agent 的运行模式：LLM 思考 → 调用工具 → 获取结果 → 再次思考 → …… 直到任务完成。
Planning	规划	Agent 将复杂目标拆解为多个子任务并排定执行顺序的能力。
Memory	记忆	Agent 跨对话存储和检索信息的机制，分为短期记忆（上下文窗口）和长期记忆（外部存储）。
Multi-Agent	多智能体	多个 Agent 协作完成任务的框架，如 AutoGen、CrewAI，不同 Agent 可承担不同角色（规划、执行、校验）。
Orchestrator	编排器	多 Agent 框架中负责分配任务、协调各 Agent 工作的主控 Agent。
MCP	Model Context Protocol，模型上下文协议	Anthropic 提出的开放协议，让 LLM 应用以标准方式连接外部工具和数据源（数据库、文件系统、API 等）。
Grounding	落地 / 接地	将模型的输出与真实世界的数据（搜索结果、数据库记录）关联，减少幻觉。
Reflection	反思	Agent 对自己之前的输出进行评估和修正的能力，是提升 Agent 可靠性的重要机制。
Sandbox	沙箱	Agent 执行代码或命令时的隔离环境，防止对宿主系统造成破坏。

七、推理与部署优化

术语	全称 / 中文名	一句话解释
Quantization	量化	将模型权重从高精度（FP32/FP16）压缩为低精度（INT8/INT4）表示，大幅减少内存占用和推理时间，但会有少量精度损失。
GGUF	GPT-Generated Unified Format	量化模型的主流文件格式，由 llama.cpp 项目提出，方便在本地 CPU/GPU 上部署开源模型。
llama.cpp	—	在 CPU 上高效运行 LLM 的开源推理框架，支持 Mac、Windows、Linux，是本地部署开源模型的热门选择。
Ollama	—	在本地一键运行开源大模型的工具，底层基于 llama.cpp，提供类 Docker 的模型管理体验。
vLLM	—	高性能 LLM 推理服务框架，核心创新是 PagedAttention（分页注意力），大幅提升 GPU 利用率和吞吐量。
PagedAttention	分页注意力	vLLM 提出的技术，借鉴操作系统虚拟内存思路管理 KV Cache，消除内存碎片，提升并发能力。
Speculative Decoding	投机解码	用小模型快速生成候选 token，再由大模型批量验证，在不损失质量的前提下提升生成速度。
Batch Inference	批量推理	将多个请求打包成一批同时处理，提升 GPU 利用率和整体吞吐量。
Continuous Batching	连续批处理	动态地将新请求插入正在进行的批次中，而非等一批全部完成再开始新批，进一步提升吞吐量。
Tensor Parallelism	张量并行	将模型的权重矩阵切分到多张 GPU 上，每张 GPU 计算一部分，适合单机多卡部署超大模型。
Pipeline Parallelism	流水线并行	将模型的不同层分配到不同 GPU（或机器）上，适合跨节点部署超大模型。
TGI	Text Generation Inference	HuggingFace 出品的高性能推理服务，支持主流开源模型，常用于生产部署。
ONNX	Open Neural Network Exchange	神经网络模型的开放格式，方便在不同框架（PyTorch、TensorFlow）和硬件间迁移和部署。

八、评估与基准

术语	全称 / 中文名	一句话解释
Benchmark	基准测试	用标准化数据集和指标评估模型能力的测试集，如 MMLU、GSM8K、HumanEval。
MMLU	Massive Multitask Language Understanding	覆盖 57 个学科（数学、历史、法律、医学等）的综合知识测试基准，是衡量模型知识广度的标准之一。
GSM8K	Grade School Math 8K	小学数学应用题数据集，用于评估模型的数学推理能力。
HumanEval	—	OpenAI 提出的代码生成评测基准，包含 164 道编程题，用 `pass@k` 指标衡量通过率。
HELM	Holistic Evaluation of Language Models	斯坦福提出的多维度模型评估框架，从准确性、鲁棒性、公平性等多个角度评估 LLM。
MT-Bench	Multi-Turn Benchmark	多轮对话能力评测基准，用 GPT-4 作为裁判打分，评估模型的指令遵循和对话连贯性。
Arena (Chatbot Arena)	—	LMSYS 推出的人类偏好评测平台，让用户盲测两个模型并选择更好的回答，基于 Elo 评分排名。
BLEU	Bilingual Evaluation Understudy	通过计算生成文本与参考文本的 n-gram 重叠度来评估翻译质量的指标，值在 0~1 之间。
ROUGE	Recall-Oriented Understudy for Gisting Evaluation	常用于摘要任务的评估指标，衡量生成摘要与参考摘要的召回率。
Pass@k	—	代码生成评估指标，生成 k 个解法中至少有 1 个通过测试的概率，k 越大越宽松。
LLM-as-Judge	用 LLM 作为裁判	用强大的 LLM（如 GPT-4）对其他模型的输出进行打分评估，替代昂贵的人工评估。

九、安全与对齐

术语	全称 / 中文名	一句话解释
Alignment	对齐	使模型的行为和价值观符合人类意图和社会规范的研究方向，是 AI 安全的核心课题。
Jailbreak	越狱	通过精心设计的 Prompt 绕过模型的安全限制，让其输出原本被禁止的内容。
Prompt Injection	提示词注入	攻击者将恶意指令嵌入模型输入（如网页内容、文件），劫持 Agent 的行为，类似 SQL 注入。
Guardrails	护栏	在模型输入/输出层面设置的安全过滤机制，检测和拦截有害内容、违规请求等。
Constitutional AI	宪法 AI	Anthropic 提出的训练方法，用一套”宪法”原则引导模型自我批评和修正输出，减少对人工标注的依赖。
Red Teaming	红队测试	专门尝试找出模型漏洞、触发有害输出的对抗性测试，用于发现和修复安全问题。
Toxicity	毒性	模型生成的带有仇恨、歧视、骚扰等有害内容，是内容安全过滤的主要目标。
Bias	偏见	模型从训练数据中学到的社会偏见（性别、种族等），可能导致歧视性输出。
Robustness	鲁棒性	模型面对输入噪声、对抗样本、分布偏移时保持稳定性能的能力。
Watermarking	水印	在 LLM 生成的文本中嵌入统计信号，用于事后检测文本是否由 AI 生成。

十、多模态

术语	全称 / 中文名	一句话解释
VLM	Vision-Language Model，视觉语言模型	能同时理解图像和文本的模型，如 GPT-4V、Claude 3、LLaVA。
CLIP	Contrastive Language-Image Pretraining	OpenAI 提出的图文对比学习模型，通过对齐图像和文本向量空间，支持零样本图像分类和跨模态检索。
ViT	Vision Transformer	将图像切分为 Patch 后用 Transformer 处理的视觉模型，是大多数 VLM 的视觉编码器基础。
Cross-Attention	交叉注意力	让一个序列（如文本）的 Query 去关注另一个序列（如图像特征）的 Key/Value，实现跨模态融合。
Diffusion Model	扩散模型	图像生成的主流范式（Stable Diffusion、DALL-E 3），通过学习逐步去噪过程来生成图像。
TTS	Text-to-Speech，文字转语音	将文本转换为语音的技术，如 OpenAI TTS、微软 Azure TTS。
ASR	Automatic Speech Recognition，自动语音识别	将语音转换为文字的技术，如 OpenAI Whisper。
OCR	Optical Character Recognition，光学字符识别	从图像中识别并提取文字，VLM 通常内置此能力。

文章作者: unnalin

文章链接: https://unnalin.top/2026/03/16/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E4%B8%93%E6%9C%89%E5%90%8D%E8%AF%8D%E9%80%9F%E6%9F%A5%E6%89%8B%E5%86%8C/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 unnalin的博客！