按类别整理的大模型领域常用术语,方便快速检索。每个词给出中文解释和一句话定义。
目录
一、基础概念
| 术语 |
全称 / 中文名 |
一句话解释 |
| LLM |
Large Language Model,大语言模型 |
用海量文本训练出来、能理解和生成自然语言的神经网络模型,如 GPT-4、Claude、Llama。 |
| Token |
词元 |
模型处理文本的最小单位,不等于一个字或一个词。英文大约 1 token ≈ 0.75 个单词;中文大约 1 个汉字 ≈ 1.5~2 个 token。 |
| Tokenizer |
分词器 |
将原始文本切分成 token 序列的工具,不同模型使用不同的 tokenizer(如 BPE、WordPiece)。 |
| Context Window |
上下文窗口 |
模型单次能”看到”的最大 token 数量,超出则自动截断。GPT-4 支持 128K,Claude 3 支持 200K。 |
| Parameter |
参数量 |
模型中可学习的数值的总数量,通常以”B”(十亿)为单位,如 GPT-3 有 175B 参数。参数越多,模型能力通常越强,但推理成本也越高。 |
| Inference |
推理 |
模型训练完成后,实际使用阶段输入问题、输出回答的过程,区别于”训练”阶段。 |
| Hallucination |
幻觉 |
模型生成了听起来合理但实际上错误或捏造的内容,是目前 LLM 最主要的缺陷之一。 |
| Perplexity (PPL) |
困惑度 |
衡量语言模型对文本预测能力的指标,数值越低说明模型越”确定”,质量越好。 |
| Emergent Ability |
涌现能力 |
模型在参数量超过某个阈值后,突然出现的、在小模型上几乎不存在的能力(如逻辑推理、代码生成)。 |
| Multimodal |
多模态 |
模型能同时处理多种形式的输入/输出,如文字+图像、文字+音频等。 |
| Foundation Model |
基础模型 |
在超大规模数据上预训练的通用模型,可以作为下游任务的起点进行微调,如 GPT、BERT、Llama。 |
二、模型架构
| 术语 |
全称 / 中文名 |
一句话解释 |
| Transformer |
— |
2017 年 Google 提出的革命性架构,几乎所有现代 LLM 的基础,核心机制是”自注意力”。 |
| Attention |
注意力机制 |
让模型在处理每个 token 时,动态地”关注”其他位置的 token,从而捕捉长距离依赖关系。 |
| Self-Attention |
自注意力 |
Attention 的一种形式,序列中的每个元素都与同一序列中的所有其他元素计算注意力权重。 |
| Multi-Head Attention |
多头注意力 |
将注意力并行运行多次(多个”头”),每个头关注不同的语义角度,最后拼接结果。 |
| MHA / MQA / GQA |
多头/多查询/分组查询注意力 |
注意力机制的三种变体,MQA 和 GQA 是对 MHA 的优化,减少 KV Cache 内存占用,加快推理速度。 |
| MLP / FFN |
多层感知机 / 前馈网络 |
Transformer 中与注意力层交替出现的全连接层,负责对特征进行非线性变换。 |
| Layer Norm |
层归一化 |
对某一层的激活值做标准化,稳定训练过程,防止梯度爆炸/消失。 |
| Residual Connection |
残差连接 |
将层的输入直接加到层的输出上(output = f(x) + x),解决深层网络的梯度消失问题。 |
| Positional Encoding |
位置编码 |
由于 Attention 本身不感知顺序,需要额外注入位置信息。常见方式:正弦位置编码(绝对)、RoPE(旋转,相对)。 |
| RoPE |
Rotary Position Embedding,旋转位置编码 |
主流相对位置编码方式,通过旋转矩阵为 token 注入位置信息,在长文本上效果更好,Llama/ChatGLM 等均采用。 |
| KV Cache |
Key-Value 缓存 |
推理时缓存已计算的 Key/Value 矩阵,避免重复计算,大幅提升生成速度,但会占用大量显存。 |
| MoE |
Mixture of Experts,混合专家模型 |
模型内部有多个”专家”子网络,每次推理只激活其中少数几个,在保持参数量庞大的同时降低推理计算量。GPT-4、Mixtral 采用此架构。 |
| Decoder-only |
仅解码器架构 |
当前主流 LLM 架构(GPT 系列、Llama、Claude),适合文本生成任务,输入和输出共享同一个 Transformer 栈。 |
| Encoder-Decoder |
编码器-解码器架构 |
T5、BART 采用的架构,编码器处理输入、解码器生成输出,适合翻译、摘要等 seq2seq 任务。 |
| Encoder-only |
仅编码器架构 |
BERT 采用的架构,擅长理解任务(分类、NER),不擅长生成。 |
三、训练方法
| 术语 |
全称 / 中文名 |
一句话解释 |
| Pre-training |
预训练 |
在海量无标签文本上用”预测下一个 token”任务训练模型,让模型学习语言规律和世界知识,是 LLM 的第一阶段。 |
| Fine-tuning |
微调 |
在预训练模型基础上,用特定领域/任务的数据继续训练,使模型专注于某一用途,成本远低于从头训练。 |
| SFT |
Supervised Fine-Tuning,监督微调 |
微调的一种,用人工标注的”问题-答案”对训练模型,让模型学会按指令回答,通常是 RLHF 的第一步。 |
| RLHF |
Reinforcement Learning from Human Feedback,人类反馈强化学习 |
让人类对模型输出进行偏好排序,训练一个奖励模型,再用 RL 优化 LLM,使输出更符合人类期望。ChatGPT 的核心训练方法。 |
| PPO |
Proximal Policy Optimization |
RLHF 中常用的强化学习算法,通过限制每步更新幅度来稳定训练。 |
| DPO |
Direct Preference Optimization,直接偏好优化 |
RLHF 的替代方案,不需要单独训练奖励模型,直接从偏好数据中学习,训练更稳定简单。 |
| PEFT |
Parameter-Efficient Fine-Tuning,参数高效微调 |
只微调模型的少部分参数(而非全部),大幅降低微调的显存和计算成本。LoRA 是最典型代表。 |
| LoRA |
Low-Rank Adaptation,低秩适配 |
PEFT 的主流方法,在原权重矩阵旁注入两个小矩阵的乘积来学习增量,参数量可减少 99%+ 但效果接近全量微调。 |
| QLoRA |
Quantized LoRA |
LoRA + 量化,将基础模型量化为 4-bit 存储,再用 LoRA 微调,使单张消费级显卡也能微调 70B 级别模型。 |
| Continual Pre-training |
持续预训练 |
在已有预训练模型基础上,继续用新领域数据(如医疗、法律)做预训练,注入领域知识。 |
| Instruction Tuning |
指令微调 |
用大量”指令-回复”对微调模型,使其能理解和遵循自然语言指令,是现代对话模型的标配。 |
| Gradient Checkpointing |
梯度检查点 |
训练时不保存所有中间激活值,而是在反向传播时重新计算,以时间换空间,降低显存占用。 |
| Mixed Precision Training |
混合精度训练 |
训练时同时使用 FP16/BF16(低精度)和 FP32(高精度),在节省显存的同时保持数值稳定性。 |
| Knowledge Distillation |
知识蒸馏 |
用大模型(教师)的软输出来指导小模型(学生)训练,使小模型尽量逼近大模型的性能。 |
四、Prompt 工程
| 术语 |
全称 / 中文名 |
一句话解释 |
| Prompt |
提示词 |
输入给模型的文本,包括问题、指令、上下文等,直接决定模型输出质量。 |
| System Prompt |
系统提示词 |
对话开始前设置的隐藏指令,用于定义模型的角色、行为规范和输出格式,用户通常看不到。 |
| Zero-shot |
零样本 |
在 Prompt 中不提供任何示例,直接让模型完成任务,依赖模型的通用能力。 |
| Few-shot |
少样本 |
在 Prompt 中提供 2~5 个示例,帮助模型理解任务格式和期望输出。 |
| One-shot |
单样本 |
Few-shot 的特例,只提供一个示例。 |
| CoT |
Chain of Thought,思维链 |
在 Prompt 中加入”请逐步思考”或给出推理步骤示例,引导模型在回答前展示推理过程,显著提升复杂问题的准确率。 |
| Zero-shot CoT |
零样本思维链 |
在 Prompt 末尾加上”Let’s think step by step”,无需示例就能触发模型的逐步推理。 |
| ReAct |
Reasoning + Acting |
让模型交替进行”推理(Thought)→行动(Action)→观察(Observation)”的循环,用于 Agent 场景。 |
| Self-Consistency |
自一致性 |
对同一问题多次采样,取投票最多的答案,提升推理准确率。 |
| Tree of Thoughts (ToT) |
思维树 |
CoT 的扩展,模型生成多条推理分支,通过搜索/评估选出最优路径,适合需要探索的复杂问题。 |
| Role Prompting |
角色扮演提示 |
让模型扮演特定角色(”你是一位资深Python工程师”),往往能提升该领域的输出质量。 |
| Temperature |
温度 |
控制模型输出随机性的参数(02),值越低输出越确定,值越高输出越多样。生产环境一般设 00.3,创意场景可设 0.7~1.2。 |
| Top-p (Nucleus Sampling) |
核采样 |
采样时只从累计概率达到 p 的 token 集合中选择,过滤掉低概率的”奇葩”词,常与 temperature 配合使用。 |
| Top-k |
— |
采样时只从概率最高的 k 个 token 中选择。 |
| Max Tokens |
最大输出 token 数 |
限制单次生成的最大长度,防止输出过长或无限生成。 |
| Stop Sequence |
停止序列 |
指定特定字符串,模型生成到此处时自动停止,用于控制输出边界。 |
五、RAG 与知识库
| 术语 |
全称 / 中文名 |
一句话解释 |
| RAG |
Retrieval-Augmented Generation,检索增强生成 |
先从外部知识库检索相关文档,再把文档和问题一起喂给 LLM 生成答案,解决知识截止和幻觉问题。 |
| Embedding |
向量嵌入 |
将文本(或图像)映射到高维数值向量的过程,语义相近的内容在向量空间中距离也近。 |
| Embedding Model |
嵌入模型 |
专门用于生成 Embedding 的模型,如 text-embedding-3-small(OpenAI)、all-MiniLM-L6-v2(开源)。 |
| Vector Database |
向量数据库 |
专门存储和检索高维向量的数据库,内置 ANN 索引,支持毫秒级相似性搜索。代表:Chroma、Milvus、Pinecone。 |
| Similarity Search |
相似性搜索 |
在向量数据库中找到与查询向量最相似的 K 个向量,是 RAG 的核心检索步骤。 |
| Cosine Similarity |
余弦相似度 |
衡量两个向量夹角余弦值的相似度指标,值在 [-1,1] 之间,值越大越相似,最常用于文本语义相似度。 |
| ANN |
Approximate Nearest Neighbor,近似最近邻 |
用近似算法(如 HNSW、IVF)快速找到”足够近”的邻居,而不是精确最近邻,以小代价换取大幅性能提升。 |
| HNSW |
Hierarchical Navigable Small World |
主流 ANN 索引算法,多层图结构,精度高速度快,是大多数向量数据库的默认索引。 |
| Chunking |
文本分块 |
将长文档切分成较短片段的过程,是构建 RAG 知识库的第一步。分块策略(大小、重叠)直接影响检索质量。 |
| Chunk Overlap |
分块重叠 |
相邻文本块之间共享一部分内容,防止关键信息被切割在两个块的边界处而丢失。 |
| Reranking |
重排序 |
对向量检索召回的候选文档,用更精确的模型(如 Cross-Encoder)重新打分排序,提升最终结果质量。 |
| Hybrid Search |
混合检索 |
将向量相似度检索(语义)和关键词检索(BM25 等)结合,兼顾语义理解和精确匹配。 |
| BM25 |
Best Match 25 |
经典关键词检索算法,基于词频和文档频率打分,在精确词匹配场景下往往优于纯向量检索。 |
| Context Stuffing |
上下文填充 |
将检索到的多个文档片段直接拼接塞入 Prompt,是最简单的 RAG 实现方式。 |
| Lost in the Middle |
中间遗失问题 |
研究发现 LLM 更容易关注上下文开头和结尾的内容,中间部分容易被忽略,影响长文档 RAG 效果。 |
六、Agent 与工具调用
| 术语 |
全称 / 中文名 |
一句话解释 |
| Agent |
智能体 |
能够自主感知环境、制定计划、调用工具并执行多步骤任务的 LLM 应用模式,而非单轮问答。 |
| Tool Use / Function Calling |
工具调用 / 函数调用 |
LLM 在生成回答时,可以触发外部函数(搜索、计算器、数据库查询等)并将结果整合进回答。 |
| Agentic Loop |
智能体循环 |
Agent 的运行模式:LLM 思考 → 调用工具 → 获取结果 → 再次思考 → …… 直到任务完成。 |
| Planning |
规划 |
Agent 将复杂目标拆解为多个子任务并排定执行顺序的能力。 |
| Memory |
记忆 |
Agent 跨对话存储和检索信息的机制,分为短期记忆(上下文窗口)和长期记忆(外部存储)。 |
| Multi-Agent |
多智能体 |
多个 Agent 协作完成任务的框架,如 AutoGen、CrewAI,不同 Agent 可承担不同角色(规划、执行、校验)。 |
| Orchestrator |
编排器 |
多 Agent 框架中负责分配任务、协调各 Agent 工作的主控 Agent。 |
| MCP |
Model Context Protocol,模型上下文协议 |
Anthropic 提出的开放协议,让 LLM 应用以标准方式连接外部工具和数据源(数据库、文件系统、API 等)。 |
| Grounding |
落地 / 接地 |
将模型的输出与真实世界的数据(搜索结果、数据库记录)关联,减少幻觉。 |
| Reflection |
反思 |
Agent 对自己之前的输出进行评估和修正的能力,是提升 Agent 可靠性的重要机制。 |
| Sandbox |
沙箱 |
Agent 执行代码或命令时的隔离环境,防止对宿主系统造成破坏。 |
七、推理与部署优化
| 术语 |
全称 / 中文名 |
一句话解释 |
| Quantization |
量化 |
将模型权重从高精度(FP32/FP16)压缩为低精度(INT8/INT4)表示,大幅减少内存占用和推理时间,但会有少量精度损失。 |
| GGUF |
GPT-Generated Unified Format |
量化模型的主流文件格式,由 llama.cpp 项目提出,方便在本地 CPU/GPU 上部署开源模型。 |
| llama.cpp |
— |
在 CPU 上高效运行 LLM 的开源推理框架,支持 Mac、Windows、Linux,是本地部署开源模型的热门选择。 |
| Ollama |
— |
在本地一键运行开源大模型的工具,底层基于 llama.cpp,提供类 Docker 的模型管理体验。 |
| vLLM |
— |
高性能 LLM 推理服务框架,核心创新是 PagedAttention(分页注意力),大幅提升 GPU 利用率和吞吐量。 |
| PagedAttention |
分页注意力 |
vLLM 提出的技术,借鉴操作系统虚拟内存思路管理 KV Cache,消除内存碎片,提升并发能力。 |
| Speculative Decoding |
投机解码 |
用小模型快速生成候选 token,再由大模型批量验证,在不损失质量的前提下提升生成速度。 |
| Batch Inference |
批量推理 |
将多个请求打包成一批同时处理,提升 GPU 利用率和整体吞吐量。 |
| Continuous Batching |
连续批处理 |
动态地将新请求插入正在进行的批次中,而非等一批全部完成再开始新批,进一步提升吞吐量。 |
| Tensor Parallelism |
张量并行 |
将模型的权重矩阵切分到多张 GPU 上,每张 GPU 计算一部分,适合单机多卡部署超大模型。 |
| Pipeline Parallelism |
流水线并行 |
将模型的不同层分配到不同 GPU(或机器)上,适合跨节点部署超大模型。 |
| TGI |
Text Generation Inference |
HuggingFace 出品的高性能推理服务,支持主流开源模型,常用于生产部署。 |
| ONNX |
Open Neural Network Exchange |
神经网络模型的开放格式,方便在不同框架(PyTorch、TensorFlow)和硬件间迁移和部署。 |
八、评估与基准
| 术语 |
全称 / 中文名 |
一句话解释 |
| Benchmark |
基准测试 |
用标准化数据集和指标评估模型能力的测试集,如 MMLU、GSM8K、HumanEval。 |
| MMLU |
Massive Multitask Language Understanding |
覆盖 57 个学科(数学、历史、法律、医学等)的综合知识测试基准,是衡量模型知识广度的标准之一。 |
| GSM8K |
Grade School Math 8K |
小学数学应用题数据集,用于评估模型的数学推理能力。 |
| HumanEval |
— |
OpenAI 提出的代码生成评测基准,包含 164 道编程题,用 pass@k 指标衡量通过率。 |
| HELM |
Holistic Evaluation of Language Models |
斯坦福提出的多维度模型评估框架,从准确性、鲁棒性、公平性等多个角度评估 LLM。 |
| MT-Bench |
Multi-Turn Benchmark |
多轮对话能力评测基准,用 GPT-4 作为裁判打分,评估模型的指令遵循和对话连贯性。 |
| Arena (Chatbot Arena) |
— |
LMSYS 推出的人类偏好评测平台,让用户盲测两个模型并选择更好的回答,基于 Elo 评分排名。 |
| BLEU |
Bilingual Evaluation Understudy |
通过计算生成文本与参考文本的 n-gram 重叠度来评估翻译质量的指标,值在 0~1 之间。 |
| ROUGE |
Recall-Oriented Understudy for Gisting Evaluation |
常用于摘要任务的评估指标,衡量生成摘要与参考摘要的召回率。 |
| Pass@k |
— |
代码生成评估指标,生成 k 个解法中至少有 1 个通过测试的概率,k 越大越宽松。 |
| LLM-as-Judge |
用 LLM 作为裁判 |
用强大的 LLM(如 GPT-4)对其他模型的输出进行打分评估,替代昂贵的人工评估。 |
九、安全与对齐
| 术语 |
全称 / 中文名 |
一句话解释 |
| Alignment |
对齐 |
使模型的行为和价值观符合人类意图和社会规范的研究方向,是 AI 安全的核心课题。 |
| Jailbreak |
越狱 |
通过精心设计的 Prompt 绕过模型的安全限制,让其输出原本被禁止的内容。 |
| Prompt Injection |
提示词注入 |
攻击者将恶意指令嵌入模型输入(如网页内容、文件),劫持 Agent 的行为,类似 SQL 注入。 |
| Guardrails |
护栏 |
在模型输入/输出层面设置的安全过滤机制,检测和拦截有害内容、违规请求等。 |
| Constitutional AI |
宪法 AI |
Anthropic 提出的训练方法,用一套”宪法”原则引导模型自我批评和修正输出,减少对人工标注的依赖。 |
| Red Teaming |
红队测试 |
专门尝试找出模型漏洞、触发有害输出的对抗性测试,用于发现和修复安全问题。 |
| Toxicity |
毒性 |
模型生成的带有仇恨、歧视、骚扰等有害内容,是内容安全过滤的主要目标。 |
| Bias |
偏见 |
模型从训练数据中学到的社会偏见(性别、种族等),可能导致歧视性输出。 |
| Robustness |
鲁棒性 |
模型面对输入噪声、对抗样本、分布偏移时保持稳定性能的能力。 |
| Watermarking |
水印 |
在 LLM 生成的文本中嵌入统计信号,用于事后检测文本是否由 AI 生成。 |
十、多模态
| 术语 |
全称 / 中文名 |
一句话解释 |
| VLM |
Vision-Language Model,视觉语言模型 |
能同时理解图像和文本的模型,如 GPT-4V、Claude 3、LLaVA。 |
| CLIP |
Contrastive Language-Image Pretraining |
OpenAI 提出的图文对比学习模型,通过对齐图像和文本向量空间,支持零样本图像分类和跨模态检索。 |
| ViT |
Vision Transformer |
将图像切分为 Patch 后用 Transformer 处理的视觉模型,是大多数 VLM 的视觉编码器基础。 |
| Cross-Attention |
交叉注意力 |
让一个序列(如文本)的 Query 去关注另一个序列(如图像特征)的 Key/Value,实现跨模态融合。 |
| Diffusion Model |
扩散模型 |
图像生成的主流范式(Stable Diffusion、DALL-E 3),通过学习逐步去噪过程来生成图像。 |
| TTS |
Text-to-Speech,文字转语音 |
将文本转换为语音的技术,如 OpenAI TTS、微软 Azure TTS。 |
| ASR |
Automatic Speech Recognition,自动语音识别 |
将语音转换为文字的技术,如 OpenAI Whisper。 |
| OCR |
Optical Character Recognition,光学字符识别 |
从图像中识别并提取文字,VLM 通常内置此能力。 |