按类别整理的大模型领域常用术语,方便快速检索。每个词给出中文解释和一句话定义。


目录


一、基础概念

术语 全称 / 中文名 一句话解释
LLM Large Language Model,大语言模型 用海量文本训练出来、能理解和生成自然语言的神经网络模型,如 GPT-4、Claude、Llama。
Token 词元 模型处理文本的最小单位,不等于一个字或一个词。英文大约 1 token ≈ 0.75 个单词;中文大约 1 个汉字 ≈ 1.5~2 个 token。
Tokenizer 分词器 将原始文本切分成 token 序列的工具,不同模型使用不同的 tokenizer(如 BPE、WordPiece)。
Context Window 上下文窗口 模型单次能”看到”的最大 token 数量,超出则自动截断。GPT-4 支持 128K,Claude 3 支持 200K。
Parameter 参数量 模型中可学习的数值的总数量,通常以”B”(十亿)为单位,如 GPT-3 有 175B 参数。参数越多,模型能力通常越强,但推理成本也越高。
Inference 推理 模型训练完成后,实际使用阶段输入问题、输出回答的过程,区别于”训练”阶段。
Hallucination 幻觉 模型生成了听起来合理但实际上错误或捏造的内容,是目前 LLM 最主要的缺陷之一。
Perplexity (PPL) 困惑度 衡量语言模型对文本预测能力的指标,数值越低说明模型越”确定”,质量越好。
Emergent Ability 涌现能力 模型在参数量超过某个阈值后,突然出现的、在小模型上几乎不存在的能力(如逻辑推理、代码生成)。
Multimodal 多模态 模型能同时处理多种形式的输入/输出,如文字+图像、文字+音频等。
Foundation Model 基础模型 在超大规模数据上预训练的通用模型,可以作为下游任务的起点进行微调,如 GPT、BERT、Llama。

二、模型架构

术语 全称 / 中文名 一句话解释
Transformer 2017 年 Google 提出的革命性架构,几乎所有现代 LLM 的基础,核心机制是”自注意力”。
Attention 注意力机制 让模型在处理每个 token 时,动态地”关注”其他位置的 token,从而捕捉长距离依赖关系。
Self-Attention 自注意力 Attention 的一种形式,序列中的每个元素都与同一序列中的所有其他元素计算注意力权重。
Multi-Head Attention 多头注意力 将注意力并行运行多次(多个”头”),每个头关注不同的语义角度,最后拼接结果。
MHA / MQA / GQA 多头/多查询/分组查询注意力 注意力机制的三种变体,MQA 和 GQA 是对 MHA 的优化,减少 KV Cache 内存占用,加快推理速度。
MLP / FFN 多层感知机 / 前馈网络 Transformer 中与注意力层交替出现的全连接层,负责对特征进行非线性变换。
Layer Norm 层归一化 对某一层的激活值做标准化,稳定训练过程,防止梯度爆炸/消失。
Residual Connection 残差连接 将层的输入直接加到层的输出上(output = f(x) + x),解决深层网络的梯度消失问题。
Positional Encoding 位置编码 由于 Attention 本身不感知顺序,需要额外注入位置信息。常见方式:正弦位置编码(绝对)、RoPE(旋转,相对)。
RoPE Rotary Position Embedding,旋转位置编码 主流相对位置编码方式,通过旋转矩阵为 token 注入位置信息,在长文本上效果更好,Llama/ChatGLM 等均采用。
KV Cache Key-Value 缓存 推理时缓存已计算的 Key/Value 矩阵,避免重复计算,大幅提升生成速度,但会占用大量显存。
MoE Mixture of Experts,混合专家模型 模型内部有多个”专家”子网络,每次推理只激活其中少数几个,在保持参数量庞大的同时降低推理计算量。GPT-4、Mixtral 采用此架构。
Decoder-only 仅解码器架构 当前主流 LLM 架构(GPT 系列、Llama、Claude),适合文本生成任务,输入和输出共享同一个 Transformer 栈。
Encoder-Decoder 编码器-解码器架构 T5、BART 采用的架构,编码器处理输入、解码器生成输出,适合翻译、摘要等 seq2seq 任务。
Encoder-only 仅编码器架构 BERT 采用的架构,擅长理解任务(分类、NER),不擅长生成。

三、训练方法

术语 全称 / 中文名 一句话解释
Pre-training 预训练 在海量无标签文本上用”预测下一个 token”任务训练模型,让模型学习语言规律和世界知识,是 LLM 的第一阶段。
Fine-tuning 微调 在预训练模型基础上,用特定领域/任务的数据继续训练,使模型专注于某一用途,成本远低于从头训练。
SFT Supervised Fine-Tuning,监督微调 微调的一种,用人工标注的”问题-答案”对训练模型,让模型学会按指令回答,通常是 RLHF 的第一步。
RLHF Reinforcement Learning from Human Feedback,人类反馈强化学习 让人类对模型输出进行偏好排序,训练一个奖励模型,再用 RL 优化 LLM,使输出更符合人类期望。ChatGPT 的核心训练方法。
PPO Proximal Policy Optimization RLHF 中常用的强化学习算法,通过限制每步更新幅度来稳定训练。
DPO Direct Preference Optimization,直接偏好优化 RLHF 的替代方案,不需要单独训练奖励模型,直接从偏好数据中学习,训练更稳定简单。
PEFT Parameter-Efficient Fine-Tuning,参数高效微调 只微调模型的少部分参数(而非全部),大幅降低微调的显存和计算成本。LoRA 是最典型代表。
LoRA Low-Rank Adaptation,低秩适配 PEFT 的主流方法,在原权重矩阵旁注入两个小矩阵的乘积来学习增量,参数量可减少 99%+ 但效果接近全量微调。
QLoRA Quantized LoRA LoRA + 量化,将基础模型量化为 4-bit 存储,再用 LoRA 微调,使单张消费级显卡也能微调 70B 级别模型。
Continual Pre-training 持续预训练 在已有预训练模型基础上,继续用新领域数据(如医疗、法律)做预训练,注入领域知识。
Instruction Tuning 指令微调 用大量”指令-回复”对微调模型,使其能理解和遵循自然语言指令,是现代对话模型的标配。
Gradient Checkpointing 梯度检查点 训练时不保存所有中间激活值,而是在反向传播时重新计算,以时间换空间,降低显存占用。
Mixed Precision Training 混合精度训练 训练时同时使用 FP16/BF16(低精度)和 FP32(高精度),在节省显存的同时保持数值稳定性。
Knowledge Distillation 知识蒸馏 用大模型(教师)的软输出来指导小模型(学生)训练,使小模型尽量逼近大模型的性能。

四、Prompt 工程

术语 全称 / 中文名 一句话解释
Prompt 提示词 输入给模型的文本,包括问题、指令、上下文等,直接决定模型输出质量。
System Prompt 系统提示词 对话开始前设置的隐藏指令,用于定义模型的角色、行为规范和输出格式,用户通常看不到。
Zero-shot 零样本 在 Prompt 中不提供任何示例,直接让模型完成任务,依赖模型的通用能力。
Few-shot 少样本 在 Prompt 中提供 2~5 个示例,帮助模型理解任务格式和期望输出。
One-shot 单样本 Few-shot 的特例,只提供一个示例。
CoT Chain of Thought,思维链 在 Prompt 中加入”请逐步思考”或给出推理步骤示例,引导模型在回答前展示推理过程,显著提升复杂问题的准确率。
Zero-shot CoT 零样本思维链 在 Prompt 末尾加上”Let’s think step by step”,无需示例就能触发模型的逐步推理。
ReAct Reasoning + Acting 让模型交替进行”推理(Thought)→行动(Action)→观察(Observation)”的循环,用于 Agent 场景。
Self-Consistency 自一致性 对同一问题多次采样,取投票最多的答案,提升推理准确率。
Tree of Thoughts (ToT) 思维树 CoT 的扩展,模型生成多条推理分支,通过搜索/评估选出最优路径,适合需要探索的复杂问题。
Role Prompting 角色扮演提示 让模型扮演特定角色(”你是一位资深Python工程师”),往往能提升该领域的输出质量。
Temperature 温度 控制模型输出随机性的参数(02),值越低输出越确定,值越高输出越多样。生产环境一般设 00.3,创意场景可设 0.7~1.2。
Top-p (Nucleus Sampling) 核采样 采样时只从累计概率达到 p 的 token 集合中选择,过滤掉低概率的”奇葩”词,常与 temperature 配合使用。
Top-k 采样时只从概率最高的 k 个 token 中选择。
Max Tokens 最大输出 token 数 限制单次生成的最大长度,防止输出过长或无限生成。
Stop Sequence 停止序列 指定特定字符串,模型生成到此处时自动停止,用于控制输出边界。

五、RAG 与知识库

术语 全称 / 中文名 一句话解释
RAG Retrieval-Augmented Generation,检索增强生成 先从外部知识库检索相关文档,再把文档和问题一起喂给 LLM 生成答案,解决知识截止和幻觉问题。
Embedding 向量嵌入 将文本(或图像)映射到高维数值向量的过程,语义相近的内容在向量空间中距离也近。
Embedding Model 嵌入模型 专门用于生成 Embedding 的模型,如 text-embedding-3-small(OpenAI)、all-MiniLM-L6-v2(开源)。
Vector Database 向量数据库 专门存储和检索高维向量的数据库,内置 ANN 索引,支持毫秒级相似性搜索。代表:Chroma、Milvus、Pinecone。
Similarity Search 相似性搜索 在向量数据库中找到与查询向量最相似的 K 个向量,是 RAG 的核心检索步骤。
Cosine Similarity 余弦相似度 衡量两个向量夹角余弦值的相似度指标,值在 [-1,1] 之间,值越大越相似,最常用于文本语义相似度。
ANN Approximate Nearest Neighbor,近似最近邻 用近似算法(如 HNSW、IVF)快速找到”足够近”的邻居,而不是精确最近邻,以小代价换取大幅性能提升。
HNSW Hierarchical Navigable Small World 主流 ANN 索引算法,多层图结构,精度高速度快,是大多数向量数据库的默认索引。
Chunking 文本分块 将长文档切分成较短片段的过程,是构建 RAG 知识库的第一步。分块策略(大小、重叠)直接影响检索质量。
Chunk Overlap 分块重叠 相邻文本块之间共享一部分内容,防止关键信息被切割在两个块的边界处而丢失。
Reranking 重排序 对向量检索召回的候选文档,用更精确的模型(如 Cross-Encoder)重新打分排序,提升最终结果质量。
Hybrid Search 混合检索 将向量相似度检索(语义)和关键词检索(BM25 等)结合,兼顾语义理解和精确匹配。
BM25 Best Match 25 经典关键词检索算法,基于词频和文档频率打分,在精确词匹配场景下往往优于纯向量检索。
Context Stuffing 上下文填充 将检索到的多个文档片段直接拼接塞入 Prompt,是最简单的 RAG 实现方式。
Lost in the Middle 中间遗失问题 研究发现 LLM 更容易关注上下文开头和结尾的内容,中间部分容易被忽略,影响长文档 RAG 效果。

六、Agent 与工具调用

术语 全称 / 中文名 一句话解释
Agent 智能体 能够自主感知环境、制定计划、调用工具并执行多步骤任务的 LLM 应用模式,而非单轮问答。
Tool Use / Function Calling 工具调用 / 函数调用 LLM 在生成回答时,可以触发外部函数(搜索、计算器、数据库查询等)并将结果整合进回答。
Agentic Loop 智能体循环 Agent 的运行模式:LLM 思考 → 调用工具 → 获取结果 → 再次思考 → …… 直到任务完成。
Planning 规划 Agent 将复杂目标拆解为多个子任务并排定执行顺序的能力。
Memory 记忆 Agent 跨对话存储和检索信息的机制,分为短期记忆(上下文窗口)和长期记忆(外部存储)。
Multi-Agent 多智能体 多个 Agent 协作完成任务的框架,如 AutoGen、CrewAI,不同 Agent 可承担不同角色(规划、执行、校验)。
Orchestrator 编排器 多 Agent 框架中负责分配任务、协调各 Agent 工作的主控 Agent。
MCP Model Context Protocol,模型上下文协议 Anthropic 提出的开放协议,让 LLM 应用以标准方式连接外部工具和数据源(数据库、文件系统、API 等)。
Grounding 落地 / 接地 将模型的输出与真实世界的数据(搜索结果、数据库记录)关联,减少幻觉。
Reflection 反思 Agent 对自己之前的输出进行评估和修正的能力,是提升 Agent 可靠性的重要机制。
Sandbox 沙箱 Agent 执行代码或命令时的隔离环境,防止对宿主系统造成破坏。

七、推理与部署优化

术语 全称 / 中文名 一句话解释
Quantization 量化 将模型权重从高精度(FP32/FP16)压缩为低精度(INT8/INT4)表示,大幅减少内存占用和推理时间,但会有少量精度损失。
GGUF GPT-Generated Unified Format 量化模型的主流文件格式,由 llama.cpp 项目提出,方便在本地 CPU/GPU 上部署开源模型。
llama.cpp 在 CPU 上高效运行 LLM 的开源推理框架,支持 Mac、Windows、Linux,是本地部署开源模型的热门选择。
Ollama 在本地一键运行开源大模型的工具,底层基于 llama.cpp,提供类 Docker 的模型管理体验。
vLLM 高性能 LLM 推理服务框架,核心创新是 PagedAttention(分页注意力),大幅提升 GPU 利用率和吞吐量。
PagedAttention 分页注意力 vLLM 提出的技术,借鉴操作系统虚拟内存思路管理 KV Cache,消除内存碎片,提升并发能力。
Speculative Decoding 投机解码 用小模型快速生成候选 token,再由大模型批量验证,在不损失质量的前提下提升生成速度。
Batch Inference 批量推理 将多个请求打包成一批同时处理,提升 GPU 利用率和整体吞吐量。
Continuous Batching 连续批处理 动态地将新请求插入正在进行的批次中,而非等一批全部完成再开始新批,进一步提升吞吐量。
Tensor Parallelism 张量并行 将模型的权重矩阵切分到多张 GPU 上,每张 GPU 计算一部分,适合单机多卡部署超大模型。
Pipeline Parallelism 流水线并行 将模型的不同层分配到不同 GPU(或机器)上,适合跨节点部署超大模型。
TGI Text Generation Inference HuggingFace 出品的高性能推理服务,支持主流开源模型,常用于生产部署。
ONNX Open Neural Network Exchange 神经网络模型的开放格式,方便在不同框架(PyTorch、TensorFlow)和硬件间迁移和部署。

八、评估与基准

术语 全称 / 中文名 一句话解释
Benchmark 基准测试 用标准化数据集和指标评估模型能力的测试集,如 MMLU、GSM8K、HumanEval。
MMLU Massive Multitask Language Understanding 覆盖 57 个学科(数学、历史、法律、医学等)的综合知识测试基准,是衡量模型知识广度的标准之一。
GSM8K Grade School Math 8K 小学数学应用题数据集,用于评估模型的数学推理能力。
HumanEval OpenAI 提出的代码生成评测基准,包含 164 道编程题,用 pass@k 指标衡量通过率。
HELM Holistic Evaluation of Language Models 斯坦福提出的多维度模型评估框架,从准确性、鲁棒性、公平性等多个角度评估 LLM。
MT-Bench Multi-Turn Benchmark 多轮对话能力评测基准,用 GPT-4 作为裁判打分,评估模型的指令遵循和对话连贯性。
Arena (Chatbot Arena) LMSYS 推出的人类偏好评测平台,让用户盲测两个模型并选择更好的回答,基于 Elo 评分排名。
BLEU Bilingual Evaluation Understudy 通过计算生成文本与参考文本的 n-gram 重叠度来评估翻译质量的指标,值在 0~1 之间。
ROUGE Recall-Oriented Understudy for Gisting Evaluation 常用于摘要任务的评估指标,衡量生成摘要与参考摘要的召回率。
Pass@k 代码生成评估指标,生成 k 个解法中至少有 1 个通过测试的概率,k 越大越宽松。
LLM-as-Judge 用 LLM 作为裁判 用强大的 LLM(如 GPT-4)对其他模型的输出进行打分评估,替代昂贵的人工评估。

九、安全与对齐

术语 全称 / 中文名 一句话解释
Alignment 对齐 使模型的行为和价值观符合人类意图和社会规范的研究方向,是 AI 安全的核心课题。
Jailbreak 越狱 通过精心设计的 Prompt 绕过模型的安全限制,让其输出原本被禁止的内容。
Prompt Injection 提示词注入 攻击者将恶意指令嵌入模型输入(如网页内容、文件),劫持 Agent 的行为,类似 SQL 注入。
Guardrails 护栏 在模型输入/输出层面设置的安全过滤机制,检测和拦截有害内容、违规请求等。
Constitutional AI 宪法 AI Anthropic 提出的训练方法,用一套”宪法”原则引导模型自我批评和修正输出,减少对人工标注的依赖。
Red Teaming 红队测试 专门尝试找出模型漏洞、触发有害输出的对抗性测试,用于发现和修复安全问题。
Toxicity 毒性 模型生成的带有仇恨、歧视、骚扰等有害内容,是内容安全过滤的主要目标。
Bias 偏见 模型从训练数据中学到的社会偏见(性别、种族等),可能导致歧视性输出。
Robustness 鲁棒性 模型面对输入噪声、对抗样本、分布偏移时保持稳定性能的能力。
Watermarking 水印 在 LLM 生成的文本中嵌入统计信号,用于事后检测文本是否由 AI 生成。

十、多模态

术语 全称 / 中文名 一句话解释
VLM Vision-Language Model,视觉语言模型 能同时理解图像和文本的模型,如 GPT-4V、Claude 3、LLaVA。
CLIP Contrastive Language-Image Pretraining OpenAI 提出的图文对比学习模型,通过对齐图像和文本向量空间,支持零样本图像分类和跨模态检索。
ViT Vision Transformer 将图像切分为 Patch 后用 Transformer 处理的视觉模型,是大多数 VLM 的视觉编码器基础。
Cross-Attention 交叉注意力 让一个序列(如文本)的 Query 去关注另一个序列(如图像特征)的 Key/Value,实现跨模态融合。
Diffusion Model 扩散模型 图像生成的主流范式(Stable Diffusion、DALL-E 3),通过学习逐步去噪过程来生成图像。
TTS Text-to-Speech,文字转语音 将文本转换为语音的技术,如 OpenAI TTS、微软 Azure TTS。
ASR Automatic Speech Recognition,自动语音识别 将语音转换为文字的技术,如 OpenAI Whisper。
OCR Optical Character Recognition,光学字符识别 从图像中识别并提取文字,VLM 通常内置此能力。