大语言模型概览

大语言模型（Large Language Model，LLM）是基于Transformer架构的超大规模文本生成模型，是当前AI应用的核心驱动力。

什么是LLM

LLM通过在海量文本数据上训练，学习语言的统计规律和语义关系，能够生成、理解、翻译和总结文本。

关键参数：

参数量：模型规模指标（GPT-4约1.8万亿参数）
上下文窗口：模型能"看到"的文本长度（从4K到128K+）
训练数据：互联网文本、书籍、代码等

主要LLM家族

模型	开发方	特点
GPT系列	OpenAI	通用对话与生成，ChatGPT背后的模型
Claude系列	Anthropic	注重安全与有用性，擅长长文本分析
Llama系列	Meta	开源模型，社区生态丰富
Gemini	Google	多模态能力，结合搜索知识
Mistral	Mistral AI	欧洲开源模型，效率出色

Transformer核心机制

自注意力（Self-Attention）

让模型理解文本中每个词与其他词的关系：

"猫坐在垫子上，因为它很暖和"
→ "它"指的是"垫子"而非"猫"
→ 注意力机制自动捕捉这种关联

位置编码

Transformer没有RNN的天然顺序感，需要位置编码告诉模型词的先后顺序。

大语言模型的三个关键能力

上下文理解：根据前文生成连贯的回复
指令遵循：理解用户意图并按要求执行
泛化推理：在未见过的任务上也能给出合理答案

LLM的局限

可能生成不准确信息（幻觉问题）
无法真正"理解"含义，基于统计而非认知
训练成本极高，需要大量算力和数据
存在偏见和安全风险