大语言模型概览
大语言模型(Large Language Model,LLM)是基于Transformer架构的超大规模文本生成模型,是当前AI应用的核心驱动力。
什么是LLM
LLM通过在海量文本数据上训练,学习语言的统计规律和语义关系,能够生成、理解、翻译和总结文本。
关键参数:
- 参数量:模型规模指标(GPT-4约1.8万亿参数)
- 上下文窗口:模型能"看到"的文本长度(从4K到128K+)
- 训练数据:互联网文本、书籍、代码等
主要LLM家族
| 模型 | 开发方 | 特点 |
|---|---|---|
| GPT系列 | OpenAI | 通用对话与生成,ChatGPT背后的模型 |
| Claude系列 | Anthropic | 注重安全与有用性,擅长长文本分析 |
| Llama系列 | Meta | 开源模型,社区生态丰富 |
| Gemini | 多模态能力,结合搜索知识 | |
| Mistral | Mistral AI | 欧洲开源模型,效率出色 |
Transformer核心机制
自注意力(Self-Attention)
让模型理解文本中每个词与其他词的关系:
"猫坐在垫子上,因为它很暖和"
→ "它"指的是"垫子"而非"猫"
→ 注意力机制自动捕捉这种关联
位置编码
Transformer没有RNN的天然顺序感,需要位置编码告诉模型词的先后顺序。
大语言模型的三个关键能力
- 上下文理解:根据前文生成连贯的回复
- 指令遵循:理解用户意图并按要求执行
- 泛化推理:在未见过的任务上也能给出合理答案
LLM的局限
- 可能生成不准确信息(幻觉问题)
- 无法真正"理解"含义,基于统计而非认知
- 训练成本极高,需要大量算力和数据
- 存在偏见和安全风险
