本地模型部署
在自己的硬件上运行开源大语言模型——适合隐私敏感场景和成本优化需求。
为什么本地部署
| 优势 | 说明 |
|---|---|
| 数据隐私 | 数据不出本地,适合企业内部使用 |
| 无调用限制 | 不受API速率和配额约束 |
| 成本可控 | 硬件投入一次性,长期使用无API费用 |
| 可定制 | 可微调模型适应特定领域 |
主要开源模型
| 模型 | 参数量 | 特点 |
|---|---|---|
| Llama 3 | 8B/70B | Meta出品,社区生态最丰富 |
| Qwen 2.5 | 7B/72B | 阿里出品,中文能力出色 |
| Mistral | 7B/8x7B | 欧洲开源,效率优秀 |
| Phi-3 | 3.8B/14B | 微软出品,小而精 |
| DeepSeek V2 | 236B | MoE架构,性价比高 |
部署方案
Ollama(最简单)
# 安装Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 拉取并运行模型
ollama run llama3
# API方式调用
curl http://localhost:11434/api/chat -d '{
"model": "llama3",
"messages": [{"role": "user", "content": "你好"}]
}'
vLLM(高性能服务)
适合生产环境,支持连续批处理和PagedAttention:
pip install vllm
vllm serve llama3 --tensor-parallel-size 2
硬件选择指南
- 入门:Mac M系列芯片 + Ollama,直接本地运行
- 中等:1-2块RTX 3090/4090,运行7B-14B模型
- 企业:多块A100/H100,运行70B+模型
- 量化技术(GGUF、GPTQ)可在较低硬件上运行较大模型
