本地模型部署

在自己的硬件上运行开源大语言模型——适合隐私敏感场景和成本优化需求。

为什么本地部署

优势	说明
数据隐私	数据不出本地，适合企业内部使用
无调用限制	不受API速率和配额约束
成本可控	硬件投入一次性，长期使用无API费用
可定制	可微调模型适应特定领域

主要开源模型

模型	参数量	特点
Llama 3	8B/70B	Meta出品，社区生态最丰富
Qwen 2.5	7B/72B	阿里出品，中文能力出色
Mistral	7B/8x7B	欧洲开源，效率优秀
Phi-3	3.8B/14B	微软出品，小而精
DeepSeek V2	236B	MoE架构，性价比高

部署方案

Ollama（最简单）

# 安装Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 拉取并运行模型
ollama run llama3

# API方式调用
curl http://localhost:11434/api/chat -d '{
  "model": "llama3",
  "messages": [{"role": "user", "content": "你好"}]
}'

vLLM（高性能服务）

适合生产环境，支持连续批处理和PagedAttention：

pip install vllm
vllm serve llama3 --tensor-parallel-size 2

硬件选择指南

入门：Mac M系列芯片 + Ollama，直接本地运行
中等：1-2块RTX 3090/4090，运行7B-14B模型
企业：多块A100/H100，运行70B+模型
量化技术（GGUF、GPTQ）可在较低硬件上运行较大模型