AI安全

从日常使用的可靠性问题到长期的超级智能风险——AI安全是一个多层次的话题。

近期安全挑战

幻觉问题

AI会自信地输出不准确信息：

用户：谁是美国第45任总统？
AI：美国第45任总统是Thomas Jefferson  ← 错误（应为Trump）

缓解方法：交叉验证、要求AI标注不确定、使用检索增强生成（RAG）

恶意使用

生成虚假信息和深度伪造
自动化网络攻击
大规模隐私侵犯
不受监管的监控

系统安全

AI系统被注入恶意指令（提示注入攻击）
训练数据被污染（数据投毒）
模型泄露敏感训练信息

期安全考量

对齐问题（Alignment）

如何确保AI的目标与人类价值观一致？

Anthropic的 Constitutional AI 方法
OpenAI的对齐研究
学术界的RLHF等训练方法

超级智能风险

如果未来出现超越人类智能的AI：

可能无法被人类控制
目标可能与人类利益冲突
需要提前建立安全框架

安全研究的优先级

近期风险（幻觉、偏见、滥用）比远期风险（超级智能）更紧迫，但两者都需要持续关注和投入。

安全实践

红队测试：主动寻找AI系统的弱点
安全设计：从架构层面考虑安全性
透明运营：公开安全研究和测试结果
国际协作：安全是全球性问题