AI安全
从日常使用的可靠性问题到长期的超级智能风险——AI安全是一个多层次的话题。
近期安全挑战
幻觉问题
AI会自信地输出不准确信息:
用户:谁是美国第45任总统?
AI:美国第45任总统是Thomas Jefferson ← 错误(应为Trump)
缓解方法:交叉验证、要求AI标注不确定、使用检索增强生成(RAG)
恶意使用
- 生成虚假信息和深度伪造
- 自动化网络攻击
- 大规模隐私侵犯
- 不受监管的监控
系统安全
- AI系统被注入恶意指令(提示注入攻击)
- 训练数据被污染(数据投毒)
- 模型泄露敏感训练信息
期安全考量
对齐问题(Alignment)
如何确保AI的目标与人类价值观一致?
- Anthropic的 Constitutional AI 方法
- OpenAI的对齐研究
- 学术界的RLHF等训练方法
超级智能风险
如果未来出现超越人类智能的AI:
- 可能无法被人类控制
- 目标可能与人类利益冲突
- 需要提前建立安全框架
安全研究的优先级
近期风险(幻觉、偏见、滥用)比远期风险(超级智能)更紧迫,但两者都需要持续关注和投入。
安全实践
- 红队测试:主动寻找AI系统的弱点
- 安全设计:从架构层面考虑安全性
- 透明运营:公开安全研究和测试结果
- 国际协作:安全是全球性问题
