机器学习入门
机器学习(Machine Learning)是AI的核心分支——让计算机从数据中自动学习规律,而非通过人工编写规则。
三大学习范式
监督学习
有标签数据,模型学习输入到输出的映射关系。
- 分类:判断邮件是否为垃圾邮件
- 回归:预测房价走势
无监督学习
无标签数据,模型自行发现数据中的结构。
- 聚类:将用户自动分组
- 降维:压缩数据特征
强化学习
通过试错和奖励信号学习最优策略。
- 游戏AI:AlphaGo的自我博弈训练
- 机器人控制:自动驾驶的决策优化
核心概念
| 术语 | 含义 |
|---|---|
| 特征(Feature) | 数据的输入属性,如房屋面积 |
| 标签(Label) | 数据的输出目标,如房屋价格 |
| 训练集 | 用于学习的数据子集 |
| 测试集 | 用于评估模型的数据子集 |
| 过拟合 | 模型在训练集上表现好但泛化能力差 |
| 欠拟合 | 模型未能学到数据中的规律 |
过拟合是机器学习中最常见的问题
模型"记住"了训练数据的细节而非学到通用规律。解决方法包括:增加数据量、简化模型结构、使用正则化。
工作流程
- 数据收集与预处理
- 选择模型算法
- 训练模型
- 评估模型效果
- 优化与部署
