机器学习入门

机器学习（Machine Learning）是AI的核心分支——让计算机从数据中自动学习规律，而非通过人工编写规则。

三大学习范式

监督学习

有标签数据，模型学习输入到输出的映射关系。

分类：判断邮件是否为垃圾邮件
回归：预测房价走势

无监督学习

无标签数据，模型自行发现数据中的结构。

聚类：将用户自动分组
降维：压缩数据特征

强化学习

通过试错和奖励信号学习最优策略。

游戏AI：AlphaGo的自我博弈训练
机器人控制：自动驾驶的决策优化

核心概念

术语	含义
特征（Feature）	数据的输入属性，如房屋面积
标签（Label）	数据的输出目标，如房屋价格
训练集	用于学习的数据子集
测试集	用于评估模型的数据子集
过拟合	模型在训练集上表现好但泛化能力差
欠拟合	模型未能学到数据中的规律

过拟合是机器学习中最常见的问题

模型"记住"了训练数据的细节而非学到通用规律。解决方法包括：增加数据量、简化模型结构、使用正则化。

工作流程

数据收集与预处理
选择模型算法
训练模型
评估模型效果
优化与部署