传统编程的局限性
机器学习的定义
目标:从经验(数据)中学习,提高任务性能。
核心流程:定义模型 → 用数据集调整参数 → 优化目标函数(如损失函数)。
日常生活中的应用
语音助手(如“Hey Siri”唤醒词识别):音频特征→标签映射。
图像分类:模型通过调整参数识别特征(如猫狗分类)。
数据
特征与标签:样本由特征向量(如像素值)和标签(如类别)组成。
数据质量:需避免偏差(如医疗数据缺乏某些人群样本)。
数据规模:深度学习高度依赖大数据,但需注意分布偏移(训练与测试数据差异)。
模型
表示学习:深度学习通过多层非线性转换自动提取特征。
模型族:如神经网络,参数调整生成不同行为(如不同唤醒词识别)。
目标函数
损失函数:量化模型有效性(如平方误差用于回归,交叉熵用于分类)。
过拟合:模型在训练集表现好,但测试集性能差(需验证泛化能力)。
优化算法
梯度下降:通过计算损失梯度调整参数,逐步逼近最优解。
训练步骤:随机初始化→数据采样→参数更新→重复优化。
监督学习
回归:预测连续值(如房价、降雨量),使用平方误差损失。
分类:预测离散类别(如二分类:垃圾邮件检测;多分类:手写数字识别)。
多标签分类:样本同时属于多个类别(如文章标签)。
推荐系统:个性化推荐(如亚马逊商品推荐),可能受反馈循环影响。
序列学习:处理可变长度输入/输出(如语音识别、机器翻译)。
无监督学习
聚类:无标签数据分组(如客户行为分析)。
主成分分析(PCA):降维提取关键特征。
生成对抗网络(GANs):合成数据(如生成逼真图像)。
强化学习
定义:智能体与环境交互,通过奖励调整策略(如AlphaGo)。
关键挑战:信用分配(确定哪些动作影响奖励)、部分可观测性(如自动驾驶感知)。
应用场景:游戏AI、机器人控制。
早期理论基础
统计与优化:高斯分布、费舍尔的线性判别分析。
信息论:香农的信息度量,图灵的“机器思考”问题。
神经网络的发展
早期模型:赫布学习(神经元强化机制)、感知机。
深度学习复兴:大数据(如ImageNet)与GPU算力推动。
深度学习的突破
关键技术:Dropout正则化、注意力机制、端到端训练。
框架演进:TensorFlow、PyTorch等简化模型开发。
语音与视觉
语音识别:错误率接近人类(如Siri、Alexa)。
图像分类:ImageNet竞赛Top-5错误率从28%降至2.25%。
游戏与决策
AlphaGo:结合深度网络与蒙特卡洛树搜索击败人类冠军。
自动驾驶:通过感知与推理实现部分自主(如特斯拉)。
生成模型
GANs应用:生成逼真图像(如人脸合成)、风格迁移。
核心特点
端到端学习:替代人工特征工程(如传统Canny边缘检测→自动学习滤波器)。
非参数模型:大数据驱动灵活建模(如深度网络)。
挑战与伦理
数据偏见:模型可能继承历史偏见(如招聘算法偏好特定群体)。
隐私与安全:大规模数据采集的隐私风险。
自动化风险:职业替代(如司机、客服)。