首页/文章/ 详情

机器学习与深度学习引言学习笔记

21小时前浏览3

一. 引言

  1. 传统编程的局限性

    • 传统程序依赖人工设计的业务逻辑,需考虑所有边界情况(如购物车功能)。
    • 复杂任务(如天气预测、图像识别)无法通过规则实现,需数据驱动方案。
  2. 机器学习的定义

    • 目标:从经验(数据)中学习,提高任务性能。

    • 核心流程:定义模型 → 用数据集调整参数 → 优化目标函数(如损失函数)。

  3. 日常生活中的应用

    • 语音助手(如“Hey Siri”唤醒词识别):音频特征→标签映射。

    • 图像分类模型通过调整参数识别特征(如猫狗分类)。


二. 机器学习的关键组件

  1. 数据

    • 特征与标签样本由特征向量(如像素值)和标签(如类别)组成。

    • 数据质量需避免偏差(如医疗数据缺乏某些人群样本)。

    • 数据规模深度学习高度依赖大数据,但需注意分布偏移(训练与测试数据差异)。

  2. 模型

    • 表示学习深度学习通过多层非线性转换自动提取特征。

    • 模型族如神经网络,参数调整生成不同行为(如不同唤醒词识别)。

  3. 目标函数

    • 损失函数量化模型有效性(如平方误差用于回归,交叉熵用于分类)。

    • 过拟合模型在训练集表现好,但测试集性能差(需验证泛化能力)。

  4. 优化算法

    • 梯度下降通过计算损失梯度调整参数,逐步逼近最优解。

    • 训练步骤:随机初始化→数据采样→参数更新→重复优化。


三. 机器学习的核心问题类型

  1. 监督学习

    • 回归预测连续值(如房价、降雨量),使用平方误差损失。

    • 分类预测离散类别(如二分类:垃圾邮件检测;多分类:手写数字识别)。

    • 多标签分类样本同时属于多个类别(如文章标签)。

    • 推荐系统个性化推荐(如亚马逊商品推荐),可能受反馈循环影响。

    • 序列学习处理可变长度输入/输出(如语音识别、机器翻译)。

  2. 无监督学习

    • 聚类无标签数据分组(如客户行为分析)。

    • 主成分分析(PCA)降维提取关键特征。

    • 生成对抗网络(GANs)合成数据(如生成逼真图像)。

  3. 强化学习

    • 定义智能体与环境交互,通过奖励调整策略(如AlphaGo)。

    • 关键挑战信用分配(确定哪些动作影响奖励)、部分可观测性(如自动驾驶感知)。

    • 应用场景游戏AI、机器人控制。


四. 机器学习的起源与发展

  1. 早期理论基础

    • 统计与优化高斯分布、费舍尔的线性判别分析。

    • 信息论香农的信息度量,图灵的“机器思考”问题。

  2. 神经网络的发展

    • 早期模型赫布学习(神经元强化机制)、感知机。

    • 深度学习复兴大数据(如ImageNet)与GPU算力推动。

  3. 深度学习的突破

    • 关键技术Dropout正则化、注意力机制、端到端训练。

    • 框架演进TensorFlow、PyTorch等简化模型开发。


五. 深度学习的成功案例

  1. 语音与视觉

    • 语音识别错误率接近人类(如Siri、Alexa)。

    • 图像分类ImageNet竞赛Top-5错误率从28%降至2.25%。

  2. 游戏与决策

    • AlphaGo结合深度网络与蒙特卡洛树搜索击败人类冠军。

    • 自动驾驶通过感知与推理实现部分自主(如特斯拉)。

  3. 生成模型

    • GANs应用生成逼真图像(如人脸合成)、风格迁移。


六. 深度学习的特点与挑战

  1. 核心特点

    • 端到端学习替代人工特征工程(如传统Canny边缘检测→自动学习滤波器)。

    • 非参数模型大数据驱动灵活建模(如深度网络)。

  2. 挑战与伦理

    • 数据偏见模型可能继承历史偏见(如招聘算法偏好特定群体)。

    • 隐私与安全大规模数据采集的隐私风险。

    • 自动化风险职业替代(如司机、客服)。

来源:檐苔
非线性化学理论化机自动驾驶机器人游戏控制
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2025-08-26
最近编辑:21小时前
青瓦松
硕士 签名征集中
获赞 14粉丝 1文章 45课程 0
点赞
收藏
作者推荐

线性神经网络1-线性回归学习笔记

回归(regression):能为一个或多个自变量与因变量之间关系建模的一类方法。在自然科学和社会科学领 域,回归经常用来表示输入和输出之间的关系。一、线性回归的基本元素线性回归的基本假设: a. 自变量x和因变量y之间的关系是线性的,即y可以表示为x中元素的加权和,允许包含观测噪声。 b. 任何噪声都比较正常,如噪声遵循正态分布。训练集(training set):又称训练数据集(training data set),是从原始数据中划分出的子集,用于模型训练。数据集每行数据称为样本(sample),也可以称为数据点(data point)或数据样本(data instance),每行数据包含输入特征(feature)或协变量(covariate)X和对应的标签(label)或目标(target)y-监督学习场景。训练集质量要求:①代表性:覆盖真实场景的多样性(如包含不同车型的风阻数据);②无偏性:避免采样偏差(如不同车型的样本比例均衡)。线性模型: 线性假设是指目标(房屋价格)可以表示为特征(面积和房龄)的加权和,即: 其中:w1、w2、wd称为权重(weight),决定了每个特征对我们预测值的影响。b称为偏置(bias)、 偏移量(offset)或截距(intercept),是指当所有特征都取值为0时,预测值应该为多少。 给定训练数据特征X和对应的已知标签y,线性回归的目标是找到一组权重向量w和偏置b:当从X的同分布中取样新的样本特征时,这组权重向量和偏置能够使得新样本预测标签的误差尽可能小。损失函数(loss function):是一种模型质量的度量方式,用于量化目标的实际值与预测值之间的差距。回归问题中最常用的损失函数是平方误差函数。表达式如下:在训练模型时,我们希望寻找一组参数(w∗ , b∗),这组参数能最小化在所有训练样本上的总损失,即:随机梯度下降 梯度下降法(gradient descent),通过不断地在损失函数递减的方向上更新参数来降低误差以达到对模型训练的目的。该方法可用于优化所有深度学习模型。梯度下降最简单的用法是计算损失函数(数据集中所有样本的损失均值)关于模型参数的导数(梯度)。但实际中的执行可能会非常慢-在每一次更新参数之前,须遍历整个数据集。因此, 在每次需要计算更新时随机抽取一小批样本以进行梯度计算,这种变体叫做小批量随机梯度下降(minibatch stochastic gradient descent)。 算法的步骤如下:(1) 初始化模型参数的值,如随机初始化;(2) 从数据集中随机抽取小批量样本且在负梯度的方向上更新参数,并不断迭代这一步骤。对于平方损失和仿射变换,我们可以明确地写成如下形式: |B|表示每个小批量中的样本数,这也称为批量大小(batch size)。η表示学习率(learning rate)。批量大小和学习率的值通常是手动预先指定,而不是通过模型训练得到的。这些可以调整但不在训练过程中更新的参数称为超参数(hyperparameter)。调参(hyperparameter tuning)是选择超参数的过程。超参数通常是我们根据训练迭代结果来调整的,而训练迭代结果是在独立的验证数据集(validation dataset)上评估得到的。 深度学习过程中很少会去花费大力气寻找这样一组参数,使得在训练集上 的损失达到最小。事实上,更难做到的是找到一组参数,这组参数能够在我们从未见过的数据上实现较低的损失,这一挑战被称为泛化(generalization)。模型预测:利用训练好的模型(即w和b),给定特征估计目标的过程通常称为预测(prediction)或推断(inference)。二、正态分布与平方损失 正态分布(normal distribution),也称为高斯分布(Gaussian distribution),最早由德国数学家高斯(Gauss)应用于天文学研究。简单的说,若随机变量x具有均值µ和方差σ2(标准差σ),其正态分布概率密度函数如下: 均方误差损失函数(简称均方损失)可以用于线性回归的一个原因是:我们假设了观测中包含噪声,其中噪声服从正态分布。噪声正态分布如下式:则通过给定的x观测到特定y的似然(likelihood):根据极大似然估计法,参数w和b的最优值是使整个数据集的似然最大的值: 根据极大似然估计法选择的估计量称为极大似然估计量。由于历史原因,优化通常是说最小化而 不是最大化。我们可以改为最小化负对数似然−logP(y|X)。由此可以得到的数学公式是: 要假设σ是某个固定常数就可以忽略第一项,因为第一项不依赖于w和b。现在第二项除了常数1/σ2外,其余部分和前面介绍的均方误差是一样的。三、从线性回归到深度网络神经网络图 该图只显示连接模式,即只显示每个输入如何连接到输出,隐去了权重和偏置的值。图中所示的神经网络,输入为x1, . . . , xd,输入层中的特征维度(feature dimensionality)为d;网络的输出为o1,输出层中的输出数是1。输入值都是已经给定的,且只有一个计算神经元,在计算层数时通常不考虑输入层。因此,可将线性回归模型视为仅由单个人工神经元组成的神经网络,或称为单层神经网络。对于线性回归,每个输入都与每个输出相连,这种变换称为全连接层(fully-connected layer)或称为稠密层(dense layer)。来源:檐苔

未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习计划 福利任务
下载APP
联系我们
帮助与反馈