线性神经网络1-线性回归学习笔记

21小时前浏览3

回归(regression)：能为一个或多个自变量与因变量之间关系建模的一类方法。在自然科学和社会科学领域，回归经常用来表示输入和输出之间的关系。

一、线性回归的基本元素

线性回归的基本假设：

a. 自变量x和因变量y之间的关系是线性的，即y可以表示为x中元素的加权和，允许包含观测噪声。

b. 任何噪声都比较正常，如噪声遵循正态分布。

训练集(training set)：又称训练数据集(training data set)，是从原始数据中划分出的子集，用于模型训练。数据集每行数据称为样本(sample)，也可以称为数据点(data point)或数据样本(data instance)，每行数据包含输入特征(feature)或协变量(covariate)X和对应的标签(label)或目标(target)y-监督学习场景。

训练集质量要求：①代表性：覆盖真实场景的多样性(如包含不同车型的风阻数据)；②无偏性：避免采样偏差(如不同车型的样本比例均衡)。

线性模型：

线性假设是指目标（房屋价格）可以表示为特征（面积和房龄）的加权和，即：

其中：w1、w2、wd称为权重(weight)，决定了每个特征对我们预测值的影响。b称为偏置(bias)、偏移量(offset)或截距(intercept)，是指当所有特征都取值为0时，预测值应该为多少。

给定训练数据特征X和对应的已知标签y，线性回归的目标是找到一组权重向量w和偏置b：当从X的同分布中取样新的样本特征时，这组权重向量和偏置能够使得新样本预测标签的误差尽可能小。

损失函数(loss function)：是一种模型质量的度量方式，用于量化目标的实际值与预测值之间的差距。回归问题中最常用的损失函数是平方误差函数。表达式如下：

在训练模型时，我们希望寻找一组参数(w∗ , b∗)，这组参数能最小化在所有训练样本上的总损失，即：

随机梯度下降

梯度下降法(gradient descent)，通过不断地在损失函数递减的方向上更新参数来降低误差以达到对模型训练的目的。该方法可用于优化所有深度学习模型。梯度下降最简单的用法是计算损失函数(数据集中所有样本的损失均值)关于模型参数的导数(梯度)。但实际中的执行可能会非常慢-在每一次更新参数之前，须遍历整个数据集。因此，在每次需要计算更新时随机抽取一小批样本以进行梯度计算，这种变体叫做小批量随机梯度下降(minibatch stochastic gradient descent)。

算法的步骤如下：（1) 初始化模型参数的值，如随机初始化；(2) 从数据集中随机抽取小批量样本且在负梯度的方向上更新参数，并不断迭代这一步骤。对于平方损失和仿射变换，我们可以明确地写成如下形式:

|B|表示每个小批量中的样本数，这也称为批量大小(batch size)。η表示学习率(learning rate)。批量大小和学习率的值通常是手动预先指定，而不是通过模型训练得到的。这些可以调整但不在训练过程中更新的参数称为超参数(hyperparameter)。调参(hyperparameter tuning)是选择超参数的过程。超参数通常是我们根据训练迭代结果来调整的，而训练迭代结果是在独立的验证数据集(validation dataset)上评估得到的。

深度学习过程中很少会去花费大力气寻找这样一组参数，使得在训练集上的损失达到最小。事实上，更难做到的是找到一组参数，这组参数能够在我们从未见过的数据上实现较低的损失，这一挑战被称为泛化(generalization)。

模型预测：利用训练好的模型(即w和b)，给定特征估计目标的过程通常称为预测(prediction)或推断(inference)。

二、正态分布与平方损失

正态分布(normal distribution)，也称为高斯分布(Gaussian distribution)，最早由德国数学家高斯(Gauss)应用于天文学研究。简单的说，若随机变量x具有均值µ和方差σ2(标准差σ)，其正态分布概率密度函数如下：

均方误差损失函数(简称均方损失)可以用于线性回归的一个原因是：我们假设了观测中包含噪声，其中噪声服从正态分布。噪声正态分布如下式:

则通过给定的x观测到特定y的似然(likelihood)：

根据极大似然估计法，参数w和b的最优值是使整个数据集的似然最大的值：

根据极大似然估计法选择的估计量称为极大似然估计量。由于历史原因，优化通常是说最小化而不是最大化。我们可以改为最小化负对数似然−logP(y|X)。由此可以得到的数学公式是：

要假设σ是某个固定常数就可以忽略第一项，因为第一项不依赖于w和b。现在第二项除了常数1/σ2外，其余部分和前面介绍的均方误差是一样的。

三、从线性回归到深度网络

神经网络图

该图只显示连接模式，即只显示每个输入如何连接到输出，隐去了权重和偏置的值。图中所示的神经网络，输入为x1, . . . , xd，输入层中的特征维度(feature dimensionality)为d；网络的输出为o1，输出层中的输出数是1。输入值都是已经给定的，且只有一个计算神经元，在计算层数时通常不考虑输入层。因此，可将线性回归模型视为仅由单个人工神经元组成的神经网络，或称为单层神经网络。对于线性回归，每个输入都与每个输出相连，这种变换称为全连接层(fully-connected layer)或称为稠密层(dense layer)。

来源：檐苔

多层感知机2-模型选择、欠拟合和过拟合学习笔记

机器学习的目标是发现某些模式，这些模式能捕捉到训练集潜在总体的规律；若做到了这点，对从未遇到过的个体，利用这些模式也可以进行评估风险。如何发现可泛化的模式是机器学习的根本问题。过拟合：一个模型出现在训练集数据上拟合程度高，而在测试集(新数据)上的拟合能力差的现象称为过拟合(overfitting)。当训练误差明显低于验证误差即表明出现了严重的过拟合。用于对抗过拟合的技术称为正则化(regularization)。一、训练误差和泛化误差训练误差(training error)：模型在训练数据集上计算得到的误差。泛化误差(generalization error)：模型应用在同样从原始样本的分布中抽取的无限多数据样本时，模型误差的期望值。问题是，泛化误差无法准确地计算。因为无限多数据样本是一个虚拟对象。在实际中，通过将模型应用于一个独立的测试集来估计泛化误差，该测试集由随机选取的、未曾在训练集中出现的数据样本构成。二、模型选择模型复杂性：对于神经网络，通常将需要更多训练迭代的模型视为复杂的，而需要早停(early stopping)的模型-即较少训练迭代周期, 就不那么复杂。统计学家认为，能够轻松解释任意事实的模型是复杂的，而表达能力有限但仍能很好地解释数据的模型可能更有现实用途。模型选择：在机器学习中，通过评估几个候选模型后选择最终的模型。这个过程叫做模型选择。有时，需要进行比较的模型在本质上是完全不同的(如决策树与线性模型)。又有时，需要比较不同的超参数设置下的同一类模型。K折交叉验证：将原始训练数据分成K个不重叠的子集；然后执行K次模型训练和验证，每次在K−1个子集上进行训练，并在剩余的一个子集(在该轮中没有用于训练的子集)上进行验证；最后，通过对K次实验的结果取平均来估计训练和验证误差。欠拟合：若一个模型不能降低训练误差，这可能意味着模型过于简单(即表达能力不足)，无法捕获试图学习的模式；同时训练误差和验证误差之间的泛化误差很小；此时可以用一个更复杂的模型以降低训练误差。这种现象被称为欠拟合(underfitting)。模型过拟合和欠拟合评估：是否过拟合或欠拟合可能取决于模型复杂性和可用训练数据集的大小。如下图所示，模型越复杂训练误差将越小，但是泛化误差反而变大，因此在模型选择时，须同时平衡训练误差和泛化误差以提高模型的可用性。训练数据集中的样本过小，训练出来的模型可能出现严重的过拟合。对于许多任务，深度学习只有在有数千个训练样本时才优于线性模型。三、权重衰减(Weight Decay)权重衰减是一种正则化技术，通过给损失函数增加模型权重L2范数的惩罚(penalty)来让模型权重不要太大，以减小模型的复杂度，实现抑制模型的过拟合而提高模型的泛化性的目的。数据扰动：训练数据点距离真实模型的偏离程度就是数据扰动。正则化的目标是减小方差或是说减小数据扰动所造成的影响。权重衰减的具体公式如下：其中，L_0是原损失函数；λ是一个超参，负责控制权重衰减的强弱；||W||^2为模型参数的L2范数的平方。从上面的公式，可得到如下结论：模型的权重越大，Loss就会越大；λ越大，权重衰减的就越厉害；若λ过大，将导致原Loss的占比较低，最终使模型效果变差。权重衰减的注意事项：权重衰减实际效果并不理想，尤其是当模型很复杂时，权重衰退的效果可能会更小；权重系数λ通常取1e-3；权重衰退通常不对bias做；权重衰减取值越大，对抑制模型的强度越大。但这并不说明越大越好，太大的话，可能会导致模型欠拟合。四、暂退法(Dropout)扰动的稳健性：函数不应该对其输入的微小变化敏感。在训练过程中，计算后续层之前向网络的每一层注入噪声。暂退法在前向传播过程中，计算每一内部层的同时注入噪声，这已经成为训练神经网络的常用技术。这种方法之所以被称为暂退法，主要是在训练过程中丢弃(drop out)一些神经元。在标准暂退法正则化中，通过按保留的节点的分数进行规范化来消除每一层的偏差。换言之，每个中间活性值h以暂退概率p由随机变量h ′替换，如下所示：根据此模型的设计，其期望值保持不变，即E[h′] = h。来源：檐苔