【机器学习】从贝叶斯角度理解正则化缓解过拟合

news/2024/5/19 6:39:37 标签: 机器学习, 正则化, 过拟合, 贝叶斯

贝叶斯角度理解正则化缓解过拟合">从贝叶斯角度理解正则化缓解过拟合

参考: LR正则化与数据先验分布的关系? - Charles Xiao的回答 - 知乎

原始的Linear Regression

假设有若干数据 (x1,y1),(x2,y2),...,(xm,ym) ,我们要对其进行线性回归。也就是得到一个方程

y=ωTx+ϵ

注意,这里忽略偏置,或者可以认为偏置是在 ωTx 里面。

ϵ 可以认为是,我们拟合的值和真实值之间的误差。
我们将 ϵ 看成是一个随机变量,其服从高斯分布,即 p(ϵ)=N(0,δ2) ,即:

p(ϵi)=12πδexp((ϵi)22δ2)

则对于每一个数据点 (xi,yi) ,我们用 xi 得到 yi 的概率为:

p(yi|xi;ω)=12πδexp((yiωTxi)22δ2)

注意,这里的 yi 是真实值。

如果我们想要让这个概率最大,就得到了最大似然:

L(ω)=i=1mp(yi|xi;ω)=i=1m12πδexp((yiωTxi)22δ2)(1)

取对数:

logL(ω)=logi=1m12πδexp((yiωTxi)22δ2)=i=1mlog12πδexp((yiωTxi)22δ2)=mlog12πδ12δ2i=1m(yiωTxi)2(2)

由上式可以看出,最大化对数似然,也就是最小化均方误差。即:

ω=argminωi=1m(yiωTxi)2

这样, 就从最大似然的角度解释了均方误差。

但是,如果 x 的维度过高, ω 对应的分量又不接近0的话,也就是说,我们的模型将所有维度的特征都考虑了,这就可能导致过拟合的问题。
所以说,要环节过拟合,一方面我们可以进行特征选择,另一方面,我们可以让 ω 的某些分量变小。


ω 引入先验分布

ω 引入高斯先验分布

如果我们对 ω 引入高斯先验分布,也就是说,让 ω 的分量在靠近0的区域出现的概率大:

p(ωj)=12παexp((ωj)22α2)

这样,(1)式就变为:

L(ω)=p(ω)i=1mp(yi|xi;ω)=j=1n12παexp((ωj)22α2)i=1m12πδexp((yiωTxi)22δ2)=(12πα)nexpnj=1(ωj)22α2i=1m12πδexp((yiωTxi)22δ2)=(12πα)nexp(ωTω2α2)i=1m12πδexp((yiωTxi)22δ2)(3)

取对数:

logL(ω)=log(12πα)nexp(ωTω2α2)i=1m12πδexp((yiωTxi)22δ2)=mlog12πδ+nlog12πα12δ2i=1m(yiωTxi)2ωTω2α2(4)

n是数据的维度。

最大化对数似然函数,就等价于:

ω=argminωi=1m(yiωTxi)2+λ||ωTω||2

也就是说,为参数 ω 引入高斯先验分布的最大似然,相当于给均方误差函数加上L2正则项

ω 引入拉普拉斯先验分布

如果我们对 ω 引入拉普拉斯先验分布:

p(ωj)=12bexp(|ωj|b)

类似上面的推导,我们可以得到:

ω=argminωi=1m(yiωTxi)2+λ|ω|1

也就是说,为参数 ω 引入拉普拉斯先验分布的最大似然,相当于给均方误差函数加上L1正则项

总结

之所以推导这些,是向给解释正则化找个理由。有了贝叶斯的这种方式,我们可以说,引入先验分布是降低了模型的复杂度,或者说是拉普拉斯分布进行了一定的特征选择,而高斯分布式对不重要的特征进行了抑制。另外,还可以说是,在 ω 的空间搜索时,先验分布缩小了解空间,这样对求解速度也有好处。


http://www.niftyadmin.cn/n/811166.html

相关文章

牛顿法及拟牛顿法

1 牛顿法 参考:http://blog.csdn.net/itplus/article/details/21896453 1.1 原始牛顿法 考虑数据是一维的优化问题: x∗minxf(x)(1)若当前 x已迭代到 xk ,得到的值是 f(xk),在 xk处做二阶泰勒展开: φ(x)f(xk)f′(x…

【机器学习】逻辑回归(Linear Regression)模型推导

LR中文翻译作逻辑斯蒂回归,用于二分类。为什么回归和分类搅在一起了呢。因为可以这样想:线性回归 yθTx得到的结果是一个实数。如果我们将这个结果“压缩”到 [0,1] 之间,那么就可以表示概率接近1的程度,进而可以用来二分类。 最简…

【机器学习】Softmax推导

LR可以看成是Softmax的特例。 LR主要是用于二分类,如果面临的是多分类问题,可以用Softmax。Softmax通常也是深度学习图像识别网络的最后一层。 在LR中,参数 θ是一个向量,而在Softmax中,参数可以看成是一个矩阵。也就是…

【机器学习】支持向量机SVM原理及推导

参考:http://blog.csdn.net/ajianyingxiaoqinghan/article/details/72897399 部分图片来自于上面博客。 0 由来 在二分类问题中,我们可以计算数据代入模型后得到的结果,如果这个结果有明显的区别,这就说明模型可以把数据分开。那…

【机器学习】最大熵模型推导

1 基本思想 先说说熵的定义,假设我们有随机变量 x,其概率分布为 p(x) ,则其熵为: H(P(x))−∑xP(x)logP(x)条件熵: H(P(y|x))−∑xP(x)∑yP(y|x)logP(y|x)可以证明,在概率相等的时候,熵可以达到最大值。也…

【机器学习】EM算法推导

1 为什么要用EM算法 有时,我们用极大似然的时候,公式中可能会有隐变量: L(θ)∏i1mp(yi;θ)∏i1m[∑zp(yi,z;θ)]∏i1m[∑zp(z;θ)p(yi|z;θ)]也就是 y 取什么值是由隐含的变量 z 决定的。举个栗子:有三个硬币,ABC&am…

【机器学习】神经网络及BP推导

参考 https://www.zybuluo.com/Feiteng/note/20154 1 前向传播 这里的推导都用矩阵和向量的形式,计算单个变量写起来太麻烦。矩阵、向量求导可参见上面参考的博客,个人觉得解释得很直接很好。 前向传播每一层的计算如下: z(l1)W(l,l1)a(l…