生成模型之高斯判别分析(GDA)和贝叶斯

生成模型与判别模型的区别

判别模型的学习算法学习给定x下的条件分布p(y|x; θ),

例如,Logistic Regression(对数几率回归)将p(y|x; θ)建模为h_{\theta } = g(\theta ^{T}x),g是sigmoid函数。

考虑一个分类问题,基于动物的某些特征想要区分大象(y=1)和狗狗(y=0)。给定一个数据集,类似LR或者感知机的算法尝试找到一条直线(超平面),也就是决策边界,将大象和狗狗分开。然后,当新样本要将其分类为大象类和狗狗类时,只需要检查新样本落在决策边界的哪一边,然后再对新样本进行预测。

这篇博客要谈的是另外一类学习算法,与上面的方法不同,首先看大象,构建一个大象长什么样子的模型,然后看狗狗,构建一个狗狗长什么样的分离模型,最后当输入一个新动物时,将这个新动物与大象模型和狗狗模型分别进行匹配,看新动物是更像大象还是更像狗狗。

直接学习p(y|x)或者尝试学习到一个从输入空间到输出标签{0,1}的映射(例如感知机算法)的学习算法叫做判别学习算法,这样的模型叫做判别模型

生成式学习算法与判别式算法不同,它尝试对p(x|y)和p(y)进行建模,例如,如果y表示一个样本是狗狗(y=0)或者大象(y=1),则p(x|y=0)对狗狗的特征分布进行建模,p(x|y=1)对大象的特征进行建模。

当建模了p(y)(类先验)和p(x|y),可以使用贝叶斯公式导出给定x时y的后验分布:

p(y|x) = \frac{p(x|y)p(y))}{p(x)}

p(x) = p(x|y=1)p(y=1) + p(x|y=0)p(y=0)

预测的时候:

 高斯判别分析模型(GDA)

当输入特征x是连续值的随机变量,可以使用高斯判别分析(Gaussian Discriminant Analysis, GDA),GDA使用多维正态分布对p(x|y)进行建模,模型如下:

 写成分布的形式:

模型的参数是 \phi, \sum,  \mu _{0}\mu _{1},均值向量不同,协方差矩阵相同。

对数似然:

通过最大似然估计其参数如下:

算法的分类效果如下:

 使用两个高斯分布来拟合两个类的数据,这两个高斯的等高线有相同的形状和方向,因为它们的协方差相同。这两个高斯的均值不同。

 贝叶斯>朴素贝叶斯

 在GDA中,特征向量x是连续的实数,当特征向量的值是离散时可以使用贝叶斯模型。例如,如果想使用机器学习做一个垃圾邮件过滤器,将邮件信息分类为垃圾广告邮件和非垃圾邮件。我们有一个训练集(带标签的数据),特征向量的长度等于词典的长度,如果一个邮件包含第j个单词,则这个特征设置为1;否则,设置为0。例如,一个样本邮件的特征向量如下:

有了特征向量,我们构建一个生成模型来对p(x|y)来建模。假定x_{i}在给定的y下条件独立,这个假设成为贝叶斯假设,对应的算法成为贝叶斯分类器

tips:

  • 第2087个特征x2087和第39831个特征条件独立可以写成:

        p(x2087|y) = p(x2087|y, x39831)

        表示当y给定的情况下,知道x39831与否对知道x2087的概率没有影响。

  • 第2087个特征和第39831个特征独立可以写成

        p(x2087) = p(x2087|x39831)

 后验分布p(x|y)可以写成:

 联合似然:

最大似然估计后的参数:

 

 对新样本进行预测:


http://www.niftyadmin.cn/n/394902.html

相关文章

深入篇【Linux】学习必备:理解【Linux软件包管理器】yum + yum的具体使用 + yum下载的有趣指令

这里写目录标题 Ⅰ.Linux软件包管理器yum①.什么是软件包/什么是yum②.linux的软件生态与yum源③.关于rzsz Ⅱ.yum基本指令①.查看软件②.安装软件③.卸载软件 Ⅲ.yum下载的好玩指令①.sl②.linux_logo③.elinks Ⅰ.Linux软件包管理器yum yum 是一个 Shell 前端软件包管理器。基…

每日学术速递5.31

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models 标题:无提示扩散:从文本到图像扩散模型中提取“文本” 作者&…

京东太狠:100W数据去重,用distinct还是group by,说说理由?

背景说明: Mysql调优,是大家日常常见的调优工作。所以,Mysql调优是一个非常、非常核心的面试知识点。在40岁老架构师 尼恩的读者社群(50)中,其相关面试题是一个非常、非常高频的交流话题。 近段时间,有小伙伴面试京东…

Python模拟Postgres数据库连接

psycopg2 psycopg2是一个Python库,用于在Python应用程序中连接和操作PostgreSQL数据库。它是PostgreSQL数据库的官方驱动程序之一,具有广泛的应用和支持。 以下是一些psycopg2的特点和功能: 连接到PostgreSQL数据库:psycopg2提供…

基于Python的接口自动化-JSON模块的操作

目录 引言 一、JSON是啥? 二、JSON的有效数据类型 三、Python JSON库的使用 结语 引言 在使用Python进行接口自动化测试脚本时,一般都是脚本只写接口测试逻辑实现,而执行脚本时需要的测试用例数据都是写入excel、数据库或者指定的配置文…

YOLOv5改进系列(7)——添加SimAM注意力机制

【YOLOv5改进系列】前期回顾: YOLOv5改进系列(0)——重要性能指标与训练结果评价及分析 YOLOv5改进系列(1)——添加SE注意力机制

PIC 使能485/422_Part2.1使能485_Tx_Only

1.需求 工作中需要把目前设备的单向232转为485/422模式,实现双向通讯,目前查找相关资料。突然想到一件事,我是否能让232现有的单向上发线同时连工控机的tx,rx,然后靠协议,来定时切换PIC一侧的tx rx?PIC可能不支持这个…

统信UOS系统开发笔记(二):国产统信UOS系统搭建Qt开发环境安装Qt5.12

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/130984263 红胖子(红模仿)的博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV、OpenGL、ffmpeg、OSG、单片机、软…