NLP之概率图模型

news/2024/5/19 6:22:44 标签: NLP, 概率图模型, 贝叶斯, 马尔科夫, 最大熵

概率图模型

概率图模型(probabilistic graphical models)在概率模型的基础上,使用了基于图的方法来表示概率分布(或者概率密度、密度函数),是一种通用化的不确定性知识表示和处理方法。在概率图模型的表达中,结点表示变量,结点之间直接相连的边表示相应变量之间的概率关系。当概率分布P被表示成概率图模型之后,可以用来回答与概率分布P有关的问题,如计算条件概率P(Y|E=e):在证据e给定的条件下,Y出现的边缘概率;推断使P(X1,X2,L,Xn|e)最大的(X1,X2,L,Xn)的分布,即推断最大后验概率时的分布argmaxXP(X|e)。例如,假设S为一个汉语句子,X是句子S切分出来的词序列,那么,汉语句子的分词过程可以看成是推断使P(X|S)最大的词序列X的分布。而在词性标注中,可以看作在给定序列X的情况下,寻找一组最可能的词性标签分布T,使得后验概率P(T|X)最大。

根据图模型(graphical models)的边是否有向,概率图模型通常被划分成有向概率图模型和无向概率图模型。我们可以粗略地将图模型表示成图6-1所示的树形结构。

动态贝叶斯网络(dynamic Bayesian networks, DBN)用于处理随时间变化的动态系统中的推断和预测问题。其中,隐马尔可夫模型(hidden Markov model, HMM)在语音识别、汉语自动分词与词性标注和统计机器翻译等若干语音语言处理任务中得到了广泛应用;卡尔曼滤波器则在信号处理领域有广泛的用途。马尔可夫网络(Markov network)又称马尔可夫随机场(Markov random field, MRF)。马尔可夫网络下的条件随机场(conditional random field, CRF)广泛应用于自然语言处理中的序列标注、特征选择、机器翻译等任务,波尔兹曼机(Boltzmann machine)近年来被用于依存句法分析和语义角色标注等。

图6-2从纵横两个维度更加清晰地诠释了自然语言处理中概率图模型的演变过程。横向:由点到线(序列结构)、到面(图结构)。以朴素贝叶斯模型为基础的隐马尔可夫模型用于处理线性序列问题,有向图模型用于解决一般图问题;以逻辑回归模型(即自然语言处理中ME模型)为基础的线性链式条件随机场用于解决“线式”序列问题,通用条件随机场用于解决一般图问题。纵向:在一定条件下生成式模型(generative model)转变为判别式模型(discriminative model),朴素贝叶斯模型演变为逻辑回归模型,隐马尔可夫模型演变为线性链式条件随机场,生成式有向图模型演变为通用条件随机场。

生成式模型(或称产生式模型)与区分式模型(或称判别式模型)的本质区别在于模型中观测序列x和状态序列y之间的决定关系,前者假设y决定x,后者假设x决定y。

生成模型以“状态(输出)序列y按照一定的规律生成观测(输入)序列x”为假设,针对联合分布p(x, y)进行建模,并且通过估计使生成概率最大的生成序列来获取y。生成式模型是所有变量的全概率模型,因此可以模拟(“生成”)所有变量的值。在这类模型中一般都有严格的独立性假设,特征是事先给定的,并且特征之间的关系直接体现在公式中。这类模型的优点是:处理单类问题时比较灵活,模型变量之间的关系比较清楚,模型可以通过增量学习获得,可用于数据不完整的情况。其弱点在于模型的推导和学习比较复杂。典型的生成式模型有:n元语法模型、HMM、朴素的贝叶斯分类器、概率上下文无关文法等。

判别式模型则符合传统的模式分类思想,认为y由x决定,直接对后验概率p(y|x)进行建模,它从x中提取特征,学习模型参数,使得条件概率符合一定形式的最优。在这类模型中特征可以任意给定,一般特征是通过函数表示的。这种模型的优点是:处理多类问题或分辨某一类与其他类之间的差异时比较灵活,模型简单,容易建立和学习。其弱点在于模型的描述能力有限,变量之间的关系不清楚,而且大多数区分式模型是有监督的学习方法,不能扩展成无监督的学习方法。代表性的区分式模型有:最大熵模型、条件随机场、支持向量机、最大熵马尔可夫模型(maximum-entropy Markov model, MEMM)、感知机(perceptron)等。

下面将简要介绍贝叶斯网络和马尔可夫网络的基本概念。由于自然语言处理中需要解决的问题大多数属于“线”的序列结构,因此我们分别以HMM(生成式)和线性链式CRF(判别式)为例来介绍自然语言处理中的概率图模型。其中,HMM以朴素贝叶斯(naΪve Bayes)为基础, CRF以逻辑回归为基础。

贝叶斯网络:NLP贝叶斯网络

隐马尔可夫模型:NLP之隐马尔可夫模型


http://www.niftyadmin.cn/n/1434964.html

相关文章

《统计自然语言处理》知识结构总结

一、自然语言处理概述 1)自然语言处理:利用计算机为工具,对书面实行或者口头形式进行各种各样的处理和加工的技术,是研究人与人交际中以及人与计算机交际中的演员问题的一门学科,是人工智能的主要内容。 2)…

钩子方法到底有什么作用_料塔运输系统到底有什么作用?

点击上面“蓝字”关注我们!料塔运输系统到底有什么作用?养猪场料塔输送系统:是由筒仓、配料系统和气动增压输送系统组成的,气动增压系统将空气过滤、增压、静音后,把压缩空气的能量传递给被输送的物料,实现了物料的长…

js正则匹配闭合标签_第五章 正则:通吃一切字符串处理

简介正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“…

目前自然语言处理的实际应用方法总结

自然语言处理的方法 分词 分词的任务定义为:输入一个句子,输出一个词语序列的过程。如将「严守一把手机关了。」输出为「严守一/把/手机/关/了。」 目前的两种主流方法包括基于离散特征的 CRF 和 BILSTM-CRF。 挑战包括交叉歧义、新词识别、领域移植…

众辰nz200变频器使用说明书_电气技术变频器详解,纯干货!由入门到精通,你也可以...

在电力作业人员的作业过程中不可避免的会接触变频器,变频器的使用简单,功能可靠,安全又节省电能,变频器可以用在电机上调速,可以用在空调上节能,可以用在风门上控制开度等。一,什么是变频器&…

NLP之贝叶斯网络

贝叶斯网络 贝叶斯网络又称为信度网络或信念网络(belief networks),是一种基于概率推理的数学模型,其理论基础是贝叶斯公式。贝叶斯网络的概念最初是由Judea Pearl于1985年提出来的,其目的是通过概率推理处理不确定性…

pytorch 训练过程acc_pytorch使用梯度下降法训练过程示例

注意:阅读本文需要理解pytorch的基本概念和操作。假设上图的每个点的横纵坐标分别代表一栋别墅的面积和总价。现在让我们找出别墅的面积和总价的规律(这样如果我们新买了一栋1000平的别墅,就能大概的算一下需要多少钱了)很明显上面…

NLP之最大熵模型

最大熵模型的基本原理是:在只掌握关于未知分布的部分信息的情况下,符合已知知识的概率分布可能有多个,但使熵值最大的概率分布最真实地反映了事件的分布情况,因为熵定义了随机变量的不确定性,当熵最大时,随…