贝叶斯分类
是基于朴素贝叶斯定理分类器,其计算过程是在训练阶段的时候,先计算每个分类的先验概率P(A),和各个分类下面特征属性的条件概率P(B|A)。预测的过程 ,反推特征-分类的条件概率(A|B)。取最大概率作为分类结果。
贝叶斯定理:已知A(分类)的条件概率,B(某个特征)在A发生后的条件概率,求A在B发生后的条件概率 P(A|B)=P(B|A)*P(A)/P(B)
其实就是一个条件概率转换的过程。
条件概率公式:P(B|A)=P(AB)/P(A) —同时发生的概率/先验概率
可调参:平滑系数 —分类的先验概率 和计算个个分类下面特征属性的条件概率
概率论
随机现象
在个别实验中,其结果存在不确认性,在大量重复实验中结果又具有统计规律现象,我们称之为随机现象。
术语:
- P(A):随机事件A的先验概率或边缘概率
- P(B):随机事件A的先验概率或边缘概率,也被称作为标准化常量
- P(A|B):已知事件B发生后A的概率
- P(B|A):已知事件A发生后B的概率
条件概率公式:
P(B|A)=P(AB)/P(A) —同时发生的概率/先验概率
例子:将一枚硬币抛两次,设事件A为“至少有一次为H”,事件B为“两次为同一面”。现在来求已知事件A已经发生的条件下事件B发生的概率。
这里样本空间为S={HH,HT,TH,TT} A={HH,HT,TH} B={HH,TT} A和B同时满足样本空间={HH}
P(B|A)=1/3;
事实上,设实验的基本事件总数为n,A所包含的基本事件数量为m AB基本事件数为k
P(B|A)=k/m=k/n / m/n=P(AB)/P(A)
P(A)=3/4 ;P(AB)=1/4
因此反推公式:P(B|A)=P(AB)/P(A) —> AB同时发生的概率 / A发生的概率
空间划分:
定义:设S为实验E的样本空间,B1,B2,B3..,Bn 为E的一组事件,若任意Bn没有交集,且所以Bn并集为S,则称B1,B2,B3,..Bn 是样本空间S的一个划分。
例:样本空间S={1,2,3,4,5,6}; 事件B1={1,2,3} B2={4,5} B3={6}是S的一个划分
全概率公式:
设实验E的样本空间为S,A为E的事件,B1,B2,B3,..Bn 是S的一个划分;
反推贝叶斯公式(由条件概率公式和全概率公式反推)
P(B|A)*P(A)=P(A|B)*P(B) ===> P(A|B)=P(B|A)*P(A)/P(B)
朴素贝叶斯定理:
假设H[1],H[2]…,H[n]互斥且构成一个完全事件,已知它们的概率P(H[i]),i=1,2,…,n,现观察到某事件A与H[1],H[2]…,H[n]相伴随机出现,且已知条件概率P(A/H[i]),求P(H[i]/A)。