机器学习之朴素贝叶斯
朴素贝叶斯概述
贝叶斯分类算法是统计学的一种概率分类方法,朴素贝叶斯分类(Naive Bayes)是贝叶斯分类中最简单的一种。
分类原理:利用贝叶斯公式根据某特征的先验概率计算出其后验概率,然后选择具有最大后验概率的类作为该特征所属的类。
朴素:贝叶斯分类只做最原始、最简单的假设:所有特征之间是统计独立的。
相关概念
条件概率
条件概率(Condittional probability),就是指在事件B发生的情况下,事件A发生的概率,用P(A|B)来表示。
全概率
如果事件 A1,A2,…,An 构成一个完备事件且都有正概率,那么对于任意一个事件B则有:
根据条件概率和全概率公式,可以得到贝叶斯公式如下:
P(A)称为”先验概率”(Prior probability),即在B事件发生之前,我们对A事件概率的一个判断。
P(A|B)称为”后验概率”(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。
P(B|A)/P(B)称为”可能性函数”(Likely hood),这是一个调整因子,使得预估概率更接近真实概率。
因此,我们就是通过先验概率乘以调整因子来计算其后验概率。即:
条件概率可以理解为:后验概率 = 先验概率 * 调整因子
其中:
调整因子>1,表示事件B发生时,事件A发生的可能性变大,先验概率被增强;
调整因子=1,表示事件B无助于判断事件A的可能性;
调整因子<1,表示事件B发生时,事件A发生的可能性变小,先验概率呗削弱。
转换成分类任务的表达式:
朴素贝叶斯分类
GaussianNB,MultinomialNB和BernoulliNB。
GaussianNB
GaussianNB就是先验为高斯分布(正态分布)的朴素贝叶斯,假设每个标签的数据都服从简单的正态分布。
MultinomialNB
MultinomialNB就是先验为多项式分布的朴素贝叶斯。它假设特征是由一个简单多项式分布生成的。
多项分布可以描述各种类型样本出现次数的概率,因此多项式朴素贝叶斯非常适合用于描述出现次数或者出现次数比例的特征。
该模型常用于文本分类,特征表示的是次数,例如某个词语的出现次数。
多项式分布公式如下:
BernoulliNB
BernoulliNB就是先验为伯努利分布的朴素贝叶斯。
假设特征的先验概率为二元伯努利分布,即如下式:
使用贝叶斯进行文本分类
待续