朴素贝叶斯分类器


相关概念介绍

这里设定一些数据:假设这里有10个白色棋子和10个黑色棋子,分别放入一个白盒和一个黑盒中。白盒放入4个白色棋子和6个黑色棋子,黑盒放入6个白色棋子和4个黑色棋子。

先验概率

通过经验来判断事情发送的概率,比如上面的随机从任意盒子取棋子,白色棋子的概率是1/2,黑色棋子的概率也是1/2,这就是先验概率。

后验概率

后验概率就是发生结果后,推测原因的概率。比如取出了一个白色棋子,白色棋子是从白盒中取出的概率和从黑盒中取出的概率,就是后验概率。

条件概率

事件A在另一个事件B已经发生的情况下的发生概率。比如从白盒中取出白色棋子的概率和从黑盒中取出白色棋子的概率就是条件概率。

极大似然估计

这个是一般是用于连续值的条件概率计算时使用的。下面是参照资料上一些定义。

估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式,再基于训练样本对条件概率分布的参数进行估计。

概率模型的训练过程就是参数估计过程。

朴素贝叶斯分类器

它是一种简单但极为强大的预测建模算法,之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的,这是一个强硬的假设。但有趣的是,朴素贝叶斯在很多情形下都能获得相当好的性能,但大部分情况下是够用了的。

朴素贝叶斯分类器就是用来估计后验概率的,比如知道取出白色棋子的结果下,估计是来自白盒和黑盒的概率。对应的分类预测就是,判断取出的棋子是属于白盒还是黑盒。

算法描述