1、朴素贝叶斯简介
- Naive Bayes:预测样本属于每一类别的概率,取概率最高的类别。包含四个概念:后验概率、似然、先验概率以及全概率。如下图示例
例(1):某人的某病诊断结果为阳性,那他实际患该病的概率是多少?
可以视为1个预测变量(诊断结果),一个二分类标签(是否患病)。
- (1)如果有多个预测变量,就单独估计每个预测变量的似然,并将它们相乘。这样做的前提是预测变量间是独立的。
- (2)对于分类型预测变量可以直接计算概率;对于连续型预测变量,假设每类样本该预测变量均呈正态分布,计算概率密度,视为概率。
- (3)由于全概率难以获得,且计算不同类别的后验概率,全概率值为常数,所以可以直接计算分子的乘积,进而比较不同类别的后验概率,进行分类。
例(2):某班评三好学生,有10%名额,有三项指标。判断某同学是否有希望获奖。
可以视为3个预测变量的二分类分体
2、mlr建模
2.1 众议员投票情况示例数据
|
|
2.2 确定预测目标与训练方法
- 根据16次的表决情况,判断某议员是共和党还是民主党
|
|
- 使用朴素贝叶斯的分类学习器
|
|
2.3 模型训练、预测
|
|
2.4 交叉验证模型
|
|