机器学习基于R包mlr3(4)--分类--朴素贝叶斯
1、朴素贝叶斯简介 Naive Bayes:预测样本属于每一类别的概率,取概率最高的类别。包含四个概念:后验概率、似然、先验概率以及全概率。如下图示例 例...
1、朴素贝叶斯简介 Naive Bayes:预测样本属于每一类别的概率,取概率最高的类别。包含四个概念:后验概率、似然、先验概率以及全概率。如下图示例 例...
1、SVM相关 基本概念 超平面:比数据集的变量少一个维度的平面,也称为决策边界; 间隔:(对于硬间隔)训练数据中最接近决策边界的样本点与决策边界...
1、决策树基础 1.1 决策树的构成 (1)决策树由节点组成,可分为决策节点(Decision tree)与叶节点(leaf node)。 (2)从上到下的...
1、关于线性回归 1.1 公式理解 由于实际问题很少遇到单变量线性回归,所以更常见的表示为通用线性模型: $$ y = \beta_0 + \beta_1x_1 + \beta_2x_2 + …+\beta_kx_k + \epsilon $$ (1)β0表示截距,...
1、关于GAM非线性回归 (1) n阶多项式 如前所说,线性回归的假设是每个预测变量与输出变量之间为线性相关。即类似 y = ax + b。 当预测变量与输出变量之...
在建立通用线性模型时,当模型参数即斜率值绝对值过大时,容易存在过拟合的风险。可通过下面介绍的3种正则化方法将每个预测变量的斜率参数缩小为0或...
1 2 library(mlr3verse) library(tidyverse) 0、示例数据 1 2 3 4 5 6 7 8 9 10 11 12 13 data(Iowa, package = "lasso2") head(Iowa) # Year Rain0 Temp1 Rain1 Temp2 Rain2 Temp3 Rain3 Temp4 Yield # 1 1930 17.75 60.2 5.83 69.0 1.49 77.9 2.42 74.4 34.0 # 2 1931 14.76 57.5 3.83 75.0 2.72 77.2 3.30 72.6 32.9 # 3 1932 27.99 62.3 5.17 72.0...
降维是指在保留尽可能多原始数据条件下,将许多变量(成百上千)转换为少数的、不相关的变量,从而有利于后序的数据分析与可视化。而主成分分析(PC...
算法简介 t-SNE 正态分布密度函数 ,其中σ表示标准差,μ表示均值 第一步:计算高维空间中任意两样本点的欧几里得距离。 第二步:对于任一特定节点,将其余节...
1、算法简介 1.1 不同种K均值算法 k均值是常用的聚类算法之一。 (1)首先需要预先定义样本集中存在多少种聚类(假设为k),即数据集中处在K个真正意...