R包NMF非负矩阵分解
(1)NMF是非负矩阵分解(Non-negative Matrix Factorization)的缩写。它是将一个非负数据矩阵分解为两个非负矩阵的乘积,其中一个矩阵表示特征的基矩阵,另一个矩阵表示每个样本在这些特征上的系数矩阵。这样的分解可以将原始数据表示为一组非负基向量的加权组合,从而实现数据的降维和特征提取。 ...
(1)NMF是非负矩阵分解(Non-negative Matrix Factorization)的缩写。它是将一个非负数据矩阵分解为两个非负矩阵的乘积,其中一个矩阵表示特征的基矩阵,另一个矩阵表示每个样本在这些特征上的系数矩阵。这样的分解可以将原始数据表示为一组非负基向量的加权组合,从而实现数据的降维和特征提取。 ...
https://mlr3book.mlr-org.com/ 1 2 3 4 5 6 7 8 9 10 library(mlr3verse) library(tidyverse) tsks() #预置数据任务 lrns() #机器学习算法 msrs() #性能评价指标 as.data.table() 1. Task 任务 https://mlr3book.mlr-org.com/chapters/chapter2/data_and_basic_modeling.html 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 tsk() #预置数据任务 as.data.table(tsk()) tsk("mtcars") #自定义任务 tsk_mtcars = as_task_regr(mtcars, target = "mpg", id = "cars") #target参数指定标签列,id参数(可选)设置任务名 as_task_classif() #支持对任务对象进行数据查看、修改等操作,不一一列举,详见上述链接 #有两点需要重点说明 tsk_mtcars$row_ids #不等于一般的行序号。一旦定义任务,row_ids就确定不变了,可以理解为row name。方便后续数据分割。 tsk_mtcars_another = tsk_mtcars$clone() #想要独立的复制任务时,需要使用clone() 对于分类任务基本类似。值得注意的是在二分类问题时,需要进一步指定阳性标签 ...
1 2 library(mlr3verse) library(tidyverse) 1、Task训练数据与目的 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 ## 分类任务 task_classif = as_task_classif(data, target = "col_target") #根据预测结果又可分为:twoclass二分类, multiclass多分类 ## 回归任务 task_regr = as_task_regr(data, target = "col_target") task$ncol task$nrow task$feature_names task$feature_types task$target_names task$task_type task$data() task$col_roles 2、Learner 机器学习算法 mlr3learners包提供了基本的机器学习算法(如下图) https://github.com/mlr-org/mlr3learners ...
KNN–K近邻 1、KNN的步骤 (1)计算输入数据与训练数据的距离(一般欧几里得距离); (2)从训练集中,选取距离输入数据点最近的k个数据; (3)对于分类任务【常见】,取这k个训练数据类别的众数;对于回归任务,取这k个训练数据值的平均数。 特点 (1)如上步骤,KNN没有模型训练的过程。需要预测数据时,直接与训练数据集进行计算即可。 (2)KNN算法中最重要的超参数就是K的选择,会在下面具体操作中介绍。 (3)因为需要计算距离,所以需要进行数值变量标准化,以及类别变量转化(如果有分类变量的话)。 (4)KNN在数据量小或者维度较小的情况下效果很好,但不适用于大规模的数据(计算量大)。 关于距离,欧几里得距离,归一化(中心化) ...
1、逻辑回归的算法理解 逻辑回归 = 线性回归 + Sigmoid函数 ...
1、概述 LDA与QDA可以简单理解为有监督的降维,将多个预测变量信息压缩成少数(类别数-1)新的预测变量。 每一个新的预测变量称之为判别函数,由所有原始变量的线性组合。 ...
1、朴素贝叶斯简介 Naive Bayes:预测样本属于每一类别的概率,取概率最高的类别。包含四个概念:后验概率、似然、先验概率以及全概率。如下图示例 ...
1、SVM相关 基本概念 超平面:比数据集的变量少一个维度的平面,也称为决策边界; 间隔:(对于硬间隔)训练数据中最接近决策边界的样本点与决策边界之间的距离; 支持向量:(对于硬间隔)接触间隔边界的数据样本,它们是支持超平面的位置。(对于软间隔)间隔内的样本点也属于支持向量,因为移动它们也会改变超平面的位置。 如下图所示,SVM算法将寻找一个最优的线性超平面进行分类。 ...
1、决策树基础 1.1 决策树的构成 (1)决策树由节点组成,可分为决策节点(Decision tree)与叶节点(leaf node)。 (2)从上到下的第一个节点也称为根节点(Root Node)。根节点到叶节点的最长距离称为树的深度。 ...
1、关于线性回归 1.1 公式理解 由于实际问题很少遇到单变量线性回归,所以更常见的表示为通用线性模型: $$ y = \beta_0 + \beta_1x_1 + \beta_2x_2 + …+\beta_kx_k + \epsilon $$ (1)β0表示截距,即所有预测变量取0时的值; ...