机器学习 | Li's Bioinfo-Blog

机器学习基于R包mlr3(9)--回归--GAM非线性回归

1、关于GAM非线性回归 (1) n阶多项式如前所说，线性回归的假设是每个预测变量与输出变量之间为线性相关。即类似 y = ax + b。当预测变量与输出变量之...

机器学习基于R包mlr3(10)--回归--岭回归+LASSO回归+弹性网络

在建立通用线性模型时，当模型参数即斜率值绝对值过大时，容易存在过拟合的风险。可通过下面介绍的3种正则化方法将每个预测变量的斜率参数缩小为0或...

机器学习基于R包mlr3(11)--回归--kNN+随机森林+XGBboost

1 2 library(mlr3verse) library(tidyverse) 0、示例数据 1 2 3 4 5 6 7 8 9 10 11 12 13 data(Iowa, package = "lasso2") head(Iowa) # Year Rain0 Temp1 Rain1 Temp2 Rain2 Temp3 Rain3 Temp4 Yield # 1 1930 17.75 60.2 5.83 69.0 1.49 77.9 2.42 74.4 34.0 # 2 1931 14.76 57.5 3.83 75.0 2.72 77.2 3.30 72.6 32.9 # 3 1932 27.99 62.3 5.17 72.0...

机器学习基于R包mlr3(12)--降维--PCA

降维是指在保留尽可能多原始数据条件下，将许多变量(成百上千)转换为少数的、不相关的变量，从而有利于后序的数据分析与可视化。而主成分分析(PC...

机器学习基于R包mlr3(13)--降维t-SNE与UMAP

算法简介 t-SNE 正态分布密度函数，其中σ表示标准差，μ表示均值第一步：计算高维空间中任意两样本点的欧几里得距离。第二步：对于任一特定节点，将其余节...

机器学习基于R包mlr3(14)--聚类-k均值

1、算法简介 1.1 不同种K均值算法 k均值是常用的聚类算法之一。（1）首先需要预先定义样本集中存在多少种聚类（假设为k），即数据集中处在K个真正意...

机器学习基于R包mlr3(15)--聚类-层次聚类

1、层次聚类简介 1.1 计算步骤层次聚类hierarchical clustering常用的是自下而上的聚合法(Agglomerative)。与之相...

机器学习基于R包mlr3(16)--聚类-EM混合分布

1、算法与工具简介 1.1 EM算法 EM， Expectation-Maximization 期望最大化算法混合分布：来自两种或两种以上概率分布(高斯分布最典型)的随机数据组成的一组混合数据所形成的...

机器学习基于sklearn(1)--sklearn基础

一、数据预处理 1. 数据拆分 sklearn.model_selection.train_test_split() 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 from sklearn.datasets import load_wine from sklearn.model_selection import train_test_split import pandas as pd wine = load_wine() # 字典 feats = wine["data"] feats_name = wine["feature_names"] feats_df = pd.DataFrame(feats, columns=feats_name) targets...

机器学习基于sklearn(2)--交叉验证与超参数优化

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 import pandas as pd from sklearn.datasets import load_wine from sklearn.preprocessing import StandardScaler from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier tree_classif = DecisionTreeClassifier() wine = load_wine() # 字典 feats = wine["data"] feats_name = wine["feature_names"] feats_df = pd.DataFrame(feats, columns=feats_name) targets = wine["target"].reshape((-1,1)) #feats_df.shape, targets.shape train_X, test_X, train_y, test_y = train_test_split(feats_df, targets, test_size=0.2, random_state=42) train_X.shape,...