1、关于GAM非线性回归
(1) n阶多项式
-
如前所说,线性回归的假设是每个预测变量与输出变量之间为线性相关。即类似
y = ax + b
。 -
当预测变量与输出变量之间为非线性相关,即呈曲线特征时,可尝试使用高阶多项式进行拟合。 $$ y = \beta_0 + \beta_1x + \beta_2x^2 + …+\beta_nx^n + \varepsilon $$
-
一般拟合高阶多项式时,除了最高阶n外,还会包括所有低阶项(1,2,3… n-1)次幂。目的是为了避免最值点必须处于x=0的位置。
-
样条曲线是分段的多项式函数:将预测变量分为若干区域,每个区域单独拟合一个多项式曲线。相邻的多项式之间的连接成为knot。
(2) GAM
-
GAM会尝试将每个预测变量与输出变量关系拟合为平滑曲线,通常是多个样条曲线的组合,其中每一个样条曲线称为基函数。
- 对于预测变量Xi,平滑函数可以表示为如下。a表示每个基函数的权重。
$$ f(x_i) = a_1b_1(x_i)+a_2b_2(x_i)+…+a_nb_n(x_n) $$
-
所以GAM广义加性模型公式表示为: $$ y = \beta_0 + f_1(x_1) + f_2(x_2) + … + f_n(x_n) + \varepsilon $$
上一节提到的通用线性模型公式为: $$ y = \beta_0 + \beta_1x_1 + \beta_2x_2 + … + \beta_nx_n + \varepsilon $$ 可以这么理解:通用线性模型是广义加性模型的特例。
2、mlr建模
训练数据与目的同上一节
2.1 臭氧水平空气质量数据
|
|
注意到其它列也有缺失值。如果要求比较严苛,可以删去所有包含NA值的观测记录。这里没有删除,因为后面会使用imputation的方式填补缺失值。
2.2 确定预测目标与训练方法
|
|
2.3 特征筛选建模
参考上一节,有两种筛选思路。如下选取第二种筛选最佳组合的方式
|
|
2.4 嵌套交叉验证
交叉验证中需要包含所有与数据相关的预处理步骤。
如上面的流程,共包括了缺失值模拟,特征选择两个预处理步骤,需要包装到交叉验证中。
|
|