Gradient Boosted Decision Tree

[TOC]

与RF类似,这里我们想要做的是将AdaBoost与decision tree结合起来。但是,要做到的还不止这些,我们还将从最优化的角度来看待AdaBoost,然后得到本讲最重要的算法:GBDT.

Adaptive Boosted Decision Tree

首先,回顾一下RF方法:将bootstrapping与decision tree结合起来,然后进行投票。那么,类似的,我们也可......

继续阅读

Adaptive Boosting

[TOC]

与bagging类似,这里使用的方法也是使用多次抽样的方法,获取多个模型。但bagging是均匀抽样,而adaboost则是:已有一个模型,对数据分类,然后与原始标签对比,如果分类错误则增大该数据下一次被抽样的概率。但是实际操作起来不好办,所以这里换一个角度。

模型建立

每次抽样的时候,我们让每个数据都带上权值,比如说现在有下面的数据:

继续阅读

Blending & Bagging

[TOC]

之前,我们学习的机器学习方法都是基于单个模型,这一次讲到的是集成学习,简单地讲,就是构建出多个学习模型,然后将多个模型的结果通过某种方式集成起来,得到最终的结果。

可能集成的方式

假设已经得到$T$个学习模型$g_1,g_2,...,g_T$,那么最终的结果可以这样处理:

选择validation时表现最好的假设(这个在当年学习cross validation的时候就学过了):......

继续阅读