【发布时间】:2017-06-01 05:08:15
【问题描述】:
基本上我的问题与以下论文有关(仅阅读1.Introduction 部分、3.Prediction model structure 部分的开头和3.1 Decision tree feature transforms 部分就足够了,其他所有内容都可以跳过)
https://pdfs.semanticscholar.org/daf9/ed5dc6c6bad5367d7fd8561527da30e9b8dd.pdf
本文表明,与仅使用决策树或线性分类(不能同时使用两者)相比,二元分类在组合决策树 + 线性分类(例如逻辑回归)的情况下表现出更好的性能
简单来说,诀窍在于我们有几棵决策树(为简单起见,假设 2 棵树,第 1 棵树有 3 个叶节点,第 2 棵树有 2 个叶节点)和一些实值特征向量 x 作为所有决策树的输入
所以,
- 如果第一棵树的决策是leaf node 1,第二棵树的决策是leaf node 2,那么线性分类器将接收二进制字符串[ 1 0 0 0 1 ]
- 如果第一棵树的决策是leaf node 2,第二棵树的决策是leaf node 1,那么线性分类器将接收二进制字符串[ 0 1 0 1 0 ]
等等
如果我们只使用决策树(没有线性分类),显然我们将有class 100/class 010/class 001 用于第一棵树,class 10/class 01 用于第二棵树,但在此该方案将树的输出组合成二进制字符串,然后馈送到线性分类器。所以不清楚如何训练这些决策树?我们有的是前面提到的向量 x 和 click/no-click,这是线性分类的输出,而不是树
有什么想法吗?
【问题讨论】:
标签: machine-learning classification linear-regression logistic-regression decision-tree