多变量决策树
d个属性描述的样本就对应了d维空间中的一个数据点,对样本分类意味着在这个坐标空间中寻找不同类样本之间的分类边界。
决策树形成的分类边界有一个明显的特点:轴平行
举个栗子:
数据集如上图所示,将它作为训练集学习得到的决策树如4.10所示,决策树对应的分类边界如4.11所示。
可以看出,分类边界每一段都是与坐标轴平行的,也就是轴平行。当学习任务的真实分类边界比较复杂时,必须使用很多段划分才能得到较好的近似(如图4.12所示)。决策树会相当复杂,预测时间开销也会很大。
如果能用图中红色线段所示的斜划分边界代替原边界,决策树模型就会大大简化。
多变量决策树就是实现这样的“斜划分”甚至更复杂划分的决策树。
多变量决策树中,非叶节点是一个形如∑di=1wiai=t∑i=1dwiai=t的线性分类器。wiwi是属性aiai的权重。wiwi和t可以在该节点所含的样本集和属性集学得。
多变量决策树的学习过程中,不是为每个非叶节点寻找一个最优划分属性,而是试图建立一个合适的线性分类器。
上述西瓜数据可以学得下图所示的多变量决策树,分类边界如4.14所示,
登录 | 立即注册