简单介绍
本文使用PyTorch进行多变量决策树的实现. 多变量决策树的结构为二叉树,实际上是多个线性模型的组合,原理可见下图:
图4.13表示的是多变量决策树的结构,图4.14表示的是对应的分类边界
代码实现
定义数据集
首先将书中的数据集转换为方便计算机操作的形式,数据集如下图所示:
首先将各离散属性值进行编号:
颜色{青绿=0, 乌黑=1, 浅白=2}, 根蒂{蜷缩=0, 稍蜷=1, 硬挺=2}, 敲声{浊响=0, 沉闷=1, 清脆=2}, 纹理{清晰=0, 稍糊=1, 模糊=2}, 脐部{凹陷=0, 稍凹=1, 平坦=2}, 触感{硬滑=0, 软粘=1}, 结果{坏瓜=0, 好瓜=1}.
属性的排列顺序为图中的从左到右, 对应的代码如下:
import torch
# create training dataset
train_dataset=[[0, 0, 0, 0, 0, 0, 1],[1, 0, 1, 0, 0, 0, 1],
[1, 0, 0, 0, 0, 0, 1],[0, 0, 1, 0, 0, 0 ,1],
[2, 0, 0, 0, 0, 0, 1],[0, 1, 0, 0, 1, 1, 1],
[1, 1, 0, 1, 1, 1, 1],[1, 1, 0, 0, 1, 0, 1],
[1, 1, 1, 1, 1, 0, 0],[0, 2, 2, 0, 2, 1, 0],
[2, 2, 2, 2, 2, 0, 0],[2, 0, 0, 2, 2, 1, 0],
[0, 1, 0, 1, 0, 0, 0],[2, 1, 1, 1, 0, 0, 0],
[1, 1, 0, 0, 1, 1, 0],[2, 0, 0, 2, 2, 0, 0],
[0, 0, 1, 1, 1, 0, 0]
]
由于离散属性值无法直接代入线性模型,因此将离散属性one-hot化,并且为了方便后续计算损失值,标记为好瓜时,对应的标签y=1y=1y=1, 标记为坏瓜时,对应的标签y=−1y=-1y