决策树生成算法递归地产生决策树,直到不能继续下去为止,这样产生的树往往对训练数据的分类很准确,但对未知的测试数据的分类却没有那么准确,即出现过拟合现象。
在决策树学习中将已生成的树进行简化的过程称为剪枝。具体地,剪枝从已生成的树上裁掉一些子树或叶节点,并将其根节点或父节点作为新的叶节点,从而简化分类树模型。
小A希望通过决策树的方法解决一个二分类任务。在该二分类的任务中,标签 1 是正分类,标签 0 是负分类。现在小A已经训练了一个未剪枝的二分类的决策树。他希望对该决策树进行剪枝,能够在验证集上达到最优的 F1 值。
给定一个二叉树为待剪枝的二分类决策树,每个节点有 3 个参数 fi、thi、labeli 。当节点非叶节点时,fi、thi 表示该节点决策应用的特征编号和阈值。在数据的第 fi 个特征小于等于 thi 时决策走左节点,大于 thi 时走右节点。决策树的预测通过该规则推理到叶节点时,叶节点的 labeli 为该条数据的预测结果。