华为AI专项机考模拟周赛
- Status
- Done
- Rule
- IOI
- Problem
- 3
- Start at
- 2025-9-5 19:00
- End at
- 2025-9-5 21:00
- Duration
- 2 hour(s)
- Host
- Partic.
- 162
You cannot submit for this problem because the contest is ended. You can click "Open in Problem Set" to view this problem in normal mode.
关键:因为特征是一维且阈值只按大小划分,所以只需在相邻不同特征值之间、以及两端考虑切分点。重复特征值的样本不可被阈值拆分,需整组一起在同侧。
做法:
决策树生成算法递归地产生决策树,直到不能继续下去为止,在这个过程中,最关键的是确定每个节点的阈值。一种传统方法是划分之后,需要使得数据集的熵减最大化。
而小明同学面对的问题是一个基座问题:只有一个特征的数据集的二分类问题。如果构建出二叉树,那么将形如:”一个根节点配两个儿子节点“的结构。
在这种问题下,小明希望通过一个更加简洁的策略来获得结果:枚举阈值,得到验证集上的最优的准确率。请问给定验证集,需要设定怎样的阈值使得准确率最大化。
请输出小A通过他提出的寻找阈值的策略,在验证集上可以达到的最优 准确率
第一行一个整数M(1<=M<=105) 表示验证集条数
随后 M 行为验证集特征和 label,每行 2 个整数,第一个数为该条数据的特征,最后一个整数为该条数据的 label∈[0,1] 。
随后一行两个整数L,R 分别代表左子树和右子数的label , L=R且L,R∈[0,1]
第一行,一个浮点数,为验证集可达到的最优准确率,四舍五入保留小数点后 3 位。
输入
5
1 0
2 0
3 1
4 0
5 0
0 1
输出
0.800
说明
设定阈值=5 , 那么所有样本进入左子树,被归类为0 , 准确率为54=0.8 , 注意保留三位小数
输入
5
1 1
2 1
3 1
4 0
5 0
1 0
输出
1.000
说明
设定阈值=3 , 那么样本1,2,3进入左子树,被归类为1 , 样本4,5,6 进入右子树,被归类为0 , 全部分类正确,准确率为1
提示
本题准确率的计算方法为:总样本个数预测正确的样本个数