1. Job Roadmap
  2. Home
  3. Problem Set
  4. codenotelist
  5. Forum
  6. course
  7. Shore Share Sessions
  8. Record
  1. Login
  2. Sign Up
  3. Language
    1. English
    2. 한국어
    3. 简体中文
    4. 正體中文
    ZhContent TextSol AI分析

思路

这个问题的核心是模拟决策树(特别是CART算法)在选择最佳分裂特征时的过程。决策树在构建时,需要在每个节点上选择一个特征进行分裂,目标是让分裂后的数据子集“纯度”尽可能高。 基尼指数就是衡量数据纯度的一种指标。一个集合的基尼指数越小,其纯度越高。

题目要求我们找到使整个数据集在分裂后基尼指数最小的那个特征。解题的整体思路如下:

  1. 遍历所有特征:我们需要对数据集的每一个特征(即输入二维list中每个子list的除了最后一个元素之外的其它元素)进行评估。

  2. 计算每个特征的条件基尼指数:对于每一个特征 A,我们需要计算如果用它来分裂数据集,最终得到的条件基尼指数 Gini(D∣A)Gini(D|A)Gini(D∣A) 是多少。

P3629.第2题-大促活动入场决策

    1000ms Tried: 15 Accepted: 8 Difficulty: 5 所属公司 : 阿里
    算法与标签>决策树

题目内容

某电商平台计划向定向用户发起一次大促活动,向受邀用户定向投放活动入口。通过构建一系列特征,使用决策树对用户进行分类,被分类为正样本的用户可以获得入场资格。使用基尼指数作为特征的优先级决策指标,给定一个数据集,其基尼指数可以表示为:

Gini(D)=1−∑k=1k(∣Ck∣∣D∣)2Gini(D)=1-\sum^k_{k=1}(\frac{∣C_k∣}{∣D∣})^2Gini(D)=1−∑k=1k​(∣D∣∣Ck​∣​)2

其中 CkC_kCk​ 代表的是属于某一类的样本个数,DDD 是整个数据集的样本数量,如果样本集合 DDD 根据特征 AAA 是否取某一值 aaa 被分割为 D1,D2D_1,D_2D1​,D2​ ,两部分,那么在特征 AAA 的条件下,集合的基尼指数可以定义为:

Gini(D∣A)=∣D1∣∣D∣Gini(D1)+∣D2∣∣D∣Gini(D2)Gini(D∣A)=\frac{∣D_1∣}{∣D∣}Gini(D_1)+\frac{∣D_2∣}{∣D∣}Gini(D_2)Gini(D∣A)=∣D∣∣D1​∣​Gini(D1​)+∣D∣∣D2​∣​Gini(D2​)

现给定一个数据集,要求给出对于使整个集合基尼指数最小的特征,请结合题目信息,输入、输出和补充完成完成作答。

输入描述

输入一个二维 listlistlist ,每个子 listlistlist 最后一个元素是 labellabellabel ,其他元素是对应特征的值。

输出描述

要求给出使整个数据集合基尼指数最小的特征对应的索引。

补充说明

(1)(1)(1)可以使用形如 numpy、pandasnumpy、pandasnumpy、pandas 的第三方代码库。

(2)(2)(2)为了保证唯一性,请严格遵循输入输出描述进行作答。

(3)(3)(3)形如 sys.stdinsys.stdinsys.stdin 等方法结合 forforfor 循环和 evalevaleval 函数即可读取并还原输入数据。

样例1

输入

[[0,0,0,0,0],[0,0,0,1,0],[0,1,0,1,1],[0,1,1,0,0],[0,0,0,0,0]]

输出

1

说明

第 222 列特征下,整个集合对应的基尼指数最小,其索引为 111 ,所以返回值为 111

登录后即可使用 AI 分析。

模式
倒计时时长
:

最长 10 小时 59 分;应用后按此时长重新开始。

提示:点击提交记录在左侧题面区域查看详情
题库
AI分析设置
留空使用官方API Key,每天有次数限制(自定义API Key仅限会员和管理员使用,不限次数)
会员和管理员可切换模型;切到 Kimi/智谱/通义/豆包时需填写对应供应商 API Key
升级会员,可将运行与提交冷却时间缩短至 1 秒起

Status

  • Judging Queue
  • Service Status

Development

  • Open Source

Support

  • Help
  • Contact Us

About

  • About
  • Privacy
  • Terms of Service
  • Copyright Complaint
  1. Language
    1. English
    2. 한국어
    3. 简体中文
    4. 正體中文
  2. Legacy mode
  3. Theme
    1. Light
    2. Dark
  1. 京ICP备2025123107号-1
  2. Worker 0, 44ms
  3. Powered by Hydro v5.0.0-beta.18 Community
CLOSE


ScanQRCodePrompt

请使用微信扫描下方二维码完成注册

Forgot password or username?