#P5119. 第1题-选择题
-
Tried: 11
Accepted: 1
Difficulty: 5
所属公司 :
华为
时间 :2026年6月17日-AI方向
算法与标签>机器学习算法
第1题-选择题
选择题答案与详细解析
T1
- 答案:D.不使用激活函数
- 解析:降雨量预测属于回归任务,输出层通常使用线性输出,即不加激活函数。
T2
- 答案:A.重计算仅适用于模型推理阶段,不适用于训练阶段
- 解析:重计算常用于训练阶段,通过减少中间特征缓存来节省显存。
1、使用多层感知机(MLP)对每月的降雨量进行预测,输出层的激活函数推荐使用什么?
{{ select(1) }}
- ReLU
- Tanh
- Sigmoid
- 不使用激活函数
2、关于重计算策略的时间换空间原理,下列说法错误的是( )
{{ select(2) }}
- 重计算仅适用于模型推理阶段,不适用于训练阶段
- 重计算缓存的关键中间特征越少,显存占用越低,但重复计算时间越长
- 重计算不会改变模型的输出结果,仅影响计算时间和显存占用
- 重计算的核心是“按需重构中间特征”,而非“全程缓存中间特征”
3、如果在隐藏层使用Tanh激活函数,初始化权重时应该注意?
{{ select(3) }}
- 权重必须初始化为0
- 权重必须初始化为很大的值
- 权重应随机初始化为较小的值(如Xavier初始化)
- 权重必须全部为负数
4、关于对数几率(Logit)ln(1−pp)=wTx+b,其范围是:
{{ select(4) }}
- (−∞,+∞)
- (0,+∞)
- [0,1]
- [−1,1]
5、一个分类器在测试集上的混淆矩阵为:TP=40,FP=10,FN=20,TN=30,该分类器的精确率(Precision)是?
{{ select(5) }}
- 80%
- 50%
- 66.7%
- 57.1%
6、已知函数 f(x) 在节点 x0,x1,x2 上的函数值分别为 f0,f1,f2,用Lagrange插值得到二次多项式 L(x)。若增加一个节点 x3,重新构造三次插值多项式 P(x),则下列说法正确的是?
{{ select(6) }}
- 构造 P(x) 时需要重新计算所有差商
- P(x) 的Lagrange基函数与 L(x) 的相同
- 在 x0,x1,x2 上,P(x) 与 L(x) 的值相同
- P(x) 与 L(x) 的差等于 f[x0,x1,x2](x−x0)(x−x1)(x−x2)
7、线性变换的核心性质是?
{{ select(7) }}
- 保持向量正交性不变
- 保持线性组合不变
- 保持向量方向不变
- 保持向量长度值不变
8、在线性分类模型中,预测函数常写为 y=wTx+b
设
w=(1,2),x=(3,4),b=1
计算模型输出 y。
{{ select(8) }}
- 13
- 10
- 12
- 11
9、在机器学习训练过程中,我们通常使用“梯度下降法(Gradient Descent)”来更新模型的参数。在这个过程中,损失函数(Loss Function)的作用是:
{{ select(9) }}
- 作为一个固定值,用来记录模型训练所花费的总时间。
- 自动增加训练数据的数量,以提高模型的准确率。
- 决定模型在测试集上的能够达到的最高分数上限。
- 作为优化的目标,通过计算其对参数的梯度来指明参数更新的方向。
10、在大模型评测领域,“数据污染(Data Contamination)”通常指以下哪种情况?
{{ select(10) }}
- 评测集的题目出现在了模型的训练语料库中,导致评分虚高
- 模型的训练数据中包含过多的错别字
- 模型输出的内容包含敏感词汇
- 数据库服务器遭到了病毒攻击
11、小A最近正在减肥,发现自己的体重减少量与每周的运动量(小时)成线性关系,他计算出回归斜率是0.3,已知他本周运动时长为2小时,体重减少了0.56kg,请计算回归截距是多少?
{{ select(11) }}
- −0.04
- −0.05
- −0.06
- −0.07
12、在排查模型未在 NPU 上运行的问题时,以下哪一项是优先检查的内容?
{{ select(12) }}
- 模型的推理速度是否低于 CPU
- 模型输入数据的格式是否符合要求
- 模型的训练精度是否达到预期
- 模型转换日志中是否存在 unsupported op、fallback 或 compile fail 信息
13、在使用 HAC(Hierarchical Agglomerative Clustering)算法时,关于其增量更新能力,以下哪种说法最准确?
{{ select(13) }}
- HAC 只能处理静态数据,无法应对新增样本
- HAC 的层次合并具有全局依赖性,因此严格增量更新通常较困难
- HAC 在新增样本时不需要进行任何距离计算
- HAC 可以高效地逐样本在线更新,且更新后的结果与全量重跑完全一致
14、在图像检索任务中,假设有两张图像的特征向量分别为 a=(1,2) 和 b=(2,1),数据库中查询图像的特征为 c=(3,3)。以下说法正确的是?
{{ select(14) }}
- 在训练时若对图像亮度进行增强(等价于特征向量加上常数 (1,1)),则余弦相似度保持不变,模型对亮度变化具有鲁棒性
- 若对特征向量进行 L2 归一化后再计算欧几里得距离,此时欧几里得距离与余弦相似度单调相关
- 使用曼哈顿距离时,a 与 b 的距离为2,适合用于稀疏特征向量的相似性度量
- 使用余弦相似度检索时,图像 a 与查询 c 的相似度高于图像 b 与 c 的相似度
15、某基座模型预训练使用 100B tokens,后续 SFT 使用 2B tokens,则 SFT token 量约占预训练的多少?
{{ select(15) }}
- 0.2%
- 2%
- 20%
- 5%
16、以下关于浮点数运算的说法,正确的有:
{{ multiselect(16) }}
- 机器精度决定了浮点运算的最小相对舍入误差
- 浮点数可以精确表示所有十进制小数
- 浮点加法不满足结合律(即 (a+b)+c 不一定等于 a+(b+c))
- 浮点乘法满足交换律(a∗b=b∗a)
17、哪种激活函数适合处理梯度消失问题?
{{ multiselect(17) }}
- Sigmoid
- Leaky ReLU
- Tanh
- ReLU
18、你抽样100条失败case,发现Top5里常有2∼3条不相关文档。可做哪些“当日可上线”改动?
{{ multiselect(18) }}
- chunk改为按段落/标题语义切分,保留适量overlap
- 仅把temperature降为0,不改检索
- 检索后加rerank,并把进入生成的片段控制到Top2∼3
- 给回答强制引用片段ID,未命中证据则拒答
19、采用权重量化(INT4)+ KV Cache量化(INT8)的混合策略在端侧部署3B参数Transformer模型,下面说法正确的是?
{{ multiselect(19) }}
- 量化后可以支持更长的生成序列
- 模型精度提升,延迟增加
- 量化后显存占用降低
- 长文本生成时量化误差可能累积
20、关于最大似然估计(MLE),下列正确的有
{{ multiselect(20) }}
- 似然函数表示观测样本的联合概率(视为参数的函数)
- MLE 一定是无偏估计
- 通常对似然函数取对数便于求导
- MLE 目标是最大化似然函数
请从“运行结果”或“历史提交”选择一条记录
选择提交后开始分析