#P4868. 第1题-选择题
-
Tried: 62
Accepted: 1
Difficulty: 5
所属公司 :
华为
时间 :2026年4月29日-AI方向
第1题-选择题
T1
答案::D.高维数据降维性场景
解析::NMF要求数据非负,常用于高维数据的降维与特征提取(如图像、文本)。含负值不适用,因此选D。
T2
1、非负矩阵分解(NMF)的适用场景是? {{ select(1) }}
- 数据含负值的场景
- 矩阵可逆的场景
- 数据非负且需解释性的场景(如文本聚类)
- 高维数据降维场景
2、矩阵的条件数cond(A)的定义为 {{ select(2) }}
- ∥A−1∥/∥A∥
- ∣∣A∣∣/∣∣A−1∣∣
- ∣∣A∣∣+∣∣A−1∣∣
- ∣∣A∣∣⋅∣∣A−1∣∣
3、在 CNN 架构演进中,MobileNet 核心创新点在于将标准卷积分解为 {{ select(3) }}
- 空间卷积和时间卷积
- 深度卷积(Depthwise)和逐点卷积(Pointwise)
- 1×1 卷积和 3×3 卷积的并行计算
- 全连接层和池化层的组合
4、在机器学习降维中,关于线性判别分析(LDA),下列说法正确的是 {{ select(4) }}
- LDA 是无监督降维方法
- LDA 的目标是最大化类间散度与类内散度的比值
- LDA 降维后的维度可以任意指定,最多等于特征数
- LDA 适用于任何类型的数据分布
5、在对大模型进行 “指令遵循(Instruction Following)” 能力的量化测评时,以下关于评测指标与方法的描述,最符合工业界工程实践的是 {{ select(5) }}
- 在使用 LLM-as-a-judge(如使用 GPT-4 评测其他模型)时,由于评测模型存在 “长度偏见(Length Bias)”,通常需要通过交换选项顺序或限制输出长度等手段来缓解偏见。
- 为了保证客观性,应完全依赖 ROUGE-L 指标来计算模型输出与标准答案的字面重合度,字面重合度越高,指令遵循能力越强
- MMLU(大规模多任务语言理解)基准测试主要采用多轮对话形式,是目前衡量大模型 “对齐(Alignment)” 水平最直接的指标。
- 如果模型在 Pass@1 指标上表现优异,则可以直接断定该模型在处理复杂逻辑推理任务时具有极高的鲁棒性。
6、在深度学习中使用半精度(FP16)训练的主要动机是 {{ select(6) }}
- 降低内存占用与加速计算
- 增加模型的泛化能力
- 提高数值稳定性
- 减少舍入误差
7、在多任务学习中,共享主干模型的主要优势体现在哪个方面? {{ select(7) }}
- 提升任务之间的隔离性,防止相互干扰
- 确保所有任务的训练速度一致
- 减少模型的部署成本,不考虑训练效率
- 通过共享主干实现参数、计算和表征的复用
8、在 GPU 的存储层次中,哪一种存储器具有最低的访问延迟和最高的聚合带宽? {{ select(8) }}
- 系统内存
- HBM(高带宽内存)
- SRAM(共享内存 / 寄存器)
- L2 缓存
9、在逻辑回归中加入 L2 正则化的主要目的是 {{ select(9) }}
- 防止过拟合,提高泛化能力
- 加速梯度下降收敛
- 自动进行特征选择
- 处理类别不平衡问题
10、在 Megatron-LM 的张量并行(Tensor Parallelism)架构中,为了最小化跨 GPU 的通信开销,对于 Transformer 层的 MLP 模块(包含两层全连接层)的切分策略是 {{ select(10) }}
- 第一个线性层按列切分(Column-parallel),第二个线性层按行切分(Row-parallel)
- 两个线性层都按行切分
- 第一个线性层按行切分(Row-parallel),第二个线性层按列切分(Column-parallel)
- 两个线性层都按列切分
11、关于SFT(监督式指令微调)与基于偏好或奖励的强化学习阶段,下列哪项表述更准确? {{ select(11) }}
- 强化学习阶段不需要任何反馈信号
- 两个阶段目标完全相同且可互相替代
- SFT主要模仿高质量示例,强化学习阶段进一步按奖励或偏好优化行为
- SFT只用于图像模型
12、在AdamW中,“W”代表什么改进?
{{ select(12) }}
- Windowing(窗口优化)
- Warming(预热改进)
- Weight Initialization(权重初始化改进)
- Weight Decay decoupling(解耦权重衰减)
13、一个硬币掷出正面的概率是0.6,抛掷5次,恰好出现3次正面的概率是? {{ select(13) }}
- (0.6)3×(0.4)2
- (0.6)2×(0.4)3
- C52×(0.6)2×(0.4)3
- C53×(0.6)3×(0.4)2
14、在梯度消失/爆炸的诊断和模型可微优化问题中,需要使用数值微分来近似计算函数 f(x) 的导数,给定步长 h,前向差分、中心差分和Richardson外推法的误差阶数分别是? {{ select(14) }}
- 前向差分:O(h),中心差分:O(h2),Richardson外推:O(h4)
- 前向差分:O(h2),中心差分:O(h),Richardson外推:O(h)
- 三种方法的误差阶数相同
- 步长越小,数值微分结果越精确
15、关于PagedAttention与传统Attention的显存管理区别,下列说法错误的是() {{ select(15) }}
- 传统Attention需为每个序列分配连续的显存存储KV Cache,易产生碎片化
- PagedAttention将KV Cache分页存储,可利用离散的显存碎片,提升显存利用率
- PagedAttention通过页表管理KV Cache的分页,实现分页的分配与回收
- 传统Attention的KV Cache显存占用与序列长度正相关,PagedAttention可突破该关联
16、关于二分类混淆矩阵,下列说法正确的有 {{ multiselect(16) }}
- 召回率(Recall) = TP / (TP + FN)
- 真正例率 TPR = TN / (TN + FP)
- 准确率(Accuracy) = (TP + TN) / (TP + TN + FP + FN)
- 精确率(Precision) = TP / (TP + FP)
17、在高维向量空间 Rn 中,给定两个非零向量 u 和 v,如果我们对这两个向量同时施加一个正交变换矩阵 Q(满足 QTQ=I),下列哪些度量值在变换后保持不变? {{ multiselect(17) }}
- 向量之间的内积 ⟨Qu,Qv⟩
- 向量之间的欧几里得距离 ∥Qu−Qv∥2
- 向量之间的曼哈顿距离 ∥Qu−Qv∥1
- 向量之间的余弦相似度 ∥Qu∥2∥Qv∥2(Qu)T(Qv)
18、关于事件A,B,C,下面哪些说法正确? {{ multiselect(18) }}
- 若 P(A)=P(A∣B) 且 P(B)>0,则 A 和 B 独立
- 恒有 P(A∩B∣C)=P(A∣C)P(B∣C)
- 若 A 与 B 独立,则 P(A∩B)=P(A)P(B)
- 若 A 和 B 独立且 A 和 C 独立,则 A 与 B∩C 独立
19、在进行大规模深度学习模型训练时,关于统计分布的应用,下列说法正确的有: {{ multiselect(19) }}
- 当Batch size足够大时,模型梯度的分布通常会趋向于高斯分布
- 假设某层权重的联合分布服从多元正态分布,若已知该神经元权重之间相互独立,则它们的协方差矩阵必然是一个对角矩阵
- 若激活值分布为Laplace分布,此时采用线性对称量化的效果通常优于非线性量化
- 为了最小化MSE(mean square error),最优量化截断阈值通常小于观测最大值
20、关于Dead ReLU问题,以下描述正确的有? {{ multiselect(20) }}
- 如果学习率过大,可能导致权重重更新幅度过大,使得神经元永远落在ReLU的负半轴区域
- Leaky ReLU可以有效缓解Dead ReLU问题
- 当输入小于零时,ReLU的梯度恒为0,导致权重无法更新
- 一旦神经元“死亡”,它在后续的训练中永远不会被激活