#P4728. 第1题-选择题
-
Tried: 806
Accepted: 107
Difficulty: 5
所属公司 :
华为
时间 :2026年4月8日-AI方向
第1题-选择题
题目与答案整理
T1
答案:C. 完全负线性相关
解析:
相关系数 ρxy=−1 表示 X 和 Y 之间是完全负线性相关。也就是说,所有样本点都严格落在一条斜率为负的直线上。
- 不是“相互独立”,独立通常不意味着相关系数一定为 0,更不可能是 -1;
- “存在线性函数关系”表述不够准确,因为 ρ=−1 强调的是完全负线性关系;
- “完全不相关”对应的是相关系数接近 0。
1.如果相关系数 ρxy=−1,说明 X 和 Y: {{ select(1) }}
- 相互独立
- 存在线性函数关系
- 完全负线性相关
- 完全不相关
2、对任意实矩阵A,若其奇异值分解为A=UΣV^T,则A的秩rank(A)等于以下哪项? {{ select(2) }}
- Σ的迹trace(Σ)
- Σ的对角线上非零奇异值的个数
- V的行数
- U的列数
3.设事件 A,B 满足 P(A)=0.4,P(B∣A)=0.5,P(B∣¬A)=0.3,则 P(A∣B)的值最接近以下哪个数()
{{ select(3) }}
- 0.4
- 0.5
- 0.3
- 0.6
4、在混合精度训练中,常用的loss scaling主要是为了解决哪种数值问题 {{ select(4) }}
- 梯度爆炸
- 梯度下溢
- 激活饱和
- 权重过大
5.在主成分分析(PCA)中,我们需要将原始数据投影到特征向量所指向的方向上。假设我们有一个已经完成中心化处理的二维数据点x=[3,4]T。通过计算协方差矩阵,我们得到了对应于最大特征值的第一主成分方向的单位特征向量w=[0.8,0.6]T。请问,数据点 x 在该主成分方向上的投影值(即降维后的一维坐标)是多少?
{{ select(5) }}
- 3.8
- 2.4
- 5.0
- 4.8
6、以下关于Layer Normalization(LN)说法错误的是: {{ select(6) }}
- 根据LN的位置不同可分Pre-LN和Post-LN
- 与RMSNorm相比,LN的主要区别在于去掉了减去均值的部分
- LN首先计算每个样本的均值和方差,之后进行归一化,最后对归一化的值进行缩放和添加偏置
- LN可在一定程度上避免梯度消失或梯度爆炸的问题,增强模型的泛化能力
7.如果损失函数曲面呈现狭长的山谷形状(即在一个方向上曲率大,另一个方向上曲率小),SGD 容易发生什么现象?
{{ select(7) }}
- 梯度爆炸
- 快速收敛
- 梯度消失
- 震荡,收敛缓慢
8、关于KV Cache的量化压缩,以下哪种策略是错误的或存在明显缺陷的? {{ select(8) }}
- 在推理过程中对KV Cache进行在线量化,每次访问都重新计算量化参数
- 采用INT8或INT4存储KV Cache,配合反量化到FP16进行注意力计算
- 使用分组量化(per-channel或per-head)平衡精度和效率
- 对Key和Value分别计算逐token的缩放因子进行动态量化
9.设 A,B 为互斥事件,P(A)=0.3,P(B)=0.4,P(C∣A)=0.8,P(C∣B)=0.5,P(C∣¬A∩¬B)=0.1,则 P(A∣C)=( )
{{ select(9) }}
- 约 0.52
- 约 0.38
- 约 0.47
- 约 0.65
10、关于Transformer中注意力机制的优化方案,以下哪一项描述是正确的? {{ select(10) }}
- 滑动窗口注意力(SWA)将每个token的注意力范围限制在固定窗口内,因此无法捕获任何超出窗口长度的长距离依赖
- 在DeepSeek-V3等模型中,SWA层和全注意力层交替使用,其中SWA层需要独立维护自己的KV Cache,因此总显存占用与纯全注意力模型相同
- Flash Attention通过对注意力矩阵进行低秩近似,将计算复杂度从O(n2)降低到O(n)
- 线性注意力在推理时可转化为RNN递推形式,生成每个新token的计算量与已生成的上下文长度无关,而标准注意力需要对全部KV Cache做计算
11.使用泰勒展开式 sin(x)=x−6x3 来近似计算 sin(0.1),其截断误差的主要阶数为:
{{ select(11) }}
- O(x4)
- O(x3)
- O(x5)
- O(x6)
12、关于Huber损失函数(Smooth L1),下列说法正确的是: {{ select(12) }}
- Huber损失平衡了MSE对异常值的敏感性和MAE在零点的不可导性
- Huber损失存在不可导点,需要特殊处理
- Huber损失在误差较小时表现为线性(绝对值),误差较大时表现为二次(平方)
- Huber损失在所有区间都是二次函数,与MSE完全相同
13.在生成式模型(如大语言模型)的解码阶段,模型会为每个候选词输出一个 logit 值,再通过 softmax 函数转换为概率分布。温度参数(Temperature)是对 logits 进行缩放的一种调节手段,用于控制生成结果的随机性与确定性。其计算公式为:
P(xi)=∑jexp(zj/T)exp(zi/T)
其中,zi 为第 i 个 token 的 logit,T 为温度参数。
基于以上背景,下列关于温度参数作用的说法中,正确的是?
{{ select(13) }}
- 温度 = 1 时,softmax 输出随机
- 温度调节的是 logits 的缩放,影响概率分布
- 温度越低,输出越随机
- 温度越高,输出越确定
14、在设计端侧后台AI任务调度策略时,以下哪一项是需要综合考虑的约束条件? {{ select(14) }}
- 用户当前的地理位置
- 设备的网络连接状态
- 系统当前的存储空间使用情况
- 设备温度/热预算
15.子空间的必要条件是?
{{ select(15) }}
- 向量个数有限
- 向量两两正交
- 所有向量长度相等
- 包含零向量
16、关于训练范式的选择,下列哪些判断更合理? {{ multiselect(16) }}
- 只要做了强化学习,就不再需要 SFT
- 奖励设计不合理可能导致策略偏移或奖励黑客问题
- 当领域知识不足时,可以考虑继续预训练或做领域预训练
- 仅靠 SFT 往往难以完全替代基于环境反馈的策略优化
17.关于浮点数计算误差,下列说法正确的是?
{{ multiselect(17) }}
- 大数加小数可能导致小数被“吞掉”
- 计算机无法精确表示所有的十进制小数
- 浮点数加法满足结合律
- 两个相近的数相减会导致有效位数严重丢失
18、在Transformer的训练中,以下哪些技术用于稳定训练或加速收敛? {{ multiselect(18) }}
- 学习率预热
- 梯度裁剪
- 残差连接
- 层归一化
19.在 CNN 中,卷积操作(Convolution)的特性包括?
{{ multiselect(19) }}
- 在卷积核大小与通道数固定的情况下,卷积层参数量会随着输入特征图空间尺寸的增大而线性增长
- 卷积层通过局部感受野建立输入与输出之间的连接关系,从而显著减少参数规模
- 卷积操作本身保证网络对输入的任意平移严格不变,因此无需池化或数据增强
- 卷积操作中同一卷积核在不同空间位置复用,其梯度在反向传播时需要进行累加
20、某大模型推理场景要求:实时生成(延迟≤300ms)、生成质量较高(BLEU-4≥0.6)、内存占用≤8GB,原始模型FP32权重16GB,推理时输入prompt为20个token,需生成60个token,下列优化方案组合最合理的有( )
{{ multiselect(20) }}
- 关闭Prefill阶段,仅保留Decode阶段,减少推理耗时
- 启用KVCache滑动窗口(窗口大小=30),控制内存占用,同时保证上下文关联性
- 采用INT8量化,将权重压缩至4GB,满足内存要求
- 采用束搜索(K=3)+TOP-P=0.8,兼顾生成质量(BLEU-4达标)和推理速度