会员专享

请先登录，登录后可使用今日免费解锁；开通会员，或购买该题目所属题库（华为校招机考题库），可解锁完整内容。

购买题库开通会员

题目与答案整理

T1

答案：C. 完全负线性相关
解析：
相关系数 $\rho_{xy} = -1$ 表示 $X$ 和 $Y$ 之间是完全负线性相关。也就是说，所有样本点都严格落在一条斜率为负的直线上。

不是“相互独立”，独立通常不意味着相关系数一定为 0，更不可能是 -1；
“存在线性函数关系”表述不够准确，因为 $\rho = -1$ 强调的是完全负线性关系；
“完全不相关”对应的是相关系数接近 0。

1.如果相关系数 $\rho_{xy} = -1$ ，说明 $X$ 和 $Y$ ： {{ select(1) }}

相互独立
存在线性函数关系
完全负线性相关
完全不相关

2、对任意实矩阵A，若其奇异值分解为A=UΣV^T，则A的秩rank(A)等于以下哪项? {{ select(2) }}

Σ的迹trace(Σ)
Σ的对角线上非零奇异值的个数
V的行数
U的列数

3.设事件 $A, B$ 满足 $P(A)=0.4$ ， $P(B|A)=0.5$ ， $P(B \mid \neg A) = 0.3$ ，则 $P(A∣B)$ 的值最接近以下哪个数（）

0.4
0.5
0.3
0.6

4、在混合精度训练中，常用的loss scaling主要是为了解决哪种数值问题 {{ select(4) }}

梯度爆炸
梯度下溢
激活饱和
权重过大

5.在主成分分析（PCA）中，我们需要将原始数据投影到特征向量所指向的方向上。假设我们有一个已经完成中心化处理的二维数据点 $x = [3,4]^T$ 。通过计算协方差矩阵，我们得到了对应于最大特征值的第一主成分方向的单位特征向量 $w = [0.8, 0.6]^T$ 。请问，数据点 $x$ 在该主成分方向上的投影值（即降维后的一维坐标）是多少？

3.8
2.4
5.0
4.8

6、以下关于Layer Normalization（LN）说法错误的是： {{ select(6) }}

根据LN的位置不同可分Pre-LN和Post-LN
与RMSNorm相比，LN的主要区别在于去掉了减去均值的部分
LN首先计算每个样本的均值和方差，之后进行归一化，最后对归一化的值进行缩放和添加偏置
LN可在一定程度上避免梯度消失或梯度爆炸的问题，增强模型的泛化能力

7.如果损失函数曲面呈现狭长的山谷形状（即在一个方向上曲率大，另一个方向上曲率小），SGD 容易发生什么现象？

梯度爆炸
快速收敛
梯度消失
震荡，收敛缓慢

8、关于KV Cache的量化压缩，以下哪种策略是错误的或存在明显缺陷的？ {{ select(8) }}

在推理过程中对KV Cache进行在线量化，每次访问都重新计算量化参数
采用INT8或INT4存储KV Cache，配合反量化到FP16进行注意力计算
使用分组量化（per-channel或per-head）平衡精度和效率
对Key和Value分别计算逐token的缩放因子进行动态量化

9.设 $A, B$ 为互斥事件， $P(A)=0.3$ ， $P(B)=0.4$ ， $P(C|A)=0.8$ ， $P(C|B)=0.5$ ， $P(C \mid \neg A \cap \neg B) = 0.1$ ，则 $P(A|C)=$ （）

约 0.52
约 0.38
约 0.47
约 0.65

10、关于Transformer中注意力机制的优化方案，以下哪一项描述是正确的？ {{ select(10) }}

滑动窗口注意力（SWA）将每个token的注意力范围限制在固定窗口内，因此无法捕获任何超出窗口长度的长距离依赖
在DeepSeek-V3等模型中，SWA层和全注意力层交替使用，其中SWA层需要独立维护自己的KV Cache，因此总显存占用与纯全注意力模型相同
Flash Attention通过对注意力矩阵进行低秩近似，将计算复杂度从 $O(n^2)$ 降低到 $O(n)$
线性注意力在推理时可转化为RNN递推形式，生成每个新token的计算量与已生成的上下文长度无关，而标准注意力需要对全部KV Cache做计算

11.使用泰勒展开式 $\sin(x)=x-\frac{x^3}{6}$ 来近似计算 $\sin(0.1)$ ，其截断误差的主要阶数为：

$O(x^4)$
$O(x^3)$
$O(x^5)$
$O(x^6)$

12、关于Huber损失函数（Smooth L1），下列说法正确的是： {{ select(12) }}

Huber损失平衡了MSE对异常值的敏感性和MAE在零点的不可导性
Huber损失存在不可导点，需要特殊处理
Huber损失在误差较小时表现为线性（绝对值），误差较大时表现为二次（平方）
Huber损失在所有区间都是二次函数，与MSE完全相同

13.在生成式模型（如大语言模型）的解码阶段，模型会为每个候选词输出一个 logit 值，再通过 softmax 函数转换为概率分布。温度参数（Temperature）是对 logits 进行缩放的一种调节手段，用于控制生成结果的随机性与确定性。其计算公式为：

$P(x_i) = \frac{\exp(z_i/T)}{\sum_j \exp(z_j/T)}$

其中， $z_i$ 为第 $i$ 个 token 的 logit， $T$ 为温度参数。

基于以上背景，下列关于温度参数作用的说法中，正确的是？

温度 = 1 时，softmax 输出随机
温度调节的是 logits 的缩放，影响概率分布
温度越低，输出越随机
温度越高，输出越确定

14、在设计端侧后台AI任务调度策略时，以下哪一项是需要综合考虑的约束条件? {{ select(14) }}

用户当前的地理位置
设备的网络连接状态
系统当前的存储空间使用情况
设备温度/热预算

15.子空间的必要条件是？

向量个数有限
向量两两正交
所有向量长度相等
包含零向量

16、关于训练范式的选择，下列哪些判断更合理？ {{ multiselect(16) }}

只要做了强化学习，就不再需要 SFT
奖励设计不合理可能导致策略偏移或奖励黑客问题
当领域知识不足时，可以考虑继续预训练或做领域预训练
仅靠 SFT 往往难以完全替代基于环境反馈的策略优化

17.关于浮点数计算误差，下列说法正确的是？

大数加小数可能导致小数被“吞掉”
计算机无法精确表示所有的十进制小数
浮点数加法满足结合律
两个相近的数相减会导致有效位数严重丢失

18、在Transformer的训练中，以下哪些技术用于稳定训练或加速收敛? {{ multiselect(18) }}

学习率预热
梯度裁剪
残差连接
层归一化

19.在 CNN 中，卷积操作（Convolution）的特性包括？

在卷积核大小与通道数固定的情况下，卷积层参数量会随着输入特征图空间尺寸的增大而线性增长
卷积层通过局部感受野建立输入与输出之间的连接关系，从而显著减少参数规模
卷积操作本身保证网络对输入的任意平移严格不变，因此无需池化或数据增强
卷积操作中同一卷积核在不同空间位置复用，其梯度在反向传播时需要进行累加

20、某大模型推理场景要求：实时生成（延迟≤300ms）、生成质量较高（BLEU-4≥0.6）、内存占用≤8GB，原始模型FP32权重16GB，推理时输入prompt为20个token，需生成60个token，下列优化方案组合最合理的有（）

关闭Prefill阶段，仅保留Decode阶段，减少推理耗时
启用KVCache滑动窗口（窗口大小=30），控制内存占用，同时保证上下文关联性
采用INT8量化，将权重压缩至4GB，满足内存要求
采用束搜索（K=3）+TOP-P=0.8，兼顾生成质量（BLEU-4达标）和推理速度

请从“运行结果”或“历史提交”选择一条记录

选择提交后开始分析

#P4728. 第1题-选择题

第1题-选择题

题目与答案整理

T1

Status

Development

Support

About

#P4728. 第1题-选择题

第1题-选择题

题目与答案整理

T1

Status

Development

Support

About

Don't have an account?

SIGN IN