会员专享

请先登录，登录后可使用今日免费解锁；开通会员，或购买该题目所属题库（华为校招机考题库），可解锁完整内容。

购买题库开通会员

答案与解析

1

答案：B.掩盖访存延迟（Hide Latency）

解析：双缓冲通过计算与数据搬运重叠，隐藏访存延迟。

2

1、CUDA 中的双缓冲（Double Buffering）技术主要用于解决什么问题？

减少显存占用
掩盖访存延迟（Hide Latency）
避免死锁
提高计算精度

2、考虑一个深层神经网络，所有隐藏层都使用ReLU激活函数。在训练过程中，发现某些神经元的输出始终为0，且梯度也为0，这种现象被称为？

梯度消失
神经元死亡
梯度爆炸
过拟合

3、在某些算子融合优化的底层实现中，需要通过迭代法快速计算平方根。设目标是求 $\sqrt{3}$ 的近似值，将其转化为求函数 $f(x)=x^2-3=0$ 的正根。若使用牛顿迭代法，且选取初始点 $x_0=2$ ，则单次迭代后的值 $x_1$ 为

$1.75$
$1.8$
$1.667$
$1.5$

4、在一个垃圾文本自动过滤系统中，基于朴素贝叶斯模型，系统提取了文本中的两个特征词： $W1$ 和 $W2$ 。已知 $P(Spam)=0.4$ ，垃圾文本中包含 $W1$ 的概率为0.5，包含 $W2$ 的概率为0.6；正常文本中包含 $W1$ 的概率为0.1，包含 $W2$ 的概率为0.2。假设特征在类条件独立，一段同时包含 $W1$ 和 $W2$ 的文本是垃圾文本的概率最接近？

$0.5$
$0.83$
$0.75$
$0.91$

5、关于 Adam 中偏置校正（bias correction）的作用，下列说法最准确的是哪一项？

用于防止梯度爆炸，因此可以替代梯度裁剪
用于修正一阶矩和二阶矩在训练初期因初始化为 $0$ 而产生的估计偏小问题
用于让 Adam 退化成 SGD，从而提高泛化能力
用于减少模型参数数量，提高推理速度

6、以下哪项不是Transformer优于传统RNN的典型特征：

推理时的单步解码时间复杂度更低
更高的训练并行度
更强的长距离依赖建模能力
训练层数较深的模型时更好地避免梯度消失问题

7、下列哪项不是量化的目的？

减小模型体积
提升推理吞吐量
提高训练收敛速度
适配移动端硬件

8、在大模型 KV Cache 压缩技术中，若利用二次多项式拟合一段 Token 的 Attention Score 趋势，其范德蒙德矩阵（Vandermonde Matrix）的条件数（Condition Number）随节点增加而迅速增大，这会导致？

拟合残差（Residual）变为 $0$
硬件加速器的吞吐量线性提升
自动微分失效
计算结果的数值稳定性变差

9、交叉熵损失函数通常与哪个激活函数配合使用

Tanh
Softmax
Sigmoid
ReLU

10、对于类别不平衡的分类任务，哪种损失函数可以缓解不平衡问题

交叉熵损失
Focal Loss
Hinge 损失
均方误差

11、“在智能体（Agent）的记忆机制中，短期记忆用于存储当前对话上下文，长期记忆用于存储用户偏好、历史任务记录等持久化信息。某客服 Agent 在多轮对话中无法识别用户重复提出的“网络延迟”问题，下列改进方案最合理的是（）

将用户关于“网络延迟”的关键信息结构化存入长期记忆（如记录对用户的常见问题或持续性故障），并为该类条目设计基于语义检索的触发策略，使 Agent 能在后续对话中自动联想并引用这些长期记忆
调整对话轮次截断策略，适当增大短期记忆窗口，并在每轮对话中附最近若干轮的摘要信息，以减少“网络延迟”相关内容被模型遗忘的概率
引入专门的“网络质量排障”工具，并在用户提及“网络慢”“卡顿”等表述时优先触发该工具，以便通过工具调用结果来辅助模型识别并处理网络延迟问题
优化提示词（Prompt），在系统提示中显式强调“关注用户反复提及的问题”，并增加对“网络延迟”等关键词的示例和说明，以提升大模型对该问题类型的敏感度

12、RNN 在处理长序列时的主要问题是

梯度消失 / 爆炸
计算复杂度高
内存占用大
参数过多

13、随机变量 $X$ 的概率分布为： $P(X=1)=0.2, P(X=2)=0.5, P(X=3)=0.3$ 。它的期望 $E(X)$ 是？

$2.1$
$2.0$
$1.8$
$2.5$

14、某服务台处理请求的时间服从指数分布。已知处理某个请求已经花去了10分钟还没结束，它还需要再处理至少5分钟的概率，与一个全新请求需要处理至少5分钟的概率相比？

无法比较
两者相等
前者大于后者
前者小于后者

15、所谓的“死亡神经元”现象，在反向传播视角看，是指？

该神经元的偏置项过大
该神经元的激活函数爆炸
该神经元的输出恒为0，且无论输入如何，梯度恒为0，权重永远不再更新
该神经元的权重变成了NaN

16、激活函数的选择需要考虑哪些因素

训练数据的特点
计算资源限制
网络的深度
任务类型（分类 / 回归）

17、关于截断误差和舍入误差的区别，下列说法正确的有（）

截断误差是由“近似替代”产生的，舍入误差是由“有限精度运算”产生的
截断误差只存在于无穷级数近似中，舍入误差只存在于小数运算中
截断误差是系统性误差，舍入误差是随机性误差
截断误差可以通过增加近似项数减小，舍入误差可以通过提高计算精度减小

18、在进行数据分析前，需要对数据质量进行评估，以确保分析结果的可靠性。数据质量评估通常需要检查哪些方面？

一致性（数据是否矛盾）
完整性（是否有缺失值）
准确性（数据是否正确）
时效性（数据是否及时更新）

19、在无监督学习中，以下关于聚类和降维的描述正确的有：

DBSCAN 聚类算法不需要预先指定聚类数
K-Means 保证找到全局最优的聚类结果
PCA 降维后的主成分之间是相互正交的
t-SNE 是一种非线性降维方法，适合高维数据的可视化
K-Means 算法需要预先指定聚类数 $K$

20、以下关于大模型计算量与参数量关系的说法，哪些正确？

参数量相同的模型，MoE（混合专家）架构每个 token 的实际计算量（activated FLOP）低于 Dense 模型，因为每个 token 只激活部分专家
注意力层的计算量与序列长度 $L$ 呈 $O(L^2)$ 关系，FFN 层与 $L$ 呈 $O(L)$ 关系；当 $L$ 足够大时注意力计算量可超过 FFN
对于 Decoder-only 模型，一次完整前向传播的 FLOP 约为 $2N$ （ $N$ 为参数量），来自每个参数参与一次乘加运算（ $2$ FLOP）
模型推理时的 FLOP 与训练前向传播相同，因此推理速度是训练速度的三倍（训练=前向+两次反向）

请从“运行结果”或“历史提交”选择一条记录

选择提交后开始分析

#P4996. 第1题-选择题

第1题-选择题

答案与解析

1

2

Status

Development

Support

About

#P4996. 第1题-选择题

第1题-选择题

答案与解析

1

2

Status

Development

Support

About

Login