#P4996. 第1题-选择题
-
Tried: 120
Accepted: 6
Difficulty: 5
所属公司 :
华为
时间 :2026年6月3日-AI方向
第1题-选择题
答案与解析
1
答案:B.掩盖访存延迟(Hide Latency)
解析:双缓冲通过计算与数据搬运重叠,隐藏访存延迟。
2
1、CUDA 中的双缓冲(Double Buffering)技术主要用于解决什么问题?
{{ select(1) }}
- 减少显存占用
- 掩盖访存延迟(Hide Latency)
- 避免死锁
- 提高计算精度
2、考虑一个深层神经网络,所有隐藏层都使用ReLU激活函数。在训练过程中,发现某些神经元的输出始终为0,且梯度也为0,这种现象被称为?
{{ select(2) }}
- 梯度消失
- 神经元死亡
- 梯度爆炸
- 过拟合
3、在某些算子融合优化的底层实现中,需要通过迭代法快速计算平方根。设目标是求 3 的近似值,将其转化为求函数 f(x)=x2−3=0 的正根。若使用牛顿迭代法,且选取初始点 x0=2,则单次迭代后的值 x1 为
{{ select(3) }}
- 1.75
- 1.8
- 1.667
- 1.5
4、在一个垃圾文本自动过滤系统中,基于朴素贝叶斯模型,系统提取了文本中的两个特征词:W1和W2。已知 P(Spam)=0.4,垃圾文本中包含W1的概率为0.5,包含W2的概率为0.6;正常文本中包含W1的概率为0.1,包含W2的概率为0.2。假设特征在类条件独立,一段同时包含W1和W2的文本是垃圾文本的概率最接近?
{{ select(4) }}
- 0.5
- 0.83
- 0.75
- 0.91
5、关于 Adam 中偏置校正(bias correction)的作用,下列说法最准确的是哪一项?
{{ select(5) }}
- 用于防止梯度爆炸,因此可以替代梯度裁剪
- 用于修正一阶矩和二阶矩在训练初期因初始化为 0 而产生的估计偏小问题
- 用于让 Adam 退化成 SGD,从而提高泛化能力
- 用于减少模型参数数量,提高推理速度
6、以下哪项不是Transformer优于传统RNN的典型特征:
{{ select(6) }}
- 推理时的单步解码时间复杂度更低
- 更高的训练并行度
- 更强的长距离依赖建模能力
- 训练层数较深的模型时更好地避免梯度消失问题
7、下列哪项不是量化的目的?
{{ select(7) }}
- 减小模型体积
- 提升推理吞吐量
- 提高训练收敛速度
- 适配移动端硬件
8、在大模型 KV Cache 压缩技术中,若利用二次多项式拟合一段 Token 的 Attention Score 趋势,其范德蒙德矩阵(Vandermonde Matrix)的条件数(Condition Number)随节点增加而迅速增大,这会导致?
{{ select(8) }}
- 拟合残差(Residual)变为 0
- 硬件加速器的吞吐量线性提升
- 自动微分失效
- 计算结果的数值稳定性变差
9、交叉熵损失函数通常与哪个激活函数配合使用
{{ select(9) }}
- Tanh
- Softmax
- Sigmoid
- ReLU
10、对于类别不平衡的分类任务,哪种损失函数可以缓解不平衡问题
{{ select(10) }}
- 交叉熵损失
- Focal Loss
- Hinge 损失
- 均方误差
11、“在智能体(Agent)的记忆机制中,短期记忆用于存储当前对话上下文,长期记忆用于存储用户偏好、历史任务记录等持久化信息。某客服 Agent 在多轮对话中无法识别用户重复提出的“网络延迟”问题,下列改进方案最合理的是( )
{{ select(11) }}
- 将用户关于“网络延迟”的关键信息结构化存入长期记忆(如记录对用户的常见问题或持续性故障),并为该类条目设计基于语义检索的触发策略,使 Agent 能在后续对话中自动联想并引用这些长期记忆
- 调整对话轮次截断策略,适当增大短期记忆窗口,并在每轮对话中附最近若干轮的摘要信息,以减少“网络延迟”相关内容被模型遗忘的概率
- 引入专门的“网络质量排障”工具,并在用户提及“网络慢”“卡顿”等表述时优先触发该工具,以便通过工具调用结果来辅助模型识别并处理网络延迟问题
- 优化提示词(Prompt),在系统提示中显式强调“关注用户反复提及的问题”,并增加对“网络延迟”等关键词的示例和说明,以提升大模型对该问题类型的敏感度
12、RNN 在处理长序列时的主要问题是
{{ select(12) }}
- 梯度消失 / 爆炸
- 计算复杂度高
- 内存占用大
- 参数过多
13、随机变量 X 的概率分布为:P(X=1)=0.2,P(X=2)=0.5,P(X=3)=0.3。它的期望 E(X) 是?
{{ select(13) }}
- 2.1
- 2.0
- 1.8
- 2.5
14、某服务台处理请求的时间服从指数分布。已知处理某个请求已经花去了10分钟还没结束,它还需要再处理至少5分钟的概率,与一个全新请求需要处理至少5分钟的概率相比?
{{ select(14) }}
- 无法比较
- 两者相等
- 前者大于后者
- 前者小于后者
15、所谓的“死亡神经元”现象,在反向传播视角看,是指?
{{ select(15) }}
- 该神经元的偏置项过大
- 该神经元的激活函数爆炸
- 该神经元的输出恒为0,且无论输入如何,梯度恒为0,权重永远不再更新
- 该神经元的权重变成了NaN
16、激活函数的选择需要考虑哪些因素
{{ multiselect(16) }}
- 训练数据的特点
- 计算资源限制
- 网络的深度
- 任务类型(分类 / 回归)
17、关于截断误差和舍入误差的区别,下列说法正确的有( )
{{ multiselect(17) }}
- 截断误差是由“近似替代”产生的,舍入误差是由“有限精度运算”产生的
- 截断误差只存在于无穷级数近似中,舍入误差只存在于小数运算中
- 截断误差是系统性误差,舍入误差是随机性误差
- 截断误差可以通过增加近似项数减小,舍入误差可以通过提高计算精度减小
18、在进行数据分析前,需要对数据质量进行评估,以确保分析结果的可靠性。数据质量评估通常需要检查哪些方面?
{{ multiselect(18) }}
- 一致性(数据是否矛盾)
- 完整性(是否有缺失值)
- 准确性(数据是否正确)
- 时效性(数据是否及时更新)
19、在无监督学习中,以下关于聚类和降维的描述正确的有:
{{ multiselect(19) }}
- DBSCAN 聚类算法不需要预先指定聚类数
- K-Means 保证找到全局最优的聚类结果
- PCA 降维后的主成分之间是相互正交的
- t-SNE 是一种非线性降维方法,适合高维数据的可视化
- K-Means 算法需要预先指定聚类数 K
20、以下关于大模型计算量与参数量关系的说法,哪些正确?
{{ multiselect(20) }}
- 参数量相同的模型,MoE(混合专家)架构每个 token 的实际计算量(activated FLOP)低于 Dense 模型,因为每个 token 只激活部分专家
- 注意力层的计算量与序列长度 L 呈 O(L2) 关系,FFN 层与 L 呈 O(L) 关系;当 L 足够大时注意力计算量可超过 FFN
- 对于 Decoder-only 模型,一次完整前向传播的 FLOP 约为 2N(N 为参数量),来自每个参数参与一次乘加运算(2 FLOP)
- 模型推理时的 FLOP 与训练前向传播相同,因此推理速度是训练速度的三倍(训练=前向+两次反向)