第一题-选择题

会员专享

请先登录，登录后可使用今日免费解锁；开通会员，或购买该题目所属题库（华为校招机考题库），可解锁完整内容。

购买题库开通会员

T1

答案： ：C.权重的存储位宽 解析：：量化是把参数由 FP16 等高精度表示压缩为 INT8 等低位宽表示，主要减少的是权重存储空间与带宽占用。

T2

答案： ：D.54×54×96

1、量化（Quantization）技术中，将 FP16 转为 INT8 主要压缩了：

注意力机制的头数
模型的层数
权重的存储位宽
Token 词表的长度

2、对于输入为224×224×3的图像，使用一个卷积层，包含 96 个11×11的卷积核，步长为 4，无填充（padding = 0），那么输出特征图的大小和深度分别是？ {{ select(2) }}

55×55×96
57×57×96
56×56×96
54×54×96

3、在原始 Transformer 的多头注意力机制中，多个头间的输出是如何结合的？

取最大值
拼接后经过线性变换
逐元素相加
取平均

4、关于 Transformer 中的多头注意力（Multi-Head Attention）的表述，哪一项是正确的？

多个头共享相同的查询、键、值权重矩阵
每个头独立学习不同的线性投影，最后将注意力输出拼接
头数越多，模型推理速度一定越快
每个头关注输入序列的同一局部特征

5、以下关于凸函数的说法，正确的是：

凸函数的局部最小值一定是全局最小值
凸函数的二阶导数可以为负
凸函数一定没有最小值
所有多项式函数都是凸函数

6、对于回归问题，假设真实值和预测值的误差分布符合正态分布，且均值为 0。此时，以下哪个指标最能反映模型的整体预测精度？

最大绝对误差（Max Error）
中位数绝对误差
极差（Range）
均方误差（MSE）

7、关于 Pass@k（代码生成常用）中 “k” 的含义，正确的是： {{ select(7) }}

把 k 道题的平均正确率作为指标
从 k 个模型中选最强的一个
生成时把 top_k 设置为 k
对同一题生成的 n 个候选（n>=k），随机抽取 k 个，k 个中至少有一个通过就算成功

8、以下推理代码速度较慢：

generated = input_ids

for _ in range(max_new_tokens):

out = model(input_ids=generated)

next_token = out.logits[:, -1, :].argmax(dim=-1, keepdim=True)

generated = torch.cat([generated, next_token], dim=1)

最有效的优化方向是：

每步都重新 tokenize
将 max_new_tokens 增大
把 argmax 改成 topk
使用 past_key_values（KV Cache）避免重复计算历史上下文

9、关于多头注意力（MHA）和分组查询注意力（GQA）的区别，下列说法正确的是？ {{ select(9) }}

GQA 只能用于解码器
MHA 比 GQA 参数量更少
GQA 中每个头有自己的 K 和 V，而 MHA 共享
GQA 中多个查询头共享一组 K 和 V

10、关于旋转位置编码（RoPE, Rotary Position Embedding）的表述，正确的是？

RoPE 仅适用于编码器，不适用于自回归解码器
RoPE 无法处理超出预训练长度的序列
RoPE 通过旋转矩阵对查询和键向量进行变换，使内积蕴含相对位置信息
RoPE 将绝对位置信息直接加到词嵌入中

11、设计一个用于图像分类的卷积神经网络（CNN），隐藏层需兼顾计算效率和缓解梯度消失，输出层用于多分类任务，下列激活函数搭配最合理的是（）

隐藏层用 ReLU，输出层用 Softmax
隐藏层用 Sigmoid，输出层用 ReLU
隐藏层用 Tanh，输出层用 Sigmoid
隐藏层用 Softmax，输出层用 Tanh

12、关于模型推理中前向计算与训练前向计算的区别，下列说法错误的是

推理前向计算仅需输出最终结果，训练前向计算需保留中间特征用于反向传播
推理前向计算可复用 KVCache，训练前向计算无需缓存 K/V 向量
推理前向计算与训练前向计算的计算逻辑完全一致，仅输入数据不同
推理前向计算的批量大小通常小于训练，以平衡延迟和吞吐量

13、对于函数 $f(x) = \frac{1}{1+25x^2}$ ，在区间 [−1,1] 上取等距节点进行高次插值，当 n 增大时，插值多项式在区间两端会出现什么现象？

收敛到 f(x)
插值多项式趋于零
振荡加剧，误差变大
插值多项式趋于直线

14、、若向量组 $\{\vec{a}_1, \vec{a}_2, \vec{a}_3\}$ 线性无关，则以下说法正确的是？

不存在不全为零的系数使线性组合为零
可由更少向量生成同一空间
任意两个向量线性相关
向量个数大于维度

15、在线性分类模型中，预测函数常写为 $y=w^Tx+b$ 设 $w=(1,2),x=(3,4),b=1$ 计算模型输出y

10
12
11
13

16、影响 GPU 内核占用率的因素包括以下哪些选项？ {{ multiselect(16) }}

线程块使用的共享内存大小
线程块的维度设置
每个线程使用的寄存器数量
GPU 核心的时钟频率

17、某公司正在开发一个智能客服系统，使用多 Agent 协作架构来处理复杂的用户请求。系统采用任务分解和分发机制，主 Agent 负责将用户请求分解为子任务并分发给专门的功能 Agent（如订单 Agent、支付 Agent、售后 Agent）。在设计和优化这个系统时，以下哪些关于规划和协作的策略是正确的？

设子任务数量为 n，若所有子任务相互独立且可并行，系统吞吐量可近似达到单 Agent 吞吐量的 n 倍；若存在依赖链，吞吐量会受限于关键路径的子任务串行执行时间
主 Agent 在任务分解时应考虑子任务之间的数据依赖关系，确保下游 Agent 能够获得上游 Agent 执行结果
当主 Agent 检测到某个子任务 Agent 执行失败时，可以根据任务重要性决定是重试该子任务还是终止整个任务流
为减少通信开销，所有子任务应该尽可能并行执行，即使存在依赖关系

18、在大语言模型推理阶段，以下哪些技术在配置正确的情况下，可以实际降低单 token 的生成延迟？

对模型进行 INT8 权重量化，并在推理时配合 GPU Tensor Core 执行
使用 KV Cache 以避免重复计算历史 token 的 Attention
在推理服务中增大 Batch Size 并启用连续批处理（Continuous Batching）
采用 FlashAttention / FlashAttention-2 实现 Attention 计算

19、假设某分布式训练集群中有两台处理节点的参数同步模块，它们无故障连续运行的时间 T1 和 T2（单位：百小时）相互独立，且分别服从参数为 λ1=2 和 λ2=3 的指数分布。现定义该同步子系统出现首个节点故障的时间为 Y=min(T1,T2)。以下关于随机变量 Y 的计算结论中，正确的有哪些？

第一个节点先于第二个节点发生故障的概率为 2/5。
该子系统的平均无故障运行时间（即 Y 的数学期望）为 5 百小时。
该子系统能无故障运行超过 100 小时（即 Y>1）的概率为 $e^{−5}$
随机变量 Y 服从参数为 5 的指数分布。

20、、数据科学家小李正在训练一个大型语言模型，采用混合精度训练策略。他发现在某些层使用 FP16 计算时会出现数值不稳定问题。以下关于混合精度训练中数值稳定性问题的分析中，正确的有？

Softmax 函数在计算 exp(xi) 时，当 xi 较大的值在 FP16 中容易溢出
在 Softmax 计算中，可以使用 max-shift 技巧：先减去 $max_jx_j$ 再计算指数，避免溢出
对于 BatchNorm 层，使用 FP32 存储移动均值（running mean）和方差（running variance）可以提高数值稳定性
LayerNorm 在混合精度训练中完全没有数值风险，不需要特殊处理

请从“运行结果”或“历史提交”选择一条记录

选择提交后开始分析

#P4829. 第一题-选择题

T1

T2

Status

Development

Support

About