#P4829. 第一题-选择题
-
Tried: 24
Accepted: 4
Difficulty: 5
所属公司 :
华为
时间 :2026年4月23日-留学生AI方向
第一题-选择题
T1
答案: :C.权重的存储位宽 解析::量化是把参数由 FP16 等高精度表示压缩为 INT8 等低位宽表示,主要减少的是权重存储空间与带宽占用。
T2
答案: :A.55×55×96
1、量化(Quantization)技术中,将 FP16 转为 INT8 主要压缩了:
{{ select(1) }}
- 注意力机制的头数
- 模型的层数
- 权重的存储位宽
- Token 词表的长度
2、对于输入为224×224×3的图像,使用一个卷积层,包含 96 个11×11的卷积核,步长为 4,无填充(padding = 0),那么输出特征图的大小和深度分别是? {{ select(2) }}
- 55×55×96
- 57×57×96
- 56×56×96
- 54×54×96
3、在原始 Transformer 的多头注意力机制中,多个头间的输出是如何结合的?
{{ select(3) }}
- 取最大值
- 拼接后经过线性变换
- 逐元素相加
- 取平均
4、关于 Transformer 中的多头注意力(Multi-Head Attention)的表述,哪一项是正确的?
{{ select(4) }}
- 多个头共享相同的查询、键、值权重矩阵
- 每个头独立学习不同的线性投影,最后将注意力输出拼接
- 头数越多,模型推理速度一定越快
- 每个头关注输入序列的同一局部特征
5、以下关于凸函数的说法,正确的是:
{{ select(5) }}
- 凸函数的局部最小值一定是全局最小值
- 凸函数的二阶导数可以为负
- 凸函数一定没有最小值
- 所有多项式函数都是凸函数
6、对于回归问题,假设真实值和预测值的误差分布符合正态分布,且均值为 0。此时,以下哪个指标最能反映模型的整体预测精度?
{{ select(6) }}
- 最大绝对误差(Max Error)
- 中位数绝对误差
- 极差(Range)
- 均方误差(MSE)
7、关于 Pass@k(代码生成常用)中 “k” 的含义,正确的是: {{ select(7) }}
- 把 k 道题的平均正确率作为指标
- 从 k 个模型中选最强的一个
- 生成时把 top_k 设置为 k
- 对同一题生成的 n 个候选(n>=k),随机抽取 k 个,k 个中至少有一个通过就算成功
8、以下推理代码速度较慢:
generated = input_ids
for _ in range(max_new_tokens):
out = model(input_ids=generated)
next_token = out.logits[:, -1, :].argmax(dim=-1, keepdim=True)
generated = torch.cat([generated, next_token], dim=1)
最有效的优化方向是:
{{ select(8) }}
- 每步都重新 tokenize
- 将
max_new_tokens增大 - 把
argmax改成topk - 使用
past_key_values(KV Cache)避免重复计算历史上下文
9、关于多头注意力(MHA)和分组查询注意力(GQA)的区别,下列说法正确的是? {{ select(9) }}
- GQA 只能用于解码器
- MHA 比 GQA 参数量更少
- GQA 中每个头有自己的 K 和 V,而 MHA 共享
- GQA 中多个查询头共享一组 K 和 V
10、关于旋转位置编码(RoPE, Rotary Position Embedding)的表述,正确的是?
{{ select(10) }}
-
RoPE 仅适用于编码器,不适用于自回归解码器
-
RoPE 无法处理超出预训练长度的序列
-
RoPE 通过旋转矩阵对查询和键向量进行变换,使内积蕴含相对位置信息
-
RoPE 将绝对位置信息直接加到词嵌入中
11、设计一个用于图像分类的卷积神经网络(CNN),隐藏层需兼顾计算效率和缓解梯度消失,输出层用于多分类任务,下列激活函数搭配最合理的是( )
{{ select(11) }}
-
隐藏层用 ReLU,输出层用 Softmax
-
隐藏层用 Sigmoid,输出层用 ReLU
-
隐藏层用 Tanh,输出层用 Sigmoid
-
隐藏层用 Softmax,输出层用 Tanh
12、关于模型推理中前向计算与训练前向计算的区别,下列说法错误的是
{{ select(12) }}
- 推理前向计算仅需输出最终结果,训练前向计算需保留中间特征用于反向传播
- 推理前向计算可复用 KVCache,训练前向计算无需缓存 K/V 向量
- 推理前向计算与训练前向计算的计算逻辑完全一致,仅输入数据不同
- 推理前向计算的批量大小通常小于训练,以平衡延迟和吞吐量
13、对于函数f(x)=1+25x21,在区间 [−1,1] 上取等距节点进行高次插值,当 n 增大时,插值多项式在区间两端会出现什么现象?
{{ select(13) }}
-
收敛到 f(x)
-
插值多项式趋于零
-
振荡加剧,误差变大
-
插值多项式趋于直线
14、、若向量组 {a1,a2,a3} 线性无关,则以下说法正确的是?
{{ select(14) }}
- 不存在不全为零的系数使线性组合为零
- 可由更少向量生成同一空间
- 任意两个向量线性相关
- 向量个数大于维度
15、在线性分类模型中,预测函数常写为y=wTx+b设w=(1,2),x=(3,4),b=1计算模型输出y
{{ select(15) }}
-
10
-
12
-
11
-
13
16、影响 GPU 内核占用率的因素包括以下哪些选项? {{ multiselect(16) }}
- 线程块使用的共享内存大小
- 线程块的维度设置
- 每个线程使用的寄存器数量
- GPU 核心的时钟频率
17、某公司正在开发一个智能客服系统,使用多 Agent 协作架构来处理复杂的用户请求。系统采用任务分解和分发机制,主 Agent 负责将用户请求分解为子任务并分发给专门的功能 Agent(如订单 Agent、支付 Agent、售后 Agent)。在设计和优化这个系统时,以下哪些关于规划和协作的策略是正确的?
{{ multiselect(17) }}
-
设子任务数量为 n,若所有子任务相互独立且可并行,系统吞吐量可近似达到单 Agent 吞吐量的 n 倍;若存在依赖链,吞吐量会受限于关键路径的子任务串行执行时间
-
主 Agent 在任务分解时应考虑子任务之间的数据依赖关系,确保下游 Agent 能够获得上游 Agent 执行结果
-
当主 Agent 检测到某个子任务 Agent 执行失败时,可以根据任务重要性决定是重试该子任务还是终止整个任务流
-
为减少通信开销,所有子任务应该尽可能并行执行,即使存在依赖关系
18、在大语言模型推理阶段,以下哪些技术在配置正确的情况下,可以实际降低单 token 的生成延迟?
{{ multiselect(18) }}
-
对模型进行 INT8 权重量化,并在推理时配合 GPU Tensor Core 执行
-
使用 KV Cache 以避免重复计算历史 token 的 Attention
-
在推理服务中增大 Batch Size 并启用连续批处理(Continuous Batching)
-
采用 FlashAttention / FlashAttention-2 实现 Attention 计算
19、假设某分布式训练集群中有两台处理节点的参数同步模块,它们无故障连续运行的时间 T1 和 T2(单位:百小时)相互独立,且分别服从参数为 λ1=2 和 λ2=3 的指数分布。现定义该同步子系统出现首个节点故障的时间为 Y=min(T1,T2)。以下关于随机变量 Y 的计算结论中,正确的有哪些?
{{ multiselect(19) }}
-
第一个节点先于第二个节点发生故障的概率为 2/5。
-
该子系统的平均无故障运行时间(即 Y 的数学期望)为 5 百小时。
-
该子系统能无故障运行超过 100 小时(即 Y>1)的概率为e−5
-
随机变量 Y 服从参数为 5 的指数分布。
20、、数据科学家小李正在训练一个大型语言模型,采用混合精度训练策略。他发现在某些层使用 FP16 计算时会出现数值不稳定问题。以下关于混合精度训练中数值稳定性问题的分析中,正确的有?
{{ multiselect(20) }}
- Softmax 函数在计算 exp(xi) 时,当 xi 较大的值在 FP16 中容易溢出
- 在 Softmax 计算中,可以使用 max-shift 技巧:先减去 maxjxj 再计算指数,避免溢出
- 对于 BatchNorm 层,使用 FP32 存储移动均值(running mean)和方差(running variance)可以提高数值稳定性
- LayerNorm 在混合精度训练中完全没有数值风险,不需要特殊处理