第1题-选择题 - Problem Detail - CodeFun2000

Difficulty: 5

所属公司 : 华为

时间 :2026年5月22日-AI方向

会员专享

请先登录，登录后可使用今日免费解锁；开通会员，或购买该题目所属题库（华为校招机考题库），可解锁完整内容。

购买题库开通会员

T1

答案： B. 训练时总显存约 $7B\times16\text{ Byte}\approx112GB$

解析：Adam 混合精度训练通常需保存 FP32 主权重、FP16 参数、FP16 梯度及两个 FP32 动量。

T2

1、设模型参数量 $N=7B$ ，训练数据量 $T=1T$ token，采用 FP16 混合精度训练（Adam 优化器）。以下关于显存占用的估算，说法正确的是：

{{ select(1) }}

使用梯度检查点（Gradient Checkpointing）会增加显存占用
训练时需保存 FP32 主权重、FP16 参数、FP16 梯度，以及 Adam 的一阶和二阶矩（FP32），总显存约 $7B\times(4+2+2+4+4)\ \text{Byte}=7B\times16\ \text{Byte}\approx112GB$
仅模型参数占用显存 $=7B\times2\ \text{Byte}=14GB$ （FP16），训练总显存约等于14GB
训练显存仅取决于参数量，与 batch size 和序列长度无关

2、已知事件 $A$ 与 $B$ 互斥且独立，则下列一定成立的是（）

{{ select(2) }}

$P(A)=P(B)=0.5$
$P(A\cap B)=1$
$P(A\cup B)=1$
$P(A)=0$ 或 $P(B)=0$

3、训练脚本支持 gradient accumulation，你把 $\text{micro\_batch}=1\to4$ ，并把 accumulation 相应减小，global batch 保持不变。通常最可能出现的变化是（）

{{ select(3) }}

一定吞吐下降
参数量减少
显存占用上升
一定收敛更好

4、Transformer模型最初被提出来主要是用于什么任务？

{{ select(4) }}

文本生成
图像分类
语音识别
机器翻译

5、BLIP-2中Q-Former的核心设计原理是“可查询的Transformer”。关于其工作机制和训练策略，以下哪项描述最准确？

{{ select(5) }}

Q-Former包含双向自注意力（queries之间）和交叉注意力（queries与视觉特征），冻结视觉编码器，queries通过交叉注意力从冻结的视觉特征中抽取压缩信息
Q-Former是视觉编码器的替代品，输入原始像素，输出固定32个token，通过ITG损失训练文本生成能力
Q-Former的queries通过自注意力直接与文本交互，无需交叉注意力即可压缩视觉信息，训练时解冻视觉编码器以学习更好的视觉表示
Q-Former使用共享的自注意力层同时处理可学习queries和文本tokens，通过ITC/ITM/ITG三个损失训练，所有损失都更新视觉编码器参数

6、在计算机渲染3D模型时通常会使用双线性插值处理纹理映射，与最近邻插值相比，双线性插值主要可以减少？

{{ select(6) }}

数据存储
精度损失
计算时间
视觉锯齿

7、在分布式训练时，AllReduce 的浮点累加顺序不同会导致最终模型参数有微小差异。这种差异属于哪类误差？

{{ select(7) }}

舍入误差
模型结构误差
采样误差
截断误差

8、在广义相对论或高阶连续介质力学中，张量的收缩（Contraction）是一项核心运算。假设有一个 $3$ 阶张量 $T\in\mathbb{R}^{I\times J\times K}$ ，其分量表示为 $T_{ijk}$ 。若我们对该张量的第 $1$ 个指标和第 $3$ 个指标进行收缩，得到一个新的数学对象 $S$ 。关于 $S$ 的数学性质及表述，下列说法中最准确的一项是：

{{ select(8) }}

$S$ 的分量可以表示为 $S_{ik}=\sum_j T_{ijk}$ ，它是一个 $2$ 阶张量（矩阵）。
收缩操作仅对方阵形式的 $2$ 阶张量（即求迹 Trace）有定义，对于 $3$ 阶及以上张量，必须先通过张量积将其降维。
收缩操作等价于对张量在特定平面上进行“投影”操作，因此 $S$ 的阶数（Rank）保持不变，仍为 $3$ 阶。
$S$ 的分量可以表示为 $S_j=\sum_i T_{iji}$ ，它是一个 $1$ 阶张量（向量）。

9、在欺诈检测中，若漏检（把真实欺诈样本错判为非欺诈）成本远高于误报成本，模型评估时应优先关注哪个指标？

{{ select(9) }}

准确率
均方误差 MSE
召回率
特异度

10、在机器学习模型评估中，如果任务中误报正样本的代价较高，应优先关注以下哪个指标？

{{ select(10) }}

Precision
Accuracy
Recall
样本总数

11.某工厂有甲、乙两条生产线，甲生产线次品率为 $0.1$ ，乙生产线次品率为 $0.2$ ，甲生产线产量占总产量的 $70\%$ ，随机抽取一件产品为次品，则该次品来自甲生产线的概率为（）

{{ select(11) }}

$0.1$
$0.47$
$0.53$
$0.7$

12.相比于单头注意力，多头注意力（Multi-Head Attention, MHA）的核心优势在于?

{{ select(12) }}

减少推理阶段的 KV Cache 显存占用
允许模型在不同的表示子空间中并行关注来自不同位置的信息
能够显著降低模型的总体参数量
能够彻底消除序列处理中的位置依赖问题

13.线性回归模型中，通常采用哪种损失函数进行参数估计？

{{ select(13) }}

均方误差（MSE）
交叉熵损失
Hinge损失
0-1损失

14.Newton 插值多项式与 Lagrange 插值多项式的关系正确的是:

{{ select(14) }}

Lagrange 只适用于等距节点，Newton 适用于任意节点
二者相同，都是同一个插值多项式的不同表示
Newton 只适用于等距节点，Lagrange 适用于任意节点
二者一般不相同，Newton 只能近似而 Lagrange 是精确

15.在图像处理中，将一张 $224\times224$ 的 RGB 图像展平为一维向量，其维度是?

{{ select(15) }}

$448$
$150528$
$50176$
$224$

16.以下哪些因素使得线性方程组 $Ax=b$ 更容易受到扰动影响（即更病态）？

{{ multiselect(16) }}

矩阵 $A$ 的维数 $n$ 很大
矩阵 $A$ 有接近相等的特征值
矩阵 $A$ 的条件数很大
矩阵 $A$ 的行列式接近零

17.在没有真实标签的情况下（无监督），下列哪些指标可以用于评估聚类效果的好坏？（多选）

{{ multiselect(17) }}

轮廓系数（Silhouette Coefficient）
戴维森 - 堡丁指数（Davies-Bouldin Index）
准确率（Accuracy）
卡尔inski-Harabasz 指数（CH Index）

18.下列场景中，MLE更适用的有

{{ multiselect(18) }}

需快速得到点估计
参数为离散型且取值较少
无明确先验信息
样本量较大

19.以下哪些方法可以同时很好的缓解过拟合和欠拟合

{{ multiselect(19) }}

调整模型复杂度
特征选择
增加训练数据
集成学习Bagging

20.关于Weierstrass逼近定理（闭区间上的连续函数可以用多项式一致逼近到任意精度）及其数值实现，以下正确的有:

{{ multiselect(20) }}

逼近多项式的次数可以任意低
实际计算中通常使用Chebyshev展开而非Bernstein多项式
任何闭区间上的连续函数都可以用多项式一致逼近
Bernstein多项式收敛速度很快适合实际计算