#P4968. 第1题-选择题
-
Tried: 28
Accepted: 3
Difficulty: 5
所属公司 :
华为
时间 :2026年5月22日-AI方向
第1题-选择题
1、
答案: B. 训练时总显存约 7B×16 Byte≈112GB
解析:Adam 混合精度训练通常需保存 FP32 主权重、FP16 参数、FP16 梯度及两个 FP32 动量。
2、
1、设模型参数量 N=7B,训练数据量 T=1T token,采用 FP16 混合精度训练(Adam 优化器)。以下关于显存占用的估算,说法正确的是:
{{ select(1) }}
- 使用梯度检查点(Gradient Checkpointing)会增加显存占用
- 训练时需保存 FP32 主权重、FP16 参数、FP16 梯度,以及 Adam 的一阶和二阶矩(FP32),总显存约 7B×(4+2+2+4+4) Byte=7B×16 Byte≈112GB
- 仅模型参数占用显存 =7B×2 Byte=14GB(FP16),训练总显存约等于14GB
- 训练显存仅取决于参数量,与 batch size 和序列长度无关
2、已知事件 A 与 B 互斥且独立,则下列一定成立的是( )
{{ select(2) }}
- P(A)=P(B)=0.5
- P(A∩B)=1
- P(A∪B)=1
- P(A)=0 或 P(B)=0
3、训练脚本支持 gradient accumulation,你把 micro_batch=1→4,并把 accumulation 相应减小,global batch 保持不变。通常最可能出现的变化是( )
{{ select(3) }}
- 一定吞吐下降
- 参数量减少
- 显存占用上升
- 一定收敛更好
4、Transformer模型最初被提出来主要是用于什么任务?
{{ select(4) }}
- 文本生成
- 图像分类
- 语音识别
- 机器翻译
5、BLIP-2中Q-Former的核心设计原理是“可查询的Transformer”。关于其工作机制和训练策略,以下哪项描述最准确?
{{ select(5) }}
- Q-Former包含双向自注意力(queries之间)和交叉注意力(queries与视觉特征),冻结视觉编码器,queries通过交叉注意力从冻结的视觉特征中抽取压缩信息
- Q-Former是视觉编码器的替代品,输入原始像素,输出固定32个token,通过ITG损失训练文本生成能力
- Q-Former的queries通过自注意力直接与文本交互,无需交叉注意力即可压缩视觉信息,训练时解冻视觉编码器以学习更好的视觉表示
- Q-Former使用共享的自注意力层同时处理可学习queries和文本tokens,通过ITC/ITM/ITG三个损失训练,所有损失都更新视觉编码器参数
6、在计算机渲染3D模型时通常会使用双线性插值处理纹理映射,与最近邻插值相比,双线性插值主要可以减少?
{{ select(6) }}
- 数据存储
- 精度损失
- 计算时间
- 视觉锯齿
7、在分布式训练时,AllReduce 的浮点累加顺序不同会导致最终模型参数有微小差异。这种差异属于哪类误差?
{{ select(7) }}
- 舍入误差
- 模型结构误差
- 采样误差
- 截断误差
8、在广义相对论或高阶连续介质力学中,张量的**收缩(Contraction)**是一项核心运算。假设有一个 3 阶张量 T∈RI×J×K,其分量表示为 Tijk。若我们对该张量的第 1 个指标和第 3 个指标进行收缩,得到一个新的数学对象 S。关于 S 的数学性质及表述,下列说法中最准确的一项是:
{{ select(8) }}
- S 的分量可以表示为 Sik=∑jTijk,它是一个 2 阶张量(矩阵)。
- 收缩操作仅对方阵形式的 2 阶张量(即求迹 Trace)有定义,对于 3 阶及以上张量,必须先通过张量积将其降维。
- 收缩操作等价于对张量在特定平面上进行“投影”操作,因此 S 的阶数(Rank)保持不变,仍为 3 阶。
- S 的分量可以表示为 Sj=∑iTiji,它是一个 1 阶张量(向量)。
9、在欺诈检测中,若漏检(把真实欺诈样本错判为非欺诈)成本远高于误报成本,模型评估时应优先关注哪个指标?
{{ select(9) }}
- 准确率
- 均方误差 MSE
- 召回率
- 特异度
10、在机器学习模型评估中,如果任务中误报正样本的代价较高,应优先关注以下哪个指标?
{{ select(10) }}
- Precision
- Accuracy
- Recall
- 样本总数
11.某工厂有甲、乙两条生产线,甲生产线次品率为0.1,乙生产线次品率为0.2,甲生产线产量占总产量的70%,随机抽取一件产品为次品,则该次品来自甲生产线的概率为()
{{ select(11) }}
- 0.1
- 0.47
- 0.53
- 0.7
12.相比于单头注意力,多头注意力(Multi-Head Attention, MHA)的核心优势在于?
{{ select(12) }}
- 减少推理阶段的 KV Cache 显存占用
- 允许模型在不同的表示子空间中并行关注来自不同位置的信息
- 能够显著降低模型的总体参数量
- 能够彻底消除序列处理中的位置依赖问题
13.线性回归模型中,通常采用哪种损失函数进行参数估计?
{{ select(13) }}
- 均方误差(MSE)
- 交叉熵损失
- Hinge损失
- 0-1损失
14.Newton 插值多项式与 Lagrange 插值多项式的关系正确的是:
{{ select(14) }}
- Lagrange 只适用于等距节点,Newton 适用于任意节点
- 二者相同,都是同一个插值多项式的不同表示
- Newton 只适用于等距节点,Lagrange 适用于任意节点
- 二者一般不相同,Newton 只能近似而 Lagrange 是精确
15.在图像处理中,将一张 224×224 的 RGB 图像展平为一维向量,其维度是?
{{ select(15) }}
- 448
- 150528
- 50176
- 224
16.以下哪些因素使得线性方程组Ax=b更容易受到扰动影响(即更病态)?
{{ multiselect(16) }}
- 矩阵A的维数n很大
- 矩阵A有接近相等的特征值
- 矩阵A的条件数很大
- 矩阵A的行列式接近零
17.在没有真实标签的情况下(无监督),下列哪些指标可以用于评估聚类效果的好坏?(多选)
{{ multiselect(17) }}
- 轮廓系数(Silhouette Coefficient)
- 戴维森 - 堡丁指数(Davies-Bouldin Index)
- 准确率(Accuracy)
- 卡尔inski-Harabasz 指数(CH Index)
18.下列场景中,MLE更适用的有
{{ multiselect(18) }}
- 需快速得到点估计
- 参数为离散型且取值较少
- 无明确先验信息
- 样本量较大
19.以下哪些方法可以同时很好的缓解过拟合和欠拟合
{{ multiselect(19) }}
- 调整模型复杂度
- 特征选择
- 增加训练数据
- 集成学习Bagging
20.关于Weierstrass逼近定理(闭区间上的连续函数可以用多项式一致逼近到任意精度)及其数值实现,以下正确的有:
{{ multiselect(20) }}
- 逼近多项式的次数可以任意低
- 实际计算中通常使用Chebyshev展开而非Bernstein多项式
- 任何闭区间上的连续函数都可以用多项式一致逼近
- Bernstein多项式收敛速度很快适合实际计算
请从“运行结果”或“历史提交”选择一条记录
选择提交后开始分析