Difficulty: 5

所属公司 : 华为

时间 :2025年12月3日-AI方向

题目与答案整理

T1

答案：B. 数据量不足但任务与预训练模型任务相关
解析： 迁移学习最适用于数据量不足但任务与预训练模型相关的情况，因为可直接复用已有知识以提升模型效果并减少训练成本。

T2

答案：C. Dropout
解析： 推理阶段会关闭 Dropout，以避免随机失活带来的不确定性并提升计算稳定性与效率。

T3

答案：B. 95%
解析： 区间 $([-0.02,0.02])$ 相当于均值的 ±2σ，根据正态分布特性约有 95% 的概率落在该范围内。

T4

答案：B. 降低采样步数
解析： DPM-Solver 的优势在于用更少的采样步数即可获得高质量生成结果，从而显著提升扩散模型的采样效率。

T5

答案：A. 各头结果拼接后线性投影
解析： Multi-Head Attention 会将各注意力头的输出拼接后再经过一次线性投影得到最终输出。

T6

答案：B. Gauss-Seidel 每次迭代使用最新计算的分量
解析： Gauss-Seidel 方法在迭代过程中会立即使用刚更新的分量，而 Jacobi 方法始终使用上一轮的旧值。

T7

答案：B. 所有簇中心点已收敛
解析： 目标函数不再变化意味着样本分配与簇中心位置都已稳定，即簇中心点已收敛。

T8

答案：D. $IG=H(X|Y)-H(X)$
解析： 信息增益表示因观察 X 而减少的对 Y 的不确定性，因此 $IG = H(Y) − H(Y|X)$ 。

T9

答案：B. $a·(b + c) = a·b + a·c$
解析： 点积满足分配律 $a·(b+c)=a·b+a·c$ ，其余选项均与点积性质不符。

T10

答案：B. $\omega=\omega-\alpha\nabla L$
解析： 梯度下降通过沿着负梯度方向更新参数，因此权重更新为 $\omega=\omega-\alpha\nabla L$ 。

T11

答案：A. 线性回归
解析： 线性回归需要带标签的数据进行训练，属于典型的监督学习。

T12

答案：B. 根据关键词出现频率更新邮件为垃圾的概率
解析： 贝叶斯定理可根据邮件中关键词出现情况计算并更新其为垃圾邮件的概率，是垃圾邮件分类的核心方法。

T13

答案：D. 模型在训练集和测试集上均表现差
解析： 过大的正则化参数 λ 会过度限制模型权重，导致欠拟合，使训练集和测试集上表现都差。

T14

答案：D. $A = U\Sigma V^T$
解析： 奇异值分解将矩阵 A 分解为 $UΣV^T$ ，其中 $U$ 、 $V$ 为正交矩阵， $Σ$ 为对角奇异值矩阵。

T15

答案：C. 降低推理时的显存占用和计算延迟
解析： 推理阶段优化主要关注减少显存占用和计算延迟，以提升大模型在实际应用中的效率。

T16

答案：A、C

A. 似然函数在最大值处生成已知观测的可能性最大
C. 似然函数是关于参数的连续函数
解析： 极大似然估计通过最大化似然函数找到使观测数据最可能的参数，且似然函数通常是关于参数的连续函数，但不一定是凸函数。

T17

答案：B、C、E

B. 对于对称正定矩阵，Gauss-Seidel方法收敛
C. 若A严格对角占优，则Jacobi和Gauss-Seidel迭代均收敛
E. A是对角线非零的实H矩阵，则SOR迭代法收敛
解析： Gauss-Seidel 对称正定矩阵收敛，严格对角占优矩阵下 Jacobi 和 Gauss-Seidel 都收敛，SOR 方法在对称正定矩阵且 $0<ω<2$ 时也收敛。

T18

答案：A、C、D

A. 伯努利分布是二项分布的特例 ( $n=1$ )
C. $P(X=1)=1-P(X=0)$
D. 伯努利分布的期望 $E(X)=p$ , 方差 $D(X)=p(1-p)$
解析： 伯努利分布是二项分布 $n=1$ 的特例，且 $P(X=1)=1-P(X=0)$ ，期望为 $E(X)=p$ ，方差为 $D(X)=p(1-p)$ 。

T19

答案：A、B、C

A. 支持快速任务切换
B. 显著减少微调参数量
C. 降低推理时显存占用
解析： LoRA 通过低秩适配矩阵进行微调，可快速切换任务、显著减少微调参数量，同时保持原模型权重不变，但推理显存占用基本不变。

T20

答案：A、B、C

A. 交叉熵损失（Cross-Entropy Loss）广泛应用于分类任务中，特别是当标签为独热编码（one-hot encoding）形式时，它能有效衡量预测概率分布与真实标签之间的差异
B. 均方误差（Mean Squared Error, MSE）通常用于回归问题，但在某些情况下也可以用于分类任务，尤其是当目标是预测属于某个连续值范围的概率而不是具体的类别时
C. Hinge Loss主要用于支持向量机（SVM）中，在神经网络中的应用较少，但它同样适用于多分类问题，并且可以帮助增强模型的鲁棒性，减少过拟合风险
解析： 交叉熵适用于分类任务，MSE 适合回归且可用于连续概率预测，Hinge Loss 主要用于 SVM 并可用于多分类，D 项 BLEU/ROUGE 通常是评价指标而非直接训练损失，E 项不平衡数据通常仍需加权或调整。

一、单选题

1、迁移学习（Transfer Learning）的适用场景是？

数据量充足但任务与预训练模型任务无关
数据量不足但任务与预训练模型任务相关
数据量不足且任务与预训练模型任务无关
数据量充足且任务与预训练模型任务高度相关

2、在推理（Inference）阶段相对于训练阶段，通常会被关闭以提高效率的操作是

Layer Normalization
Tokenization
Dropout
残差连接

3、假设一个深度学习模型的权重初始化自一个均值为0，标准差为0.01的正态分布 $N(0,0.01^{2})$ 。随机抽取一个权重，其值落在 $[-0.02,0.02]$ 之间的概率大约是多少? 提示：利用正态分布的3σ法则 {{ select(3) }}

68%
95%
34%
99.7%

4、DPM-Solver在扩散模型中的主要优势是: {{ select(4) }}

增加模型参数
降低采样步数
提高训练速度
提高模型鲁棒性

5、Multi-Head Attention的输出如何计算 {{ select(5) }}

各头结果拼接后线性投影
各头注意力结果取平均
通过门控机制加权合并
仅保留最大相似度的头

6、Jacobi 迭代法和 Gauss-Seidel 迭代法的核心区别在于 {{ select(6) }}

Gauss-Seidel 需要矩阵对称
Gauss-Seidel 每次迭代使用最新计算的分量
Jacobi 收敛更快
Jacobi 只能用于对角占优矩阵

7、在K-Means聚类中，若目标函数 $J = \sum_{k=1}^K \sum_{x \in C_k} \| x - \mu_k \|^2$ 的值不再变化，以下哪种情况必然成立？ {{ select(7) }}

所有样本被分配到最优簇
所有簇中心点已收敛
簇内样本方差为零
簇间距离达到最大

8、信息增益IG与熵H的关系： {{ select(8) }}

两者无关
IG=H(X|Y)-H(X)
IG=H(X,Y)
IG=H(Y)-H(Y|X)

9、关于向量点积的性质，以下说法正确的是？ {{ select(9) }}

$|a·b| ≤ ||a|| + ||b||$ 是柯西-施瓦茨不等式的表述
$a·(b + c) = a·b + a·c$
$a·b = b·a$ 仅在正交基下成立
零向量与任意向量的点积恒为1

10、在梯度下降中，学习率 $\alpha$ 与梯度 $\Delta L$ 是如何更新权重 $\omega$ 的？ {{ select(10) }}

$\omega=\omega/\alpha\Delta L$
$\omega=\omega-\alpha\Delta L$
$\omega=\omega\times\alpha\Delta L$
$\omega=\omega+\alpha\Delta L$

11、下列哪个算法属于监督学习？ {{ select(11) }}

线性回归
主成分分析（PCA）
K-means聚类

12、在垃圾邮件分类中，贝叶斯定理可用于 {{ select(12) }}

计算邮件中包含特定关键词的联合概率
根据关键词出现频率更新邮件为垃圾的概率
生成随机噪声以混淆分类结果
直接判定邮件的发送者身份

13、在逻辑回归中, 若正则化参数 $\lambda$ 过大, 可能导致以下哪种情况? {{ select(13) }}

模型在训练集上表现好, 但在测试集上表现差
模型在训练集上表现差, 但在测试集上表现好
模型在训练集和测试集上均表现良好
模型在训练集和测试集上均表现差

14、奇异值分解（SVD）是线性代数中一种重要的矩阵分解方法，对于给定矩阵A，其奇异值分解的形式为？ {{ select(14) }}

$A = QR$
$A = Q\Lambda Q^T$
$A = LU$
$A = U\Sigma V^T$

15、以下哪项是大模型推理阶段优化的主要目标? {{ select(15) }}

增加模型的参数量
提高模型的训练数据多样性
降低推理时的显存占用和计算延迟
提高模型训练速度

二、多选题

16、极大似然估计法中，似然函数的性质包括 {{ multiselect(16) }}

似然函数在最大值处生成已知观测的可能性最大
似然函数是关于参数的凸函数
似然函数是关于参数的连续函数
似然函数在最小值处生成已知观测的可能性最大

17、关于迭代法收敛性，正确的说法是？ {{ multiselect(17) }}

对于对称正定矩阵，Jacobi方法收敛
对于对称正定矩阵，Gauss-Seidel方法收敛
若A严格对角占优，则Jacobi和Gauss-Seidel迭代均收敛
若A是不可分弱严格对角占优矩阵，则SOR方法收敛
对于对称正定矩阵，若松弛因子0＜ω＜2，则SOR方法收敛
A是对角线非零的实H矩阵，则SOR迭代法收敛

18、关于伯努利分布 (0-1分布) X~Bernoulli(p), 以下说法正确的是 {{ multiselect(18) }}

伯努利分布是二项分布的特例 (n=1)
伯努利分布可以描述多次重复实验的结果
P(X=1)=1-P(X=0)
伯努利分布的期望E(X)=p, 方差D(X)=p(1-p)

19、LoRA 的优点包括: {{ multiselect(19) }}

支持快速任务切换
显著减少微调参数量
保留原模型权重不变
降低推理时显存占用

20、在深度学习模型训练过程中，选择合适的损失函数对模型性能至关重要。以下关于几种常见损失函数及其应用场景的描述，哪些是正确的？ {{ multiselect(20) }}

交叉熵损失（Cross-Entropy Loss）广泛应用于分类任务中，特别是当标签为独热编码（one-hot encoding）形式时，它能有效衡量预测概率分布与真实标签之间的差异。
均方误差（Mean Squared Error, MSE）通常用于回归问题，但在某些情况下也可以用于分类任务，尤其是当目标是预测属于某个连续值范围的概率而不是具体的类别时。
Hinge Loss主要用于支持向量机（SVM）中，在神经网络中的应用较少，但它同样适用于多分类问题，并且可以帮助增强模型的鲁棒性，减少过拟合风险。
对于涉及序列生成的任务，如机器翻译或文本摘要，序列级别的损失函数（Sequence-Level Losses）如BLEU、ROUGE等直接作为训练阶段的优化目标，以确保生成的序列质量。
在二分类问题中，使用Sigmoid激活函数后接二元交叉熵损失（Binary Cross-Entropy Loss），可以有效地处理不平衡数据集的问题，无需额外调整或加权。

#P4517. 第1题-选择题

第1题-选择题

题目与答案整理

T1

T2

T3

T4

T5

T6

T7

T8

T9

T10

T11

T12

T13

T14

T15

T16

T17

T18

T19

T20

一、单选题

二、多选题

Status

Development

Support

About