#P4517. 第1题-选择题

第1题-选择题

一、单选题

1、迁移学习(Transfer Learning)的适用场景是?

{{ select(1) }}

  • 数据量充足但任务与预训练模型任务无关
  • 数据量不足但任务与预训练模型任务相关
  • 数据量不足且任务与预训练模型任务无关
  • 数据量充足且任务与预训练模型任务高度相关

2、在推理(Inference)阶段相对于训练阶段,通常会被关闭以提高效率的操作是

{{ select(2) }}

  • Layer Normalization
  • Tokenization
  • Dropout
  • 残差连接

3、假设一个深度学习模型的权重初始化自一个均值为0,标准差为0.01的正态分布N(0,0.012)N(0,0.01^{2})。随机抽取一个权重,其值落在[0.02,0.02][-0.02,0.02]之间的概率大约是多少? 提示:利用正态分布的3σ法则 {{ select(3) }}

  • 68%
  • 95%
  • 34%
  • 99.7%

4、DPM-Solver在扩散模型中的主要优势是: {{ select(4) }}

  • 增加模型参数
  • 降低采样步数
  • 提高训练速度
  • 提高模型鲁棒性

5、Multi-Head Attention的输出如何计算 {{ select(5) }}

  • 各头结果拼接后线性投影
  • 各头注意力结果取平均
  • 通过门控机制加权合并
  • 仅保留最大相似度的头

6、Jacobi 迭代法和 Gauss-Seidel 迭代法的核心区别在于 {{ select(6) }}

  • Gauss-Seidel 需要矩阵对称
  • Gauss-Seidel 每次迭代使用最新计算的分量
  • Jacobi 收敛更快
  • Jacobi 只能用于对角占优矩阵

7、在K-Means聚类中,若目标函数 $J = \sum_{k=1}^K \sum_{x \in C_k} \| x - \mu_k \|^2$ 的值不再变化,以下哪种情况必然成立? {{ select(7) }}

  • 所有样本被分配到最优簇
  • 所有簇中心点已收敛
  • 簇内样本方差为零
  • 簇间距离达到最大

8、信息增益IG与熵H的关系: {{ select(8) }}

  • 两者无关
  • IG=H(X|Y)-H(X)
  • IG=H(X,Y)
  • IG=H(Y)-H(Y|X)

9、关于向量点积的性质,以下说法正确的是? {{ select(9) }}

  • aba+b|a·b| ≤ ||a|| + ||b|| 是柯西-施瓦茨不等式的表述
  • a(b+c)=ab+aca·(b + c) = a·b + a·c
  • ab=baa·b = b·a 仅在正交基下成立
  • 零向量与任意向量的点积恒为1

10、在梯度下降中,学习率α\alpha与梯度ΔL\Delta L是如何更新权重ω\omega的? {{ select(10) }}

  • ω=ω/αΔL\omega=\omega/\alpha\Delta L
  • ω=ωαΔL\omega=\omega-\alpha\Delta L
  • ω=ω×αΔL\omega=\omega\times\alpha\Delta L
  • ω=ω+αΔL\omega=\omega+\alpha\Delta L

11、下列哪个算法属于监督学习? {{ select(11) }}

  • 线性回归
  • 主成分分析(PCA)
  • K-means聚类

12、在垃圾邮件分类中,贝叶斯定理可用于 {{ select(12) }}

  • 计算邮件中包含特定关键词的联合概率
  • 根据关键词出现频率更新邮件为垃圾的概率
  • 生成随机噪声以混淆分类结果
  • 直接判定邮件的发送者身份

13、在逻辑回归中, 若正则化参数 λ\lambda 过大, 可能导致以下哪种情况? {{ select(13) }}

  • 模型在训练集上表现好, 但在测试集上表现差
  • 模型在训练集上表现差, 但在测试集上表现好
  • 模型在训练集和测试集上均表现良好
  • 模型在训练集和测试集上均表现差

14、奇异值分解(SVD)是线性代数中一种重要的矩阵分解方法,对于给定矩阵A,其奇异值分解的形式为? {{ select(14) }}

  • A=QRA = QR
  • A=QΛQTA = Q\Lambda Q^T
  • A=LUA = LU
  • A=UΣVTA = U\Sigma V^T

15、以下哪项是大模型推理阶段优化的主要目标? {{ select(15) }}

  • 增加模型的参数量
  • 提高模型的训练数据多样性
  • 降低推理时的显存占用和计算延迟
  • 提高模型训练速度

二、多选题

16、极大似然估计法中,似然函数的性质包括 {{ multiselect(16) }}

  • 似然函数在最大值处生成已知观测的可能性最大
  • 似然函数是关于参数的凸函数
  • 似然函数是关于参数的连续函数
  • 似然函数在最小值处生成已知观测的可能性最大

17、关于迭代法收敛性,正确的说法是? {{ multiselect(17) }}

  • 对于对称正定矩阵,Jacobi方法收敛
  • 对于对称正定矩阵,Gauss-Seidel方法收敛
  • 若A严格对角占优,则Jacobi和Gauss-Seidel迭代均收敛
  • 若A是不可分弱严格对角占优矩阵,则SOR方法收敛
  • 对于对称正定矩阵,若松弛因子0<ω<2,则SOR方法收敛
  • A是对角线非零的实H矩阵,则SOR迭代法收敛

18、关于伯努利分布 (0-1分布) X~Bernoulli(p), 以下说法正确的是 {{ multiselect(18) }}

  • 伯努利分布是二项分布的特例 (n=1)
  • 伯努利分布可以描述多次重复实验的结果
  • P(X=1)=1-P(X=0)
  • 伯努利分布的期望E(X)=p, 方差D(X)=p(1-p)

19、LoRA 的优点包括: {{ multiselect(19) }}

  • 支持快速任务切换
  • 显著减少微调参数量
  • 保留原模型权重不变
  • 降低推理时显存占用

20、在深度学习模型训练过程中,选择合适的损失函数对模型性能至关重要。以下关于几种常见损失函数及其应用场景的描述,哪些是正确的? {{ multiselect(20) }}

  • 交叉熵损失(Cross-Entropy Loss)广泛应用于分类任务中,特别是当标签为独热编码(one-hot encoding)形式时,它能有效衡量预测概率分布与真实标签之间的差异。
  • 均方误差(Mean Squared Error, MSE)通常用于回归问题,但在某些情况下也可以用于分类任务,尤其是当目标是预测属于某个连续值范围的概率而不是具体的类别时。
  • Hinge Loss主要用于支持向量机(SVM)中,在神经网络中的应用较少,但它同样适用于多分类问题,并且可以帮助增强模型的鲁棒性,减少过拟合风险。
  • 对于涉及序列生成的任务,如机器翻译或文本摘要,序列级别的损失函数(Sequence-Level Losses)如BLEU、ROUGE等直接作为训练阶段的优化目标,以确保生成的序列质量。
  • 在二分类问题中,使用Sigmoid激活函数后接二元交叉熵损失(Binary Cross-Entropy Loss),可以有效地处理不平衡数据集的问题,无需额外调整或加权。