#P4446. 第1题-选择题

    Tried: 1 Accepted: 0 Difficulty: 5 所属公司 : 华为 时间 :2025年11月6日-留学生AI方向
      算法标签>机器学习算法

第1题-选择题

一、单选题

1、在反向传播过程中,如果发现某个特定层的学习速度显看慢于其他层,以下选项中,最可能的原因是? {{ select(1) }}

  • 数据标准化不充分
  • 该层的梯度消失
  • 该层的参致数量较少
  • 学习率设置过低

2、在经典的束搜索(beam searh)中,生成的结果往往偏向于短序列,这种长度偏差的根本原因是 {{ select(2) }}

  • 序列越短,候选序列累计得分越不容易被稀释
  • Beam width较小时生成的序列偏向于短序列
  • 在解码前对所有序列长度做了统一的长度惩罚
  • Transformer类的模型本身更偏好短序列

3、训练集1000 000条样本,使用mini-batch SGD,batch_size=100,epochs=50,每个 epoch 内迭代次数为 {{ select(3) }}

  • 50000
  • 5000000
  • 1000000
  • 10000

4、幂法(Power Method) 主要用于求解 {{ select(4) }}

  • 矩阵的奇异值分解
  • 矩阵的最小特征值
  • 矩阵的主特征值(模最大的特征值)
  • 矩阵的行列式

5、假设一个大模型Agent在解决数学推理任务时采用"反思-修正"机制,其核心流程为:

1.生成初步答案 A1A_1;

2.通过独立模块生成反思信号 RR ;

3.根据修正答案 A1A2A_1→A_2

若训练时采用强化学习(RL)框架,则以下哪项最可能是奖励函数的设计目标?

{{ select(5) }}

  • 最大化 RRA1A_1的语义相似度
  • 最大化 A2A_2 与真实答案 GG 的匹配度,同时最小化 A1A2|A_1- A_2|
  • 最大化 A1A_1 与真实答案 GG 的匹配度
  • 最小化 A1A_1A2A_2 的计算开销差异

6、若attention计算中 QKTQK^T 的分数矩阵为 $\left[\begin{array}{ll}2 & 4 \\1 & 3\end{array}\right]$ ,应用causal mask和softmax后的结果为哪一个(忽略缩放)?

注:causal mask矩阵为 $\left[\begin{array}{ll}0 & -inf \\0 & 0\end{array}\right]$ ,注意力得分叠加 '0' 表示有效,叠加 '-inf' 经 softmax 后表示无效

{{ select(6) }}

  • $\left[\begin{array}{ll}1/3 & 2/3 \\1 & 0\end{array}\right]$
  • $\left[\begin{array}{cc}1 & 0 \\\frac{e^{1}}{e^{1}+e^{3}} & \frac{e^{3}}{e^{1}+e^{3}}\end{array}\right]$
  • $\left[\begin{array}{ll}1 & 0 \\0.25 & 0.75\end{array}\right]$
  • $\left[\begin{array}{cc}\frac{e^{2}}{e^{2}+e^{4}} & \frac{e^{4}}{e^{2}+e^{4}} \\1 &0\end{array}\right]$

7、在 集成学习的 Bagging 方法 中,以下哪一项最准确地描述了随机森林(Random Forest)的"特征随机选择"机制? {{ select(7) }}

  • 每棵树在分裂时仅使用单个特征进行分裂
  • 每棵树在分裂时随机选择一部分特征进行分裂
  • 每棵树在分裂时固定选择前几个特征进行分裂
  • 每棵树在分裂时随机选择所有特征进行分裂

8、在多层感知器(MLP)中,隐藏层通过一系列非线性变换(由激活函数实现)对输入数据进行变化操作,这样的主要作用是什么? {{ select(8) }}

  • 确保模型的预测结果为线性可分
  • 用于减少模型的训练时间
  • 学习输入特征之间的复杂关系,并进行非线性变换
  • 直接映射输入到输出,无需中间处理

9、设 A,P 均为 3 阶矩阵,PTP^T 为 P 的转置矩阵,且 $P^{T} A P=\left(\begin{array}{lll} 1 & 0 & 0 \\0 & 1 & 0 \\0 & 0 & 2\end{array}\right)$,若 P=(α1,α2,α3),Q=(α1+α2,α2,α3)P=(α_1,α_2,α_3),Q=(α_1+α_2,α_2,α_3),则 QTAQQ^TAQ 为 () {{ select(9) }}

  • $\left(\begin{array}{lll}1 & 1 & 0 \\1 & 2 & 0 \\0 & 0 & 2\end{array}\right)$
  • $\left(\begin{array}{lll}2 & 0 & 0 \\0 & 1 & 0 \\0 & 0 & 2\end{array}\right)$
  • $\left(\begin{array}{lll}2 & 1 & 0 \\1 & 1 & 0 \\0 & 0 & 2\end{array}\right)$
  • $\left(\begin{array}{lll}1 & 0 & 0 \\0 & 2 & 0 \\0 & 0 & 2\end{array}\right)$

10、对于可逆马氏链,下列描述正确的是 {{ select(10) }}

  • 转移矩阵所有特征值为非负实数
  • 满足细致平衡方程 πiPij=πjPji\pi_{i} P_{i j}=\pi_{j} P_{j i}
  • 必为非周期链
  • 转移矩阵 P 必对称

11、在训练一个多分类的深度学习模型时(例如图像识别),我们通常使用Softmax作为输出层的激活函数,并选择交叉(Cr0ss-Entropy)作为损失函数。从概率论和论的角度看,最小化交叉熵损失函数在本质上等价于什么? {{ select(11) }}

  • 确保模型每一层的输出都服从标准正态分布。
  • 最小化模型参数的L2范数,以达到正则化效果。
  • 最大化模型预测分布与均匀分布之间的KL散度。
  • 执行最大似然估计(MLE),即最大化在给定输入下,观测到真实标签的条件概率。

12、如果随机变量 X 和 Y 的期望满足 E(XY)=E(X)E(Y) ,则下式哪项成立

{{ select(12) }}

  • Var(X+Y)=Var(X)+Var(Y)
  • Var(X-Y)=Var(X)-Var(Y)
  • Var(XY)=Var(X)Var(Y)
  • Var(X²+Y²)=Var(X²)+Var(Y²)

13、、从一个盒子中随机抽取一个球,球有编号 1~5,其中编号 1、2、3 是红球,编号 4、5 是蓝球。设事件 为"抽到红球",事件 B 为"抽到奇数编号”,那么 P(A∩B)为? {{ select(13) }}

  • 35\frac{3}{5}
  • 45\frac{4}{5}
  • 25\frac{2}{5}
  • 15\frac{1}{5}

14、函数 f(x)=sin(x)f(x)=sin(x) 在点 x0=0x_0=0 处二阶泰勒展开式为: {{ select(14) }}

  • f(x)=x
  • f(x)=cos(x)
  • f(x)=1+x
  • f(x)=x²

15、设线性变换 T:RnRmT: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m} 在标准基下的矩阵为 A。若将 Rn\mathbb{R}^{n} 的基换成可逆矩阵 P 的列向量,将 Rm\mathbb{R}^{m} 的基换成可逆矩阵 Q 的列向量,则 T 在新基下的矩阵表示为 {{ select(15) }}

  • Q1APQ^{-1}AP
  • QAPQAP
  • QAP1QAP^{-1}
  • Q1AP1Q^{-1}AP^{-1}

二、多选题

16、在机器学习中,以下哪些方法可以用于处理类别不平衡问题? {{ multiselect(16) }}

  • 对少数类样本进行过采样(Oversampling)
  • 使用F1分数作为评价指标
  • 使用AUC-ROC曲线作为评价指标
  • 对多数类样本进行欠采样(Undersampling)

17、在构建一个基于Transformer的大语言模型时,会涉及到多种概率和统计相关的技术。以下哪些选项是正确的应用? {{ multiselect(17) }}

  • 词嵌入 (Word Embeddings) 的过程,可以看作是将一个服从离散分布的词汇表,映射到一个高维连续向量空间中。
  • Layer Normalization 通过计算一个层内所有神经元输出的均值和方差来进行归一化,目的是稳定训练过程中的数据分布。
  • Softmax函数被用在注意力机制和最后的输出层,将原始分数 (logits) 转换为一个合法的概率分布。
  • 在训练初期,模型权重通常从一个特定的概率分布 (如 Xavier 或 He 初始化,它们均基于均匀或正态分布)中进行采样,以帮助缓解梯度消失或梯度爆炸问题

18、在深度学习领域,softmax函数的作用有哪些 {{ multiselect(18) }}

  • 通常用于多分类模型中
  • 用于损失函数的计算,特别是在交叉熵损失函数中
  • 标准化模型输出,使其成为概率分布
  • 作为激活函数,一般用于分类网络最后一层

19、关于 RLHE(Reinforcement Learning from Human Feedback)及其常见替代技术,下列说法正确的是(可多选) {{ multiselect(19) }}

  • RLHF 中常用 PPO 对策略进行强化学习更新,最大化奖励模型给出的标量奖励的期望,并通过KL正则约束策略与参考模型的偏差
  • DPO(Direct Preference Optimization)跳过显式训练奖励模型,直接最小化人类偏好对比损失
  • 自回归语言模型在进行RLHF 更新后,必须重新进行教师强迫(teacher forcing)微调,才能保证采样稳定
  • RLAIF(RL from AI Feedback)用另一个冻结大模型产生偏好数据,可减少人工标注成本

20、在大型语言模型(LLM)的文本处理流程中,有关词嵌入(Embedding)和分词器(Tokenizer)的描述,下列哪些选项是正确的? {{ multiselect(20) }}

  • 在 Transformer 架构中、位置编码 (Positional Encoding) 被添加到词嵌入向量中,以使模型能够学习到输入序列中词语的位置信息,这对于理解句子结构至关重要。
  • 在预训练阶段,BERT 使用的 Wordpiece 分词器能够将输入文本切分成子词单元 (subwordtokens),以解决未登录词 (OOV,Out-Of-Vyocabulary) 问题。
  • 无论是基于 Transformer 架构的编码器还是解码器模型,在进行文本处理时,首先需要通过一个特定的分词器将输入文本转换为对应的 token ID 序列,然后再传递给模型进行后续处理。