第1题-选择题

Tried: 88

Accepted: 16

Difficulty: 5

所属公司 : 华为

时间 :2025年11月6日-留学生AI方向

算法标签>

机器学习算法

T1

答案：B. 该层的梯度消失

解析： 反向传播中参数更新量约为 Δw=−η∂L∂w\Delta w = -\eta \frac{\partial L}{\partial w}。若某层的梯度趋近于 0，则该层权重更新极小，表现为“学习速度很慢”，这正是梯度消失的问题，常见于深层网络或饱和激活函数、欠佳初始化等情形。 A 数据标准化不足会影响整体训练稳定性，但不太会只拖慢某一层；C 参数多少决定容量，不直接决定每步更新幅度；D 全局学习率过低会让所有层都慢，而非仅某一层。

T2

答案：A. 序列越短，候选序列累计得分越不容易被稀释

解析： 经典 beam search 使用序列的累计概率（通常为各步对数概率的和）作为打分。由于每一步的概率都小于 1，长度越长，连乘后的总概率会呈指数式下降（对数概率之和越小），因此短序列更容易得到更高分，出现对短序列的偏好。如果不做长度归一化/长度惩罚，就会产生这种长度偏差。B 只是会加剧而非根因，C 不是默认做法而是常用补救措施，D 不是模型结构导致的必然属性。

T3

答案：D. 10000

解析： 每个 epoch 需遍历一次数据集，迭代次数 = 样本数 / 批大小 = 1,000,000 / 100 = 10,000；epochs=50 不影响单个 epoch 的次数。

T4

答案：C. 矩阵的主特征值（模最大的特征值）

解析： 幂法通过重复乘以矩阵并归一化，使向量收敛到最大模特征值对应方向，从而得到主特征值；最小特征值需用逆幂法。

T5

答案：B. 最大化 A₂ 与真实答案 G 的匹配度，同时最小化 |A₁−A₂|

解析： 强化学习应直接奖励最终修正结果 A₂ 的正确性，并给轻微惩罚以避免不必要的大改动；A 只管反思信号、C 只优化初答 A₁、D 与任务目标无关。

T6

答案：B. [10ee+e3e3e+e3]\begin{bmatrix}1&0\ \dfrac{e}{e+e^{3}}& \dfrac{e^{3}}{e+e^{3}}\end{bmatrix}

解析： 掩码将分数矩阵 [2413]\begin{bmatrix}2&4\1&3\end{bmatrix} 变为 [2−∞13]\begin{bmatrix}2&-\infty\1&3\end{bmatrix}，对每行做 softmax：第一行得 [1,0][1,0]，第二行得 [ee+e3,e3e+e3][\frac{e}{e+e^3},\frac{e^3}{e+e^3}]。

T7

答案：B. 每棵树在分裂时随机选择一部分特征进行分裂

解析： 随机森林在每个节点仅从随机抽取的特征子集（mtry）中选择最优划分，以降低树间相关性并抑制过拟合；A/C/D均不符合其“特征子采样”的机制。

T8

答案：C. 学习输入特征之间的复杂关系，并进行非线性变换

解析： 隐藏层的激活函数提供非线性，使 MLP 能拟合复杂模式；A/D不成立，B不是其主要目的。

T9

答案：C. (210110002)\begin{pmatrix}2&1&0\[2pt]1&1&0\[2pt]0&0&2\end{pmatrix}

解析：

T10

答案：B. 满足细致平衡方程

解析： 可逆链的充要条件是存在平稳分布 π 使得 πiPij=πjPji \pi_i P_{ij}=\pi_j P_{ji}（细致平衡）；其特征值可为负、可周期，且 PP 不必对称（只在 π 加权下对称）。

T11

答案：D. 执行最大似然估计（MLE），即最大化在给定输入下，观测到真实标签的条件概率

解析： Softmax+交叉熵等价于最小化负对数似然（NLL），因此最小化交叉熵就是做 MLE。

T12

答案：A. Var(X+Y)=Var(X)+Var(Y)

解析： 由 E(XY)=E(X)E(Y)E(XY)=E(X)E(Y) 得 Cov(X,Y)=0Cov(X,Y)=0，于是 Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)=Var(X)+Var(Y)Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)=Var(X)+Var(Y)；其余各式一般不成立。

T13

答案：C. 25\tfrac{2}{5}

解析： 奇数编号为{1,3,5}，其中红球为{1,3}两种，共5个等可能球，故 P(A∩B)=2/5P(A\cap B)=2/5。

T14

答案：A. f(x)=xf(x)=x

解析： sin⁡x\sin x 在 0 处泰勒展开为 x−x36+⋯x-\tfrac{x^3}{6}+\cdots，二阶项系数为 0，故二阶近似为 xx。

T15

答案：A. Q−1APQ^{-1}AP

解析： 设新坐标为 x~,y~\tilde x,\tilde y，有 x=Px~, y=Ax, y=Qy~x=P\tilde x,\ y=A x,\ y=Q\tilde y，故 y~=Q−1AP x~\tilde y=Q^{-1}AP,\tilde x，新基下矩阵为 Q−1APQ^{-1}AP。

T16

答案：A、B、C、D

A. 对少数类样本进行过采样（Oversampling）
B. 使用 F1 分数作为评价指标
C. 使用 AUC-ROC 曲线作为评价指标
D. 对多数类样本进行欠采样（Undersampling）

解析： 过采样/欠采样可直接调整类别分布；F1 与 AUC-ROC 能避免准确率在不平衡数据上的偏置，更适合作为评估指标。

T17

答案：A、B、C、D

A. 词嵌入把离散词ID映射到连续高维向量空间。
B. LayerNorm对每个样本在层的特征维做均值/方差归一化，稳定训练。
C. Softmax把logits转成合法概率（注意力权重与分类概率）。
D. Xavier/He 等随机初始化采样能缓解梯度消失/爆炸。

T18

答案：A、B、C、D

解析： Softmax把logits标准化为概率分布（C），常作分类模型最后一层的激活（D、A），并与交叉熵一起用于计算损失（通常实现为softmax+CE或带logits的CE）（B）。

T19

答案：A、B、D

A. RLHF 常配 PPO，最大化奖励期望并用 KL 惩罚约束与参考模型的偏移。
B. DPO 直接用偏好对比损失训练，跳过显式奖励模型。
D. RLAIF 以另一“评审”模型生成偏好数据，降低人工标注成本。

解析： C并非必须流程；RLHF 后通常无需再做额外的 teacher forcing 才能稳定采样。

T20

答案：A、B、C

A. 位置编码与词向量相加，使模型获知词序信息。
B. BERT 的 WordPiece 将文本切成子词，缓解 OOV。
C. 文本需经分词器转为 token ID 序列后再送入模型。

解析： 三项均为 LLM 常规流程与做法，均正确。

一、单选题

1、在反向传播过程中，如果发现某个特定层的学习速度显看慢于其他层，以下选项中，最可能的原因是? {{ select(1) }}

数据标准化不充分
该层的梯度消失
该层的参致数量较少
学习率设置过低

2、在经典的束搜索(beam searh)中，生成的结果往往偏向于短序列，这种长度偏差的根本原因是 {{ select(2) }}

序列越短，候选序列累计得分越不容易被稀释
Beam width较小时生成的序列偏向于短序列
在解码前对所有序列长度做了统一的长度惩罚
Transformer类的模型本身更偏好短序列

3、训练集1000 000条样本，使用mini-batch SGD,batch_size=100，epochs=50，每个 epoch 内迭代次数为 {{ select(3) }}

50000
5000000
1000000
10000

4、幂法(Power Method) 主要用于求解 {{ select(4) }}

矩阵的奇异值分解
矩阵的最小特征值
矩阵的主特征值(模最大的特征值)
矩阵的行列式

5、假设一个大模型Agent在解决数学推理任务时采用"反思-修正"机制，其核心流程为：

1.生成初步答案 $A_1$ ;

2.通过独立模块生成反思信号 $R$ ;

3.根据修正答案 $A_1→A_2$ 。

若训练时采用强化学习(RL)框架，则以下哪项最可能是奖励函数的设计目标?

最大化 $R$ 与 $A_1$ 的语义相似度
最大化 $A_2$ 与真实答案 $G$ 的匹配度，同时最小化 $|A_1- A_2|$
最大化 $A_1$ 与真实答案 $G$ 的匹配度
最小化 $A_1$ 与 $A_2$ 的计算开销差异

6、若attention计算中 $QK^T$ 的分数矩阵为 $\left[\begin{array}{ll}2 & 4 \\1 & 3\end{array}\right]$ ，应用causal mask和softmax后的结果为哪一个(忽略缩放)?

注:causal mask矩阵为 $\left[\begin{array}{ll}0 & -inf \\0 & 0\end{array}\right]$ ，注意力得分叠加 '0' 表示有效，叠加 '-inf' 经 softmax 后表示无效

$\left[\begin{array}{ll}1/3 & 2/3 \\1 & 0\end{array}\right]$
$\left[\begin{array}{cc}1 & 0 \\\frac{e^{1}}{e^{1}+e^{3}} & \frac{e^{3}}{e^{1}+e^{3}}\end{array}\right]$
$\left[\begin{array}{ll}1 & 0 \\0.25 & 0.75\end{array}\right]$
$\left[\begin{array}{cc}\frac{e^{2}}{e^{2}+e^{4}} & \frac{e^{4}}{e^{2}+e^{4}} \\1 &0\end{array}\right]$

7、在集成学习的 Bagging 方法中，以下哪一项最准确地描述了随机森林(Random Forest)的"特征随机选择"机制? {{ select(7) }}

每棵树在分裂时仅使用单个特征进行分裂
每棵树在分裂时随机选择一部分特征进行分裂
每棵树在分裂时固定选择前几个特征进行分裂
每棵树在分裂时随机选择所有特征进行分裂

8、在多层感知器(MLP)中，隐藏层通过一系列非线性变换(由激活函数实现)对输入数据进行变化操作，这样的主要作用是什么? {{ select(8) }}

确保模型的预测结果为线性可分
用于减少模型的训练时间
学习输入特征之间的复杂关系，并进行非线性变换
直接映射输入到输出，无需中间处理

9、设 A,P 均为 3 阶矩阵， $P^T$ 为 P 的转置矩阵,且 $P^{T} A P=\left(\begin{array}{lll} 1 & 0 & 0 \\0 & 1 & 0 \\0 & 0 & 2\end{array}\right)$，若 $P=(α_1,α_2,α_3),Q=(α_1+α_2,α_2,α_3)$ ,则 $Q^TAQ$ 为 () {{ select(9) }}

$\left(\begin{array}{lll}1 & 1 & 0 \\1 & 2 & 0 \\0 & 0 & 2\end{array}\right)$
$\left(\begin{array}{lll}2 & 0 & 0 \\0 & 1 & 0 \\0 & 0 & 2\end{array}\right)$
$\left(\begin{array}{lll}2 & 1 & 0 \\1 & 1 & 0 \\0 & 0 & 2\end{array}\right)$
$\left(\begin{array}{lll}1 & 0 & 0 \\0 & 2 & 0 \\0 & 0 & 2\end{array}\right)$

10、对于可逆马氏链，下列描述正确的是 {{ select(10) }}

转移矩阵所有特征值为非负实数
满足细致平衡方程 $\pi_{i} P_{i j}=\pi_{j} P_{j i}$
必为非周期链
转移矩阵 P 必对称

11、在训练一个多分类的深度学习模型时(例如图像识别)，我们通常使用Softmax作为输出层的激活函数，并选择交叉(Cr0ss-Entropy)作为损失函数。从概率论和论的角度看，最小化交叉熵损失函数在本质上等价于什么? {{ select(11) }}

确保模型每一层的输出都服从标准正态分布。
最小化模型参数的L2范数，以达到正则化效果。
最大化模型预测分布与均匀分布之间的KL散度。
执行最大似然估计(MLE)，即最大化在给定输入下，观测到真实标签的条件概率。

12、如果随机变量 X 和 Y 的期望满足 E(XY)=E(X)E(Y) ，则下式哪项成立

Var(X+Y)=Var(X)+Var(Y)
Var(X-Y)=Var(X)-Var(Y)
Var(XY)=Var(X)Var(Y)
Var(X²+Y²)=Var(X²)+Var(Y²)

13、、从一个盒子中随机抽取一个球，球有编号 1~5，其中编号 1、2、3 是红球，编号 4、5 是蓝球。设事件为"抽到红球"，事件 B 为"抽到奇数编号”，那么 P(A∩B)为? {{ select(13) }}

$\frac{3}{5}$
$\frac{4}{5}$
$\frac{2}{5}$
$\frac{1}{5}$

14、函数 $f(x)=sin(x)$ 在点 $x_0=0$ 处二阶泰勒展开式为: {{ select(14) }}

f(x)=x
f(x)=cos(x)
f(x)=1+x
f(x)=x²

15、设线性变换 $T: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$ 在标准基下的矩阵为 A。若将 $\mathbb{R}^{n}$ 的基换成可逆矩阵 P 的列向量，将 $\mathbb{R}^{m}$ 的基换成可逆矩阵 Q 的列向量，则 T 在新基下的矩阵表示为 {{ select(15) }}

$Q^{-1}AP$
$QAP$
$QAP^{-1}$
$Q^{-1}AP^{-1}$

二、多选题

16、在机器学习中，以下哪些方法可以用于处理类别不平衡问题? {{ multiselect(16) }}

对少数类样本进行过采样(Oversampling)
使用F1分数作为评价指标
使用AUC-ROC曲线作为评价指标
对多数类样本进行欠采样(Undersampling)

17、在构建一个基于Transformer的大语言模型时，会涉及到多种概率和统计相关的技术。以下哪些选项是正确的应用? {{ multiselect(17) }}

词嵌入 (Word Embeddings) 的过程，可以看作是将一个服从离散分布的词汇表，映射到一个高维连续向量空间中。
Layer Normalization 通过计算一个层内所有神经元输出的均值和方差来进行归一化，目的是稳定训练过程中的数据分布。
Softmax函数被用在注意力机制和最后的输出层，将原始分数 (logits) 转换为一个合法的概率分布。
在训练初期，模型权重通常从一个特定的概率分布 (如 Xavier 或 He 初始化，它们均基于均匀或正态分布)中进行采样，以帮助缓解梯度消失或梯度爆炸问题

18、在深度学习领域，softmax函数的作用有哪些 {{ multiselect(18) }}

通常用于多分类模型中
用于损失函数的计算，特别是在交叉熵损失函数中
标准化模型输出，使其成为概率分布
作为激活函数，一般用于分类网络最后一层

19、关于 RLHE(Reinforcement Learning from Human Feedback)及其常见替代技术，下列说法正确的是(可多选) {{ multiselect(19) }}

RLHF 中常用 PPO 对策略进行强化学习更新，最大化奖励模型给出的标量奖励的期望，并通过KL正则约束策略与参考模型的偏差
DPO(Direct Preference Optimization)跳过显式训练奖励模型，直接最小化人类偏好对比损失
自回归语言模型在进行RLHF 更新后，必须重新进行教师强迫(teacher forcing)微调，才能保证采样稳定
RLAIF(RL from AI Feedback)用另一个冻结大模型产生偏好数据，可减少人工标注成本

20、在大型语言模型(LLM)的文本处理流程中，有关词嵌入(Embedding)和分词器(Tokenizer)的描述，下列哪些选项是正确的? {{ multiselect(20) }}

在 Transformer 架构中、位置编码 (Positional Encoding) 被添加到词嵌入向量中，以使模型能够学习到输入序列中词语的位置信息，这对于理解句子结构至关重要。
在预训练阶段，BERT 使用的 Wordpiece 分词器能够将输入文本切分成子词单元 (subwordtokens)，以解决未登录词 (OOV,Out-Of-Vyocabulary) 问题。
无论是基于 Transformer 架构的编码器还是解码器模型，在进行文本处理时，首先需要通过一个特定的分词器将输入文本转换为对应的 token ID 序列，然后再传递给模型进行后续处理。

#P4446. 第1题-选择题

T1

T2

T3

T4

T5

T6

T7

T8

T9

T10

T11

T12

T13

T14

T15

T16

T17

T18

T19

T20

一、单选题

二、多选题

Status

Development

Support

About