#P4446. 第1题-选择题
-
Tried: 1
Accepted: 0
Difficulty: 5
所属公司 :
华为
时间 :2025年11月6日-留学生AI方向
-
算法标签>机器学习算法
第1题-选择题
T1
答案:B. 该层的梯度消失
解析: 反向传播中参数更新量约为 Δw=−η∂L∂w\Delta w = -\eta \frac{\partial L}{\partial w}。若某层的梯度趋近于 0,则该层权重更新极小,表现为“学习速度很慢”,这正是梯度消失的问题,常见于深层网络或饱和激活函数、欠佳初始化等情形。 A 数据标准化不足会影响整体训练稳定性,但不太会只拖慢某一层;C 参数多少决定容量,不直接决定每步更新幅度;D 全局学习率过低会让所有层都慢,而非仅某一层。
T2
答案:A. 序列越短,候选序列累计得分越不容易被稀释
解析: 经典 beam search 使用序列的累计概率(通常为各步对数概率的和)作为打分。由于每一步的概率都小于 1,长度越长,连乘后的总概率会呈指数式下降(对数概率之和越小),因此短序列更容易得到更高分,出现对短序列的偏好。如果不做长度归一化/长度惩罚,就会产生这种长度偏差。B 只是会加剧而非根因,C 不是默认做法而是常用补救措施,D 不是模型结构导致的必然属性。
T3
答案:D. 10000
解析: 每个 epoch 需遍历一次数据集,迭代次数 = 样本数 / 批大小 = 1,000,000 / 100 = 10,000;epochs=50 不影响单个 epoch 的次数。
T4
答案:C. 矩阵的主特征值(模最大的特征值)
解析: 幂法通过重复乘以矩阵并归一化,使向量收敛到最大模特征值对应方向,从而得到主特征值;最小特征值需用逆幂法。
T5
答案:B. 最大化 A₂ 与真实答案 G 的匹配度,同时最小化 |A₁−A₂|
解析: 强化学习应直接奖励最终修正结果 A₂ 的正确性,并给轻微惩罚以避免不必要的大改动;A 只管反思信号、C 只优化初答 A₁、D 与任务目标无关。
T6
答案:B. [10ee+e3e3e+e3]\begin{bmatrix}1&0\ \dfrac{e}{e+e^{3}}& \dfrac{e^{3}}{e+e^{3}}\end{bmatrix}
解析: 掩码将分数矩阵 [2413]\begin{bmatrix}2&4\1&3\end{bmatrix} 变为 [2−∞13]\begin{bmatrix}2&-\infty\1&3\end{bmatrix},对每行做 softmax:第一行得 [1,0][1,0],第二行得 [ee+e3,e3e+e3][\frac{e}{e+e^3},\frac{e^3}{e+e^3}]。
T7
答案:B. 每棵树在分裂时随机选择一部分特征进行分裂
解析: 随机森林在每个节点仅从随机抽取的特征子集(mtry)中选择最优划分,以降低树间相关性并抑制过拟合;A/C/D均不符合其“特征子采样”的机制。
T8
答案:C. 学习输入特征之间的复杂关系,并进行非线性变换
解析: 隐藏层的激活函数提供非线性,使 MLP 能拟合复杂模式;A/D不成立,B不是其主要目的。
T9
答案:C. (210110002)\begin{pmatrix}2&1&0\[2pt]1&1&0\[2pt]0&0&2\end{pmatrix}
解析:
T10
答案:B. 满足细致平衡方程
解析: 可逆链的充要条件是存在平稳分布 π 使得 πiPij=πjPji \pi_i P_{ij}=\pi_j P_{ji}(细致平衡);其特征值可为负、可周期,且 PP 不必对称(只在 π 加权下对称)。
T11
答案:D. 执行最大似然估计(MLE),即最大化在给定输入下,观测到真实标签的条件概率
解析: Softmax+交叉熵等价于最小化负对数似然(NLL),因此最小化交叉熵就是做 MLE。
T12
答案:A. Var(X+Y)=Var(X)+Var(Y)
解析: 由 E(XY)=E(X)E(Y)E(XY)=E(X)E(Y) 得 Cov(X,Y)=0Cov(X,Y)=0,于是 Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)=Var(X)+Var(Y)Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)=Var(X)+Var(Y);其余各式一般不成立。
T13
答案:C. 25\tfrac{2}{5}
解析: 奇数编号为{1,3,5},其中红球为{1,3}两种,共5个等可能球,故 P(A∩B)=2/5P(A\cap B)=2/5。
T14
答案:A. f(x)=xf(x)=x
解析: sinx\sin x 在 0 处泰勒展开为 x−x36+⋯x-\tfrac{x^3}{6}+\cdots,二阶项系数为 0,故二阶近似为 xx。
T15
答案:A. Q−1APQ^{-1}AP
解析: 设新坐标为 x~,y~\tilde x,\tilde y,有 x=Px~, y=Ax, y=Qy~x=P\tilde x,\ y=A x,\ y=Q\tilde y,故 y~=Q−1AP x~\tilde y=Q^{-1}AP,\tilde x,新基下矩阵为 Q−1APQ^{-1}AP。
T16
答案:A、B、C、D
- A. 对少数类样本进行过采样(Oversampling)
- B. 使用 F1 分数作为评价指标
- C. 使用 AUC-ROC 曲线作为评价指标
- D. 对多数类样本进行欠采样(Undersampling)
解析: 过采样/欠采样可直接调整类别分布;F1 与 AUC-ROC 能避免准确率在不平衡数据上的偏置,更适合作为评估指标。
T17
答案:A、B、C、D
- A. 词嵌入把离散词ID映射到连续高维向量空间。
- B. LayerNorm对每个样本在层的特征维做均值/方差归一化,稳定训练。
- C. Softmax把logits转成合法概率(注意力权重与分类概率)。
- D. Xavier/He 等随机初始化采样能缓解梯度消失/爆炸。
T18
答案:A、B、C、D
- 解析: Softmax把logits标准化为概率分布(C),常作分类模型最后一层的激活(D、A),并与交叉熵一起用于计算损失(通常实现为softmax+CE或带logits的CE)(B)。
T19
答案:A、B、D
- A. RLHF 常配 PPO,最大化奖励期望并用 KL 惩罚约束与参考模型的偏移。
- B. DPO 直接用偏好对比损失训练,跳过显式奖励模型。
- D. RLAIF 以另一“评审”模型生成偏好数据,降低人工标注成本。
解析: C并非必须流程;RLHF 后通常无需再做额外的 teacher forcing 才能稳定采样。
T20
答案:A、B、C
- A. 位置编码与词向量相加,使模型获知词序信息。
- B. BERT 的 WordPiece 将文本切成子词,缓解 OOV。
- C. 文本需经分词器转为 token ID 序列后再送入模型。
解析: 三项均为 LLM 常规流程与做法,均正确。
一、单选题
1、在反向传播过程中,如果发现某个特定层的学习速度显看慢于其他层,以下选项中,最可能的原因是? {{ select(1) }}
- 数据标准化不充分
- 该层的梯度消失
- 该层的参致数量较少
- 学习率设置过低
2、在经典的束搜索(beam searh)中,生成的结果往往偏向于短序列,这种长度偏差的根本原因是 {{ select(2) }}
- 序列越短,候选序列累计得分越不容易被稀释
- Beam width较小时生成的序列偏向于短序列
- 在解码前对所有序列长度做了统一的长度惩罚
- Transformer类的模型本身更偏好短序列
3、训练集1000 000条样本,使用mini-batch SGD,batch_size=100,epochs=50,每个 epoch 内迭代次数为 {{ select(3) }}
- 50000
- 5000000
- 1000000
- 10000
4、幂法(Power Method) 主要用于求解 {{ select(4) }}
- 矩阵的奇异值分解
- 矩阵的最小特征值
- 矩阵的主特征值(模最大的特征值)
- 矩阵的行列式
5、假设一个大模型Agent在解决数学推理任务时采用"反思-修正"机制,其核心流程为:
1.生成初步答案 A1;
2.通过独立模块生成反思信号 R ;
3.根据修正答案 A1→A2 。
若训练时采用强化学习(RL)框架,则以下哪项最可能是奖励函数的设计目标?
{{ select(5) }}
- 最大化 R 与 A1的语义相似度
- 最大化 A2 与真实答案 G 的匹配度,同时最小化 ∣A1−A2∣
- 最大化 A1 与真实答案 G 的匹配度
- 最小化 A1 与 A2 的计算开销差异
6、若attention计算中 QKT 的分数矩阵为 $\left[\begin{array}{ll}2 & 4 \\1 & 3\end{array}\right]$ ,应用causal mask和softmax后的结果为哪一个(忽略缩放)?
注:causal mask矩阵为 $\left[\begin{array}{ll}0 & -inf \\0 & 0\end{array}\right]$ ,注意力得分叠加 '0' 表示有效,叠加 '-inf' 经 softmax 后表示无效
{{ select(6) }}
- $\left[\begin{array}{ll}1/3 & 2/3 \\1 & 0\end{array}\right]$
- $\left[\begin{array}{cc}1 & 0 \\\frac{e^{1}}{e^{1}+e^{3}} & \frac{e^{3}}{e^{1}+e^{3}}\end{array}\right]$
- $\left[\begin{array}{ll}1 & 0 \\0.25 & 0.75\end{array}\right]$
- $\left[\begin{array}{cc}\frac{e^{2}}{e^{2}+e^{4}} & \frac{e^{4}}{e^{2}+e^{4}} \\1 &0\end{array}\right]$
7、在 集成学习的 Bagging 方法 中,以下哪一项最准确地描述了随机森林(Random Forest)的"特征随机选择"机制? {{ select(7) }}
- 每棵树在分裂时仅使用单个特征进行分裂
- 每棵树在分裂时随机选择一部分特征进行分裂
- 每棵树在分裂时固定选择前几个特征进行分裂
- 每棵树在分裂时随机选择所有特征进行分裂
8、在多层感知器(MLP)中,隐藏层通过一系列非线性变换(由激活函数实现)对输入数据进行变化操作,这样的主要作用是什么? {{ select(8) }}
- 确保模型的预测结果为线性可分
- 用于减少模型的训练时间
- 学习输入特征之间的复杂关系,并进行非线性变换
- 直接映射输入到输出,无需中间处理
9、设 A,P 均为 3 阶矩阵,PT 为 P 的转置矩阵,且 $P^{T} A P=\left(\begin{array}{lll} 1 & 0 & 0 \\0 & 1 & 0 \\0 & 0 & 2\end{array}\right)$,若 P=(α1,α2,α3),Q=(α1+α2,α2,α3),则 QTAQ 为 () {{ select(9) }}
- $\left(\begin{array}{lll}1 & 1 & 0 \\1 & 2 & 0 \\0 & 0 & 2\end{array}\right)$
- $\left(\begin{array}{lll}2 & 0 & 0 \\0 & 1 & 0 \\0 & 0 & 2\end{array}\right)$
- $\left(\begin{array}{lll}2 & 1 & 0 \\1 & 1 & 0 \\0 & 0 & 2\end{array}\right)$
- $\left(\begin{array}{lll}1 & 0 & 0 \\0 & 2 & 0 \\0 & 0 & 2\end{array}\right)$
10、对于可逆马氏链,下列描述正确的是 {{ select(10) }}
- 转移矩阵所有特征值为非负实数
- 满足细致平衡方程 πiPij=πjPji
- 必为非周期链
- 转移矩阵 P 必对称
11、在训练一个多分类的深度学习模型时(例如图像识别),我们通常使用Softmax作为输出层的激活函数,并选择交叉(Cr0ss-Entropy)作为损失函数。从概率论和论的角度看,最小化交叉熵损失函数在本质上等价于什么? {{ select(11) }}
- 确保模型每一层的输出都服从标准正态分布。
- 最小化模型参数的L2范数,以达到正则化效果。
- 最大化模型预测分布与均匀分布之间的KL散度。
- 执行最大似然估计(MLE),即最大化在给定输入下,观测到真实标签的条件概率。
12、如果随机变量 X 和 Y 的期望满足 E(XY)=E(X)E(Y) ,则下式哪项成立
{{ select(12) }}
- Var(X+Y)=Var(X)+Var(Y)
- Var(X-Y)=Var(X)-Var(Y)
- Var(XY)=Var(X)Var(Y)
- Var(X²+Y²)=Var(X²)+Var(Y²)
13、、从一个盒子中随机抽取一个球,球有编号 1~5,其中编号 1、2、3 是红球,编号 4、5 是蓝球。设事件 为"抽到红球",事件 B 为"抽到奇数编号”,那么 P(A∩B)为? {{ select(13) }}
- 53
- 54
- 52
- 51
14、函数 f(x)=sin(x) 在点 x0=0 处二阶泰勒展开式为: {{ select(14) }}
- f(x)=x
- f(x)=cos(x)
- f(x)=1+x
- f(x)=x²
15、设线性变换 T:Rn→Rm 在标准基下的矩阵为 A。若将 Rn 的基换成可逆矩阵 P 的列向量,将 Rm 的基换成可逆矩阵 Q 的列向量,则 T 在新基下的矩阵表示为 {{ select(15) }}
- Q−1AP
- QAP
- QAP−1
- Q−1AP−1
二、多选题
16、在机器学习中,以下哪些方法可以用于处理类别不平衡问题? {{ multiselect(16) }}
- 对少数类样本进行过采样(Oversampling)
- 使用F1分数作为评价指标
- 使用AUC-ROC曲线作为评价指标
- 对多数类样本进行欠采样(Undersampling)
17、在构建一个基于Transformer的大语言模型时,会涉及到多种概率和统计相关的技术。以下哪些选项是正确的应用? {{ multiselect(17) }}
- 词嵌入 (Word Embeddings) 的过程,可以看作是将一个服从离散分布的词汇表,映射到一个高维连续向量空间中。
- Layer Normalization 通过计算一个层内所有神经元输出的均值和方差来进行归一化,目的是稳定训练过程中的数据分布。
- Softmax函数被用在注意力机制和最后的输出层,将原始分数 (logits) 转换为一个合法的概率分布。
- 在训练初期,模型权重通常从一个特定的概率分布 (如 Xavier 或 He 初始化,它们均基于均匀或正态分布)中进行采样,以帮助缓解梯度消失或梯度爆炸问题
18、在深度学习领域,softmax函数的作用有哪些 {{ multiselect(18) }}
- 通常用于多分类模型中
- 用于损失函数的计算,特别是在交叉熵损失函数中
- 标准化模型输出,使其成为概率分布
- 作为激活函数,一般用于分类网络最后一层
19、关于 RLHE(Reinforcement Learning from Human Feedback)及其常见替代技术,下列说法正确的是(可多选) {{ multiselect(19) }}
- RLHF 中常用 PPO 对策略进行强化学习更新,最大化奖励模型给出的标量奖励的期望,并通过KL正则约束策略与参考模型的偏差
- DPO(Direct Preference Optimization)跳过显式训练奖励模型,直接最小化人类偏好对比损失
- 自回归语言模型在进行RLHF 更新后,必须重新进行教师强迫(teacher forcing)微调,才能保证采样稳定
- RLAIF(RL from AI Feedback)用另一个冻结大模型产生偏好数据,可减少人工标注成本
20、在大型语言模型(LLM)的文本处理流程中,有关词嵌入(Embedding)和分词器(Tokenizer)的描述,下列哪些选项是正确的? {{ multiselect(20) }}
- 在 Transformer 架构中、位置编码 (Positional Encoding) 被添加到词嵌入向量中,以使模型能够学习到输入序列中词语的位置信息,这对于理解句子结构至关重要。
- 在预训练阶段,BERT 使用的 Wordpiece 分词器能够将输入文本切分成子词单元 (subwordtokens),以解决未登录词 (OOV,Out-Of-Vyocabulary) 问题。
- 无论是基于 Transformer 架构的编码器还是解码器模型,在进行文本处理时,首先需要通过一个特定的分词器将输入文本转换为对应的 token ID 序列,然后再传递给模型进行后续处理。