Difficulty: 5

所属公司 : 华为

时间 :2025年11月19日-AI方向

算法标签>

机器学习算法

题目与答案整理

T1

答案：C. 将任意实数向量转换成相加后和为 1 的概率分布，使模型输出可直接解释为类别置信度
解析：
Softmax 将任意实数 logits 转换为和为 1 的概率分布，使输出可直接作为类别置信度；A 是 argmax 操作，B 是副作用非核心目的，D 是错误描述。

T2

答案：C. 4.0
解析：
斜率 $b=\dfrac{\sum (x-\bar x)(y-\bar y)}{\sum (x-\bar x)^2}=\dfrac{8}{2}=4$。

T3

答案：D. 0.75
解析：
$P(0.5\le X\le 1)=\int_{0.5}^{1}2x\,dx = [x^2]_{0.5}^{1}=1-0.25=0.75$。

T4

答案：D. GQA 是对多头注意力（MHA）和多头潜在注意力（MLA）的折中优化方案
解析：
GQA 是 MHA 与 MQA 的折中方案——通过"分组共享 K/V"降低计算与显存，而与 MLA 无直接关系；A、B、C 均为正确描述。

T5

答案：D. 该层的梯度消失
解析：
梯度消失会使该层的反向更新信号极小，导致学习速度远慢于其他层；其他选项不会造成某一特定层显著停滞。

T6

答案：D. 评估分类模型在不同阈值下的真正性率和假阳性率表现
解析：
ROC 曲线展示模型在不同分类阈值下的 TPR 与 FPR 表现，用于评估分类模型整体判别能力。

T7

答案：A. 数学模型近似（如用有限项近似无穷级数）导致的误差
解析：
截断误差来源于用有限步骤或有限项近似连续或无穷过程（如级数截断、有限差分近似微分）。

T8

答案：A. $\text{Var}(X+Y)=\text{Var}(X)+\text{Var}(Y)$
解析：
由 $E(XY)=E(X)E(Y)$ 可知 X 与 Y 不相关，因此 $\text{Cov}(X,Y)=0$ ，故 $\text{Var}(X+Y)=\text{Var}(X)+\text{Var}(Y)$ 。

T9

答案：A. 0
解析：
简单随机样本中 $X_1,X_2,X_3$ 彼此独立，因此 $\text{Cov}(X_1+X_2, X_3)=\text{Cov}(X_1,X_3)+\text{Cov}(X_2,X_3)=0+0=0$。

T10

答案：C. 假设样本各维属性独立
解析：
朴素贝叶斯的核心假设是特征条件独立；具体分布形式可为高斯、伯努利或多项式等，并非唯一限定。

T11

答案：C. 激活检查点（Activation Checkpointing）
解析：
激活检查点通过在前向中只保存关键激活、反向再重算未保存部分，从而显著降低显存占用并保持梯度正确。

T12

答案：D. 0.62
解析：
Precision = 80/(80+20)=0.8，Recall = 80/(80+50)=0.615；F1 = 2PR/(P+R) ≈ 0.62。

T13

答案：B. 学习输入特征之间的复杂关系，并进行非线性变换
解析：
激活函数使隐藏层能够学习和表达输入特征的非线性关系，从而建模复杂模式；A、C、D均与隐藏层职责不符。

T14

答案：D. 无穷多解，且含 1 个自由变量
解析：
矩阵 A 为 $3\times 4$ ，秩为 3，且与增广矩阵同秩，因此有解；未知数 4 个、秩 3，则有 4-3=1 个自由变量，故为无穷多解。

T15

答案：B. A可逆
解析：
由 $A = \text{adj}(A)$ 得 $\text{adj}(A)=|A|A^{-1}$ ，因此 $A^2 = |A|I$ 。非零矩阵满足该式则必有 $|A|\neq 0$ ，故 A 必可逆；其余选项均无法保证普遍成立。

T16

答案：A、C、D

A. 采用混合精度训练（Mixed Precision Training）
C. 使用多种并行策略分配计算负载
D. 使用动态学习率调度
解析：
混合精度、并行训练策略与动态学习率调度均可提升大模型训练效率与稳定性；B 的 FP32 反而降低效率且非必要。

T17

答案：A、B、C、D
解析：
BERT 为双向编码模型，使用 Masked LM+NSP，擅长理解类任务并使用 token type 区分句对；GPT 为单向自回归模型，擅长生成任务且无 token type 嵌入。

T18

答案：B、C、D

B. 在 PPO（Proximal Policy Optimization）算法的应用中，策略模型（即 LLM）的更新目标是最大化由奖励模型给出的奖励以及最小化当前策略模型与初始 SFT 模型之间的 KL 距离
C. 通常使用一个独立的"奖励模型"（Reward Model, RM）来代替环境，为 LLM（作为智能体）的输出提供奖励信号
D. "冷启动"（Cold Start）问题指的是在没有人类标注数据的情况下，直接用强化学习训练 LLM 会非常困难，因此通常需要先进行监督微调（Supervised Fine-Tuning, SFT）
解析：
RLHF 中不直接最小化交叉熵（A错）；PPO 同时最大化奖励并约束策略与 SFT 模型的 KL 距离（B对）；奖励模型代替环境提供奖励信号（C对）；训练前需通过 SFT 解决冷启动问题（D对）。

T19

答案：A、D

A. 卷积层
D. 池化层
解析：
卷积层与池化层是 CNN 的基础结构；全连接层可选且常出现在末端，循环层并非 CNN 典型组成。

T20

答案：A、C、D

A. 特征向量按特征值排序
C. 最大化样本在新坐标系的方差
D. 是一种线性降维方法
解析：
PCA 按特征值大小排序特征向量，最大化投影方差，并属于线性降维方法；无法直接捕捉非线性结构（B错误）。

一、单选题

1、在 Transformer 的最后一层，Softmax 作为“激活层”的核心意义是下列哪一项？ {{ select(1) }}

自动选择最大 logit 对应的类别索引，并输出整数组标签
对 logits 进行非线性放大，从而增大不同类别之间的数值差异
将任意实数向量转换成相加后和为 1 的概率分布，使模型输出可直接解释为类别置信度
将输出映射到 $(-1,1)$ 区间，避免梯度消失

2、给定数据： $x=[1,2,3]$ ， $y=[1,4,9]$ 。用最小二乘法拟合直线 $y=a+bx$ ，则系数 $b$ 为？ {{ select(2) }}

3、连续随机变量 $X$ 的概率密度函数为 $f(x)=2x$ ，其中 $0 \le x \le 1$ ，那么 $P(0.5 \le X \le 1)$ 为？ {{ select(3) }}

0.5
1
0.25
0.75

4、以下关于自注意力机制中多头注意力（Multi-Head Attention MHA）、多查询注意力机制（Multi-Query Attention MQA）、分组查询注意力机制（Grouped Query Attention GQA）、多头潜在注意力（Multi-Head Latent Attention MLA）描述错误的是？ {{ select(4) }}

MQA 核心思想是共享键（Key）和值（Value）的投影参数，仅对查询（Query）使用独立的头参数。
MLA 核心思想是通过低秩投影压缩查询（Q）、键（K）、值（V）的维度，并在注意力计算中解耦内容与位置信息，从而减少计算复杂度，同时保留长距离依赖建模能力。
MHA 核心思想是将输入映射到多个子空间，分别计算注意力权重并聚合结果，从而增强模型对复杂模式的捕捉能力。
GQA 是对多头注意力（MHA）和多头潜在注意力（MLA）的折中优化方案。

5、在反向传播过程中，如果发现某个特定层的学习速度显著慢于其他层，以下选项中，最可能的原因是？ {{ select(5) }}

该层的参数数量较少
数据标准化不充分
学习率设置过低
该层的梯度消失

6、ROC曲线的主要用途是什么？ {{ select(6) }}

展示回归模型的预测误差分布
计算分类模型的F1分数
计算分类模型的准确率
评估分类模型在不同阈值下的真正性率和假阳性率表现

7、在数值计算中，截断误差的主要来源是什么？ {{ select(7) }}

数学模型近似（如用有限项近似无穷级数）导致的误差
计算机有限的存储精度导致的误差
算法迭代过程中的随机误差
数据输入时的测量误差

8、如果随机变量 $X$ 和 $Y$ 的期望满足 $E(XY)=E(X)E(Y)$ ，则下式哪项成立 {{ select(8) }}

$Var(X+Y)=Var(X)+Var(Y)$
$Var(X^2+Y^2)=Var(X^2)+Var(Y^2)$
$Var(X-Y)=Var(X)-Var(Y)$
$Var(XY)=Var(X)Var(Y)$

9、设总体 $X \sim N(\mu,\sigma^2)$ ， $X_1,X_2,X_3$ 是来自 $X$ 的简单随机样本，则 $Cov(X_1+X_2,X_3)=$ （）注：简单随机样本指 $X_1,X_2,X_3$ 独立同分布，且每个 $X_i$ 与总体 $X$ 同分布

0
$\sigma^2$
$2\sigma^2$
$\frac{\sigma^2}{3}$

10、朴素贝叶斯分类器的特点是（） {{ select(10) }}

假设样本各维属性存在依赖
假设样本服从多项式分布
假设样本各维属性独立
假设样本服从正态分布

11、在训练超大规模语言模型时，为了在显存受限的情况下仍能使用较深的网络并保持梯度正确，常用的内存优化技术是 {{ select(11) }}

随机失活（Dropout）
梯度裁剪（Gradient Clipping）
激活检查点（Activation Checkpointing）
权重衰减（Weight Decay）

12、某二分类模型混淆矩阵为：TP=80，TN=100，FP=20，FN=50，其F1分数约为？ {{ select(12) }}

0.78
0.54
0.7
0.62

13、在多层感知器（MLP）中，隐藏层通过一系列非线性变换（由激活函数实现）对输入数据进行变化操作，这样的主要作用是什么？ {{ select(13) }}

直接映射输入到输出，无需中间处理
学习输入特征之间的复杂关系，并进行非线性变换
确保模型的预测结果为线性可分
用于减少模型的训练时间

14、对线性方程组 $Ax=b$ ，其中 $A$ 为 $3\times4$ 矩阵， $rank(A)=rank([A\mid b])=3$ ，这里 $[A\mid b]$ 表示增广矩阵，则该方程组的解的情况是：

无穷多解，且含 2 个自由变量
无解
唯一解
无穷多解，且含 1 个自由变量

15、设 $A$ 为 $n(n\ge 2)$ 阶非零矩阵，且满足 $a_{ij}=A_{ij},\, i,j=1,2,\ldots,n$ ，其中 $A_{ij}$ 为 $a_{ij}$ 的代数余子式，则下列选项中正确的是（） {{ select(15) }}

$A$ 对称
$A$ 可逆
$|A|<0$
$A$ 的所有元素的平方和为 $n$

二、多选题

16、在大模型预训练过程中，以下哪几项技术通常被用来提高模型的训练效率和稳定性？ {{ multiselect(16) }}

采用混合精度训练（Mixed Precision Training）
使用 FP32 以提高精度
使用多种并行策略分配计算负载
使用动态学习率调度

17、下列关于 BERT 与 GPT 两种 Transformer 模型在预训练目标、架构设计及适用场景等方面的说法，哪些是正确的？ {{ multiselect(17) }}

GPT 原生支持从左到右的文本生成与填空续写，BERT 由于掩码策略在端到端生成任务上能力有限。
BERT 的双向上下文表示更适合句子级分类、序列标注等理解任务，GPT 的单向生成能力更适合续写与对话生成。
BERT 采用掩码语言模型（Masked LM）+ 下一句预测（Next Sentence Prediction），GPT 采用自回归语言模型（Auto-Regressive LM）。
BERT 输入时加入 token type 嵌入用于区分句子对，GPT 省略了 token type 嵌入，仅依赖位置与词嵌入。

18、在使用强化学习（Reinforcement Learning, RL）对大语言模型（LLM）进行对齐（Alignment），例如基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）中，以下哪些说法是正确的？ {{ multiselect(18) }}

强化学习微调阶段的目标是直接最小化模型输出与人类标注的“完美”回答之间的交叉熵损失。
在 PPO（Proximal Policy Optimization）算法的应用中，策略模型（即 LLM）的更新目标是最大化由奖励模型给出的奖励以及最小化当前策略模型与初始 SFT 模型之间的 KL 距离。
通常使用一个独立的“奖励模型”（Reward Model, RM）来代替环境，为 LLM（作为智能体）的输出提供奖励信号。
“冷启动”（Cold Start）问题指的是在没有人类标注数据的情况下，直接用强化学习训练 LLM 会非常困难，因此通常需要先进行监督微调（Supervised Fine-Tuning, SFT）。

19、在卷积神经网络中，哪些层是最常见的？ {{ multiselect(19) }}

卷积层
全连接层
循环层
池化层

20、关于 PCA，以下正确的是： {{ multiselect(20) }}

特征向量按特征值排序
可直接捕捉非线性结构
最大化样本在新坐标系的方差
是一种线性降维方法

#P4474. 第1题-选择题

第1题-选择题

题目与答案整理

T1

T2

T3

T4

T5

T6

T7

T8

T9

T10

T11

T12

T13

T14

T15

T16

T17

T18

T19

T20

一、单选题

二、多选题

Status

Development

Support

About