Difficulty: 4

所属公司 : 华为

时间 :2025年11月5日-AI方向

算法标签>

选择题

题目与答案整理

T1

答案：B

$$\begin{pmatrix} 2 & 1 & 0 \\ 1 & 1 & 0 \\ 0 & 0 & 2 \end{pmatrix}$$

解析：
设 $D=P^TAP=\mathrm{diag}(1,1,2)$ 。由 $Q=(\alpha_1+\alpha_2,\alpha_2,\alpha_3)=P\,S$ ，其中 $S=\begin{pmatrix}1&0&0\\1&1&0\\0&0&1\end{pmatrix}$ 。故 $Q^TAQ=S^TDS=\begin{pmatrix}2&1&0\\1&1&0\\0&0&2\end{pmatrix}$。

T2

答案：A. 0.36
解析：
贝叶斯公式：$\frac{0.6\times0.3}{0.6\times0.3+0.2\times0.7}=0.36$。

T3

答案：C. 2.0
解析：
中心差分：$f'(1)\approx \frac{f(1.1)-f(0.9)}{2\times0.1}=\frac{1.21-0.81}{0.2}=2.0$，与解析导数 $f'(x)=2x=2$ 一致。

T4

答案：C. $E(\hat{\theta}) = \theta$
解析：
无偏估计定义： $E(\hat{\theta})=\theta$ 。

T5

答案：B. 均方误差（MSE）
解析：
MSE 含平方项，使大误差（异常值）的影响被放大，因此对异常值最敏感；MAE 与 Huber 损失更稳健，Log Loss 主要用于分类任务。

T6

答案：C. $I_n^*$ 的绝对误差有上界
解析：
数值稳定性要求误差有界不发散。

T7

答案：B. 该层的梯度消失
解析：
梯度消失会导致反向传播到该层时更新信号极小，从而学习速度显著变慢；参数数量、标准化或学习率问题虽影响整体训练，但不会导致单层明显停滞。

T8

答案：A. 0.62
解析：
$F1=\frac{2PR}{P+R}=\frac{2\times0.8\times0.5}{0.8+0.5}\approx0.62$。

T9

答案：A. 0.62
解析：
Precision = 80 / (80+20) = 0.8，Recall = 80 / (80+50) ≈ 0.615；
F1 = 2PR / (P+R) = 2×0.8×0.615 / 1.415 ≈ 0.62。

T10

答案：B. $\det(AB) = 6$
解析：
$\det(AB)=\det(A)\det(B)=2\times3=6$ 。

T11

答案：B. 学习输入特征之间的复杂关系，并进行非线性变换
解析：
隐藏层通过激活函数引入非线性，使模型能捕捉输入特征的复杂关系，从而拟合非线性映射；A、C、D均与隐藏层的本质功能不符。

T12

答案：D

a = [3.8104, 0.0474]
b = [3.5232, 0.1192]
解析：
按 $Q=XW_q, K=XW_k, V=XW_v$ ，
对 a: 分数 [1,4] ⇒ softmax [0.0474,0.9526]，输出 [3.8104,0.0474]；
对 b: 分数 [2,4] ⇒ softmax [0.1192,0.8808]，输出 [3.5232,0.1192]。

T13

答案：A. 捕捉序列中不同位置元素之间的依赖关系
解析：
自注意力机制通过计算序列中各位置间的相关性权重，使模型能够建模长程依赖关系；B、C、D只是其衍生效果或部分特性，非核心作用。

T14

答案：B. 最大化 $A_2$ 与真实答案 $G$ 的匹配度，同时最小化 $|A_1 - A_2|$
解析：
奖励应提升 $A_2$ 与真值 $G$ 的匹配并约束改动幅度。

T15

答案：D. 设备已经工作100小时，它在未来10小时内失效的条件概率等于一个新设备在前10小时内失效的概率
解析：
指数分布具有无记忆性，满足 $P(T>t+s|T>t)=P(T>s)$ ，即设备已运行时间不影响后续失效概率；因此在未来10小时内失效的条件概率与新设备相同。

T16

答案：B、D

B. 对输入嵌入加常数向量
D. 对输入嵌入乘常数矩阵
解析：
仅改输入嵌入的平移/线性变换不改变位置编码本身；交换或平移序列会改变位置。

T17

答案：A、C

A. GELU 近似保留输入分布的均值，使深网络更易训练
C. GELU 相较于 ReLU 无需额外随机性即可引入"软门控"
解析：
GELU 通过高斯分布加权实现平滑的"软门控"，近似保持输入均值，有助于训练稳定；B错误，SwiGLU仅在部分模型中替代；D错误，ReLU梯度上界为1，GELU梯度上界略小于1。

T18

答案：B、C、D

B. 增加标准差 sigma 会使得初始化的权重值更倾向于远离 0
C. 大约 68% 的权重值会落在 $[-\text{sigma}, \text{sigma}]$ 的区间内
D. 初始化权重的期望值为 0
解析：
正态分布非严格限于 ±3σ；增大 $\sigma$ 更分散；约 68% 落在 $\pm\sigma$ ；期望为 0。

T19

答案：A、B、C、D

A. 对少数类样本进行过采样（Oversampling）
B. 使用 AUC-ROC 曲线作为评价指标
C. 使用 F1 分数作为评价指标
D. 对多数类样本进行欠采样（Undersampling）

T20

答案：A、B

A. 两者可叠加以进一步扩大可训练模型规模
B. 前者通过丢弃中间激活再正向重算，减少显存；后者将部分参数 / 优化器状态搬到 CPU 或 NVMe
解析：
可叠加；前者丢弃激活重算省显存，后者把参数/优化器状态迁到 CPU/NVMe。

一、单选题

1、设 A, P 均为 3 阶矩阵， $P^T$ 为 P 的转置矩阵，且 $P^TAP = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 2 \end{pmatrix}$，若 $P = (\alpha_1, \alpha_2, \alpha_3), Q = (\alpha_1 + \alpha_2, \alpha_2, \alpha_3)$，则 $Q^TAQ$ 为（） {{ select(1) }}

$\begin{pmatrix} 2 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 2 \end{pmatrix}$
$\begin{pmatrix} 2 & 1 & 0 \\ 1 & 1 & 0 \\ 0 & 0 & 2 \end{pmatrix}$
$\begin{pmatrix} 1 & 1 & 0 \\ 1 & 2 & 0 \\ 0 & 0 & 2 \end{pmatrix}$
$\begin{pmatrix} 1 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & 2 \end{pmatrix}$

2、设 $P(A) = 0.3, P(B|A) = 0.6, P(B|\neg A) = 0.2$ ，则 $P(A|B)$ 的值为 {{ select(2) }}

0.36
0.56
0.72
0.18

3、已知函数 $f(x)=x^2$ ，用中心差分公式 $f'(x)\approx\dfrac{f(x+h)-f(x-h)}{2h}$ ，取步长 $h=0.1$ ，计算 $f'(1)$ 数值结果为： {{ select(3) }}

4、设 $\hat{\theta} = \hat{\theta}(X_1, X_2 \dots \dots X_n)$ 是基于随机样本 $X_1, X_2 \dots \dots X_n$ 构造的未知参数 $\theta$ 的一个估计量，若 $\hat{\theta}$ 满足以下条件（）时，则称 $\hat{\theta}$ 是 $\theta$ 的无偏估计 {{ select(4) }}

$\hat{\theta} = \theta$
$E(\hat{\theta} - \theta) = \theta$
$E(\hat{\theta}) = \theta$
$P(\hat{\theta} = \theta) = 1$

5、在回归问题中，以下哪种损失函数对异常值（outliers）最敏感？ {{ select(5) }}

平均绝对误差（MAE）
均方误差（MSE）
对数损失（Log Loss）
Huber损失

6、使用算法计算数列 $I_n = \int_0^1 \frac{x^n}{x + 5}dx, n = 0,1,\dots, 100$，如果初始值 $I_0^*$ 的绝对误差为 $0.01$ ，那么以下哪种情形可以称该算法是数值稳定的？ {{ select(6) }}

$I_n^*$ 的绝对误差均不超过 0.01
$I_n^*$ 的绝对误差单调不增加
$I_n^*$ 的绝对误差有上界

7、在反向传播过程中，如果发现某个特定层的学习速度显著慢于其他层，以下选项中，最可能的原因是？ {{ select(7) }}

该层的参数数量较少
该层的梯度消失
数据标准化不充分
学习率设置过低

8、在一个二分类问题中，精确率（Precision）为 0.8，召回率（Recall）为 0.5，F1 分数最接近如下哪个选项？ {{ select(8) }}

0.62
0.31
0.4
0.7

9、某二分类模型混淆矩阵为：TP=80，TN=100，FP=20，FN=50。其 F1 分数约为？ {{ select(9) }}

0.62
0.54
0.7
0.78

10、A 为 2 阶矩阵，B 为 2 阶矩阵，且已知 $\det(A) = 2, \det(B) = 3$ ，则下列结论正确的是（）

$\det(A^T B) = 5$ （ $A^T$ 为 $A$ 的转置矩阵）
$\det(AB) = 6$
$\det(2A) = 4$
$\det(A + B) = 5$

11、在多层感知器（MLP）中，隐藏层通过一系列非线性变换（由激活函数实现）对输入数据进行变化操作，这样的主要作用是？ {{ select(11) }}

直接映射输入到输出，无需中间处理
学习输入特征之间的复杂关系，并进行非线性变换
用于减少模型的训练时间
确保模型的预测结果为线性可分

12、假设输入的向量为 $a = [0,1]$ ， $b = [2,0]$ ，其中 $W_k = \begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix}$ ， $W_q = \begin{bmatrix} 1 & 1 \\ 1 & 2 \end{bmatrix}$ ， $W_v = \begin{bmatrix} 2 & 0 \\ 0 & 1 \end{bmatrix}$ ，温度因子 $d_k = 1$ ，已知 $e^1 \approx 2.718$ ， $e^2 \approx 7.389$ ， $e^3 \approx 20.086$ ， $e^4 \approx 54.598$ ，计算 self-attention 后的a，b的输出

$a = [0, 1]$ $b = [2, 0]$
$a = [16, 1]$ $b = [16, 2]$
$a = [2.9242, 0, 2689]$ $b = [0.4768, 0.8807]$
$a = [3.8104, 0, 0474]$ $b = [3, 5232, 0.1192]$

13、在 Transformer 模型中，自注意力机制（Self-Attention）的核心作用是 {{ select(13) }}

捕捉序列中不同位置元素之间的依赖关系
替代卷积操作提取局部特征
降低模型的计算复杂度
减少参数数量

14、假设一个大模型 Agent 在解决数学推理任务时采用 “反思 - 修正” 机制，其核心流程为：

生成初步答案 $A_1$ ；
通过独立模块生成反思信号 $R$ ；
根据 $R$ 修正答案 $A_1 \to A_2$ 。

若训练时采用强化学习（RL）框架，则以下哪项最可能是奖励函数的设计目标？

最大化 $R$ 与 $A_1$ 的语义相似度
最大化 $A_2$ 与真实答案 $G$ 的匹配度，同时最小化 $|A_1 - A_2|$
最小化 $A_1$ 与 $A_2$ 的计算开销差异
最大化 $A_1$ 与真实答案 $G$ 的匹配度

15、某种电子设备的寿命（单位：小时）服从参数为 $\lambda = 0.01$ 的指数分布，即其概率密度函数为 $f(t)=0.01e^{-0.01t}$ ，其中 $t \ge 0$ 。以下陈述正确的是： {{ select(15) }}

设备失效率（瞬时故障率）随时间增长而降低。
设备已经工作100小时，它在未来10小时内失效的条件概率小于一个新设备在前10小时内失效的概率。
设备失效率（瞬时故障率）随时间增长而增加。
设备已经工作100小时，它在未来10小时内失效的条件概率等于一个新设备在前10小时内失效的概率。

二、多选题

16、以下哪些操作不会改变 Transformer 的位置编码信息？ {{ multiselect(16) }}

交换两个 token
对输入嵌入加常数向量
将序列整体左移 1 个 token
对输入嵌入乘常数矩阵

17、关于激活函数 GELU 与 ReLU，下列描述正确的是（可多选） {{ multiselect(17) }}

GELU 近似保留输入分布的均值，使深网络更易训练
在绝大多数现代 Transformer 变体中，GELU 已被 SwiGLU 全面替代
GELU 相较于 ReLU 无需额外随机性即可引入“软门控”
在相同学习率下，GELU 的梯度上界大于 ReLU

18、在深度学习中，权重初始化是一个重要步骤。假设某个网络层的权重被初始化为来自均值为 0、标准差为 sigma 的高斯分布（正态分布）。关于这个初始化策略，以下哪些说法在概率论上是正确的？ {{ multiselect(18) }}

权重的取值范围被严格限制在 $[-3\text{sigma}, 3\text{sigma}]$ 之内
增加标准差 sigma 会使得初始化的权重值更倾向于远离 0
大约 68% 的权重值会落在 $[-\text{sigma}, \text{sigma}]$ 的区间内
初始化权重的期望值为 0

19、在机器学习中，以下哪些方法可以用于处理类别不平衡问题？ {{ multiselect(19) }}

对少数类样本进行过采样（Oversampling）
使用 AUC-ROC 曲线作为评价指标
使用 F1 分数作为评价指标
对多数类样本进行欠采样（Undersampling）

20、梯度检查点 (Gradient Checkpointing) 与 ZeRO-Offload 的主要区别体现在（可多选） {{ multiselect(20) }}

两者可叠加以进一步扩大可训练模型规模
前者通过丢弃中间激活再正向重算，减少显存；后者将部分参数 / 优化器状态搬到 CPU 或 NVMe
两者都会增加前向推理时延
前者仅影响前向计算图；后者改动优化器加载激活值的方式（例如 CPU）

#P4440. 第1题-选择题

第1题-选择题

题目与答案整理

T1

T2

T3

T4

T5

T6

T7

T8

T9

T10

T11

T12

T13

T14

T15

T16

T17

T18

T19

T20

一、单选题

二、多选题

Status

Development

Support

About