第1题-选择题

Tried: 467

Accepted: 36

Difficulty: 5

所属公司 : 华为

时间 :2025年9月28日-AI方向

算法标签>

数学

T1

D. 3

答案：

A. 1

解析：

$\dim S=\dim T=2\subset \mathbb{R}^3$ ，由公式 $\dim(S\cap T)\ge \dim S+\dim T-3=1$ ；若 $\dim(S\cap T)=2$ 则 $S=T$ （但两组基向量互不包含，故不等），因此交维为 1。

T2

答案：

B. $e^{-2}$

解析：

到达服从泊松过程，间隔时间 $T\sim \text{Exp}(\lambda)$ 。给定平均每小时120辆， $\lambda=2/\text{min}$ ，故 $P(T>1)=e^{-\lambda\cdot 1}=e^{-2}$ 。

T3

答案：

B.文档切分策略不当，破坏了关键信息的上下文完整性。Chunk A虽包含了关键实体，但与“年份”无关；Chunk B虽然有答案，但其自身文本不足以和包含“B-21”及“诺斯罗普·格鲁曼”的查询建立强语义关联。

解析：

不当的切分把实体与答案分离，导致检索时既找不到同时含“B-21/诺格”的片段，又无法将“2027年”与查询强关联；这是最直接破坏语义完整性的原因，而非模型、分词或ANN精度问题。

T4

答案：

D. 模型在面对它在预训练阶段从未见过的，全新的领域知识问题时，无法给出准确的回答。

解析：

奖励黑客是过度优化奖励模型导致与人类偏好偏离的行为，表现为啰嗦、编造或价值观偏移；而D属于模型在未见领域知识下的泛化不足，不是奖励黑客。

T5

答案：

$\begin{pmatrix} 1 & 0 & 0 \\ 2 & -1 & 0 \\ -3 & 2 & 1 \end{pmatrix}$,

$\quad \begin{pmatrix} 1 & 0 & 1 \\ 0 & 1 & 3 \\ 0 & 0 & 1 \end{pmatrix}$

解析：

通过上三角列变换 $Q$ 先将 $A$ 的第一列、第一行化为除对角元外为零；再用下三角行变换 $P$ 把剩余子块清零，可得到对角形，因此该组 $P,Q$ 可使 $PAQ$ 为对角矩阵。

T6

答案：

A. AUC-ROC

解析： 全部预测负例时，Accuracy、F1-score、Precision@Top-10%均失效，而AUC-ROC仍可通过排序区分能力进行评价。

T7

答案：

A. 0.64

解析：

$R^2 = 1 - \dfrac{SSE}{SST} = 1 - \dfrac{18}{50} = 1 - 0.36 = 0.64$。

所以正确答案为 0.64。

T8

答案：C

解析： 多头注意力将输入投影到多个子空间，分别计算注意力以捕捉不同类型的依赖与特征，从而提升表达能力。A、B、D均偏离其核心目的：既非为共享降参、也非重复同算子或等同于多层前馈网络。

T9

答案：

A. 6，9/16

解析：

归一化：

$\int_0^1\!\int_{-y}^{y}A x^2\,dx\,dy=A\cdot\frac{1}{6}=1\Rightarrow A=6$。

边缘密度

$f_Y(y)=\int_{-y}^{y}6x^2dx=4y^3$ ，故 $f_{X|Y}(x|0.5)=\frac{6x^2}{0.5}=12x^2$ （ $|x|<0.5$ ）；

于是

$P(X\le0.25|Y=0.5)=\int_{-0.5}^{0.25}12x^2dx=4[x^3]_{-0.5}^{0.25}=9/16$。

T10

答案：

A. 3/7

解析：

不合格来自 A 的概率 $0.6\times0.1=0.06$ ，

来自 B 的概率 $0.4\times0.2=0.08$ ，

总不合格率 $0.06+0.08=0.14$ 。故

$P(A\mid\text{不合格})=\frac{0.06}{0.14}=\frac{3}{7}$ 。

T11

选B：它包含一个内部的循环，允许信息从输入的一个时间步持续传递到下一个时间步。因为 RNN 通过隐藏状态在时间维度上传递信息，天然适合处理序列依赖。

T12

选D：噪声服从高斯分布（正态分布）。因为最小化 MSE 等价于在高斯噪声假设下的极大似然估计

T13

选B：1.75。因为牛顿迭代

(x_{k+1}=x_k-\frac{f(x_k)}{f'(x_k)})，取 (f(x)=x^2-3)、(x_0=2)，

得

(x_1=2-\frac{4-3}{4}=1.75)。

T14

选D：ReLU。因为 ReLU 在正半轴梯度为常数、负半轴为 0，可有效缓解深层网络中的梯度消失问题，且在隐藏层被广泛使用。

T15

选B：至少是 (0) 的二重特征值。因为

( $\mathrm{rank}(A)=1) 且 (A) 为 (3\times3 )$ ，零空间维数为 (3-1=2)，故 (0) 的几何重数为 2，代数重数至少为 2（可能为 3），只能保证“至少二重”。

T16

选B：TextRank。因为基于图排序的无监督方法，常用于从文本中抽取关键词。选C：LDA（隐狄利克雷分布）。因为主题模型可据词-主题分布度量词的重要性，用于关键词提取。选D：TF-IDF。因为基于词频与逆文档频率衡量词的重要性，是经典的关键词抽取方法。

T17

选A：训练数据的规模。因为更多高质量数据能降低方差、提升泛化。选B：正则化技术的应用。因为正则化抑制过拟合、改善泛化。选C：数据集的多样性。因为覆盖更广分布可减少分布外误差、提升泛化。选D：模型参数的数量。因为模型复杂度影响偏差-方差权衡，过大易过拟合、适当可提升表征。

T18

选A：是一个上三角为负无穷的矩阵。因为用上三角遮蔽未来位置的注意力分数，防止信息泄露。选B：防止解码器在训练时看到未来的信息。因为因果 Mask 仅允许关注当前及之前的 token。

T19

选A：$(\frac{\bar{X}_n-\mu}{\sigma/\sqrt{n}}\xrightarrow{d}N(0,1))$。因为由中心极限定理，样本均值标准化后渐近正态。

选B：$(\sqrt{n}(\bar{X}_n-\mu)/\sigma \xrightarrow{d} N(0,1))$。因为与 A 等价的标准化形式，同由中心极限定理成立。

T20

选A：ReLU。因为 ReLU 是目前最常用的激活函数之一，能有效缓解梯度消失且计算简单。选D：Sigmoid。因为虽然在深层网络中不常用，但在一些二分类场景中仍然常用。选B：Softmax。因为 Softmax 在多分类问题的输出层中非常常用。

一、单选题

1、设 $S = \text{span}\left\{\begin{bmatrix}2 \\ 2 \\ 3\end{bmatrix}, \begin{bmatrix}8 \\ 5 \\ 6\end{bmatrix}\right\}$ ， $T = \text{span}\left\{\begin{bmatrix}1 \\ 0 \\ -1\end{bmatrix}, \begin{bmatrix}2 \\ 2 \\ 2\end{bmatrix}\right\}$ ，则 $S \cap T$ 的维度可能是？ {{ select(1) }}

2、在智能交通系统中，车辆到达某个交叉口的时间可以视为泊松过程。如果平均每小时有120辆车通过，那么任意连续两辆车之间的时间间隔大于1分钟的概率是多少？ {{ select(2) }}

$e^{-1}$
$e^{-2}$
$e^{-4}$
$e^{-3}$

3、一个团队构建的RAG问答系统在测试中表现不佳。用户提问：“在B-21轰炸机的研发合同中，诺斯罗普·格鲁曼公司承诺的初始作战能力（IOC）目标年份是哪一年？”

系统未能找到答案，尽管知识库中的一份文档里明确写着：“...该项目的主要承包商是诺斯罗普·格鲁曼公司。根据合同条款，B-21轰炸机的初始作战能力目标设定在2027年。”

工程师排查后发现，文档切分时，恰好将这两句话分在了两个相邻但独立的文本块（chunk）中：

- Chunk A: "...该项目的主要承包商是诺斯罗普·格鲁曼公司。"

- Chunk B: "根据合同条款，B-21轰炸机的初始作战能力目标设定在2027年。"

基于以上信息，请判断导致这次检索失败的最直接、最根本的技术原因是什么？ {{ select(3) }}

使用的Embedding模型质量太差，无法理解“诺斯罗普·格鲁曼”和“B-21轰炸机”之间的关联。
文档切分策略不当，破坏了关键信息的上下文完整性。Chunk A虽包含了关键实体，但与“年份”无关；Chunk B虽然有答案，但其自身文本不足以和包含“B-21”及“诺斯罗普·格鲁曼”的查询建立强语义关联。
Tokenizer的词汇表不包含“诺斯罗普·格鲁曼”，导致该专有名词被错误地分割，影响了查询向量的生成。
向量搜索中的近似最近邻（ANN）算法精度过低，没能从海量向量中找到正确的Chunk B。

4、在基于人类反馈的强化学习（RLHF）流程中，奖励模型（Reward Model, RM）扮演着至关重要的角色。

它作为人类偏好的代理来指导语言模型的对齐。然而，过度优化奖励模型会导致一系列问题。

以下哪个现象不属于“奖励黑客”（Reward Hacking）或奖励模型过优化（Over-optimization）的典型表现？ {{ select(4) }}

模型为了获得高分，倾向于生成更长、更啰嗦的回答，因为奖励模型可能将“详细”错误地关联为“更好”。
模型在多轮对话中，其回答的风格和价值观逐渐偏离了初始SFT阶段的状态，表现出与人类普遍价值观不符的倾向。
模型为了显得“有帮助”，即使在不知道答案的情况下，也会编造听起来非常plausible（貌似可信）但不正确的信息。
模型在面对它在预训练阶段从未见过的，全新的领域知识问题时，无法给出准确的回答。

5、已知矩阵 $A = \begin{pmatrix} 1 & 0 & -1 \\ 2 & -1 & 1 \\ -1 & 2 & -5 \end{pmatrix}$ ，若下三角可逆矩阵 $P$ 和上三角可逆矩阵 $Q$ ，使得 $PAQ$ 为对角矩阵，则 $P, Q$ 可以分别取（） {{ select(5) }}

$\begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}, \quad \begin{pmatrix} 1 & 0 & 1 \\ 0 & 1 & 3 \\ 0 & 0 & 1 \end{pmatrix}$
$\begin{pmatrix} 1 & 0 & 0 \\ 2 & -1 & 0 \\ -3 & 2 & 1 \end{pmatrix}, \quad \begin{pmatrix} 1 & 0 & 1 \\ 0 & 1 & 3 \\ 0 & 0 & 1 \end{pmatrix}$
$\begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 1 & 3 & 1 \end{pmatrix}, \quad \begin{pmatrix} 1 & 2 & -3 \\ 0 & -1 & 2 \\ 0 & 0 & 1 \end{pmatrix}$
$\begin{pmatrix} 1 & 0 & 0 \\ 2 & -1 & 0 \\ -3 & 2 & 1 \end{pmatrix}, \quad \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}$

6、对不平衡二分类（正例1%，负例99%），下列哪种指标不会因「全部预测负例」而失效？ {{ select(6) }}

AUC-ROC
F1-score
Precision@Top-10%
Accuracy

7、用线性回归在50个样本上得到，残差平方和 $SSE$ (Sum of Squared Errors) = 18，总平方和 $SST$ = 50，求 $R^2$ {{ select(7) }}

0.64
0.62
0.68
0.66

8、关于多头注意力（Multi-Head Attention）机制的核心设计目的，以下哪项说法最准确？ {{ select(8) }}

通过共享各头的Query与Key权重矩阵，减少参数数量，从而提高计算效率并降低模型复杂度。
通过在多个头中重复相同的注意力计算，增强对长距离依赖的建模稳定性，并加快模型训练收敛速度。
通过将输入映射到多个不同特征子空间并分别计算注意力，使模型能够同时捕捉不同子空间的信息，提升表达能力。
其本质是引入多个前馈神经网络，对输入序列进行并行非线性变换，增强模型的拟合能力。

9、设二维随机向量 $(X,Y)$ 的概率密度函数为
$f(x,y) =\begin{cases}Ax^2, & 0<|x|<y<1 \\0, & 其它\end{cases}$则常数 $A$ 的取值 ( )，条件概率 $P(X \leq 0.25|Y=0.5)$ 的值为 ( ) {{ select(9) }}

6, 9/16
3, 9/16
3, 5/16
6, 5/16

10、某工厂两条生产线 A（合格率 90%，产量 60%）和 B（合格率 80%，产量 40%）。随机抽取一件不合格品，其来自 A 线的概率为？ {{ select(10) }}

11、循环神经网络（RNN）之所以特别适合处理文本、语音等序列数据，其最根本的结构性原因是？ {{ select(11) }}

它在网络的不同空间位置共享参数，类似于CNN。
它包含一个内部的循环，允许信息从输入的一个时间步持续传递到下一个时间步。
它将整个输入序列一次性全部输入到网络中进行并行计算。
它使用了比其他网络更复杂的激活函数。

12、在训练一个回归模型（如线性回归）来预测房价时，我们通常选择最小化均方误差（MSE）作为损失函数，这背后隐含了一个关于数据噪声的什么概率假设？

噪声服从泊松分布
噪声服从均匀分布
噪声服从指数分布
噪声服从高斯分布（正态分布）

13、用 Newton 迭代法求方程 $f(x)=x^2-3=0$ 的正根，初值 $x_0=2$ ，求第一次迭代后的近似值 $x_1$ ： {{ select(13) }}

1.25
1.75
2.25
2.5

14、在神经网络中，以下哪种激活函数可以缓解梯度消失问题，并且在隐藏层中被广泛使用？ {{ select(14) }}

Tanh
阶跃函数
Sigmoid
ReLU

15、已知 $A$ 是 $3$ 阶矩阵， $\mathrm{rank}(A)=1$ ，则 $A$ 的特征值是（） {{ select(15) }}

一重、二重、三重特征值都有可能
至少是 $0$ 的二重特征值
至多是 $0$ 的二重特征值
必然是 $0$ 的二重特征值

二、多选题

16、以下哪些方法适用于关键词提取任务 {{ multiselect(16) }}

最大熵模型
TextRank
LDA（隐狄利克雷分布）
TF-IDF

17、在构建大模型时，以下哪些因素会影响其泛化能力？ {{ multiselect(17) }}

训练数据的规模
正则化技术的应用
数据集的多样性
模型参数的数量
使用更大的学习率

18、关于 Causal Mask 的作用，正确的是 {{ multiselect(18) }}

是一个上三角为负无穷的矩阵
防止解码器在训练时看到未来的信息
仅用于文本生成任务
用于增强自注意力模型的局部性

19、设 $X_i$ 独立同分布， $\mathbb{E}[X_i]=\mu$ ， $\mathrm{Var}(X_i)=\sigma^2$ 。当 $n\to\infty$ 时，记 $\bar{X}_n=\frac1n \sum_{i=1}^{n}X_i$ ， $S_n=\sum_{i=1}^n X_i$ 。以下哪些是正确的渐近分布？ {{ multiselect(19) }}

$\frac{\bar{X}_n-\mu}{\sigma/\sqrt{n}}\xrightarrow{d}N(0,1)$
$\sqrt{n}(\bar{X}_n-\mu)/\sigma \xrightarrow{d} N(0,1)$
$\frac{S_n - n\mu}{\sigma} \xrightarrow{d} N(0,1)$
$X_n \xrightarrow{d} N(\mu,\sigma^2)$

20、激活函数在神经网络中起到非线性变换的作用，使模型能够拟合更加复杂的问题和场景。请问以下哪项是常用的激活函数？ {{ multiselect(20) }}

ReLU
Softmax
Linear
Sigmoid

#P3841. 第1题-选择题

T1

T2

T3

T4

T5

T6

T7

T8

T9

T10

T11

T12

T13

T14

T15

T16

T17

T18

T19

T20

一、单选题

二、多选题

Status

Development

Support

About