#P3841. 第1题-选择题
-
Tried: 438
Accepted: 28
Difficulty: 5
所属公司 :
华为
时间 :2025年9月28日-AI方向
-
算法标签>选择题
第1题-选择题
T1
D. 3
答案:
A. 1
解析:
dimS=dimT=2⊂R3,由公式 dim(S∩T)≥dimS+dimT−3=1;若 dim(S∩T)=2 则 S=T(但两组基向量互不包含,故不等),因此交维为 1。
T2
答案:
B. e−2
解析:
到达服从泊松过程,间隔时间 T∼Exp(λ)。给定平均每小时120辆,λ=2/min,故 P(T>1)=e−λ⋅1=e−2。
T3
答案:
B.文档切分策略不当,破坏了关键信息的上下文完整性。Chunk A虽包含了关键实体,但与“年份”无关;Chunk B虽然有答案,但其自身文本不足以和包含“B-21”及“诺斯罗普·格鲁曼”的查询建立强语义关联。
解析:
不当的切分把实体与答案分离,导致检索时既找不到同时含“B-21/诺格”的片段,又无法将“2027年”与查询强关联;这是最直接破坏语义完整性的原因,而非模型、分词或ANN精度问题。
T4
答案:
D. 模型在面对它在预训练阶段从未见过的,全新的领域知识问题时,无法给出准确的回答。
解析:
奖励黑客是过度优化奖励模型导致与人类偏好偏离的行为,表现为啰嗦、编造或价值观偏移;而D属于模型在未见领域知识下的泛化不足,不是奖励黑客。
T5
答案:
B.
$\begin{pmatrix} 1 & 0 & 0 \\ 2 & -1 & 0 \\ -3 & 2 & 1 \end{pmatrix}$,
$\quad \begin{pmatrix} 1 & 0 & 1 \\ 0 & 1 & 3 \\ 0 & 0 & 1 \end{pmatrix}$
解析:
通过上三角列变换 Q 先将 A 的第一列、第一行化为除对角元外为零;再用下三角行变换 P 把剩余子块清零,可得到对角形,因此该组 P,Q 可使 PAQ 为对角矩阵。
T6
答案:
A. AUC-ROC
解析: 全部预测负例时,Accuracy、F1-score、Precision@Top-10%均失效,而AUC-ROC仍可通过排序区分能力进行评价。
T7
答案:
A. 0.64
解析:
$R^2 = 1 - \dfrac{SSE}{SST} = 1 - \dfrac{18}{50} = 1 - 0.36 = 0.64$。
所以正确答案为 0.64。
T8
答案:C
解析: 多头注意力将输入投影到多个子空间,分别计算注意力以捕捉不同类型的依赖与特征,从而提升表达能力。A、B、D均偏离其核心目的:既非为共享降参、也非重复同算子或等同于多层前馈网络。
T9
答案:
A. 6,9/16
解析:
归一化:
$\int_0^1\!\int_{-y}^{y}A x^2\,dx\,dy=A\cdot\frac{1}{6}=1\Rightarrow A=6$。
边缘密度
fY(y)=∫−yy6x2dx=4y3,故 fX∣Y(x∣0.5)=0.56x2=12x2(∣x∣<0.5);
于是
$P(X\le0.25|Y=0.5)=\int_{-0.5}^{0.25}12x^2dx=4[x^3]_{-0.5}^{0.25}=9/16$。
T10
答案:
A. 3/7
解析:
不合格来自 A 的概率 0.6×0.1=0.06,
来自 B 的概率 0.4×0.2=0.08,
总不合格率 0.06+0.08=0.14。故
P(A∣不合格)=0.140.06=73。
T11
选B:它包含一个内部的循环,允许信息从输入的一个时间步持续传递到下一个时间步。因为 RNN 通过隐藏状态在时间维度上传递信息,天然适合处理序列依赖。
T12
选D:噪声服从高斯分布(正态分布)。因为最小化 MSE 等价于在高斯噪声假设下的极大似然估计
T13
选B:1.75。 因为牛顿迭代
(x_{k+1}=x_k-\frac{f(x_k)}{f'(x_k)}),取 (f(x)=x^2-3)、(x_0=2),
得
(x_1=2-\frac{4-3}{4}=1.75)。
T14
选D:ReLU。因为 ReLU 在正半轴梯度为常数、负半轴为 0,可有效缓解深层网络中的梯度消失问题,且在隐藏层被广泛使用。
T15
选B:至少是 (0) 的二重特征值。因为
(rank(A)=1)且(A)为(3×3),零空间维数为 (3-1=2),故 (0) 的几何重数为 2,代数重数至少为 2(可能为 3),只能保证“至少二重”。
T16
选B:TextRank。因为基于图排序的无监督方法,常用于从文本中抽取关键词。 选C:LDA(隐狄利克雷分布)。因为主题模型可据词-主题分布度量词的重要性,用于关键词提取。 选D:TF-IDF。因为基于词频与逆文档频率衡量词的重要性,是经典的关键词抽取方法。
T17
选A:训练数据的规模。因为更多高质量数据能降低方差、提升泛化。 选B:正则化技术的应用。因为正则化抑制过拟合、改善泛化。 选C:数据集的多样性。因为覆盖更广分布可减少分布外误差、提升泛化。 选D:模型参数的数量。因为模型复杂度影响偏差-方差权衡,过大易过拟合、适当可提升表征。
T18
选A:是一个上三角为负无穷的矩阵。因为用上三角遮蔽未来位置的注意力分数,防止信息泄露。 选B:防止解码器在训练时看到未来的信息。因为因果 Mask 仅允许关注当前及之前的 token。
T19
选A:$(\frac{\bar{X}_n-\mu}{\sigma/\sqrt{n}}\xrightarrow{d}N(0,1))$。因为由中心极限定理,样本均值标准化后渐近正态。
选B:$(\sqrt{n}(\bar{X}_n-\mu)/\sigma \xrightarrow{d} N(0,1))$。因为与 A 等价的标准化形式,同由中心极限定理成立。
T20
选A:ReLU。因为 ReLU 是目前最常用的激活函数之一,能有效缓解梯度消失且计算简单。 选D:Sigmoid。因为虽然在深层网络中不常用,但在一些二分类场景中仍然常用。 选B:Softmax。因为 Softmax 在多分类问题的输出层中非常常用。
一、单选题
1、设 $S = \text{span}\left\{\begin{bmatrix}2 \\ 2 \\ 3\end{bmatrix}, \begin{bmatrix}8 \\ 5 \\ 6\end{bmatrix}\right\}$ , $T = \text{span}\left\{\begin{bmatrix}1 \\ 0 \\ -1\end{bmatrix}, \begin{bmatrix}2 \\ 2 \\ 2\end{bmatrix}\right\}$ , 则 S∩T 的维度可能是? {{ select(1) }}
- 1
- 0
- 2
- 3
2、在智能交通系统中,车辆到达某个交叉口的时间可以视为泊松过程。 如果平均每小时有120辆车通过,那么任意连续两辆车之间的时间间隔大于1分钟的概率是多少? {{ select(2) }}
- e−1
- e−2
- e−4
- e−3
3、一个团队构建的RAG问答系统在测试中表现不佳。用户提问:“在B-21轰炸机的研发合同中,诺斯罗普·格鲁曼公司承诺的初始作战能力(IOC)目标年份是哪一年?”
系统未能找到答案,尽管知识库中的一份文档里明确写着:“...该项目的主要承包商是诺斯罗普·格鲁曼公司。根据合同条款,B-21轰炸机的初始作战能力目标设定在2027年。”
工程师排查后发现,文档切分时,恰好将这两句话分在了两个相邻但独立的文本块(chunk)中:
- Chunk A: "...该项目的主要承包商是诺斯罗普·格鲁曼公司。"
- Chunk B: "根据合同条款,B-21轰炸机的初始作战能力目标设定在2027年。"
基于以上信息,请判断导致这次检索失败的最直接、最根本的技术原因是什么? {{ select(3) }}
-
使用的Embedding模型质量太差,无法理解“诺斯罗普·格鲁曼”和“B-21轰炸机”之间的关联。
-
文档切分策略不当,破坏了关键信息的上下文完整性。Chunk A虽包含了关键实体,但与“年份”无关;Chunk B虽然有答案,但其自身文本不足以和包含“B-21”及“诺斯罗普·格鲁曼”的查询建立强语义关联。
-
Tokenizer的词汇表不包含“诺斯罗普·格鲁曼”,导致该专有名词被错误地分割,影响了查询向量的生成。
-
向量搜索中的近似最近邻(ANN)算法精度过低,没能从海量向量中找到正确的Chunk B。
4、在基于人类反馈的强化学习(RLHF)流程中,奖励模型(Reward Model, RM)扮演着至关重要的角色。
它作为人类偏好的代理来指导语言模型的对齐。然而,过度优化奖励模型会导致一系列问题。
以下哪个现象不属于“奖励黑客”(Reward Hacking)或奖励模型过优化(Over-optimization)的典型表现? {{ select(4) }}
- 模型为了获得高分,倾向于生成更长、更啰嗦的回答,因为奖励模型可能将“详细”错误地关联为“更好”。
- 模型在多轮对话中,其回答的风格和价值观逐渐偏离了初始SFT阶段的状态,表现出与人类普遍价值观不符的倾向。
- 模型为了显得“有帮助”,即使在不知道答案的情况下,也会编造听起来非常plausible(貌似可信)但不正确的信息。
- 模型在面对它在预训练阶段从未见过的,全新的领域知识问题时,无法给出准确的回答。
5、已知矩阵 $A = \begin{pmatrix} 1 & 0 & -1 \\ 2 & -1 & 1 \\ -1 & 2 & -5 \end{pmatrix}$ , 若下三角可逆矩阵 P 和上三角可逆矩阵 Q ,使得 PAQ 为对角矩阵,则 P,Q 可以分别取( ) {{ select(5) }}
-
$\begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}, \quad \begin{pmatrix} 1 & 0 & 1 \\ 0 & 1 & 3 \\ 0 & 0 & 1 \end{pmatrix}$
-
$\begin{pmatrix} 1 & 0 & 0 \\ 2 & -1 & 0 \\ -3 & 2 & 1 \end{pmatrix}, \quad \begin{pmatrix} 1 & 0 & 1 \\ 0 & 1 & 3 \\ 0 & 0 & 1 \end{pmatrix}$
-
$\begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 1 & 3 & 1 \end{pmatrix}, \quad \begin{pmatrix} 1 & 2 & -3 \\ 0 & -1 & 2 \\ 0 & 0 & 1 \end{pmatrix}$
-
$\begin{pmatrix} 1 & 0 & 0 \\ 2 & -1 & 0 \\ -3 & 2 & 1 \end{pmatrix}, \quad \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}$
6、对不平衡二分类(正例1%,负例99%),下列哪种指标不会因「全部预测负例」而失效? {{ select(6) }}
- AUC-ROC
- F1-score
- Precision@Top-10%
- Accuracy
7、用线性回归在50个样本上得到,残差平方和 SSE(Sum of Squared Errors) = 18,总平方和 SST = 50,求 R2 {{ select(7) }}
- 0.64
- 0.62
- 0.68
- 0.66
8、关于多头注意力(Multi-Head Attention)机制的核心设计目的,以下哪项说法最准确? {{ select(8) }}
-
通过共享各头的Query与Key权重矩阵,减少参数数量,从而提高计算效率并降低模型复杂度。
-
通过在多个头中重复相同的注意力计算,增强对长距离依赖的建模稳定性,并加快模型训练收敛速度。
-
通过将输入映射到多个不同特征子空间并分别计算注意力,使模型能够同时捕捉不同子空间的信息,提升表达能力。
-
其本质是引入多个前馈神经网络,对输入序列进行并行非线性变换,增强模型的拟合能力。
9、设二维随机向量 (X,Y) 的概率密度函数为
$f(x,y) =\begin{cases}Ax^2, & 0<|x|<y<1 \\0, & 其它\end{cases}$则常数 A 的取值 ( ),条件概率 P(X≤0.25∣Y=0.5) 的值为 ( )
{{ select(9) }}
- 6, 9/16
- 3, 9/16
- 3, 5/16
- 6, 5/16
10、某工厂两条生产线 A(合格率 90%,产量 60%)和 B(合格率 80%,产量 40%)。随机抽取一件不合格品,其来自 A 线的概率为? {{ select(10) }}
- 3/7
- 6/7
- 4/7
- 5/7
11、循环神经网络(RNN)之所以特别适合处理文本、语音等序列数据,其最根本的结构性原因是? {{ select(11) }}
- 它在网络的不同空间位置共享参数,类似于CNN。
- 它包含一个内部的循环,允许信息从输入的一个时间步持续传递到下一个时间步。
- 它将整个输入序列一次性全部输入到网络中进行并行计算。
- 它使用了比其他网络更复杂的激活函数。
12、在训练一个回归模型(如线性回归)来预测房价时,我们通常选择最小化均方误差(MSE)作为损失函数,这背后隐含了一个关于数据噪声的什么概率假设?
{{ select(12) }}
- 噪声服从泊松分布
- 噪声服从均匀分布
- 噪声服从指数分布
- 噪声服从高斯分布(正态分布)
13、用 Newton 迭代法求方程 f(x)=x2−3=0 的正根,初值 x0=2,求第一次迭代后的近似值 x1: {{ select(13) }}
- 1.25
- 1.75
- 2.25
- 2.5
14、在神经网络中,以下哪种激活函数可以缓解梯度消失问题,并且在隐藏层中被广泛使用? {{ select(14) }}
- Tanh
- 阶跃函数
- Sigmoid
- ReLU
15、已知 A 是 3 阶矩阵,rank(A)=1,则 A 的特征值是() {{ select(15) }}
- 一重、二重、三重特征值都有可能
- 至少是 0 的二重特征值
- 至多是 0 的二重特征值
- 必然是 0 的二重特征值
二、多选题
16、以下哪些方法适用于关键词提取任务 {{ multiselect(16) }}
- 最大熵模型
- TextRank
- LDA(隐狄利克雷分布)
- TF-IDF
17、在构建大模型时,以下哪些因素会影响其泛化能力? {{ multiselect(17) }}
- 训练数据的规模
- 正则化技术的应用
- 数据集的多样性
- 模型参数的数量
- 使用更大的学习率
18、关于 Causal Mask 的作用,正确的是 {{ multiselect(18) }}
- 是一个上三角为负无穷的矩阵
- 防止解码器在训练时看到未来的信息
- 仅用于文本生成任务
- 用于增强自注意力模型的局部性
19、设 Xi 独立同分布,E[Xi]=μ,Var(Xi)=σ2。当 n→∞ 时,记 Xˉn=n1∑i=1nXi,Sn=∑i=1nXi。以下哪些是正确的渐近分布? {{ multiselect(19) }}
- $\frac{\bar{X}_n-\mu}{\sigma/\sqrt{n}}\xrightarrow{d}N(0,1)$
- $\sqrt{n}(\bar{X}_n-\mu)/\sigma \xrightarrow{d} N(0,1)$
- σSn−nμdN(0,1)
- XndN(μ,σ2)
20、激活函数在神经网络中起到非线性变换的作用,使模型能够拟合更加复杂的问题和场景。请问以下哪项是常用的激活函数? {{ multiselect(20) }}
- ReLU
- Softmax
- Linear
- Sigmoid