第1题-选择题

Difficulty: 5

所属公司 : 华为

时间 :2025年10月17日-AI方向

算法标签>

数学

T1

答案： B. $\lambda_2 \neq 0$
解析：
$A(\alpha_1 + \alpha_2) = \lambda_1 \alpha_1 + \lambda_2 \alpha_2$。
与 $\alpha_1$ 线性相关当且仅当 $\lambda_2 = 0$ ；
故线性无关当且仅当 $\lambda_2 \ne 0$ 。

T2

答案： D. $C_{10}^{2} \times 0.3^{2} \times 0.7^{8}$
解析：
二项分布概率公式： $P(X=k) = C_n^k p^k (1-p)^{n-k}$ 。
代入 $n=10$ , $p=0.3$ , $k=2$ 得：
$P(X=2) = C_{10}^{2} (0.3)^2 (0.7)^8$ 。

T3

答案： C. 仅使用解码器（Decoder-only）架构的模型（如 GPT 系列）在自回归语言建模任务上表现出色，其自注意力机制通常需要掩码（Masked）以防止信息泄露。
解析：
Decoder-only（如 GPT）做自回归建模并用因果掩码防信息泄露；
A、B、D 表述均不符。

T4

答案： D. 42
解析：
求“连续 2 次掷出 6”的期望轮数，套用“连续 $r$ 次成功”公式：
$E = \dfrac{1 - p^r}{p^r (1 - p)}$ 。
取 $p = \dfrac{1}{6}$ , $r = 2$ 得：
$E = \dfrac{1 - (1/6)^2}{(1/6)^2 (1 - 1/6)} = 42$ 。

T5

答案： B. $\dfrac{4}{3}$
解析：
牛顿迭代：
$x_1 = x_0 - \dfrac{f(x_0)}{f'(x_0)} = 1 - \dfrac{-1}{3} = \dfrac{4}{3}$。

T6

答案： A. 0.578
解析：
乘积的绝对误差限取上界：
$\Delta z \le |y|\Delta x + |x|\Delta y + \Delta x \Delta y$
$= 8 \times 0.04 + 1.25 \times 0.2 + 0.04 \times 0.2 = 0.578$。

T7

答案： C. 随机梯度下降（SGD）
解析：
SGD 为一阶随机优化，步长噪声大，更易停在较差点；
二阶/拟牛顿通常更稳定。

T8

答案： C
解析：
切分把实体与答案拆到不同 chunk，破坏了查询所需的最小语义单元，导致检索既匹配不到同时含“B-21/诺格”的片段，也难以将“2027 年”与查询强关联。其他选项非此次失败的直接主因。

T9

答案： B. 多重共线性会导致特征之间高度线性相关，虽然模型在训练集上的预测精度可能仍然较高，但会显著增大回归系数的方差。
解析：
多重共线性使系数方差膨胀、模型不稳定；
A（L2 误写 L1）、C（高 $R^2$ 不等于好泛化）、D（OLS 最小化平方和）均不对。

T10

答案： D. $\dfrac{1}{3}$
解析：
在“至少有一个男孩”的条件下，样本空间为 $\{BB, BG, GB\}$ （等概率），其中两男孩仅占 1 个情形，因此概率为 $\dfrac{1}{3}$ 。

T11

答案：ReLU

解析：

Sigmoid 和 Tanh 在输入较大或较小时梯度接近 0，容易导致 梯度消失；
阶跃函数不可导，无法用于反向传播；
ReLU 的正区间梯度为常数 1，不会出现梯度消失问题，因此非常适合在深层网络中使用。

T12

答案： C. 行秩 = 列秩
解析：
任何矩阵的行秩恒等于列秩，二者共同等于矩阵的秩；这由秩的基本定理（如经初等变换化到行最简形）可得。

T13

答案： B. LayerNorm 在计算归一化统计量（均值和方差）时，独立于批次中的其他样本，因此对不同长度的输入序列和变化的批次大小（Batch Size）具有更好的鲁棒性。
解析：
LayerNorm 对每个样本做归一化，不依赖批大小与序列长度，适合 NLP 可变长/小批量场景。

T14

答案： B. 0.25
解析：
用贝叶斯：
$P(\text{30–40} \mid \text{男}) = \dfrac{0.4 \times 0.25}{0.4 \times 0.25 + 0.4 \times 0.75} = 0.25$。
因两年龄组的男性比例同为 0.4，条件在“男”上不改变年龄分布，后验等于先验。

T15

答案： B. 显著降低查询延迟，同时仅轻微牺牲召回率，实现效率与效果的平衡。
解析：
HNSW 属 ANN 检索，查询低延迟且只轻微牺牲召回率，实现效率/效果平衡。

T16

答案： A、B、C、D
解析：
L2 正则化、减少模型复杂度与提前停止都能限制模型对训练数据的过拟合；扩充与多样化训练样本可提升泛化能力，从数据层面缓解过拟合。

T17

答案： B、C
解析：
相似度常用嵌入余弦相似度；增加同义句对可提升度量质量；A、D 不当。

T18

答案： A、B、C、D
解析：
基必须线性无关且张成空间，零向量会导致线性相关；
$\mathbb{R}^n$ 的维度为 $n$ ；
任意矩阵的行秩等于列秩，行/列向量张成空间的维度相等。

T19

答案： B、C、D
解析：
反向传播需先前向、用链式法则算梯度并自输出层向前逐层传递；A 错误。

T20

答案： B、C
解析：
线性回归模型可通过最小二乘法进行参数估计，并假设自变量和因变量之间存在线性关系。

一、单选题

1、设 $\lambda_1,\lambda_2$ 是矩阵 A 的两个不同的特征值，对应的特征向量分别为 $\alpha_1,\alpha_2$ ，则 $\alpha_1, A(\alpha_1 + \alpha_2)$ 线性无关的充分必要条件是 {{ select(1) }}

$\lambda_1 \neq 0$
$\lambda_2 \neq 0$
$\lambda_1 = 0$
$\lambda_2 = 0$

2、设 $X \sim B(n=10, p=0.3)$ ，则 $P(X=2)$ 的值为 {{ select(2) }}

$C_{10}^{2} \times 0.7^{2} \times 0.3^{8}$
$e^{-3} \times \dfrac{3^{2}}{2!}$
$0.3 \times 0.7$
$C_{10}^{2} \times 0.3^{2} \times 0.7^{8}$

3、在现代大语言模型（LLM）的架构设计中，关于编码器（Encoder）和解码器（Decoder）的使用，以下哪项描述是最准确的？ {{ select(3) }}

所有大型语言模型，如 BERT、GPT 系列和 T5，都采用标准的编码器 - 解码器（Encoder-Decoder）架构。
仅使用编码器（Encoder-only）架构的模型（如 BERT）能够进行高效的自回归文本生成，因为它可以并行处理整个输入序列。
仅使用解码器（Decoder-only）架构的模型（如 GPT 系列）在自回归语言建模任务上表现出色，其自注意力机制通常需要掩码（Masked）以防止信息泄露。
编码器 - 解码器（Encoder-Decoder）架构（如 T5）中的解码器，在训练和推理时都只关注编码器的输出，并不需要关注已经生成的前文。

4、一个均匀6面骰子，平均投掷多少次能投出连续的两个6点 {{ select(4) }}

5、用牛顿迭代法求 $f(x) = x^3 - 2$ 的根，如果初始值为 $x_0 = 1$ ，一步迭代值 $x_1$ 应为： {{ select(5) }}

$\sqrt[3]{2}$
$\frac{4}{3}$
$\frac{3}{2}$
$\frac{2}{3}$

6、已知 $x = 1.250 \pm 0.040,\ y = 8.000 \pm 0.200$ ，计算 $z = xy$ 的绝对误差限。 {{ select(6) }}

0.578
0.562
0.560
0.570

7、在逻辑回归中，若目标函数为 $J(\theta) = -\frac{1}{m}\sum_{i=1}^m \left[y^{(i)}\log(h_\theta(x^{(i)})) + (1 - y^{(i)})\log(1 - h_\theta(x^{(i)}))\right]$，以下哪种优化方法最可能陷入局部最优？ {{ select(7) }}

拟牛顿法（BFGS）
高斯 - 牛顿法
随机梯度下降（SGD）
牛顿法

8、一个团队构建的RAG问答系统在测试中表现不佳。用户提问：“在B-21轰炸机的研发合同中，诺斯罗普·格鲁曼公司承接的初始作战能力（IOC）目标年份是哪一年？” 系统未能找到答案，尽管知识库中的一份文档里明确写着：“……该项目的主要承包商是诺斯罗普·格鲁曼公司。根据合同条款，B-21轰炸机的初始作战能力目标设定在2027年。” 工程师排查后发现，文档切分时，恰好将这两句话分在了两个相邻但独立的文本块（chunk）中：

• Chunk A: “……该项目的主要承包商是诺斯罗普·格鲁曼公司。” • Chunk B: “根据合同条款，B-21轰炸机的初始作战能力目标设定在2027年。”

基于以上信息，请判断导致这次检索失败的最直接、最根本的技术原因是什么？

Tokenizer的词汇表不包含“诺斯罗普·格鲁曼”，导致该专有名词被错误地分割，影响了查询向量的生成。
使用的Embedding模型质量太差，无法理解“诺斯罗普·格鲁曼”和“B-21轰炸机”之间的关联。
文档切分策略不当，破坏了关键信息的上下文完整性。Chunk A虽然包含了关键实体，但与“年份”无关；Chunk B虽然含答案，但其自身文本不足以和包含“B-21”及“诺斯罗普·格鲁曼”的查询建立强语义关联。
向量搜索中的近似最近邻（ANN）算法精度过低，没能从海量向量中找到正确的Chunk B。

9、关于线性回归算法的下列说法中，哪一项是正确的？ {{ select(9) }}

岭回归（Ridge Regression）在损失函数中引入 L1 正则项，可将部分系数压缩至零，从而实现特征选择。
多重共线性会导致特征之间高度线性相关，虽然模型在训练集上的预测精度可能仍然较高，但会显著增大回归系数的方差。
线性回归的 $R^2$ 值越高，表明模型对新样本的预测能力越强；因此，应尽可能通过增加特征来提升 $R^2$ ，从而提高模型泛化性能。
普通最小二乘法（OLS）通过最小化残差的绝对值之和来估计参数，该问题存在闭式解，可通过矩阵运算直接求解。

10、已知隔壁老王夫妇生了两个孩子，且这两个孩子不是同时双胞胎。有一天，邻居听到隔壁老王夸一个男孩活泼可爱，确认了隔壁老王夫妇至少有一个男孩。请问，老王两个孩子都是男孩的概率是多少？ {{ select(10) }}

2/5
7/12
1/2
1/3

11、在神经网络中，以下哪种激活函数可以缓解梯度消失问题，并且在隐藏层中被广泛使用？ {{ select(11) }}

Sigmoid
Tanh
ReLU
阶跃函数

12、矩阵的秩是描述矩阵非常关键的性质，其描述的是一组向量中线性无关基的个数的最大值。把矩阵的行或列看成一个向量，可以定义行秩和列秩。行秩和列秩的大小关系正确的是：

行秩 < 列秩
其他三种都有可能
行秩 = 列秩
行秩 > 列秩

13、在 Transformer 的架构中，几乎每个子层（如自注意力层、前馈网络层）的输出都会经过一个 Layer Normalization（层归一化）操作，在自然语言处理任务中，相比于在计算机视觉中常用的 Batch Normalization（批归一化），选择 LayerNorm 最关键的原因是？ {{ select(13) }}

LayerNorm 能够更好地处理词汇表外的（Out-of-Vocabulary）单词。
LayerNorm 在计算归一化统计量（均值和方差）时，独立于批次中的其他样本，因此对不同长度的输入序列和变化的批次大小（Batch Size）具有更好的鲁棒性。
LayerNorm 的计算量远小于 Batch Normalization，可以显著提升模型的训练速度。
Batch Normalization 只能用于卷积层，而 LayerNorm 可以用于全连接层。

14、已知从人群中随机抽取一名男性，该男性年龄在30-40岁之间的概率为0.25，在其他年龄段的概率为0.75，且人群中30-40岁年龄段和其他年龄段中男性的比例都为0.4。若用贝叶斯定理估计该男性属于30-40岁年龄段的后验概率，结果为： {{ select(14) }}

0.4
0.25
0.1
0.5

15、关于检索增强生成技术（Retrieval-Augmented Generation, RAG）中，将 HNSW（Hierarchical Navigable Small World）等近似最近邻（ANN）向量索引用于查询阶段的主要优势是什么？ {{ select(15) }}

在检索过程中自动优化嵌入表示，增强查询与文档的语义对齐能力。
显著降低查询延迟，同时仅轻微牺牲召回率，实现效率与效果的平衡
利用分层图结构加速搜索路径收敛，提升高维空间中相似性排序的稳定性。
结合向量二值化技术，将存储开销压缩至 1-bit，极大节省内存占用。

二、多选题

16、下列哪些方法可用于解决过拟合 {{ multiselect(16) }}

L2正则化
增加训练样本多样性
减少模型复杂度
提前停止

17、关于大模型的文本语义相似度计算，下列说法正确的是 {{ multiselect(17) }}

所有大模型的嵌入向量维度必须统一才能计算相似度
可通过计算两文本的嵌入向量（Embedding）余弦相似度实现
微调时增加同义句对数据可提升相似度计算精度
模型对语义相似但表达方式差异大的文本识别能力有限

18、关于向量空间的基和维度，以下哪些说法正确？ {{ multiselect(18) }}

零向量不能包含在任何基中
$R^n$ 空间的维度为 $n$
矩阵列向量张成空间的维度等于其行向量张成空间的维度
一组向量是基当且仅当其线性无关且张成整个空间

19、在神经网络的反向传播过程中，以下哪些描述是正确的？ {{ multiselect(19) }}

反向传播直接修改网络的参数，无需梯度下降等优化算法
反向传播需要先进行一次完整的前向传播以得到输出结果
反向传播通过链式法则计算损失函数对各层参数的梯度
在反向传播中，梯度会逐层从输出层向输入层传播

20、数据之间的关系以及数据服从的分布形态影响了模型建模的效果，下列关于线性回归的描述中，哪些是正确的？ {{ multiselect(20) }}

线性回归模型中，误差项（残差）必须服从正态分布
线性回归模型可以通过最小二乘法进行参数估计
线性回归模型假设自变量和因变量之间存在线性关系
线性回归模型的目标是最大化预测值与真实值之间的误差

#P4237. 第1题-选择题

T1

T2

T3

T4

T5

T6

T7

T8

T9

T10

T11

T12

T13

T14

T15

T16

T17

T18

T19

T20

一、单选题

二、多选题

Status

Development

Support

About