第1题-选择题

Difficulty: 5

所属公司 : 华为

时间 :2025年9月12日-AI岗

算法标签>

机器学习算法

1. 解析： A 错：随机森林在每个分裂只抽取部分特征寻找最优划分，而不是使用全部特征。 B 错：随机森林中的树通常“长到纯叶”，这是低偏差高方差的模型设计（说成“高偏差”不对）。 C 对：通过构建相关性较低的多棵树并对结果投票/平均，能有效降低方差、缓解过拟合。 D 错：随机性不仅来自自助采样，还来自每个分裂处的随机特征子集。答案：C

2. 解析： A 错：反向传播算法不负责增加网络深度，它是用于训练已有网络的。 B 错：参数初始化通常使用随机方法，但这不是反向传播的主要作用。 C 错：计算损失函数的平均值属于前向传播和损失计算阶段，而不是反向传播的主要功能。 D 对：反向传播的核心是通过链式法则计算损失函数对各层参数的梯度，并利用这些梯度来更新网络参数。答案：D

3. 解析：掷一次公平的六面骰子，可能结果为 1,2,3,4,5,6，各自概率为 1/6。期望值 = (1+2+3+4+5+6) / 6 = 21 / 6 = 3.5。答案：D. 3.5

4. 解析：

取固定点迭代 $x=g(x)$ 。格式 1： $g_1(x)=\sqrt[3]{2x+5}$ 。 $g_1'(x)=\dfrac{2}{3(2x+5)^{2/3}}$ ，在根 $x^*\approx2.0946$ 处 $|g_1'(x^*)|\approx 0.152<1$ ，故在 $x^*$ 附近局部收敛（线性收敛）。
格式 2： $g_2(x)=\dfrac{x^3}{2}$ 。其固定点满足 $x=\dfrac{x^3}{2}\Rightarrow x\in\{0,\pm\sqrt2\}$ ，并不包含所求根 $x^*$ 。从 $x^*$ 附近出发不会收敛到 $x^*$ ，且 $|g_2'(x)|=\dfrac{3}{2}x^2$ 在 $x^*$ 处约为 $6.58>1$ ，呈发散趋势。

答案：B

5. 解析：对正定矩阵 $A=\begin{bmatrix}2&1\\1&2\end{bmatrix}$ 做 Cholesky 分解 $A=LL^{\mathsf T}$ 。 $l_{11}=\sqrt{a_{11}}=\sqrt{2}$ ； $l_{21}=a_{21}/l_{11}=1/\sqrt{2}=\sqrt{2}/2$ ； $l_{22}=\sqrt{a_{22}-l_{21}^2}=\sqrt{2-\tfrac12}=\sqrt{\tfrac32}=\sqrt{6}/2$。因此 $L=\begin{bmatrix}\sqrt{2}&0\\[2pt]\sqrt{2}/2&\sqrt{6}/2\end{bmatrix}$。

答案：C

6. 解析：题目问 关于大语言模型 (LLM) 推理过程，哪个描述是错误的。

A. 错：推理过程并不总是使用贪婪搜索（Greedy Search），还可以使用采样、Beam Search、Top-k/Top-p 等策略。因此该说法错误。 B. 对：推理与训练的核心区别是推理只进行前向传播，不涉及反向传播和权重更新。 C. 对：推理过程本质上是不断进行前向计算（Forward Pass），逐步生成新的 token。 D. 对：KV Cache（键值缓存）是推理优化的重要技术，可以缓存先前的 Key/Value，避免重复计算，从而加速生成。

答案：A

7. 解析：矩阵 $A$ 的条件数（Condition Number）在给定范数下定义为：

\kappa(A) = \|A\|\cdot\|A^{-1}\|

常用的是 2-范数（谱范数）。因此：

\kappa(A) = \|A\|_2 \cdot \|A^{-1}\|_2

对比选项：

A 错：给出的表达式是行列式相关，不是条件数定义。
B 错： $\|A\|/\|A\|$ 恒为1，没有意义。
C 对：与定义一致。
D 错：条件数是乘积而不是加和。

答案：C

8. 解析：误差为 $\{0,\,0.2,\,-0.2\}$ ，平方为 $\{0,\,0.04,\,0.04\}$ 。均方根误差 $=\sqrt{\frac{0+0.04+0.04}{3}}=\sqrt{0.026666\ldots}\approx 0.163$。

答案：A

9. 解析：题目考察 Transformer 架构下 注意力机制的信息可见性。逐项分析：

A. 对。Decoder-only（如 GPT）中，自注意力必须带掩码 (mask)，保证每个 token 只能看到自己及其左侧 token，这就是因果 (causal) 注意力。 B. 错。在 Encoder-only（如 BERT）中，注意力是双向的，每个 token 可以同时看到左侧和右侧 token，而不是只能看到左侧。 C. 错。Encoder-only 的双向注意力能建模跨长距离依赖，并非仅限相邻 token。 D. 错。Encoder-Decoder 结构中，Decoder 的自注意力是单向的（因果），而跨注意力 (cross-attention) 是双向的，可以访问编码器所有位置。

因此正确的是 A。

答案：A

10. 解析：题目：伯努利分布 $Bern(p)$ ，有 $n$ 个独立样本，成功次数为 $k$ ，求参数 $p$ 的最大似然估计。

伯努利分布似然函数：
$L(p) = p^k (1-p)^{n-k}$
对数似然：
$\ell(p) = k \ln p + (n-k)\ln(1-p)$
求导并令其为零：
$$\frac{d\ell}{dp} = \frac{k}{p} - \frac{n-k}{1-p} = 0 $$
解得：
$\hat{p} = \frac{k}{n}$

答案：C. $\tfrac{k}{n}$

11. 解析： Batch Normalization 的主要作用是：

缓解内部协变量偏移 (Internal Covariate Shift)，使训练更稳定。
加快训练速度，对学习率和权重初始化不那么敏感。
在一定程度上起到正则化效果，但主要不是通过增加噪声。

逐项分析： A. 对：BN 可以加速训练并减小对初始权重的敏感度。 B. 不完全正确：虽然 BN 有一定正则化效果，但它的主要作用不是依赖引入噪声。 C. 错：BN 并非直接提高测试集精度，而是间接改善训练过程。 D. 错：BN 不会增加模型参数数量以提升表达能力。

答案：A

12. 解析： “PD 分离”指在大型语言模型推理中，将 预填充阶段 (Prefill) 与 解码阶段 (Decode) 分离的优化策略。

Prefill 阶段：对完整输入提示进行一次性前向计算，生成初始的 KV 缓存。
Decode 阶段：逐步生成新的 token，每次只需利用 KV 缓存和上一个 token，就能避免重复计算历史序列。

逐项分析： A. 偏差：Prefill 阶段不仅仅是处理“序列的初始部分”，而是处理完整输入提示。 B. 正确：Prefill 阶段计算完整输入提示，生成 KV 缓存，Decode 阶段利用缓存逐步生成，不必每次重算历史。 C. 错：Prefill 阶段不是为每个 token 单独分配缓存，而是一次性完成。 D. 错：Prefill 阶段不会“每个 token 一次性生成”，而是生成缓存，Decode 阶段才逐步生成 token。

答案：B

13. 解析：路径为“信用评分≥650 且年收入<$50,000”对应叶节点（80样本：46按时、34违约），违约率 $34/80=42.5\%>30\%$ ，按规则应拒绝。

答案：D

14. 解析：问题问的是“大模型微调时，哪种方法最能保留预训练模型的通用性”。

A. 仅微调位置编码 —— 改动太小，难以适配新任务。
B. 全量微调 —— 改动所有参数，容易丧失预训练时获得的通用性（灾难性遗忘）。
C. 使用 LoRA —— 通过增加低秩矩阵实现高效参数化微调，大部分预训练参数保持冻结，能较好保留模型的通用性。
D. 仅微调输出层 —— 相当于线性探测，适应性有限。

因此最优选择是 C. 使用 LoRA。

答案：C

15. 解析：旋转位置编码（RoPE, Rotary Position Embedding）的核心思想是：

将绝对位置信息通过旋转矩阵作用在 Query 和 Key 上，
从而自然地在注意力分数的点积中引入相对位置信息，
使模型对长距离依赖和外推性更强。

逐项分析： A. 错：RoPE 并不是为每个位置学习一个独立向量，而是用确定的旋转操作。 B. 错：这是 T5 中的 bias 相对位置编码方式，不是 RoPE。 C. 对：RoPE 的本质是矩阵旋转，将绝对位置转化为 Query/Key 中的相对位置信息。 D. 错：RoPE 的旋转作用在 Query/Key 上，而不是 Value。

答案：C

16. 解析：

❌ A.三次样条插值并不比多项式插值复杂很多，适合实际工程
✅ B.三次样条插值能减少数据点不均匀时的龙格现象，更平滑
❌ C.高次多项式精度不一定比三次样条好，可能震荡更严重
✅ D.三次样条插值保证二阶导数连续，避免曲率突变

答案：B、D

17. 解析：题目问“解线性方程组时，迭代方法的收敛性主要受哪些因素影响”。

A. 系统矩阵的特征值分布 —— 对迭代收敛性有决定作用。
B. 方程组真解 —— 与收敛性无关。
C. 迭代初始值 —— 影响收敛速度，部分情况下影响是否收敛。
D. 迭代步长 —— 在某些迭代方法（如梯度法）中至关重要。
E. 计算机核数 —— 与并行效率相关，不影响数学意义上的收敛性。
F. 迭代方法的选择 —— 不同方法收敛性差别很大。
G. 矩阵条件数 —— 条件数大，收敛困难。

因此主要因素是：A、C、D、F、G。

答案：A、C、D、F、G

18. 解析：协方差矩阵 $\Sigma=\begin{bmatrix}3&2\\2&3\end{bmatrix}$ 的特征值为 $5,1$ ，对应单位特征向量分别为 $\tfrac{1}{\sqrt2}(1,1)$ 与 $\tfrac{1}{\sqrt2}(1,-1)$ 。第一主成分取最大特征值方向，故单位向量为

$$u=\Big(\tfrac{1}{\sqrt2},\,\tfrac{1}{\sqrt2}\Big)\approx(0.7071,0.7071). $$

计算与给定向量的曼哈顿距离 $d(x,u)=|x_1-u_1|+|x_2-u_2|$ ：

A: $d\approx0.0058<0.3$
B: $d=0.37>0.3$
C: $d=0.47>0.3$
D: $d=0.20<0.3$

答案：A、D

19. 解析：数值积分精度主要受以下因素影响：

A. 对：步长越小，分区越多，结果越接近真实值。
B. 对：被积函数越光滑，误差越小。
C. 对：浮点精度会影响计算精度。
D. 对：不同积分方法代数精度不同，例如 Simpson 法优于梯形法。

答案：A、B、C、D

20. 解析：题目问“直接有助于提升多模态大模型的跨模态理解能力的方法”。

A. 单纯增加参数量 → 提升模型容量，但不是专门针对跨模态理解，作用间接。
B. 在训练中引入多模态因果推理任务 → 能直接增强模型在多模态间的推理能力。
C. 使用分层注意力机制 → 能更好建模不同模态与层次的信息交互，有助于跨模态理解。
D. 引入跨模态对齐预训练任务（如图文匹配） → 是提升跨模态理解能力的核心方法。

答案：B、C、D

1、关于随机森林 $(RandomForest)$ 算法的下列说法中，哪一项是正确的? {{ select(1) }}

随机森林在每个分裂节点上使用全部特征寻找最优划分，以确保每棵决策树的准确性最大化，从而提升整体性能
随机森林中的每棵决策树通常被允许充分生长，直至叶节点高度纯化，这种高偏差的设计有助于提升模型的泛化能力。
随机森林通过构建多棵相互之间相关性较低的决策树，对预测结果投票或平均，有效降低模型方差，缓解过拟合
随机森林的随机性仅来源于对训练数据的自助采样 $(Bootstrap)$ ，在特征选择过程中不引入随机性,

2、在神经网络中，反向传播算法的主要作用是 {{ select(2) }}

增加网络的深度提升模型表达能力
随机初始化网络中的权重参数
计算损失函数在训练数据上的平均值
根据损失函数的梯度来更新网络参数

3、假设用一个 $6$ 面的公平骰子，投掷一次，得到的点数的期望值是多少? {{ select(3) }}

4、已知方程 $f(x)=x^3-2x-5=0$ 在区间 $[2,3]$ 内有唯一实根 $x^*≈2.0946$ 。现有两种迭代格式用于求解该根：

迭代格式 $1$ ： $x_{k+1}=\sqrt[3]{2 x_{k}+5}$
迭代格式 $2$ ： $x_{k+1}=\frac{x^3_k}{2}$

关于这两种迭代格式在 $x^3$ 附近的局部收敛性，下列说法正确的是()

格式 $1$ 和格式 $2$ 均收敛，且格式 $1$ 的收敛阶更高
格式 $1$ 收敛，格式 $2$ 发散
格式 $1$ 和格式 $2$ 均发散
格式 $1$ 发散，格式 $2$ 收敛

5、设矩阵 $A=\left[\begin{array}{ll}2 & 1 \\1 & 2\end{array}\right]$，其 $Cholesky$ 分解 $A=LL^T$ 中的下三角阵 $L$ 是? {{ select(5) }}

$\left[\begin{array}{ll}1 & 0 \\0.5 & 1\end{array}\right]$
$\left[\begin{array}{ll}1.414 & 0 \\0.707 & 1.225\end{array}\right]$
$\left[\begin{array}{ll}\sqrt2 & 0 \\\frac{\sqrt2}{2} & \frac{\sqrt6}{2}\end{array}\right]$
$\left[\begin{array}{ll}2 & 0 \\1 & 1\end{array}\right]$

6、关于大语言模型 $(LLM)$ 的推理 $(Inference)$ 过程，以下哪个述是错误的? {{ select(6) }}

为了追求最高的输出质量和逻辑连贯性，在每次生成时都应该使用贪婪搜索 $(Greedy$ $Search)$ 策略。
与训练过程相比，推理过程最核心的区别在于它不涉及反向传播 $(Backpropagation)$ 和模型权重的更新。
推理过程本质上是一个不断进行前向计算 $(Forward$ $Pass)$ 来生成新词元 $(token)$ 的过程。
$KV$ $Cache$ 是一种关键的内存优化技术，它通过缓存先前词元的键 $(Key)$ 和值 $(Value)$ 向量，来加速后续词元的生成。

7、矩阵 $A$ 的条件数 $κ(A)$ 定义为 {{ select(7) }}

$κ(A)=\frac{\|A\|_{2}}{\left\|A^{-1}\right\|_{2}}$
$κ(A)=\frac{\|A\|_{2}}{\left\|A\right\|_{1}}$
$κ(A)=\|A\|_{2}·\left\|A^{-1}\right\|_{2}$
$κ(A)=\|A\|_{2}+\left\|A^{-1}\right\|_{2}$

8、对同一物理量测量 $3$ 次：测量值为 { $3.0,3.2,2.8$ }，真实值为 $3.0$ 。均方根误差是 {{ select(8) }}

$0.163$
$0.282$
$0.2$
$0.4$

9、在比较 $Transformer$ 的三种主要架构时，信息流动的"可见性”或”视野"是其根本区别。以下关于注意力机制中信息可见性的描述，哪一项是完全准确的? {{ select(9) }}

在 $Decoder-only$ 模型中，所有 $token$ 都通过带掩码的自注意力机制，确保了在预测当前 $token$ $i$ 时，模型只能利用到位置 $1$ 到 $i$ 的信息，这被称为因果 $(Causal)$ 注意力。
在 $Encoder-only$ 模型中，计算任何一个 $token$ 的表示时，它只能关注到其左侧的 $token$ ；在 $Decoder-only$ 模型中，则能关注到其右侧的 $token$ 。
$Encoder-only$ 模型的双向注意力意味着信息只能在相邻的 $token$ 之间双向流动，而无法跨越较长的距离。
在 $Encoder-Decoder$ 模型中， $Decoder$ 部分的自注意力 $(Self-Attention)$ 是双向的，而其交叉注意力 $(Cross-Attention)$ 是带掩码的单向的。

10、对于伯努利分布 $(Bern(p))$ ，有 $n$ 个独立样本，成功次数为 $k$ ，最大似然估计得到的参数 $p$ 的估计值是多少？ {{ select(10) }}

$\frac{n}{k}$
$\frac{k+1}{n+1}$
$\frac{k}{n}$
$\frac{k}{n+1}$

11、在深度学习中， $Batch$ $Normalization$ (批归一化)的主要作用是? {{ select(11) }}

加速训练过程并减少对初始化的敏感度
通过引入随机噪声增强模型泛化能力
直接提高机型在测试集上的准确率
增加模型参数数量以提升表达能力

12、在大型语言模型 $(LIM)$ 的高效推理过程中，" $PD分离$ ”是指将预填充阶段( $Prefill$ )与动态解码阶段( $Decode$ )进行分商的一种优化策路。以下关于" $PD分离$ ”的描述中，哪一项是最准确的？

$“PD分离“$ 允许 $Prefill$ 阶段仅计算输入序列的初始部分，并将其结果存储于高速缓存中; $Decode$ 阶段则通过增量更新的方式扩展序列长度，但每次都需要从头开始重新计算整个序列的隐藏状态。
$“PD分离”$ 机制下， $Prefill$ 阶段专注于处理完整的输入提示，生成必要的中间表示(如 $KV$ 缓存)，以便 $Decode$ 阶段能够独立地、高效地逐个生成后续 $token$ ，同时避免重复计算历史 $token$ 的注意力信息。
在 $”PD分离“$ 策略中， $Prefill$ 阶段会为整个序列预先分配连续的 $KV$ 缓存空间，而 $Decode$ 阶段则使用该缓存空间逐步生成后续 $token$ ，无需重新计算之前已生成 $token$ 的隐藏状态。
通过 $“PD分离”$ ， $Prefill$ 阶段负责初始化整个序列的 $KV$ 缓存并完成所有 $token$ 的一次性生成，而在 $Decode$ 阶段，模型可以跳过计算直接输出剩余 $token$ ，从而实现快速响应。

13、某银行使用分类决策树模型审批贷款，基于两个特征:年收入 ≥50,000美金、信用评分≥650。决策树结构如下根节点:信用评分≥650? 试种盘方向健;切换上下题吧是→进入“年收入判断节点”;否→叶节点(30个样本:11人按时还款，19人违约)年收入判断节点:年收入≥50,000美金?是→批准贷款;否→叶节点(80个样本:46人按时还款，34人违约)模型的决策规则为:若叶节点中的违约概率≤30%，则批准贷款;否则拒绝对于信用评分≥650但年收入<50,000美金的申请人，模型的预测结果是? {{ select(13) }}

批准贷款，因为按时还款人数多于信用评分不足 $650$ 的群体。
拒绝贷款，因为违约概率超过 $50$ %。
批准贷款，因为多数样本按时还款。
拒绝贷款，因为违约概率为 $42.5$ %。

14、大模型微调 $(Fine-tuning)$ 时，以下哪种方法最能保留预训练模型的通用性? {{ select(14) }}

仅微调位置编码
全量微调( $Full Fine-tuning$ )
使用 $LoRA$ ( $Low-Rank Adaptation$ )
仅微调模型的输出层

15、现代大型语言模型(如 $Llama$ )普遍采用旋转位置编码( $Rotary Position Embedding,RoPE$ )来替代经典的 $sinusoida$ 绝对位置编码。 $RoPE$ 能够显著提升模型处理长序列的能力和外推性( $extrapolation$ )。其实现这一优势的核心机制是什么? {{ select(15) }}

$RoPE$ 为每个位置学习一个独特的位置向量，并通过加法将其注入到词嵌入中，使得位置信息更具适应性。
$RoPE$ 将位置信息作为一个独立的偏置项 $(bias)$ 添加到注意力分数矩阵中，类似于 $T5$ 模型中的相对位置偏置。
$RoPE$ 通过一种矩阵旋转操作，将绝对位置信息编码为 $Query$ 和 $Key$ 向量之间的相对位置关系，使得注意力分数天然地对相对距离敏感。
$RoPE$ 在注意力计算之后，对输出的 $Value$ 向量根据其位置进行一次修正性的旋转，从而校准上下文表示。

16、在基站信号干扰优化算法中，工程师小王需要基于某片区10个站点的数据来重建一个平滑的干扰分布曲面(假设干扰不会出现突变)。已知这些站点并非均匀分布，且数据可能存在噪声。目标是根据站点处测得的干扰数据，拟合片区内其他区域的干扰数据。假设小王打算使用三次样条插值替代原先使用的多项式插值算法，下列关于这两种插值算法的说法中正确的是： {{ multiselect(16) }}

三次样条插值构建过程的复杂度较多项式差值更高，因此不适合用于资源受限的嵌入式系统中
即使在数据点分布不均时，三次样条插值也能显著减少插值曲线在数据点之间龙格现象，从而获得更平滑的结果
三次样条插值的精度和三次多项式差值相当，因此当多项式次数大于三次后，其精度会高于三次样条插值
在计算过程中，三次样条插值能提供二阶导数连续性，这有助于避免曲率突变，使干扰数据梯度变化更平稳

17、在求解线性方程组时，迭代方法的收敛性主要受到哪些因素的便响 {{ multiselect(17) }}

系统矩阵的特征值分布
方程组的真解
迭代初始值
迭代步长
计算机核心数
迭代方法的选择
矩阵的条件数

18、已知某二维数据集的协方差矩阵 $∑=\left[\begin{array}{ll}3 & 2 \\2 & 3\end{array}\right]$ 对该数据进行主成分分析 $(PCA)$ ，仅保留第一个主成分（即方差最大的方向），该主成分方向的单位特征向量取第一象限正方向，该特征向量与下列哪些向量的曼哈顿距离小于 $0.3$ ？

提示：曼哈顿距离 $d=∣x_1-x_2∣+∣y_1-y_2∣$

$[0.71,0.71]$
$[0.50,0.87]$
$[0,90,0.43]$
$[0.60,0.80]$

19、在数值积分(如梯形公式、 $simpson$ 公式)中，以下哪些因素会影响计算结果的精度 {{ multiselect(19) }}

积分区间的划分数量(步长越小，精度越高)
被积函数的光滑性(函数越光滑，误差越小)
计算机的浮点数精度(如单精度 $vs.$ 双精度)
数值积分方法的代数精度(如 $Simpson$ 法的代数精度高于梯形法)

20、以下哪些技术或方法直接有助于提升多模态大模型的跨模态理解能力? {{ multiselect(20) }}

增加模型的参数量以提升表达能力
在训练中引入多模态的因果推理任务
使用分层注意力机制 $（Hierarchical Attention）$
引入跨模态对齐的预训练任务(如图文匹配)

#P3656. 第1题-选择题

Status

Development

Support

About