第1题-选择题

Tried: 511

Accepted: 95

Difficulty: 5

所属公司 : 华为

时间 :2025年9月17日-AI岗

算法标签>

机器学习算法

1

答案：选D： $\dfrac{1}{n}\sum_{i=1}^{n} X_i$ 。

解析： 因为泊松样本的似然 $L(\lambda)\propto \lambda^{\sum X_i}e^{-n\lambda}$ ，取对数对 $\lambda$ 求导并令为 $0$ 得 $\hat\lambda=\dfrac{1}{n}\sum_{i=1}^{n} X_i=\overline{X}$。

2

答案：选C：根据损失函数的梯度来更新网络参数。

解析： 因为反向传播通过链式法则计算损失对各层参数的梯度，并据此执行梯度下降/其变体，从而更新参数。

3

答案：选A：将基模型的预测结果作为输入，学习它们的组合方式。

解析： 因为 Stacking 的元模型以一级基模型的预测作为新特征，再学习最优的非线性/加权组合以提升泛化性能。

4

答案：选D：估计量 $\hat\theta$ 不存在系统性误差。

解析： 因为无偏估计满足，E$$\hat\theta$$ = $\theta$ 即期望等于真值，说明不存在系统性偏差；B、C 都将单次样本值 $z$ 与期望/真值混淆。

5

答案：选A：0.27。

解析： 因为线性部分$z=w⊤x+b=0.5×2−1.0×1−1.0=−1z=w^\top x+b=0.5\times2-1.0\times1-1.0=-1$，Sigmoid 概率为 $σ(z)=1/(1+e−z)=σ(−1)≈0.2689\sigma(z)=1/(1+e^{-z})=\sigma(-1)\approx0.2689$，最接近 0.27。

6

答案：选C：(0.5,0.5) (6.5,5.5)。

解析： 点 A(0,0) 与 B(1,1) 距离 (2,2) 更近，归入簇1。点 C(6,5) 与 D(7,6) 距离 (8,8) 更近，归入簇2。

簇1 新中心 = ((0+1)/2,(0+1)/2)=(0.5,0.5)((0+1)/2,(0+1)/2)=(0.5,0.5)((0+1)/2,(0+1)/2)=(0.5,0.5)。

簇2 新中心 = ((6+7)/2,(5+6)/2)=(6.5,5.5)((6+7)/2,(5+6)/2)=(6.5,5.5)((6+7)/2,(5+6)/2)=(6.5,5.5)。

因此，迭代一次后的新中心坐标是 (0.5,0.5)(0.5,0.5)(0.5,0.5) 和 (6.5,5.5)(6.5,5.5)(6.5,5.5)，对应选项 C。

7

答案：选A：半监督学习结合少量标记样本和大量未标记样本，以降低标注成本并提升性能。

解析： 因为半监督学习正是利用未标注数据的结构信息与少量标注共同训练；B、C、D分别描述的是监督学习、监督学习、强化学习的特征，均不符。

8

答案：选B：指数分布的期望和方差是相等的。

解析： 因为若 $X∼Exp(λ)X\sim\text{Exp}(\lambda)$ ，则 $E[X]=1/λ\mathbb{E}[X]=\frac{1}{\lambda}、Var(X)=\frac{1}{\lambda^2}$，一般不相等（除非 $λ=1\lambda=1$ 的特殊情形）；A、C、D均为指数分布的正确性质。

9

答案：C. ReLU

解析： ReLU 在正区间梯度为常数、不饱和，能有效缓解深层网络的梯度消失。Sigmoid/Tanh 在饱和区梯度趋零，Softmax主要用于输出归一化。

10

答案：C. 请求A的耗时主要由GPU的计算单元（如Tensor Core）的吞吐量决定；请求B的耗时主要由GPU显存（HBM）的带宽决定。

解析： Prefill 主要是大矩阵乘法（高并行度），通常计算受限；而 Decode 逐 token 访问巨大 KV cache，常以 HBM 带宽为瓶颈。A、B与此相反；D将B的主要瓶颈误判为算力而非带宽。

11

答案：C. 最大似然估计

解析： 最大似然只依赖似然函数，不利用先验分布；而贝叶斯分类器、最大后验估计和贝叶斯学习都会显式使用先验信息。

12

答案：D. 使用更高精度的浮点数表示

解析： 提高浮点数精度能直接减少舍入误差，而其他选项并不能从根本上改善数值表示精度。

13

答案：C. 通常使用“KV缓存”（Key-Value Cache）技术来存储已计算的注意力Key和Value向量，避免在生成后续token时重复计算历史信息。

解析： 自回归生成中通常使用 KV 缓存保存历史的 Key/Value，避免每步重复计算历史部分。A 错在当前 token 仍需计算其 K/V；B 错在因因果依赖无法完全并行；D 错在有 KV 缓存无需每步重算历史 hidden states。

14

答案：B. 防止梯度在低精度（如FP16）表示下因数值过小而下溢（underflow）为零。

解析： 损失缩放通过将loss放大再反缩放，避免FP16等低精度中梯度数值过小导致下溢为零；其主要目的是防止梯度消失于表示范围之外，而非直接提速或省显存。

15

答案：A. -0.5

解析：

相对误差定义为 $e_r=(a^*-a)/a$ ，代入 $a^*=50, a=100$ 得 $(-50)/100=-0.5$ ；若取绝对相对误差则为 0.5。

16

答案： B. 对误差定义为近似值减去真实值的绝对值 C. 截断误差是由于使用无限过程近似有限步骤计算引起的 D. 有效数字位数越多，计算结果的精度越高

解析：

A 错误：相对误差小并不一定意味着绝对误差小，例如当真实值本身非常接近零时，绝对误差可能依旧大。
B 正确：误差的常见定义即为近似值与真实值之差的绝对值。
C 正确：截断误差确实源于对无穷过程的有限近似（如泰勒展开截断）。
D 正确：有效数字位数越多，说明结果精度更高。

17

答案： B. 舍入误差源于有限精度表示 C. 截断误差源于有限步近似无穷过程(如泰勒级数截断) D. 在迭代法中，通常情况下，截断误差随迭代减小，舍入误差随迭代累积

解析：

A 错误：两类误差不可能完全消除，只能通过方法改进或数值稳定性降低影响。
B 正确：舍入误差本质上来自计算机有限字长表示浮点数。
C 正确：截断误差由无限展开或积分等近似过程的截断引起。
D 正确：迭代中，随着步数增加截断误差减少，但舍入误差可能逐步累积，导致后期影响显著

T18

答案：

B. 多头注意力机制的核心思想是将Query、Key和Value投影到多个不同的低维表示子空间中，让每个“头”有机会学习到不同类型的依赖关系。

D. RMSNorm作为一种比LayerNorm更简洁的归一化技术，其关键改进在于省略了对输入向量减去均值的中心化步骤，只进行缩放操作。

解析：
标准正弦位置编码是绝对位置编码（虽具相对位移性质但并非专为相对位置设计），FFN参数在序列各位置共享；多头注意力将Q/K/V投影到多个子空间学习不同依赖，RMSNorm省略减均值，仅按均方根缩放并线性缩放。

T19

答案：

B. 大 batch size C. 长序列

解析：

将 all-reduce 拆为 reduce-scatter（反向）+ all-gather（前向）便于与计算重叠并按层/分片通信，在长序列或大 batch（消息规模大）时更高效；短序列或低带宽下收益有限且可能被额外开销抵消。

T20

答案：

A. 系数 a = 1 B. 系数 b = 0 C. 拟合多项式与第三个点的误差为 0 D. 系数 c = 2

解析：

由 $P(1)=3,\,P(2)=6$ 得 $b=3-3a,\;c=2a$ ，使对第三点误差最小化相当于最小化 $(P(3)-11)^2=(9+2a-11)^2=(2a-2)^2$ ，故 $a=1\Rightarrow b=0,c=2$ ，此时 $P(x)=x^2+2$ 且对第三点误差为 0。

$1.$ 设总体 $X$ 服从参数为 $\lambda(\lambda>0)$ 的泊松分布，其概率分布为 $P(X=a)=\frac{\lambda^a e^{-\lambda}}{a!}$ ， $a=0,1,2,\ldots$ 。从该总体中抽取容量为 $n$ 的独立随机样本 $X_1,\ldots,X_n$ 。则参数 $\lambda$ 的极大似然估计是（）。 {{ select(1) }}

$\displaystyle \frac{1}{n - 1}\sum_{i=1}^{n} (X_i - \overline{X}) ^ 2$(其中 $\overline{X} = \frac{1}{n}\displaystyle \sum_{i=1}^{n} X_i$)
$\displaystyle \frac{1}{n}\sum_{i=1}^{n} X_i ^ 2$
$\displaystyle \max(X_1,\ldots,X_n)$
$\frac{1}{n}\displaystyle \sum_{i=1}^{n} X_i$

$2.$ 在神经网络中，反向传播算法的主要作用是（） {{ select(2) }}

随机初始化网络中的权重参数
增加网络的深度以提升模型表达能力
根据损失函数的梯度来更新网络参数
计算损失函数在训练数据上的平均值

$3.$ 在集成学习的 Stacking 方法中，以下哪一项准确描述了第二层模型（Meta-Model）的作用？（） {{ select(3) }}

将基模型的预测结果作为输入，学习它们的组合方式
对基模型的预测结果进行加权平均
对基模型的参数进行优化
对基模型的预测结果进行特征组合

$4.$ 假设 $\theta$ 的一个无偏估计量是 $\hat\theta$ ，其在一组样本下的值为 $z$ 。对于下述陈述，正确的是（） {{ select(4) }}

$\hat\theta$ 是 $\theta$ 的组合估计
E $\hat\theta$ = $z$
$\theta = z$
估计量 $\hat\theta$ 不存在系统性误差

$5.$ 对于二元逻辑回归问题，已训练得到的参数为 $w=[0.5,-1.0]$ ， $b=-1.0$ 。现在给输入样本 $x=[2,1]$ ，使用 Sigmoid 函数计算预测概率 $P(y=1|x)$ ，结果最接近的是以下哪个值？ {{ select(5) }}

$0.27$
$0.43$
$0.56$
$0.60$

6.给定二维平面样本点： $A(0,0)，B(1,1)，C(6,5)，D(7,6)$ 。使用 $K-means$ 算法（设聚类数 $k=2$ ，且用欧氏距离）进行聚类，初始聚类中心分别为 (2,2) 和 (8,8)。经过一次聚类迭代（即“分配–更新”各执行一次）后，新的中心坐标分别是（）。 {{ select(6) }}

$(0.0,0.0) (6.5,5.5)$
$(0.5,0.5) (6.0,5.0)$
$(0.5,0.5) (6.5,5.5)$
$(3.5,3.5) (4.0,4.0)$

$7.$ 在机器学习中，关于监督学习、无监督学习、半监督学习和强化学习的下列说法中，哪一项是正确的？ {{ select(7) }}

半监督学习结合少最标记样本和大量未标记样本，以降低标注成本并提升性能。
强化学习通过从带标签的数据集中学习输入到输出的映射关系，以最小化预测误差。
无监督学习的目标是根据输入特征预测离散类别标签，常用于分类任务。
监督学习通过环境奖励信号训练智能体，常见于游戏和机器人控制。

$8$ .指数分布常用于非负随机变量事件发生的时间间隔，例如用户下次访问网站的等待时间。关于指数分布，下列哪项说法是错误的？ {{ select(8) }}

如果一系列事件的发生次数服从泊松分布，那么这些事件之间的时间间隔服从指数分布。
指数分布的期望和方差是相等的。
指数分布的概率密度函数在定义域内是单调递减的。
指数分布具有“无记忆性”，即等待了多久不影响未来还需要等待多久的概率分布。

9、在神经网络中，由于模型层数增加，在计算梯度反向传播时容易造成数值表示过小，引发“梯度消失”问题，以下哪种激活函数可以有效地缓解梯度消失问题？ {{ select(9) }}

$Softmax$
$Tanh$
$ReLU$
$Sigmoid$

10、一个 $LLM$ 推理服务在处理用户请求时，将过程分为 $Prefill$ （处理提示）和 $Decode$ （生成回复）两个阶段。现在有两个典型的请求

请求 $A$ （代码生成）：提示 $(Prompt)$ 很长，包含大量上下文代码(2000 tokens)，但期望生成的代码片段较短 $(100 tokens$ )。

请求 $B$ (多轮对话)：提示很短，只是用户的最新一句话 $(20 tokens)$ ，但需要生成一段较长的回复 $(500 tokens)$ ，且此时对话历史已有 $1500 tokens$ 。

基于对现代 $GPU$ 架构和 $Transformer$ 推理机制的理解，以下哪个判断是正确的？

请求 $A$ 的耗时瓶颈主要在于 $Decode$ 阶段，因为需要处理复杂的代码逻辑。
请求 $B$ 的耗时瓶颈主要在于 $Prefill$ 阶段，因为它需要快速响应用户的输入。
请求 $A$ 的耗时主要由 $GPU$ 的计算单元（如 $Tensor\ Core$ ）的吞吐量决定；请求B的耗时主要由 $GPU$ 显存（ $HBM$ ）的带宽决定。
为了优化请求 $B$ 的总体延迟，最有效的措施是采用先进的模型量化技术（如 $INT4$ ），因为这能大幅减少每次 $Decode$ 步骤中的矩阵乘法计算量。

11、下列方法中没有考虑先验分布的是（） {{ select(11) }}

贝叶斯分类器
最大后验估计
最大似然估计
贝叶斯学习

12、为减少数值计算中的舍入误差，以下哪种方法是有效的？ {{ select(12) }}

增加算法的迭代次数
简化数学模型
增大数值方法的步长
使用更高精度的浮点数表示

13、在大型语言模型 $(LLM)$ 进行自回归文本生成（例如，根据提示生成后续文本）的过程中，关于每一步生成新token时的计算，以下哪项描述是正确的？ {{ select(13) }}

生成每个新 $token$ 时，只需要计算当前 $token$ 对应的 $Query$ 向量，而不需要重新计算 $Key$ 和 $Value$ 。
模型在生成第一个 $token$ 后，其后续所有 $token$ 的生成都可以完全并行计算，无需等待。
通常使用“ $KV$ 缓存”( $Key-Value Cache$ )技术来存储已计算的注意力 $Key$ 和 $Value$ 向量，避免在生成后续 $token$ 时重复计算历史信息。
每生成一个新 $token$ ，模型都需要重新计算之前所有已生成 $token$ 的隐蔽状态（ $hidden\ states$ ）。

14、在使用混合精度训练（如 $FP16/BF16$ 与 $FP32$ 结合）训练大型语言模型时，引入“损失缩放”（ $Loss Scaling$ ）技术的主要原因是什么？ {{ select(14) }}

加速前向传播计算中矩阵乘法的执行速度。
防止梯度在低精度（如 $FP16$ ）表示下因数值过小而下溢（ $underflow$ ）为零。
降低模型权重更新时的数值噪声，提高训练稳定性。
减少反向传播过程中激活值（ $activations$ ）的内存占用。

15、已知准确值 $a = 100$ 的一个近似值 $a^* = 50$ ，该近似值的相对误差为 {{ select(15) }}

$-0.5$
$1$
$50$
$-50$

16、在数值计算中，以下关于误差的叙述中，正确的有 {{ multiselect(16) }}

相对误差较小时，绝对误差一定也很小
对误差定义为近似值减去真实值的绝对值
截断误差是由于使用无限过程近似有限步骤计算引起的
有效数字位数越多，计算结果的精度越高

17、误差来源中，截断误差和舍入误差的区别正确表述有哪些? {{ multiselect(17) }}

两者均可完全消除
舍入误差源于有限精度表示
截断误差源于有限步近似无穷过程(如泰勒级数截断)
在迭代法中，通常情况下，截断误差随迭代减小，舍入误差随迭代累积

18、深入分析 $Transformer$ 架构的内部组件，会发现其设计充满了精妙的权衡。以下关于其核心组件的描述，哪些是准确的？ {{ multiselect(18) }}

标准的正弦/余弦位置编码（ $Sinusoidal Positional Encoding$ ）是专门为相对位置设计的编码。
多头注意力机制的核心思想是将 $Query、Key$ 和 $Value$ 投影到多个不同的低维表示子空间中，让每个“头”有机会学习到不同类型的依赖关系。
前馈网络（ $FFN$ ）子层通过为序列中的每一个位置学习一套独立的权重参数，来增强模型对位置信息的建模能力。
$RMSNorm$ 作为一种比 $LayerNorm$ 更简洁的归一化技术，其关键改进在于省略了对输入向量减去均值的中心化步骤，只进行缩放操作。

19、在大语言模型分布式并行训练中， $all-reduce$ 是一个常用的集合通信算子。在以下哪些场景下， $all-reduce$ 更倾向于通过 $reduce-scatter$ 和 $all-gather$ 实现？ {{ multiselect(19) }}

短序列
$大$ batch\ size $
长序列
低带宽

20、已知三个数据点 $(1,3)、(2,6)、(3,11)$ ，用二次多项式 $P(x) = ax^2 + bx + c$ 进行拟合（要求拟合多项式过前两个点，且与第三个点的误差平方和最小），则下列说法正确的是（） {{ multiselect(20) }}

系数 $a = 1$
系数 $b = 0$
拟合多项式与前三个点的误差为 $0$
系数 $c = 2$

#P3711. 第1题-选择题

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

T18

T19

T20

Status

Development

Support

About