第1题-选择题

Tried: 532

Accepted: 95

Difficulty: 5

所属公司 : 华为

时间 :2025年9月10日-国内-AI

算法标签>

机器学习算法

1 解析：子词切分算法的代表是 BPE，它通过合并高频的字符对形成子词单元，既不是按空格，也不是逐字符或规则。

答案：A. Byte Pair Encoding (BPE)

2 解析：

K-means：基于“最小化平方误差”，但怕噪声和离群点。❌
DBSCAN：基于密度，可发现任意形状的簇，还能标记噪声点。✅
层次聚类：能画树状图，但簇数需要人为决定。❌
谱聚类：靠特征分解，不是直接算中心，而且计算开销大。❌

答案: B

3 解析：设事件：晴天 P(晴)=0.7，雨天 P(雨)=0.3。

若晴天，穿蓝色外套概率 P(蓝|晴)=0.4；
若雨天，P(蓝|雨)=0.8。要算 P(晴|蓝)。

贝叶斯公式： P(晴|蓝) = (0.7×0.4)/(0.7×0.4+0.3×0.8)=0.28/0.52≈0.538。

答案：D. 0.538

4 解析： 欠拟合风险通常来自模型表达能力不足或数据不足。减少正则化系数会减轻约束，添加新特征或增加复杂度通常降低欠拟合。相反，数据缺乏多样性会导致模型学习不足，更容易欠拟合。

答案： C. 数据缺乏多样性

5 解析： 方程： $f(x) = x^2 - 2$ ，牛顿迭代公式：

$$x_{k+1} = x_k - \frac{f(x_k)}{f'(x_k)}, \quad f'(x)=2x $$

初始 $x_0=1$ ：

f(1) = -1, \quad f'(1)=2

x_1 = 1 - \frac{-1}{2} = 1 + 0.5 = 1.5

答案： D. 1.5

6 解析： Adam 的核心思想是把 Momentum（动量） 和 RMSProp（自适应学习率） 结合起来，既能利用一阶矩估计加速收敛，又能通过二阶矩估计自适应调整学习率。

答案： A. 结合动量（Momentum）和 RMSProp 的自适应学习率

7 解析： 已知测量值 {3.0, 3.2, 2.8}，真实值 = 3.0。误差分别是 {0.0, 0.2, -0.2}。平方误差：{0, 0.04, 0.04}，平均值 = (0+0.04+0.04)/3 = 0.08/3 ≈ 0.0267。均方根误差 RMSE = √0.0267 ≈ 0.163。

答案： A. 0.163

8 解析：分别代入基底 {1,x,x²} 计算：

T(1)=2x → (0,2,0)
T(x)=1+x² → (1,0,1)
T(x²)=2x → (0,2,0) 得到矩阵 [[0,1,0],[2,0,2],[0,1,0]]。

答案：C

9 解析： 迭代法一般是构造 $x_{k+1} = \varphi(x_k)$ 。收敛时，迭代序列的极限应为方程根 $x=3$ ，而不是有限次直接得到，也不保证单调或导数单调变化。正确的描述是：迭代序列极限为 3。

答案： B. 迭代序列极限为 3

10 解析：

A 错：GQA/MQA 的核心不是降维 Query，而是减少 Key/Value 头的数量。
B 错：GQA 并没有路由机制。
C 错：GQA 的 Key/Value 头比 MHA 少，但不是为了增强捕捉能力，而是节省显存和加速。
D 对：GQA 通过多个 Query 头共享同一组 Key/Value 头，K/V 数量介于 MHA 和 MQA 之间。

答案： D. GQA 通过让多组 Query 头共享同一组 Key 和 Value 头…

11 解析： 已知 $P(X=k)=\frac{1}{2^k}, k=1,2,\dots$ 。这是一个几何分布形式，满足 $\sum_{k=1}^\infty \frac{1}{2^k}=1$ 。

定义 $Y = X \bmod 3$ ，所以 $Y \in \{0,1,2\}$ 。计算各概率：

$P(Y=0) = \sum_{m=1}^\infty P(X=3m) = \sum_{m=1}^\infty \frac{1}{2^{3m}} = \frac{1/8}{1-1/8}=\frac{1}{7}$。
$P(Y=1) = \sum_{m=0}^\infty P(X=3m+1) = \sum_{m=0}^\infty \frac{1}{2^{3m+1}} = \frac{1/2}{1-1/8}=\frac{4}{7}$。
$P(Y=2) = \sum_{m=0}^\infty P(X=3m+2) = \sum_{m=0}^\infty \frac{1}{2^{3m+2}} = \frac{1/4}{1-1/8}=\frac{2}{7}$。

验证： $\tfrac{1}{7}+\tfrac{4}{7}+\tfrac{2}{7}=1$ 。

期望：

$$E(Y) = 0\cdot \tfrac{1}{7} + 1\cdot \tfrac{4}{7} + 2\cdot \tfrac{2}{7} = \frac{4}{7} + \frac{4}{7} = \frac{8}{7}. $$

答案： A. 8/7

12 解析： 已知多项式 $P(x)=ax^2+bx+c$ ，通过点 $(1,3)$ 、 $(2,6)$ ，并使对 $(3,11)$ 的误差平方和最小。

代入 $(1,3)$ ：

a+b+c=3

代入 $(2,6)$ ：

4a+2b+c=6

联立：由式(1)： $c=3-a-b$ 。代入式(2)：$4a+2b+3-a-b=6 \;\Rightarrow\; 3a+b=3 \;\Rightarrow\; b=3-3a$。再代回： $c=3-a-(3-3a)=2a$ 。

因此：

P(x)=ax^2+(3-3a)x+2a

在 $(3,11)$ 处：

P(3)=9a+(3-3a)\cdot 3+2a=9a+9-9a+2a=2a+9

误差： $11-(2a+9)=2-2a$ 。误差平方和： $(2-2a)^2=4(a-1)^2$ 。

最小化时 $a=1$ 。

答案： B. 1

解析： 概率密度函数：

f(x)=1.5(1-x^2), \quad 0\leq x\leq 1

期望：

$$E(X)=\int_0^1 x f(x)\,dx = \int_0^1 1.5x(1-x^2)\,dx =1.5\int_0^1 (x - x^3)\,dx $$$$=1.5\left(\frac{1}{2}-\frac{1}{4}\right) =1.5 \times \frac{1}{4} =0.375 $$

答案： B. 0.375

14 解析： 在正负样本极度不平衡（如 1:1000）时，即使模型把所有样本预测为负类，准确率（Accuracy）依然可能很高，因此不可靠。相对而言，Precision、Recall、F1 分数在不平衡数据上更能反映模型表现。

答案： B. 准确率 (Accuracy)

15 解析：高维空间中欧氏距离趋于集中，最大最小差异缩小，导致“距离集中”现象。

答案：B. 距离集中性

16 解析： 在数值计算中控制截断误差与舍入误差的常见方法：

A. 增加展开项数可降低截断误差 → 可行。
B. 迭代中减少迭代次数以降低误差累积 → 不对，减少迭代次数可能降低精度。
C. 使用更稳定的数值方法（如辛普森代替梯形） → 可行。
D. 用双精度替代单精度浮点数减少舍入误差 → 可行。

答案： A, C, D

17 解析：特征工程主要包括：特征提取、特征构造、特征选择。原始数据采集不属于特征工程。

答案：A, C, D

18 解析：

A ✅：BatchNorm 在小 batch 时估计的均值/方差不稳定，效果确实会变差。
B ✅：BatchNorm 与 Dropout 同时启用可能会导致训练和推理时统计特性不匹配。
C ✅：推理时不再依赖 batch 统计量，而是使用训练过程中累积的滑动平均均值/方差。
D ✅：训练时确实是用当前 batch 的均值/方差进行归一化。

所以 A、B、C、D 都正确。

答案： A, B, C, D

19 解析： Transformer 处理长序列的主要瓶颈是 自注意力的计算复杂度 O(n²)。缓解方法：

A ✅ 仅保留关键位置注意力 → 属于稀疏化，降低复杂度。
B ✅ 分层注意力（Hierarchical Attention） → 通过层次结构减少全局计算。
C ✅ 稀疏注意力（Sparse Attention） → 典型方法，如 Longformer、BigBird。
D ❌ 位置编码扩展（正弦/余弦）只是改进位置信息表达，不降低计算复杂度。

答案： A, B, C

20 解析： 最大池化 (Max Pooling) 的特点：平移不变性、突出显著特征、降低计算复杂度。

A ❌ 语义分割需要像素级精细预测，池化会损失空间信息，不适合。
B ❌ 关键点检测同样要求精细定位，池化不利。
C ✅ 目标检测的 backbone 特征提取部分常用池化，提取显著特征并降维。
D ✅ 图像分类广泛使用池化，提取关键信息并减少计算量。
E ❌ 图像去噪更依赖卷积和滤波，池化会破坏细节。

答案： C, D

1、以下哪种 Tokenizer 属于"子词级”算法? {{ select(1) }}

$Byte Pair Encoding (BPE)$
空格分词 $(Whitespace Tokenizer)$
字符级分词 $(character Tokenizer)$
基于正则的分词

2、在机器学习中，关于聚类算法的下列说法中，哪一项是正确的? {{ select(2) }}

$K-means$ 聚类通过最小化类内样本到簇中心的欧氏距离平方和来优化聚类结果，适合处理强噪声数据集。
$DBSCAN$ 基于密度可达性定义簇，能发现任意形状的簇(如月牙形、环形等)，并显式标记噪声点。
凝聚式层次聚类(自底向上)每次合并距离最近的两个簇，结果可通过树状图可视化，且可自动确定最优簇数量。
谱聚类 $(Spectral Clustering)$ 直接对原始数据点进行距离计算并迭代更新簇中心，适用于大规模高维数据的高效聚类。

3、某地区有两种天气：晴天(概率0.7)和雨天(概率0.3)。若为晴天，某人穿蓝色外套的概率为0.4;若为雨天，穿蓝色外套的概率为0.8。某天此人穿蓝色外套，那么当天是晴天的概率接近于? {{ select(3) }}

$0.312$
$0.516$
$0.552$
$0.538$

4、以下哪种方法会增加模型的欠拟合风险() {{ select(4) }}

减小正则化系数
添加新特征
数据缺乏多样性
增加模型复杂度

5、用牛顿迭代法求解方程 $x^2-2=0$ ，初始 $x_0=1$ ，则第一次迭代结果 $x_1$ 为： {{ select(5) }}

$1.2$
$1.3$
$1$
$1.5$

6、Adam优化器的核心思想是? {{ select(6) }}

结合动量 $(Momentum)$ 和 $RMSProp$ 的自适应学习率
通过二阶导数调整学习率
仅使用动量 $(Momentum)$ 加速梯度下降
使用固定学习率进行参数更新

7、对同一物理量测量3次:测量值为(3.0,3.2,2.8}，真实值为 3.0。均方根误差是 {{ select(7) }}

$0.163$
$0.4$
$0.282$
$0.2$

8、线性变换 $T:P_2→P_2$ ( $P_2$ 为二次多项式空间)定义为:

$T(p(x))=p'(x)+ 2∫^x_0 p(t)dt$

其中 $P_2$ 是二次多项式空间，且 $x^3=0$

在基 $B=$ { $1,x,x^2$ } 下的矩阵表示是? {{ select(8) }}

$\begin{bmatrix}{0} & {1}&{0} \\{2} & {0} &{2}\\{0}& {2}& {0}\end{bmatrix}$
$\begin{bmatrix}{0} & {2}&{0} \\{0} & {0} &{4}\\{0}& {0}& {0}\end{bmatrix}$
$\begin{bmatrix}{0} & {1}&{0} \\{2} & {0} &{2}\\{0}& {1}& {0}\end{bmatrix}$
$\begin{bmatrix}{0} & {2}&{0} \\{0} & {0} &{4}\\{1}& {0}& {0}\end{bmatrix}$

9、假设某方程 $f(x)=0$ 具有唯一的实根 $x=3$ 。使用迭代法计算该方程的根时，以下哪种情形下称该迭代法收敛： {{ select(9) }}

在有限次迭代后能得到 $3$
迭代序列极限为 $3$
迭代序列的导数单调递减
迭代序列单调递减

10、在一个大型语言模型 (LLM) 进行自回归生成 (inference) 的场景下，为了优化显存占用和推理速度，研究者提出了分组查询注意力 (Grouped-Query Attention ,GQA) 作为标准多头注意力 (MHA) 的替代方案。关于 GQA 与 MHA、MQA(Multi-Query Atention) 的对比，以下描述最准确的是? {{ select(10) }}

$GQA$ 和 $MQA$ 的核心思想都是通过对 $Query$ 向量进行降维来减少计算量，而保持 $Key$ 和 $Value$ 的维度不变。
$GQA$ 通过一个可学习的路由机制，在每次计算时动态地为每个 $Query$ 头选择一个 $Key/Value$ 头进行配对，从而实现稀疏化。
$GQA$ 拥有比 $MHA$ 更多的 $Key$ 和 $Value$ 头，但 $Query$ 头的数量较少，以此来增强对上下文的捕捉能力。
$GQA$ 通过让多组 $Quevy$ 头共享同一组 $Key$ 和 $Value$ 头，实现了计算效率和模型性能的折中；其 $K/V$ 头的数量介于 $MHA$ (与 $Query$ 头数相等)和 $MQA$ (只有一个 $K/V$ 头)之间。

11、设随机变量X的概率分布为 $P(x=k)=\frac{1}{2^{k}}$ , $k=1,2,3,...，$ $Y$ 表示 $X$ 被 $3$ 除的余数，则 $E(Y)=()$ {{ select(11) }}

$8/7$
$4/7$
$10/7$
$6/7$

12、已知三个数据点 $(1,3)、(2,6)、(3,11)$ ，用二次多项式 $P(x) =ax^2 +bx+c$ 进行拟合(要求拟合多项式过前两个点，且与第三个点的误差平方和最小)，则系数 $a$ 的值为()

13、连续随机变量X的概率密度函数为 $f(x)=1.5(1-x^2)$ ，其中 $0≤x≤1$ ,那么 $E(X)$ 为? {{ select(13) }}

$0.625$
$0.375$
$0.25$
$0.5$

14、关于模型评估指标，当正负样本比例极度不平衡时 $(如1:1000)$ ，下列哪个指标最不可靠? {{ select(14) }}

精确率 $(Precision)$
准确率 $(Accuracy)$
$F1$ 分数
召回率 $(Recall)$

15、在高维数据下，欧氏距离失效的原因是: {{ select(15) }}

过拟合
距离集中性
样本不均衡
计算复杂度

16、在数值计算中，为有效控制截断误差和舍入误差，以下哪些方法是可行的? {{ multiselect(16) }}

在泰勒极数近似中增加展开项数
在迭代算法中减少迭代次数以降低舍入误差累积
在数值积分中使用更高价的数值方法，如辛普森公式代替梯形公式
使用双精度浮点数代替单精度浮点数

17、特征工程是一个从原始数据中提取关键信息(特征)的过程，这些提取的信息能够很好的描述数据的分布，一般来说，特征工程包括哪些步骤? {{ multiselect(17) }}

特征提取
原始数据采集
特征构造
特征选择

18、下列关于 BatchNorm 的描述，正确的是 {{ multiselect(18) }}

对小 $batch$ 效果变差
与 $Dropout$ 同时开启可能导致方差不匹配
在推理时使用滑动平均的均值/方差
在训练时统计均值/方差

19、以下哪些技术可以用于缓解 $Transformer$ 模型在处理长序列时的计算复杂度问题? {{ multiselect(19) }}

仅保留关键位置的注意力
分层注意力 $(Hierarchical Attention)$
稀疏注意力 $(Sparse Attention)$
位置编码的正弦/余弦函数扩展

20、最大池化操作(Max Pooling)有平移不变性、保留局部显著特征和减少计算复杂度等优点，以下哪些实际应用场景中，最大池化通常是更合适和更常用的选择? {{ multiselect(20) }}

语义分割(需对每个像素值分类)
像素等精度要求高的关键点检测(如人脸、人体关键点检测)
目标检测(如 $backbone$ 中特征提取部分)
图像分类(如 $ImageNet$ 图像分类)
图像去噪(如椒盐噪声、高斯噪声)

#P3638. 第1题-选择题

Status

Development

Support

About