Tried: 109

Difficulty: 4

所属公司 : 华为

时间 :2025年10月23日-AI方向(留学生)

算法标签>

机器学习算法

题目与答案整理

T1

答案： B 解析：

A：错。 DBSCAN 允许把点标记为“噪声/离群”，不要求所有点都归到某簇里。
B：对。 谱聚类先做图拉普拉斯矩阵特征分解得到低维嵌入，再在嵌入空间用 K-means。
C：错。 这是 K-means 的特点；层次聚类一般基于相似度/距离做自底向上或自顶向下的贪心合并/拆分，不依赖初始中心。
D：错。 K-means 用均值作簇中心，对离群点不鲁棒；中位数/代表点是 K-medoids 的思路。

T2

答案： C 解析：

A：错。 处理多重共线性通常 L2（Ridge）更稳定；L1 也可，但不一定“通常优于”。
B：错。 L2 会缩小参数范数，降低对特征的敏感性。
C：对。 L1 产生软阈值效应，促使参数稀疏，部分系数压为 0。

T3

答案： C 解析：

A：错。 若 $A$ 可逆则奇异值都非零，不是 0。
B：错。 $U$ 是 $m\times m$ 正交矩阵，其列向量是 $AA^\top$ 的特征向量。
C：对。 $\Sigma$ 是 $m\times n$ 的“对角”矩阵，对角元为非负奇异值并降序。
D：错。 $V$ 应为 $n\times n$ 正交矩阵，列向量是 $A^\top A$ 的特征向量，而非 $m\times m$ 。

T4

答案： B 解析：

A：错. LayerNorm 与 BatchNorm 计算量同量级，优势不在“显著更快”。
B：对. LN 在特征维上对单样本归一化，不依赖批统计量，因而对变批大小/变长序列更稳健。
C：错. BatchNorm 既可用于卷积也可用于全连接。
D：错. 处理 OOV 与归一化类型无直接关系。

T5

答案： A（0.25） 解析： 由贝叶斯：$P(30\text{–}40|M)=\frac{0.25\times0.4}{0.25\times0.4+0.75\times0.4}=0.25$。

A：对。 计算结果为 0.25。
B/C/D：错。 与上式不符，分别高估/低估了后验概率。

T6

答案： D 解析：

A：错。 元素绝对值之和是矩阵 1-范数，不是 2-范数或 Frobenius 范数。
B：错。 $\|A\|_2=\sqrt{\lambda_{\max}(A^\top A)}$ （最大奇异值）， $\|A\|_F$ 不是“特征值平方和”。
C：错。 一般 $\|A\|_2\neq\|A\|_F$ （除非特殊矩阵）。
D：对。 $\|A\|_2=\sigma_{\max}$ ， $\|A\|_F=\sqrt{\sum \sigma_i^2}$ 。

T7

答案： B（15） 解析： $|A+E|=0\Rightarrow -1$ 为特征值； $|A-2E|=0\Rightarrow 2$ 为特征值； $|2A+3E|=0\Rightarrow -\tfrac32$ 为特征值。 $|B+3E|=\prod(\lambda_i+3)=(2)(5)\left(\tfrac32\right)=15$。

A/C/D：错。 与上述乘积不符。

T8

答案： B（42） 解析： 设 $p=1/6,q=5/6$ 。状态方程 $E_0=1+pE_1+qE_0,\ E_1=1+qE_0$ 解得 $E_0=42$ 。

A/C/D：错。 非该马尔可夫链期望值。

T9

答案： D 解析： Causal mask 需屏蔽未来位置（上三角）： $\begin{bmatrix}0&-\infty&-\infty\\0&0&-\infty\\0&0&0\end{bmatrix}$。

A：错。 全 0 不屏蔽任何位置。
B：错。 这是屏蔽过去（下三角），方向相反。
C：错。 掩码位置不符合“仅看不超过自身的索引”。
D：对。 正确的上三角 $-\infty$ 屏蔽。

T10

答案： A（ $[1-\Phi(1.56),\,1-\Phi(0.31)]$ ） 解析： $P(X\le0)=\Phi(-\mu)=1-\Phi(\mu)$ ，该函数随 $\mu$ 递减，把 $\mu\in[0.31,1.56]$ 端点带入并反向排列即可。

B/C/D：错。 未对 $\Phi(-\mu)$ 的单调与变换做正确处理。

T11

答案： C（0.50%） 解析： 每个 $4096\times4096$ 权重加 LoRA（rank=64）新增参数 $64(4096+4096)=524{,}288$ ；对 Q、V 两个矩阵、32 层合计约 $33.6$ M，占 7B 约 $0.48\%\approx0.50\%$ 。

A：错。 1% 过高。
B：错。 0.05% 明显偏低。
D：错。 0.10% 仍偏低。

T12

答案： D（ReLU） 解析： $f(x)=x\sigma(\beta x)$ ， $\beta\to\infty$ 时 $\sigma(\beta x)\to \mathbf{1}_{x>0}$ ，极限为 $\max(0,x)$ 。

A/B/C：错。 极限函数既不是 $\tanh$ 、也非线性恒等、也不是 $\sigma$ 。

T13

答案： D（ $[2,1]^\top$ ） 解析： 幂法首步 $v_1=Av_0=\begin{bmatrix}2&1\\1&2\end{bmatrix}[1,0]^\top=[2,1]^\top$。

A/B/C：错。 与 $Av_0$ 计算不符（若归一化也应与该方向一致）。

T14

答案： D 解析：

A：错。 残差连接不减少计算量。
B：错。 它不直接增加非线性，仅提供恒等捷径。
C：错。 与位置编码无直接增强关系。
D：对。 便于梯度跨层传播，缓解梯度消失，助深层训练稳定。

T15

答案： C（0.67） 解析： $P=\frac{3}{4}=0.75,\ R=\frac{3}{5}=0.6$ ， $F1=\frac{2PR}{P+R}=\frac{0.9}{1.35}\approx0.67$ 。

A/B/D：错。 与计算结果不符。

T16

答案： A、C、D 解析：

A：对。 任意实/复矩阵均存在 SVD。
B：错。 LU 不一定存在且不唯一；需主元选取（如 LUP）。
C：对。 经济型 QR 的 $Q$ 可为 $m\times n$ （列正交，非方）。
D：对。 SVD 的 $\Sigma$ 对角元即奇异值。

T17

答案： A、B、C 解析：

A：对。 点积随维度增大而变大，softmax 易饱和、梯度变小，缩放可缓解。
B：对。 用 $\sqrt{d_k}$ 抵消 q 与 k 维度对点积尺度的影响。
C：对。 缩放后 softmax 分布不过分陡峭，更平滑。
D：错。 缩放不改变计算量。

T18

答案： C、D 解析：

A：错。 OLS 不要求残差必须正态（正态用于置信区间/检验）。
B：错。 线性回归目标是最小化残差平方和，而非最大化误差。
C：对。 OLS 是经典参数估计法。
D：对。 基本设定就是自变量与因变量近似线性关系。

T19

答案： A、B、C（选“错误”的） 解析：

A：错。 独立不蕴含互斥。
B：错。 互不相容一般不独立（除非至少一事件概率为 0）。
C：错。 $P(A)=0$ 不必为“不可能”，连续情形下仍可能发生（几乎不事件）。
D：对。 $P(B)=1$ 仅称“几乎必然”，并非必须等于必然事件 $\Omega$ 。

T20

答案： C、D 解析：

A：错。 $n+1$ 个互异节点存在且唯一的是次数 $\le n$ 的多项式；6 个点应为 5 次，不是 6 次。
B：错。 三次样条虽是分段多项式，但当数据恰好来自某个三次多项式时，样条可与单一多项式重合，并非“一定无法”。
C：对。 龙格现象：等距节点、次数升高时端点附近振荡/误差增大，易在多项式插值出现。
D：对。 拉格朗日插值本质上就是多项式插值的一种显式公式。

1、关于机器学习聚类任务的下列说法中，哪一项是正确的? {{ select(1) }}

$DBSCAN$ 要求所有点必须属于某一簇，因此不能处理含有噪声的数据集，否则无法收敛到稳定结果
谱聚类通过图拉普拉斯矩阵的特征分解降维，并在低维空间中使用 $K-means$ 进行聚类。
层次聚类通过迭代优化目标函数来寻找最优聚类划分，其结果依赖于初始聚类中心的选择。
$K-means$ 聚类使用中位数作为簇中心，因此对噪声和离群点具有较强鲁棒性。

2、关于 $L1$ 正则化 $(Lasso)$ 和 $L2$ 正则化 $(Ridge)$ 的描述，下列说法正确的是 {{ select(2) }}

当训练数据存在多重共线性时， $L1$ 正则化的效果通常优于 $L2$ 正则化
$L2$ 正则化会导致参数值变得更大，从而增强模型对输入特征的敏感性
$L1$ 正则化会使模型参数更倾向于稀疏化，即更多参数变为 $0$

3、矩阵 $A$ 是一个 $m×n$ 的实矩阵，其奇异值分解为 $A=U∑V^T$ ，其中 $U、∑、V$ 分别为相应维度的矩阵。下列关于这三个矩阵的说法，正确的是() {{ select(3) }}

若 $A$ 是可逆方阵，则 $∑$ 的对角元素均为 $0$
$U$ 是 $m ×n$ 的正交矩阵，且其列向量是 $A^TA$ 的特征向量
$∑$ 是 $m ×n$ 的对角矩阵，对角元素非负且按降序排列
$V$ 是 $m ×m$ 的正交矩阵，且其列向量是 $A^TA$ 的特征向量

4、在 $Transformer$ 的架构中，几乎每个子层(如自注意力层、前馈网络层)的输出都会经过一个 $Layer$ $Nomalization$ (层归一化)操作。在自然语言处理任务中，相比于在计算机视觉中常用的 $Batch$ $Nomalization$ （批归一化）选择 $LayerNorm$ 最关键的原因是？ {{ select(4) }}

$LayerNorm$ 的计算量远小于 $Batch$ $Normalization$ ，可以显著提升模型的训练速度。
$LayerNorm$ 在计算归一化统计量(均值和方差)时，独立于批次中的其他样本，因此对不同长度的输入序列和变化的批次大小 $(Batch$ $size)$ 具有更好的鲁棒性。
$Batch$ $Normalization$ 只能用于卷积层，而 $LayerNorm$ 可以用于全连接层。
$LayerNorm$ 能够更好地处理词汇表外的 $(Out-of-Vocabulary)$ 单词。

5、已知从人群中随机抽取一名男性，该男性年龄在 $30-40$ 岁之间的概率为 $0.25$ ，在其他年龄段的概率为 $0.75$ 、且人群中 $30-40$ 岁年龄段和其他年龄段中男性的比例都为 $0.4$ ，若用贝叶斯定理估计该男性属于 $30-40$ 岁年龄段的段的后验概率，结果为： {{ select(5) }}

$0.25$
$0.4$
$0.5$
$0.1$

6、关于矩阵的 $2-$ 范数 $‖A‖_2$ 和 $Frobenius$ 范数 $‖A‖_F$ ，下列说法正确的是 {{ select(6) }}

$‖A‖_2$ 和 $‖A‖_F$ 都等于矩阵元素的绝对值之和
$‖A‖_2$ 是最大特征值， $‖A‖_F$ 是特征值的平方和
对于任意矩阵， $‖A‖_2=‖A‖_F$
$‖A‖_2$ 是最大奇异值， $‖A‖_F$ 是奇异值的平方和的平方根

7、已知 $3$ 阶矩阵 $A$ 与 $B$ 相似,且 $A$ 满足 $|A+E|=|A-2E|=|2A+3E|=0$ ，则 $|B+3E|=$ ()

注: $E$ 为单位矩阵

$20$
$15$
$0$
$50$

8、一个均匀 $6$ 面骰子，平均投掷多少次能投出连续的两个 $6$ 点 {{ select(8) }}

$36$
$42$
$48$
$37$

9、若输入序列长度为 $3$ ， $Causal$ $Mask$ 的矩阵形式是 {{ select(9) }}

$\left[\begin{array}{lll}0 & 0 & 0 \\0 & 0 & 0 \\0 & 0 & 0\end{array}\right]$
$\left[\begin{array}{lll}0 & 0 & 0 \\-inf & 0 & 0 \\-inf & -inf & 0\end{array}\right]$
$\left[\begin{array}{lll}0 & -inf & 0 \\0 & 0 & -inf \\-inf & 0 & 0\end{array}\right]$
$\left[\begin{array}{lll}0 & -inf & -inf \\0 & 0 & -inf \\0 & 0 & 0\end{array}\right]$

10、假设总体 $X÷N(μ,1)$ ，其均值 $μ$ 的 $95$ % 置信区间为 $[0.31,1.56]$ ，则概率 $P(x≤0)$ 的 $95$ % 置信区间为 {{ select(10) }}

$[1-\Phi(1.56), 1-\Phi(0.31)]$
$[0.31,1.56]$
$[0, \Phi(1.56)]$
$[\Phi(0.31),\Phi(1.56)]$

11、使用 $LoRA$ $rank=64$ 对 $LLAMA$ $7B$ 模型(词表大小 $=32$ $000,hiden$ $size=4096,32$ 层)进行微调，仅对 $attention$ 的 $query$ & $value$ 矩阵加 $LORA$ ，可训练参数量占原模型总量约 {{ select(11) }}

$1.00$ %
$0.05$ %
$0.50$ %
$0.10$ %

12、 $Swish$ 激活函数 $f(x)=x \cdot \sigma(\beta x)$ ，当 $\beta \rightarrow \infty$ 时逼近以下哪个函数

tanh
线性
sigmoid
ReLU

13、用幂法求矩阵 $A=\left[\begin{array}{ll}2 & 1 \\1 & 2\end{array}\right]$ 的主特征值，初始向量 $v_{0}=[\mathbf{1}, \mathbf{0}]^{\top}$ ，迭代一次后的结果是: {{ select(13) }}

$[\mathbf{0}, \mathbf{0}]^{\top}$
$[\mathbf{1}, \mathbf{2}]^{\top}$
$[\mathbf{3}, \mathbf{3}]^{\top}$
$[\mathbf{2}, \mathbf{1}]^{\top}$

14、在 $Transformer$ 模型中，残差连接( $Residual$ $Connection$ )的主要作用是? {{ select(14) }}

减少模型的计算量
增加模型的非线性表达能力
增强位置编码的效果
缓解梯度消失问题，帮助深层网络训练

15、在分类任务中，真正例 $TP=3$ ，真反例 $TN=4$ ，假正例 $FP=1$ ，假反例 $FN=2$ ，那么 $F1$ 值为() {{ select(15) }}

$0.75$
$0.5$
$0.67$
$0.6$

16、下列关于矩阵分解的表述哪些是正确的() {{ multiselect(16) }}

对任意矩阵 $A$ (实或复)， $SVD$ 分解一定存在
$LU$ 分解总是存在且唯一
$QR$ 分解中的 $Q$ 矩阵可以不是方阵
$SVD$ 分解中的 $∑$ 矩阵包含矩阵的奇异值

17、 $Scaled$ $Dot-Product$ $Attention$ 中缩放因子 $\sqrt{d_{k}}$ , 的作用是 {{ multiselect(17) }}

防止点积数值过大导致梯度消失
补偿 $query$ 和 $key$ 向量维度的影响
使 $Softmax$ 输出更均匀
减少计算量

18、数据之间的关系以及数据服从的分布形态影响了模型建模的效果，下列关于线性回归的描述中，哪些是正确的? {{ multiselect(18) }}

线性回归模型中，误差项(残差)必须服从正态分布
线性回归模型的目标是最大化预测值与真实值之间的误差
线性回归模型可以通过最小二乘法进行参数估计
线性回归模型假设自变量和因变量之间存在线性关系

19、设 $A,B$ 为任意两个随机事件，则以下说法错误的是() {{ multiselect(19) }}

若 $A$ 和 $B$ 独立，则二者一定互不相容( $AB=\emptyset$ )
若 $A$ 和 $B$ 互不相容( $AB=\emptyset$ )，则二者一定独立
若 $P(A)=0$ ，则 $A$ 一定是不可能事件
若 $P(B)=1$ ，则 $B$ 不一定是必然事件

20、以下关于多项式插值的说法中，正确的有 {{ multiselect(20) }}

对 $6$ 个互异插值节点，满足插值条件的 $6$ 次插值多顶式存在且唯一
三次样条插值法属于分段多项式插值;因此插值结果一定无法仅用一个多项式表示
荣格现象，即随着插值点增加，插值余项出同步增加的一种现象，容易出现在多项式值中。
拉格朗日插值法属于多项式插值

#P4276. 第1题-选择题

第1题-选择题

题目与答案整理

T1

T2

T3

T4

T5

T6

T7

T8

T9

T10

T11

T12

T13

T14

T15

T16

T17

T18

T19

T20

Status

Development

Support

About