#P4276. 第1题-选择题
-
Tried: 63
Accepted: 13
Difficulty: 4
所属公司 :
华为
时间 :2025年10月23日-AI方向(留学生)
-
算法标签>选择题
第1题-选择题
题目与答案整理
T1
答案: B 解析:
- A:错。 DBSCAN 允许把点标记为“噪声/离群”,不要求所有点都归到某簇里。
- B:对。 谱聚类先做图拉普拉斯矩阵特征分解得到低维嵌入,再在嵌入空间用 K-means。
- C:错。 这是 K-means 的特点;层次聚类一般基于相似度/距离做自底向上或自顶向下的贪心合并/拆分,不依赖初始中心。
- D:错。 K-means 用均值作簇中心,对离群点不鲁棒;中位数/代表点是 K-medoids 的思路。
T2
答案: C 解析:
- A:错。 处理多重共线性通常 L2(Ridge)更稳定;L1 也可,但不一定“通常优于”。
- B:错。 L2 会缩小参数范数,降低对特征的敏感性。
- C:对。 L1 产生软阈值效应,促使参数稀疏,部分系数压为 0。
T3
答案: C 解析:
- A:错。 若 A 可逆则奇异值都非零,不是 0。
- B:错。 U 是 m×m 正交矩阵,其列向量是 AA⊤ 的特征向量。
- C:对。 Σ 是 m×n 的“对角”矩阵,对角元为非负奇异值并降序。
- D:错。 V 应为 n×n 正交矩阵,列向量是 A⊤A 的特征向量,而非 m×m。
T4
答案: B 解析:
- A:错. LayerNorm 与 BatchNorm 计算量同量级,优势不在“显著更快”。
- B:对. LN 在特征维上对单样本归一化,不依赖批统计量,因而对变批大小/变长序列更稳健。
- C:错. BatchNorm 既可用于卷积也可用于全连接。
- D:错. 处理 OOV 与归一化类型无直接关系。
T5
答案: A(0.25) 解析: 由贝叶斯:$P(30\text{–}40|M)=\frac{0.25\times0.4}{0.25\times0.4+0.75\times0.4}=0.25$。
- A:对。 计算结果为 0.25。
- B/C/D:错。 与上式不符,分别高估/低估了后验概率。
T6
答案: D 解析:
- A:错。 元素绝对值之和是矩阵 1-范数,不是 2-范数或 Frobenius 范数。
- B:错。 ∥A∥2=λmax(A⊤A)(最大奇异值),∥A∥F 不是“特征值平方和”。
- C:错。 一般 ∥A∥2=∥A∥F(除非特殊矩阵)。
- D:对。 ∥A∥2=σmax,∥A∥F=∑σi2。
T7
答案: B(15) 解析: ∣A+E∣=0⇒−1 为特征值;∣A−2E∣=0⇒2 为特征值;∣2A+3E∣=0⇒−23 为特征值。 $|B+3E|=\prod(\lambda_i+3)=(2)(5)\left(\tfrac32\right)=15$。
- A/C/D:错。 与上述乘积不符。
T8
答案: B(42) 解析: 设 p=1/6,q=5/6。状态方程 E0=1+pE1+qE0, E1=1+qE0 解得 E0=42。
- A/C/D:错。 非该马尔可夫链期望值。
T9
答案: D 解析: Causal mask 需屏蔽未来位置(上三角): $\begin{bmatrix}0&-\infty&-\infty\\0&0&-\infty\\0&0&0\end{bmatrix}$。
- A:错。 全 0 不屏蔽任何位置。
- B:错。 这是屏蔽过去(下三角),方向相反。
- C:错。 掩码位置不符合“仅看不超过自身的索引”。
- D:对。 正确的上三角 −∞ 屏蔽。
T10
答案: A([1−Φ(1.56),1−Φ(0.31)]) 解析: P(X≤0)=Φ(−μ)=1−Φ(μ),该函数随 μ 递减,把 μ∈[0.31,1.56] 端点带入并反向排列即可。
- B/C/D:错。 未对 Φ(−μ) 的单调与变换做正确处理。
T11
答案: C(0.50%) 解析: 每个 4096×4096 权重加 LoRA(rank=64)新增参数 64(4096+4096)=524,288;对 Q、V 两个矩阵、32 层合计约 33.6M,占 7B 约 0.48%≈0.50%。
- A:错。 1% 过高。
- B:错。 0.05% 明显偏低。
- D:错。 0.10% 仍偏低。
T12
答案: D(ReLU) 解析: f(x)=xσ(βx),β→∞ 时 σ(βx)→1x>0,极限为 max(0,x)。
- A/B/C:错。 极限函数既不是 tanh、也非线性恒等、也不是 σ。
T13
答案: D([2,1]⊤) 解析: 幂法首步 $v_1=Av_0=\begin{bmatrix}2&1\\1&2\end{bmatrix}[1,0]^\top=[2,1]^\top$。
- A/B/C:错。 与 Av0 计算不符(若归一化也应与该方向一致)。
T14
答案: D 解析:
- A:错。 残差连接不减少计算量。
- B:错。 它不直接增加非线性,仅提供恒等捷径。
- C:错。 与位置编码无直接增强关系。
- D:对。 便于梯度跨层传播,缓解梯度消失,助深层训练稳定。
T15
答案: C(0.67) 解析: P=43=0.75, R=53=0.6, F1=P+R2PR=1.350.9≈0.67。
- A/B/D:错。 与计算结果不符。
T16
答案: A、C、D 解析:
- A:对。 任意实/复矩阵均存在 SVD。
- B:错。 LU 不一定存在且不唯一;需主元选取(如 LUP)。
- C:对。 经济型 QR 的 Q 可为 m×n(列正交,非方)。
- D:对。 SVD 的 Σ 对角元即奇异值。
T17
答案: A、B、C 解析:
- A:对。 点积随维度增大而变大,softmax 易饱和、梯度变小,缩放可缓解。
- B:对。 用 dk 抵消 q 与 k 维度对点积尺度的影响。
- C:对。 缩放后 softmax 分布不过分陡峭,更平滑。
- D:错。 缩放不改变计算量。
T18
答案: C、D 解析:
- A:错。 OLS 不要求残差必须正态(正态用于置信区间/检验)。
- B:错。 线性回归目标是最小化残差平方和,而非最大化误差。
- C:对。 OLS 是经典参数估计法。
- D:对。 基本设定就是自变量与因变量近似线性关系。
T19
答案: A、B、C(选“错误”的) 解析:
- A:错。 独立不蕴含互斥。
- B:错。 互不相容一般不独立(除非至少一事件概率为 0)。
- C:错。 P(A)=0 不必为“不可能”,连续情形下仍可能发生(几乎不事件)。
- D:对。 P(B)=1 仅称“几乎必然”,并非必须等于必然事件 Ω。
T20
答案: C、D 解析:
- A:错。 n+1 个互异节点存在且唯一的是次数 ≤n 的多项式;6 个点应为 5 次,不是 6 次。
- B:错。 三次样条虽是分段多项式,但当数据恰好来自某个三次多项式时,样条可与单一多项式重合,并非“一定无法”。
- C:对。 龙格现象:等距节点、次数升高时端点附近振荡/误差增大,易在多项式插值出现。
- D:对。 拉格朗日插值本质上就是多项式插值的一种显式公式。
1、关于机器学习聚类任务的下列说法中,哪一项是正确的? {{ select(1) }}
- DBSCAN 要求所有点必须属于某一簇,因此不能处理含有噪声的数据集,否则无法收敛到稳定结果
- 谱聚类通过图拉普拉斯矩阵的特征分解降维,并在低维空间中使用 K−means 进行聚类。
- 层次聚类通过迭代优化目标函数来寻找最优聚类划分,其结果依赖于初始聚类中心的选择。
- K−means 聚类使用中位数作为簇中心,因此对噪声和离群点具有较强鲁棒性。
2、关于 L1 正则化 (Lasso) 和 L2 正则化 (Ridge) 的描述,下列说法正确的是 {{ select(2) }}
- 当训练数据存在多重共线性时,L1 正则化的效果通常优于 L2 正则化
- L2 正则化会导致参数值变得更大,从而增强模型对输入特征的敏感性
- L1 正则化会使模型参数更倾向于稀疏化,即更多参数变为 0
3、矩阵 A 是一个 m×n 的实矩阵,其奇异值分解为 A=U∑VT,其中 U、∑、V 分别为相应维度的矩阵。下列关于这三个矩阵的说法,正确的是() {{ select(3) }}
- 若 A 是可逆方阵,则 ∑ 的对角元素均为 0
- U 是 m×n 的正交矩阵,且其列向量是 ATA 的特征向量
- ∑ 是 m×n 的对角矩阵,对角元素非负且按降序排列
- V 是 m×m 的正交矩阵,且其列向量是 ATA 的特征向量
4、在 Transformer 的架构中,几乎每个子层(如自注意力层、前馈网络层)的输出都会经过一个 Layer Nomalization (层归一化)操作。在自然语言处理任务中,相比于在计算机视觉中常用的 Batch Nomalization (批归一化)选择 LayerNorm 最关键的原因是? {{ select(4) }}
- LayerNorm 的计算量远小于 Batch Normalization,可以显著提升模型的训练速度。
- LayerNorm 在计算归一化统计量(均值和方差)时,独立于批次中的其他样本,因此对不同长度的输入序列和变化的批次大小 (Batch size) 具有更好的鲁棒性。
- Batch Normalization只能用于卷积层,而 LayerNorm 可以用于全连接层。
- LayerNorm 能够更好地处理词汇表外的 (Out−of−Vocabulary) 单词。
5、已知从人群中随机抽取一名男性,该男性年龄在 30−40 岁之间的概率为 0.25,在其他年龄段的概率为 0.75、且人群中 30−40 岁年龄段和其他年龄段中男性的比例都为 0.4 ,若用贝叶斯定理估计该男性属于 30−40 岁年龄段的段的后验概率,结果为: {{ select(5) }}
- 0.25
- 0.4
- 0.5
- 0.1
6、关于矩阵的 2− 范数 ‖A‖2 和 Frobenius 范数 ‖A‖F,下列说法正确的是 {{ select(6) }}
- ‖A‖2 和 ‖A‖F 都等于矩阵元素的绝对值之和
- ‖A‖2 是最大特征值,‖A‖F 是特征值的平方和
- 对于任意矩阵,‖A‖2=‖A‖F
- ‖A‖2 是最大奇异值,‖A‖F 是奇异值的平方和的平方根
7、已知 3 阶矩阵 A 与 B 相似,且 A 满足 ∣A+E∣=∣A−2E∣=∣2A+3E∣=0,则 ∣B+3E∣= ()
注: E 为单位矩阵
{{ select(7) }}
- 20
- 15
- 0
- 50
8、一个均匀 6 面骰子,平均投掷多少次能投出连续的两个 6 点 {{ select(8) }}
- 36
- 42
- 48
- 37
9、若输入序列长度为 3 ,Causal Mask 的矩阵形式是 {{ select(9) }}
- $\left[\begin{array}{lll}0 & 0 & 0 \\0 & 0 & 0 \\0 & 0 & 0\end{array}\right]$
- $\left[\begin{array}{lll}0 & 0 & 0 \\-inf & 0 & 0 \\-inf & -inf & 0\end{array}\right]$
- $\left[\begin{array}{lll}0 & -inf & 0 \\0 & 0 & -inf \\-inf & 0 & 0\end{array}\right]$
- $\left[\begin{array}{lll}0 & -inf & -inf \\0 & 0 & -inf \\0 & 0 & 0\end{array}\right]$
10、假设总体 X÷N(μ,1),其均值 μ 的 95 % 置信区间为 [0.31,1.56] ,则概率 P(x≤0) 的 95 % 置信区间为 {{ select(10) }}
- [1−Φ(1.56),1−Φ(0.31)]
- [0.31,1.56]
- [0,Φ(1.56)]
- [Φ(0.31),Φ(1.56)]
11、使用 LoRA rank=64 对 LLAMA 7B 模型(词表大小 =32 000,hiden size=4096,32 层)进行微调,仅对 attention 的 query & value 矩阵加 LORA,可训练参数量占原模型总量约 {{ select(11) }}
- 1.00 %
- 0.05 %
- 0.50 %
- 0.10 %
12、Swish 激活函数 f(x)=x⋅σ(βx),当 β→∞ 时逼近以下哪个函数
{{ select(12) }}
- tanh
- 线性
- sigmoid
- ReLU
13、用幂法求矩阵 $A=\left[\begin{array}{ll}2 & 1 \\1 & 2\end{array}\right]$ 的主特征值,初始向量 v0=[1,0]⊤,迭代一次后的结果是: {{ select(13) }}
- [0,0]⊤
- [1,2]⊤
- [3,3]⊤
- [2,1]⊤
14、在 Transformer 模型中,残差连接(Residual Connection)的主要作用是? {{ select(14) }}
- 减少模型的计算量
- 增加模型的非线性表达能力
- 增强位置编码的效果
- 缓解梯度消失问题,帮助深层网络训练
15、在分类任务中,真正例 TP=3,真反例 TN=4,假正例 FP=1,假反例 FN=2,那么 F1 值为() {{ select(15) }}
- 0.75
- 0.5
- 0.67
- 0.6
16、下列关于矩阵分解的表述哪些是正确的() {{ multiselect(16) }}
- 对任意矩阵 A (实或复),SVD 分解一定存在
- LU 分解总是存在且唯一
- QR 分解中的 Q 矩阵可以不是方阵
- SVD 分解中的 ∑ 矩阵包含矩阵的奇异值
17、Scaled Dot−Product Attention 中缩放因子 dk, 的作用是 {{ multiselect(17) }}
- 防止点积数值过大导致梯度消失
- 补偿 query 和 key 向量维度的影响
- 使 Softmax 输出更均匀
- 减少计算量
18、数据之间的关系以及数据服从的分布形态影响了模型建模的效果,下列关于线性回归的描述中,哪些是正确的? {{ multiselect(18) }}
- 线性回归模型中,误差项(残差)必须服从正态分布
- 线性回归模型的目标是最大化预测值与真实值之间的误差
- 线性回归模型可以通过最小二乘法进行参数估计
- 线性回归模型假设自变量和因变量之间存在线性关系
19、设 A,B 为任意两个随机事件,则以下说法错误的是() {{ multiselect(19) }}
- 若 A 和 B 独立,则二者一定互不相容( AB=∅ )
- 若 A 和 B 互不相容( AB=∅ ),则二者一定独立
- 若 P(A)=0,则 A 一定是不可能事件
- 若 P(B)=1 ,则 B 不一定是必然事件
20、以下关于多项式插值的说法中,正确的有 {{ multiselect(20) }}
- 对 6 个互异插值节点,满足插值条件的 6 次插值多顶式存在且唯一
- 三次样条插值法属于分段多项式插值;因此插值结果一定无法仅用一个多项式表示
- 荣格现象,即随着插值点增加,插值余项出同步增加的一种现象,容易出现在多项式值中。
- 拉格朗日插值法属于多项式插值