#P4276. 第1题-选择题
-
Tried: 174
Accepted: 39
Difficulty: 4
所属公司 :
华为
时间 :2025年10月23日-AI方向(留学生)
-
算法标签>机器学习算法
第1题-选择题
题目与答案整理
T1
答案: B 解析:
- A:错。 DBSCAN 允许把点标记为“噪声/离群”,不要求所有点都归到某簇里。
- B:对。 谱聚类先做图拉普拉斯矩阵特征分解得到低维嵌入,再在嵌入空间用 K-means。
1、关于机器学习聚类任务的下列说法中,哪一项是正确的? {{ select(1) }}
- DBSCAN 要求所有点必须属于某一簇,因此不能处理含有噪声的数据集,否则无法收敛到稳定结果
- 谱聚类通过图拉普拉斯矩阵的特征分解降维,并在低维空间中使用 K−means 进行聚类。
- 层次聚类通过迭代优化目标函数来寻找最优聚类划分,其结果依赖于初始聚类中心的选择。
- K−means 聚类使用中位数作为簇中心,因此对噪声和离群点具有较强鲁棒性。
2、关于 L1 正则化 (Lasso) 和 L2 正则化 (Ridge) 的描述,下列说法正确的是 {{ select(2) }}
- 当训练数据存在多重共线性时,L1 正则化的效果通常优于 L2 正则化
- L2 正则化会导致参数值变得更大,从而增强模型对输入特征的敏感性
- L1 正则化会使模型参数更倾向于稀疏化,即更多参数变为 0
3、矩阵 A 是一个 m×n 的实矩阵,其奇异值分解为 A=U∑VT,其中 U、∑、V 分别为相应维度的矩阵。下列关于这三个矩阵的说法,正确的是() {{ select(3) }}
- 若 A 是可逆方阵,则 ∑ 的对角元素均为 0
- U 是 m×n 的正交矩阵,且其列向量是 ATA 的特征向量
- ∑ 是 m×n 的对角矩阵,对角元素非负且按降序排列
- V 是 m×m 的正交矩阵,且其列向量是 ATA 的特征向量
4、在 Transformer 的架构中,几乎每个子层(如自注意力层、前馈网络层)的输出都会经过一个 Layer Nomalization (层归一化)操作。在自然语言处理任务中,相比于在计算机视觉中常用的 Batch Nomalization (批归一化)选择 LayerNorm 最关键的原因是? {{ select(4) }}
- LayerNorm 的计算量远小于 Batch Normalization,可以显著提升模型的训练速度。
- LayerNorm 在计算归一化统计量(均值和方差)时,独立于批次中的其他样本,因此对不同长度的输入序列和变化的批次大小 (Batch size) 具有更好的鲁棒性。
- Batch Normalization只能用于卷积层,而 LayerNorm 可以用于全连接层。
- LayerNorm 能够更好地处理词汇表外的 (Out−of−Vocabulary) 单词。
5、已知从人群中随机抽取一名男性,该男性年龄在 30−40 岁之间的概率为 0.25,在其他年龄段的概率为 0.75、且人群中 30−40 岁年龄段和其他年龄段中男性的比例都为 0.4 ,若用贝叶斯定理估计该男性属于 30−40 岁年龄段的段的后验概率,结果为: {{ select(5) }}
- 0.25
- 0.4
- 0.5
- 0.1
6、关于矩阵的 2− 范数 ‖A‖2 和 Frobenius 范数 ‖A‖F,下列说法正确的是 {{ select(6) }}
- ‖A‖2 和 ‖A‖F 都等于矩阵元素的绝对值之和
- ‖A‖2 是最大特征值,‖A‖F 是特征值的平方和
- 对于任意矩阵,‖A‖2=‖A‖F
- ‖A‖2 是最大奇异值,‖A‖F 是奇异值的平方和的平方根
7、已知 3 阶矩阵 A 与 B 相似,且 A 满足 ∣A+E∣=∣A−2E∣=∣2A+3E∣=0,则 ∣B+3E∣= ()
注: E 为单位矩阵
{{ select(7) }}
- 20
- 15
- 0
- 50
8、一个均匀 6 面骰子,平均投掷多少次能投出连续的两个 6 点 {{ select(8) }}
- 36
- 42
- 48
- 37
9、若输入序列长度为 3 ,Causal Mask 的矩阵形式是 {{ select(9) }}
- 000000000
- 0−inf−inf00−inf000
- 00−inf−inf000−inf0
- 000−inf00−inf−inf0
10、假设总体 X÷N(μ,1),其均值 μ 的 95 % 置信区间为 [0.31,1.56] ,则概率 P(x≤0) 的 95 % 置信区间为 {{ select(10) }}
- [1−Φ(1.56),1−Φ(0.31)]
- [0.31,1.56]
- [0,Φ(1.56)]
- [Φ(0.31),Φ(1.56)]
11、使用 LoRA rank=64 对 LLAMA 7B 模型(词表大小 =32 000,hiden size=4096,32 层)进行微调,仅对 attention 的 query & value 矩阵加 LORA,可训练参数量占原模型总量约 {{ select(11) }}
- 1.00 %
- 0.05 %
- 0.50 %
- 0.10 %
12、Swish 激活函数 f(x)=x⋅σ(βx),当 β→∞ 时逼近以下哪个函数
{{ select(12) }}
- tanh
- 线性
- sigmoid
- ReLU
13、用幂法求矩阵 A=[2112] 的主特征值,初始向量 v0=[1,0]⊤,迭代一次后的结果是: {{ select(13) }}
- [0,0]⊤
- [1,2]⊤
- [3,3]⊤
- [2,1]⊤
14、在 Transformer 模型中,残差连接(Residual Connection)的主要作用是? {{ select(14) }}
- 减少模型的计算量
- 增加模型的非线性表达能力
- 增强位置编码的效果
- 缓解梯度消失问题,帮助深层网络训练
15、在分类任务中,真正例 TP=3,真反例 TN=4,假正例 FP=1,假反例 FN=2,那么 F1 值为() {{ select(15) }}
- 0.75
- 0.5
- 0.67
- 0.6
16、下列关于矩阵分解的表述哪些是正确的() {{ multiselect(16) }}
- 对任意矩阵 A (实或复),SVD 分解一定存在
- LU 分解总是存在且唯一
- QR 分解中的 Q 矩阵可以不是方阵
- SVD 分解中的 ∑ 矩阵包含矩阵的奇异值
17、Scaled Dot−Product Attention 中缩放因子 dk, 的作用是 {{ multiselect(17) }}
- 防止点积数值过大导致梯度消失
- 补偿 query 和 key 向量维度的影响
- 使 Softmax 输出更均匀
- 减少计算量
18、数据之间的关系以及数据服从的分布形态影响了模型建模的效果,下列关于线性回归的描述中,哪些是正确的? {{ multiselect(18) }}
- 线性回归模型中,误差项(残差)必须服从正态分布
- 线性回归模型的目标是最大化预测值与真实值之间的误差
- 线性回归模型可以通过最小二乘法进行参数估计
- 线性回归模型假设自变量和因变量之间存在线性关系
19、设 A,B 为任意两个随机事件,则以下说法错误的是() {{ multiselect(19) }}
- 若 A 和 B 独立,则二者一定互不相容( AB=∅ )
- 若 A 和 B 互不相容( AB=∅ ),则二者一定独立
- 若 P(A)=0,则 A 一定是不可能事件
- 若 P(B)=1 ,则 B 不一定是必然事件
20、以下关于多项式插值的说法中,正确的有 {{ multiselect(20) }}
- 对 6 个互异插值节点,满足插值条件的 6 次插值多顶式存在且唯一
- 三次样条插值法属于分段多项式插值;因此插值结果一定无法仅用一个多项式表示
- 荣格现象,即随着插值点增加,插值余项出同步增加的一种现象,容易出现在多项式值中。
- 拉格朗日插值法属于多项式插值