#P4276. 第1题-选择题

第1题-选择题

1、关于机器学习聚类任务的下列说法中,哪一项是正确的? {{ select(1) }}

  • DBSCANDBSCAN 要求所有点必须属于某一簇,因此不能处理含有噪声的数据集,否则无法收敛到稳定结果
  • 谱聚类通过图拉普拉斯矩阵的特征分解降维,并在低维空间中使用 KmeansK-means 进行聚类。
  • 层次聚类通过迭代优化目标函数来寻找最优聚类划分,其结果依赖于初始聚类中心的选择。
  • KmeansK-means 聚类使用中位数作为簇中心,因此对噪声和离群点具有较强鲁棒性。

2、关于 L1L1 正则化 (Lasso)(Lasso)L2L2 正则化 (Ridge)(Ridge) 的描述,下列说法正确的是 {{ select(2) }}

  • 当训练数据存在多重共线性时,L1L1 正则化的效果通常优于 L2L2 正则化
  • L2L2 正则化会导致参数值变得更大,从而增强模型对输入特征的敏感性
  • L1L1 正则化会使模型参数更倾向于稀疏化,即更多参数变为 00

3、矩阵 AA 是一个 m×nm×n 的实矩阵,其奇异值分解为 A=UVTA=U∑V^T,其中 UVU、∑、V 分别为相应维度的矩阵。下列关于这三个矩阵的说法,正确的是() {{ select(3) }}

  • AA 是可逆方阵,则 的对角元素均为 00
  • UUm×nm ×n 的正交矩阵,且其列向量是 ATAA^TA 的特征向量
  • m×nm ×n 的对角矩阵,对角元素非负且按降序排列
  • VVm×mm ×m 的正交矩阵,且其列向量是 ATAA^TA 的特征向量

4、在 TransformerTransformer 的架构中,几乎每个子层(如自注意力层、前馈网络层)的输出都会经过一个 LayerLayer NomalizationNomalization (层归一化)操作。在自然语言处理任务中,相比于在计算机视觉中常用的 BatchBatch NomalizationNomalization (批归一化)选择 LayerNormLayerNorm 最关键的原因是? {{ select(4) }}

  • LayerNormLayerNorm 的计算量远小于 BatchBatch NormalizationNormalization,可以显著提升模型的训练速度。
  • LayerNormLayerNorm 在计算归一化统计量(均值和方差)时,独立于批次中的其他样本,因此对不同长度的输入序列和变化的批次大小 (Batch(Batch size)size) 具有更好的鲁棒性。
  • BatchBatch NormalizationNormalization只能用于卷积层,而 LayerNormLayerNorm 可以用于全连接层。
  • LayerNormLayerNorm 能够更好地处理词汇表外的 (OutofVocabulary)(Out-of-Vocabulary) 单词。

5、已知从人群中随机抽取一名男性,该男性年龄在 304030-40 岁之间的概率为 0.250.25,在其他年龄段的概率为 0.750.75、且人群中 304030-40 岁年龄段和其他年龄段中男性的比例都为 0.40.4 ,若用贝叶斯定理估计该男性属于 304030-40 岁年龄段的段的后验概率,结果为: {{ select(5) }}

  • 0.250.25
  • 0.40.4
  • 0.50.5
  • 0.10.1

6、关于矩阵的 22- 范数 A2‖A‖_2FrobeniusFrobenius 范数 AF‖A‖_F,下列说法正确的是 {{ select(6) }}

  • A2‖A‖_2AF‖A‖_F 都等于矩阵元素的绝对值之和
  • A2‖A‖_2 是最大特征值,AF‖A‖_F 是特征值的平方和
  • 对于任意矩阵,A2=AF‖A‖_2=‖A‖_F
  • A2‖A‖_2 是最大奇异值,AF‖A‖_F 是奇异值的平方和的平方根

7、已知 33 阶矩阵 AABB 相似,且 AA 满足 A+E=A2E=2A+3E=0|A+E|=|A-2E|=|2A+3E|=0,则 B+3E=|B+3E|= ()

注: EE 为单位矩阵

{{ select(7) }}

  • 2020
  • 1515
  • 00
  • 5050

8、一个均匀 66 面骰子,平均投掷多少次能投出连续的两个 66 {{ select(8) }}

  • 3636
  • 4242
  • 4848
  • 3737

9、若输入序列长度为 33CausalCausal MaskMask 的矩阵形式是 {{ select(9) }}

  • $\left[\begin{array}{lll}0 & 0 & 0 \\0 & 0 & 0 \\0 & 0 & 0\end{array}\right]$
  • $\left[\begin{array}{lll}0 & 0 & 0 \\-inf & 0 & 0 \\-inf & -inf & 0\end{array}\right]$
  • $\left[\begin{array}{lll}0 & -inf & 0 \\0 & 0 & -inf \\-inf & 0 & 0\end{array}\right]$
  • $\left[\begin{array}{lll}0 & -inf & -inf \\0 & 0 & -inf \\0 & 0 & 0\end{array}\right]$

10、假设总体 X÷N(μ,1)X÷N(μ,1),其均值 μμ9595 % 置信区间为 [0.31,1.56][0.31,1.56] ,则概率 P(x0)P(x≤0)9595 % 置信区间为 {{ select(10) }}

  • [1Φ(1.56),1Φ(0.31)][1-\Phi(1.56), 1-\Phi(0.31)]
  • [0.31,1.56][0.31,1.56]
  • [0,Φ(1.56)][0, \Phi(1.56)]
  • [Φ(0.31),Φ(1.56)][\Phi(0.31),\Phi(1.56)]

11、使用 LoRALoRA rank=64rank=64LLAMALLAMA 7B7B 模型(词表大小 =32=32 000,hiden000,hiden size=4096,32size=4096,32 层)进行微调,仅对 attentionattentionqueryquery & valuevalue 矩阵加 LORALORA,可训练参数量占原模型总量约 {{ select(11) }}

  • 1.001.00 %
  • 0.050.05 %
  • 0.500.50 %
  • 0.100.10 %

12、SwishSwish 激活函数 f(x)=xσ(βx)f(x)=x \cdot \sigma(\beta x),当 β\beta \rightarrow \infty 时逼近以下哪个函数

{{ select(12) }}

  • tanh
  • 线性
  • sigmoid
  • ReLU

13、用幂法求矩阵 $A=\left[\begin{array}{ll}2 & 1 \\1 & 2\end{array}\right]$ 的主特征值,初始向量 v0=[1,0]v_{0}=[\mathbf{1}, \mathbf{0}]^{\top},迭代一次后的结果是: {{ select(13) }}

  • [0,0][\mathbf{0}, \mathbf{0}]^{\top}
  • [1,2][\mathbf{1}, \mathbf{2}]^{\top}
  • [3,3][\mathbf{3}, \mathbf{3}]^{\top}
  • [2,1][\mathbf{2}, \mathbf{1}]^{\top}

14、在 TransformerTransformer 模型中,残差连接(ResidualResidual ConnectionConnection)的主要作用是? {{ select(14) }}

  • 减少模型的计算量
  • 增加模型的非线性表达能力
  • 增强位置编码的效果
  • 缓解梯度消失问题,帮助深层网络训练

15、在分类任务中,真正例 TP=3TP=3,真反例 TN=4TN=4,假正例 FP=1FP=1,假反例 FN=2FN=2,那么 F1F1 值为() {{ select(15) }}

  • 0.750.75
  • 0.50.5
  • 0.670.67
  • 0.60.6

16、下列关于矩阵分解的表述哪些是正确的() {{ multiselect(16) }}

  • 对任意矩阵 AA (实或复),SVDSVD 分解一定存在
  • LULU 分解总是存在且唯一
  • QRQR 分解中的 QQ 矩阵可以不是方阵
  • SVDSVD 分解中的 矩阵包含矩阵的奇异值

17、ScaledScaled DotProductDot-Product AttentionAttention 中缩放因子 dk\sqrt{d_{k}}, 的作用是 {{ multiselect(17) }}

  • 防止点积数值过大导致梯度消失
  • 补偿 queryquerykeykey 向量维度的影响
  • 使 SoftmaxSoftmax 输出更均匀
  • 减少计算量

18、数据之间的关系以及数据服从的分布形态影响了模型建模的效果,下列关于线性回归的描述中,哪些是正确的? {{ multiselect(18) }}

  • 线性回归模型中,误差项(残差)必须服从正态分布
  • 线性回归模型的目标是最大化预测值与真实值之间的误差
  • 线性回归模型可以通过最小二乘法进行参数估计
  • 线性回归模型假设自变量和因变量之间存在线性关系

19、设 A,BA,B 为任意两个随机事件,则以下说法错误的是() {{ multiselect(19) }}

  • AABB 独立,则二者一定互不相容( AB=AB=\emptyset )
  • AABB 互不相容( AB=AB=\emptyset ),则二者一定独立
  • P(A)=0P(A)=0,则 AA 一定是不可能事件
  • P(B)=1P(B)=1 ,则 BB 不一定是必然事件

20、以下关于多项式插值的说法中,正确的有 {{ multiselect(20) }}

  • 66 个互异插值节点,满足插值条件的 66 次插值多顶式存在且唯一
  • 三次样条插值法属于分段多项式插值;因此插值结果一定无法仅用一个多项式表示
  • 荣格现象,即随着插值点增加,插值余项出同步增加的一种现象,容易出现在多项式值中。
  • 拉格朗日插值法属于多项式插值