#P4778. 第1题-选择题

第1题-选择题

1、在标准的数据并行(DDP)训练过程中,每个GPU独立计算梯度后,为了保持模型权重一致,需要在每次迭代结束时执行什么通信操作? {{ select(1) }}

  • Broadcast
  • All - Gather
  • Send/Recv
  • All - Reduce

2、在使用 K-Means 算法进行聚类之前,用户必须预先指定的关键参数是? {{ select(2) }}

  • 聚类中心的初始坐标
  • 聚类的数量 K
  • 数据的密度阈值
  • 学习率 (Learning Rate)

3、设数据矩阵XRn×dX\in\mathrm{R}^{n\times d}。若对数据进行线性映射$$ Z = XW, $$其中WRd×kW\in\mathbb{R}^{d\times k},则新的数据矩阵ZZ的维度为: {{ select(3) }}

  • n×dn\times d
  • n×kn\times k
  • d×kd\times k
  • k×nk\times n

4、给定输入向量为[4,4,4],经过标准Softmax函数处理后,输出的向量结果是多少? {{ select(4) }}

  • [1,1,1]
  • [0,5,0,5,0.5]
  • [0,0,1]
  • [1/3,1/3,1/3]

5、K-Means算法在迭代过程中,衡量样本点归属的核心准则是?

{{ select(5) }}

  • 到质心的欧氏距离最小
  • 样本点范围的密度最大
  • 样本点间的余弦相似度
  • 连通性

6、在特征工程中,以下哪项操作通常用于减少特征维度并保留主要信息?

{{ select(6) }}

  • 特征降维
  • 特征选择
  • 特征编码
  • 特征缩放

7、在一个极简的检索增强生成(RAG)系统中,用户的查询 Query 会被转化为嵌入向量 q=[1,2]T q = [1,2]^T 。向量数据库中存储了两个文档的嵌入向量,分别是 d1=[2,1]T d_1 = [2,1]^T d2=[1,2]T d_2 = [-1,2]^T 。系统使用最大内积搜索(Maximum Inner Product Search, MIPS)来召回最相关的文档。请计算内积得分,并判断系统会召回哪个文档以及对应的得分是多少? {{ select(7) }}

  • 召回文档 d1 d_1 ,得分为 4
  • 召回文档 d2 d_2 ,得分为 4
  • 召回文档 d2 d_2 ,得分为 3
  • 召回文档 d1 d_1 ,得分为 5

8、设样本X1X_{1},X2X_{2},…,XnX_{n}来自正态总体N(μ,σ2)N(\mu,\sigma^{2})μ\mu未知、σ2\sigma^{2}已知,若似然函数L(μ)=exp[1/(2σ2)i=1n(Xiμ)2]L(\mu)=\exp[-1/(2\sigma^{2})\sum_{i = 1}^{n}(X_{i}-\mu)^{2}],则使L(μ)L(\mu)最大的μ\mu满足() {{ select(8) }}

  • i=1n(Xiμ)=σ2\sum_{i = 1}^{n}(X_{i}-\mu)=\sigma^{2}
  • i=1n(Xiμ)2=0\sum_{i = 1}^{n}(X_{i}-\mu)^{2}=0
  • i=1n(Xiμ)2=nσ2\sum_{i = 1}^{n}(X_{i}-\mu)^{2}=n\sigma^{2}
  • i=1n(Xiμ)=0\sum_{i = 1}^{n}(X_{i}-\mu)=0

9、线性回归中关于R2R^2(决定系数),下列说法正确的是

{{ select(9) }}

  • 增加无关特征会使R2R^2降低
  • R2R^2是衡量模型对数据拟合优度的核心指标,取值范围[0,1]
  • R2R^2可以用于比较不同数据集上模型的优劣
  • R2R^2越接近0,模型拟合越好

10、评测长上下文能力时,为避免模型靠"猜测/泛化"蒙对,常见的高质量题型设计是?

{{ select(10) }}

  • 在长文中埋入多个相似实体/数值,要求定位并做跨段整合(needle / multi - hop)
  • 提问"这段话大意是什么"
  • 把短文重复10遍凑成长文
  • 测模型能输出多少token

11、在特征工程的特征选择(Feature Selection)过程中,当我们怀疑特征 X 与目标变量 Y 之间存在复杂的非线性相关性(例如Y=X2Y=X^2或周期性关系),且 X 并不服从正态分布时,下列哪种统计指标或方法在评估特征重要性时最为准确且稳健? {{ select(11) }}

  • 斯皮尔曼等级相关系数(Spearman's Rank Correlation):利用变量的秩次(Rank)进行线性相关性分析。
  • 方差分析(ANOVA F-value):通过比较组间方差与组内方差的比值来检验均值差异。
  • 皮尔逊相关系数(Pearson Correlation Coefficient):通过计算协方差与标准差的比值来衡量相关性。
  • 互信息(Mutual Information MI):基于信息熵理论,衡量已知 X 的情况下 Y 属性不确定性的减少程度。

12、矩阵奇异值分解(SVD)无法直接应用于以下哪个场景?

{{ select(12) }}

  • 图像去噪
  • 决策树分类
  • 文本主题建模
  • 推荐系统中用户-电影评分矩阵降维

13、SmoothQuant是一种常用的大模型量化方法,它的核心思想是?

{{ select(13) }}

  • 将权重scale转移到activation
  • 将activation scale转移到权重
  • 减少层数
  • 减少batch

14、实数矩阵A的零空间是指? {{ select(14) }}

  • 与列空间正交的空间
  • 矩阵的列向量张成的空间
  • 满足Ax=0Ax = \vec{0}的所有xx构成的空间
  • 矩阵的行向量张成的空间

15、神经网络相比线性模型的优势在于

{{ select(15) }}

  • 参数更少
  • 不需要激活函数
  • 计算更简单
  • 可以学习非线性关系

16、并非所有图形计算单元都支持矩阵求逆算子,若不支持,可使用Newton-Schulz迭代法。设非奇异矩阵ARm× nA\in\boldsymbol{R}^{m\times n},使用Newton - Schulz迭代计算A1:Xk + 1=Xk(2I  AXk),k = 0,1,2,A^{-1}:X_{k + 1}=X_{k}(2I - AX_{k}),k = 0,1,2,\ldots。记误差矩阵为E1=I  AX1E_{1}=I - AX_{1},下列说法正确的是?

{{ multiselect(16) }}

  •  E0 < 1\vert E_{0}\vert < 1,则迭代二次收敛到A1A^{-1},且误差满足 Ek <  E02k\vert E_{k}\vert < \vert E_{0}\vert^{2^{k}}

  • 若谱半径ρ(E0) < 1\rho(E_{0}) < 1,则迭代收敛到A1A^{-1}

  • 如果AA可逆,那么该迭代方法对初值X0X_{0}不敏感。

  • 误差满足Ek + 1=Ek3E_{k + 1}=E_{k}^{3},收敛阶为3。

17、下面哪些优化器属于“自适应学习率(按参数/维度自适应缩放)”方法?

{{ multiselect(17) }}

  • SGD
  • Adam
  • AdamW
  • RMSprop

18、关于神经网络的层,以下哪些说法是正确的?

{{ multiselect(18) }}

  • 输入层通常不进行计算,只是传递数据
  • 隐藏层可以有多个
  • 输出层的神经元数量通常由任务决定(如分类类别数)
  • 所有层的神经元数量必须相同

19、设X和Y是两个随机变量,a、b和c是常数。以下关于期望性质的说法中,正确的有?

{{ multiselect(19) }}

  • E[XY] = E[X]  E[Y]E[XY] = E[X] \cdot E[Y] 总是成立
  • Var(X) = E[X2]  (E[X])2Var(X) = E[X^2] - (E[X])^2 恒成立
  • E[aX + bY + c] = aE[X] + bE[Y] + cE[aX + bY + c] = aE[X] + bE[Y] + c
  • E[X2]  (E[X])2E[X^2] \geq (E[X])^2 恒成立

20、关于插值多项式的说法,下列哪些是正确的?

{{ multiselect(20) }}

  • 插值多项式在节点处的函数值一定等于给定函数值。
  • 对于给定的n + 1个互异节点,次数不超过n的插值多项式存在且唯一。
  • 高次插值多项式通常能更好地逼近原函数。
  • Lagrange插值法和Newton插值法构造的插值多项式是相同的。