T1

答案：D. All-Reduce
解析： DDP中各GPU先独立算梯度，再用 All-Reduce 对梯度求和/平均并同步，保证参数更新一致。

T2

1、在标准的数据并行（DDP）训练过程中，每个GPU独立计算梯度后，为了保持模型权重一致，需要在每次迭代结束时执行什么通信操作？ {{ select(1) }}

Broadcast
All - Gather
Send/Recv
All - Reduce

2、在使用 K-Means 算法进行聚类之前，用户必须预先指定的关键参数是？ {{ select(2) }}

聚类中心的初始坐标
聚类的数量 K
数据的密度阈值
学习率 (Learning Rate)

3、设数据矩阵 $X\in\mathrm{R}^{n\times d}$ 。若对数据进行线性映射$$ Z = XW, $$其中 $W\in\mathbb{R}^{d\times k}$ ，则新的数据矩阵 $Z$ 的维度为： {{ select(3) }}

$n\times d$
$n\times k$
$d\times k$
$k\times n$

4、给定输入向量为[4,4,4]，经过标准Softmax函数处理后，输出的向量结果是多少？ {{ select(4) }}

[1,1,1]
[0,5,0,5,0.5]
[0,0,1]
[1/3,1/3,1/3]

5、K-Means算法在迭代过程中，衡量样本点归属的核心准则是？

到质心的欧氏距离最小
样本点范围的密度最大
样本点间的余弦相似度
连通性

6、在特征工程中，以下哪项操作通常用于减少特征维度并保留主要信息?

特征降维
特征选择
特征编码
特征缩放

7、在一个极简的检索增强生成（RAG）系统中，用户的查询 Query 会被转化为嵌入向量 $q = [1,2]^T$ 。向量数据库中存储了两个文档的嵌入向量，分别是 $d_1 = [2,1]^T$ 和 $d_2 = [-1,2]^T$ 。系统使用最大内积搜索（Maximum Inner Product Search, MIPS）来召回最相关的文档。请计算内积得分，并判断系统会召回哪个文档以及对应的得分是多少？ {{ select(7) }}

召回文档 $d_1$ ，得分为 4
召回文档 $d_2$ ，得分为 4
召回文档 $d_2$ ，得分为 3
召回文档 $d_1$ ，得分为 5

8、设样本 $X_{1}$ , $X_{2}$ ,…, $X_{n}$ 来自正态总体 $N(\mu,\sigma^{2})$ ， $\mu$ 未知、 $\sigma^{2}$ 已知，若似然函数 $L(\mu)=\exp[-1/(2\sigma^{2})\sum_{i = 1}^{n}(X_{i}-\mu)^{2}]$ ，则使 $L(\mu)$ 最大的 $\mu$ 满足（） {{ select(8) }}

$\sum_{i = 1}^{n}(X_{i}-\mu)=\sigma^{2}$
$\sum_{i = 1}^{n}(X_{i}-\mu)^{2}=0$
$\sum_{i = 1}^{n}(X_{i}-\mu)^{2}=n\sigma^{2}$
$\sum_{i = 1}^{n}(X_{i}-\mu)=0$

9、线性回归中关于 $R^2$ （决定系数），下列说法正确的是

增加无关特征会使 $R^2$ 降低
$R^2$ 是衡量模型对数据拟合优度的核心指标，取值范围[0,1]
$R^2$ 可以用于比较不同数据集上模型的优劣
$R^2$ 越接近0，模型拟合越好

10、评测长上下文能力时，为避免模型靠"猜测/泛化"蒙对，常见的高质量题型设计是？

在长文中埋入多个相似实体/数值，要求定位并做跨段整合（needle / multi - hop）
提问"这段话大意是什么"
把短文重复10遍凑成长文
测模型能输出多少token

11、在特征工程的特征选择（Feature Selection）过程中，当我们怀疑特征 X 与目标变量 Y 之间存在复杂的非线性相关性（例如 $Y=X^2$ 或周期性关系），且 X 并不服从正态分布时，下列哪种统计指标或方法在评估特征重要性时最为准确且稳健？ {{ select(11) }}

斯皮尔曼等级相关系数(Spearman's Rank Correlation)：利用变量的秩次(Rank)进行线性相关性分析。
方差分析(ANOVA F-value)：通过比较组间方差与组内方差的比值来检验均值差异。
皮尔逊相关系数(Pearson Correlation Coefficient)：通过计算协方差与标准差的比值来衡量相关性。
互信息(Mutual Information MI)：基于信息熵理论，衡量已知 X 的情况下 Y 属性不确定性的减少程度。

12、矩阵奇异值分解（SVD）无法直接应用于以下哪个场景？

图像去噪
决策树分类
文本主题建模
推荐系统中用户-电影评分矩阵降维

13、SmoothQuant是一种常用的大模型量化方法，它的核心思想是？

将权重scale转移到activation
将activation scale转移到权重
减少层数
减少batch

14、实数矩阵A的零空间是指? {{ select(14) }}

与列空间正交的空间
矩阵的列向量张成的空间
满足 $Ax = \vec{0}$ 的所有 $x$ 构成的空间
矩阵的行向量张成的空间

15、神经网络相比线性模型的优势在于

参数更少
不需要激活函数
计算更简单
可以学习非线性关系

16、并非所有图形计算单元都支持矩阵求逆算子，若不支持，可使用Newton-Schulz迭代法。设非奇异矩阵 $A\in\boldsymbol{R}^{m\times n}$ ，使用Newton - Schulz迭代计算 $A^{-1}:X_{k + 1}=X_{k}(2I - AX_{k}),k = 0,1,2,\ldots$ 。记误差矩阵为 $E_{1}=I - AX_{1}$ ，下列说法正确的是？

若 $\vert E_{0}\vert < 1$ ，则迭代二次收敛到 $A^{-1}$ ，且误差满足 $\vert E_{k}\vert < \vert E_{0}\vert^{2^{k}}$ 。
若谱半径 $\rho(E_{0}) < 1$ ，则迭代收敛到 $A^{-1}$ 。
如果 $A$ 可逆，那么该迭代方法对初值 $X_{0}$ 不敏感。
误差满足 $E_{k + 1}=E_{k}^{3}$ ，收敛阶为3。

17、下面哪些优化器属于“自适应学习率（按参数/维度自适应缩放）”方法？

SGD
Adam
AdamW
RMSprop

18、关于神经网络的层，以下哪些说法是正确的？

输入层通常不进行计算，只是传递数据
隐藏层可以有多个
输出层的神经元数量通常由任务决定（如分类类别数）
所有层的神经元数量必须相同

19、设X和Y是两个随机变量，a、b和c是常数。以下关于期望性质的说法中，正确的有？

$E[XY] = E[X] \cdot E[Y]$ 总是成立
$Var(X) = E[X^2] - (E[X])^2$ 恒成立
$E[aX + bY + c] = aE[X] + bE[Y] + c$
$E[X^2] \geq (E[X])^2$ 恒成立

20、关于插值多项式的说法，下列哪些是正确的?

插值多项式在节点处的函数值一定等于给定函数值。
对于给定的n + 1个互异节点，次数不超过n的插值多项式存在且唯一。
高次插值多项式通常能更好地逼近原函数。
Lagrange插值法和Newton插值法构造的插值多项式是相同的。

请从“运行结果”或“历史提交”选择一条记录

选择提交后开始分析

#P4778. 第1题-选择题

第1题-选择题

T1

T2

Status

Development

Support

About