#P4778. 第1题-选择题
第1题-选择题
1、在标准的数据并行(DDP)训练过程中,每个GPU独立计算梯度后,为了保持模型权重一致,需要在每次迭代结束时执行什么通信操作? {{ select(1) }}
- Broadcast
- All - Gather
- Send/Recv
- All - Reduce
2、在使用 K-Means 算法进行聚类之前,用户必须预先指定的关键参数是? {{ select(2) }}
- 聚类中心的初始坐标
- 聚类的数量 K
- 数据的密度阈值
- 学习率 (Learning Rate)
3、设数据矩阵。若对数据进行线性映射$$ Z = XW, $$其中,则新的数据矩阵的维度为: {{ select(3) }}
4、给定输入向量为[4,4,4],经过标准Softmax函数处理后,输出的向量结果是多少? {{ select(4) }}
- [1,1,1]
- [0,5,0,5,0.5]
- [0,0,1]
- [1/3,1/3,1/3]
5、K-Means算法在迭代过程中,衡量样本点归属的核心准则是?
{{ select(5) }}
- 到质心的欧氏距离最小
- 样本点范围的密度最大
- 样本点间的余弦相似度
- 连通性
6、在特征工程中,以下哪项操作通常用于减少特征维度并保留主要信息?
{{ select(6) }}
- 特征降维
- 特征选择
- 特征编码
- 特征缩放
7、在一个极简的检索增强生成(RAG)系统中,用户的查询 Query 会被转化为嵌入向量 。向量数据库中存储了两个文档的嵌入向量,分别是 和 。系统使用最大内积搜索(Maximum Inner Product Search, MIPS)来召回最相关的文档。请计算内积得分,并判断系统会召回哪个文档以及对应的得分是多少? {{ select(7) }}
- 召回文档 ,得分为 4
- 召回文档 ,得分为 4
- 召回文档 ,得分为 3
- 召回文档 ,得分为 5
8、设样本,,…,来自正态总体,未知、已知,若似然函数,则使最大的满足() {{ select(8) }}
9、线性回归中关于(决定系数),下列说法正确的是
{{ select(9) }}
- 增加无关特征会使降低
- 是衡量模型对数据拟合优度的核心指标,取值范围[0,1]
- 可以用于比较不同数据集上模型的优劣
- 越接近0,模型拟合越好
10、评测长上下文能力时,为避免模型靠"猜测/泛化"蒙对,常见的高质量题型设计是?
{{ select(10) }}
- 在长文中埋入多个相似实体/数值,要求定位并做跨段整合(needle / multi - hop)
- 提问"这段话大意是什么"
- 把短文重复10遍凑成长文
- 测模型能输出多少token
11、在特征工程的特征选择(Feature Selection)过程中,当我们怀疑特征 X 与目标变量 Y 之间存在复杂的非线性相关性(例如或周期性关系),且 X 并不服从正态分布时,下列哪种统计指标或方法在评估特征重要性时最为准确且稳健? {{ select(11) }}
- 斯皮尔曼等级相关系数(Spearman's Rank Correlation):利用变量的秩次(Rank)进行线性相关性分析。
- 方差分析(ANOVA F-value):通过比较组间方差与组内方差的比值来检验均值差异。
- 皮尔逊相关系数(Pearson Correlation Coefficient):通过计算协方差与标准差的比值来衡量相关性。
- 互信息(Mutual Information MI):基于信息熵理论,衡量已知 X 的情况下 Y 属性不确定性的减少程度。
12、矩阵奇异值分解(SVD)无法直接应用于以下哪个场景?
{{ select(12) }}
- 图像去噪
- 决策树分类
- 文本主题建模
- 推荐系统中用户-电影评分矩阵降维
13、SmoothQuant是一种常用的大模型量化方法,它的核心思想是?
{{ select(13) }}
- 将权重scale转移到activation
- 将activation scale转移到权重
- 减少层数
- 减少batch
14、实数矩阵A的零空间是指? {{ select(14) }}
- 与列空间正交的空间
- 矩阵的列向量张成的空间
- 满足的所有构成的空间
- 矩阵的行向量张成的空间
15、神经网络相比线性模型的优势在于
{{ select(15) }}
- 参数更少
- 不需要激活函数
- 计算更简单
- 可以学习非线性关系
16、并非所有图形计算单元都支持矩阵求逆算子,若不支持,可使用Newton-Schulz迭代法。设非奇异矩阵,使用Newton - Schulz迭代计算。记误差矩阵为,下列说法正确的是?
{{ multiselect(16) }}
-
若,则迭代二次收敛到,且误差满足。
-
若谱半径,则迭代收敛到。
-
如果可逆,那么该迭代方法对初值不敏感。
-
误差满足,收敛阶为3。
17、下面哪些优化器属于“自适应学习率(按参数/维度自适应缩放)”方法?
{{ multiselect(17) }}
- SGD
- Adam
- AdamW
- RMSprop
18、关于神经网络的层,以下哪些说法是正确的?
{{ multiselect(18) }}
- 输入层通常不进行计算,只是传递数据
- 隐藏层可以有多个
- 输出层的神经元数量通常由任务决定(如分类类别数)
- 所有层的神经元数量必须相同
19、设X和Y是两个随机变量,a、b和c是常数。以下关于期望性质的说法中,正确的有?
{{ multiselect(19) }}
- 总是成立
- 恒成立
- 恒成立
20、关于插值多项式的说法,下列哪些是正确的?
{{ multiselect(20) }}
- 插值多项式在节点处的函数值一定等于给定函数值。
- 对于给定的n + 1个互异节点,次数不超过n的插值多项式存在且唯一。
- 高次插值多项式通常能更好地逼近原函数。
- Lagrange插值法和Newton插值法构造的插值多项式是相同的。