#P3638. 第1题-选择题

第1题-选择题

1、以下哪种 Tokenizer 属于"子词级”算法? {{ select(1) }}

  • BytePairEncoding(BPE)Byte Pair Encoding (BPE)
  • 空格分词(WhitespaceTokenizer)(Whitespace Tokenizer)
  • 字符级分词(characterTokenizer)(character Tokenizer)
  • 基于正则的分词

2、在机器学习中,关于聚类算法的下列说法中,哪一项是正确的? {{ select(2) }}

  • KmeansK-means聚类通过最小化类内样本到簇中心的欧氏距离平方和来优化聚类结果,适合处理强噪声数据集。
  • DBSCANDBSCAN基于密度可达性定义簇,能发现任意形状的簇(如月牙形、环形等),并显式标记噪声点。
  • 凝聚式层次聚类(自底向上)每次合并距离最近的两个簇,结果可通过树状图可视化,且可自动确定最优簇数量。
  • 谱聚类(SpectralClustering)(Spectral Clustering)直接对原始数据点进行距离计算并迭代更新簇中心,适用于大规模高维数据的高效聚类。

3、某地区有两种天气:晴天(概率0.7)和雨天(概率0.3)。若为晴天,某人穿蓝色外套的概率为0.4;若为雨天,穿蓝色外套的概率为0.8。某天此人穿蓝色外套,那么当天是晴天的概率接近于? {{ select(3) }}

  • 0.3120.312
  • 0.5160.516
  • 0.5520.552
  • 0.5380.538

4、以下哪种方法会增加模型的欠拟合风险() {{ select(4) }}

  • 减小正则化系数
  • 添加新特征
  • 数据缺乏多样性
  • 增加模型复杂度

5、用牛顿迭代法求解方程 x22=0x^2-2=0 ,初始 x0=1x_0=1 ,则第一次迭代结果 x1x_1 为 : {{ select(5) }}

  • 1.21.2
  • 1.31.3
  • 11
  • 1.51.5

6、Adam优化器的核心思想是? {{ select(6) }}

  • 结合动量(Momentum)(Momentum)RMSPropRMSProp的自适应学习率
  • 通过二阶导数调整学习率
  • 仅使用动量(Momentum)(Momentum)加速梯度下降
  • 使用固定学习率进行参数更新

7、对同一物理量测量3次:测量值为(3.0,3.2,2.8},真实值为 3.0。均方根误差是 {{ select(7) }}

  • 0.1630.163
  • 0.40.4
  • 0.2820.282
  • 0.20.2

8、线性变换 T:P2P2T:P_2→P_2 (P2P_2为二次多项式空间)定义为:

T(p(x))=p(x)+20xp(t)dtT(p(x))=p'(x)+ 2∫^x_0 p(t)dt

其中 P2P_2 是二次多项式空间,且 x3=0x^3=0

在基 B=B= { 1,x,x21,x,x^2} 下的矩阵表示是? {{ select(8) }}

  • $\begin{bmatrix}{0} & {1}&{0} \\{2} & {0} &{2}\\{0}& {2}& {0}\end{bmatrix}$
  • $\begin{bmatrix}{0} & {2}&{0} \\{0} & {0} &{4}\\{0}& {0}& {0}\end{bmatrix}$
  • $\begin{bmatrix}{0} & {1}&{0} \\{2} & {0} &{2}\\{0}& {1}& {0}\end{bmatrix}$
  • $\begin{bmatrix}{0} & {2}&{0} \\{0} & {0} &{4}\\{1}& {0}& {0}\end{bmatrix}$

9、假设某方程 f(x)=0f(x)=0 具有唯一的实根 x=3x=3 。使用迭代法计算该方程的根时,以下哪种情形下称该迭代法收敛: {{ select(9) }}

  • 在有限次迭代后能得到33
  • 迭代序列极限为33
  • 迭代序列的导数单调递减
  • 迭代序列单调递减

10、在一个大型语言模型 (LLM) 进行自回归生成 (inference) 的场景下,为了优化显存占用和推理速度,研究者提出了分组查询注意力 (Grouped-Query Attention ,GQA) 作为标准多头注意力 (MHA) 的替代方案。关于 GQA 与 MHA、MQA(Multi-Query Atention) 的对比,以下描述最准确的是? {{ select(10) }}

  • GQAGQAMQAMQA 的核心思想都是通过对 QueryQuery 向量进行降维来减少计算量,而保持Key Key ValueValue 的维度不变。
  • GQAGQA 通过一个可学习的路由机制,在每次计算时动态地为每个 QueryQuery 头选择一个 Key/ValueKey/Value 头进行配对,从而实现稀疏化。
  • GQAGQA 拥有比MHA MHA 更多的 KeyKeyValue Value 头,但 QueryQuery 头的数量较少,以此来增强对上下文的捕捉能力。
  • GQAGQA 通过让多组Quevy Quevy 头共享同一组Key KeyValueValue 头,实现了计算效率和模型性能的折中;其K/VK/V 头的数量介于MHA MHA (与Query Query 头数相等)和 MQAMQA (只有一个 K/VK/V 头)之间。

11、设随机变量X的概率分布为P(x=k)=12kP(x=k)=\frac{1}{2^{k}},k=1,2,3,...k=1,2,3,...,YY表示XX33除的余数,则E(Y)=()E(Y)=() {{ select(11) }}

  • 8/78/7
  • 4/74/7
  • 10/710/7
  • 6/76/7

12、已知三个数据点(1,3)(2,6)(3,11)(1,3)、(2,6)、(3,11),用二次多项式P(x)=ax2+bx+cP(x) =ax^2 +bx+c进行拟合(要求拟合多项式过前两个点,且与第三个点的误差平方和最小),则系数aa的值为()

{{ select(12) }}

  • 22
  • 11
  • 44
  • 33

13、连续随机变量X的概率密度函数为f(x)=1.5(1x2)f(x)=1.5(1-x^2),其中0x10≤x≤1,那么E(X)E(X)为? {{ select(13) }}

  • 0.6250.625
  • 0.3750.375
  • 0.250.25
  • 0.50.5

14、关于模型评估指标,当正负样本比例极度不平衡时(1:1000)(如1:1000),下列哪个指标最不可靠? {{ select(14) }}

  • 精确率(Precision)(Precision)
  • 准确率(Accuracy)(Accuracy)
  • F1F1分数
  • 召回率(Recall)(Recall)

15、在高维数据下,欧氏距离失效的原因是: {{ select(15) }}

  • 过拟合
  • 距离集中性
  • 样本不均衡
  • 计算复杂度

16、在数值计算中,为有效控制截断误差和舍入误差,以下哪些方法是可行的? {{ multiselect(16) }}

  • 在泰勒极数近似中增加展开项数
  • 在迭代算法中减少迭代次数以降低舍入误差累积
  • 在数值积分中使用更高价的数值方法,如辛普森公式代替梯形公式
  • 使用双精度浮点数代替单精度浮点数

17、特征工程是一个从原始数据中提取关键信息(特征)的过程,这些提取的信息能够很好的描述数据的分布,一般来说,特征工程包括哪些步骤? {{ multiselect(17) }}

  • 特征提取
  • 原始数据采集
  • 特征构造
  • 特征选择

18、下列关于 BatchNorm 的描述,正确的是 {{ multiselect(18) }}

  • 对小batchbatch效果变差
  • DropoutDropout同时开启可能导致方差不匹配
  • 在推理时使用滑动平均的均值/方差
  • 在训练时统计均值/方差

19、以下哪些技术可以用于缓解TransformerTransformer模型在处理长序列时的计算复杂度问题? {{ multiselect(19) }}

  • 仅保留关键位置的注意力
  • 分层注意力(HierarchicalAttention)(Hierarchical Attention)
  • 稀疏注意力(SparseAttention)(Sparse Attention)
  • 位置编码的正弦/余弦函数扩展

20、最大池化操作(Max Pooling)有平移不变性、保留局部显著特征和减少计算复杂度等优点,以下哪些实际应用场景中,最大池化通常是更合适和更常用的选择? {{ multiselect(20) }}

  • 语义分割(需对每个像素值分类)
  • 像素等精度要求高的关键点检测(如人脸、人体关键点检测)
  • 目标检测(如backbonebackbone中特征提取部分)
  • 图像分类(如ImageNetImageNet图像分类)
  • 图像去噪(如椒盐噪声、高斯噪声)