#P3656. 第1题-选择题

第1题-选择题

1、关于随机森林 (RandomForest)(RandomForest) 算法的下列说法中,哪一项是正确的? {{ select(1) }}

  • 随机森林在每个分裂节点上使用全部特征寻找最优划分,以确保每棵决策树的准确性最大化,从而提升整体性能
  • 随机森林中的每棵决策树通常被允许充分生长,直至叶节点高度纯化,这种高偏差的设计有助于提升模型的泛化能力。
  • 随机森林通过构建多棵相互之间相关性较低的决策树,对预测结果投票或平均,有效降低模型方差,缓解过拟合
  • 随机森林的随机性仅来源于对训练数据的自助采样 (Bootstrap)(Bootstrap) ,在特征选择过程中不引入随机性,

2、在神经网络中,反向传播算法的主要作用是 {{ select(2) }}

  • 增加网络的深度提升模型表达能力
  • 随机初始化网络中的权重参数
  • 计算损失函数在训练数据上的平均值
  • 根据损失函数的梯度来更新网络参数

3、假设用一个 66 面的公平骰子,投掷一次,得到的点数的期望值是多少? {{ select(3) }}

  • 3
  • 4
  • 6
  • 3.5

4、已知方程 f(x)=x32x5=0f(x)=x^3-2x-5=0 在区间 [2,3][2,3] 内有唯一实根 x2.0946x^*≈2.0946 。现有两种迭代格式用于求解该根:

  • 迭代格式 11xk+1=2xk+53x_{k+1}=\sqrt[3]{2 x_{k}+5}

  • 迭代格式 22xk+1=xk32x_{k+1}=\frac{x^3_k}{2}

关于这两种迭代格式在 x3x^3 附近的局部收敛性,下列说法正确的是()

{{ select(4) }}

  • 格式 11 和格式 22 均收敛,且格式 11 的收敛阶更高
  • 格式 11 收敛,格式 22 发散
  • 格式 11 和格式 22 均发散
  • 格式 11 发散,格式 22 收敛

5、设矩阵 $A=\left[\begin{array}{ll}2 & 1 \\1 & 2\end{array}\right]$,其 CholeskyCholesky 分解 A=LLTA=LL^T 中的下三角阵 LL 是? {{ select(5) }}

  • $\left[\begin{array}{ll}1 & 0 \\0.5 & 1\end{array}\right]$
  • $\left[\begin{array}{ll}1.414 & 0 \\0.707 & 1.225\end{array}\right]$
  • $\left[\begin{array}{ll}\sqrt2 & 0 \\\frac{\sqrt2}{2} & \frac{\sqrt6}{2}\end{array}\right]$
  • $\left[\begin{array}{ll}2 & 0 \\1 & 1\end{array}\right]$

6、关于大语言模型 (LLM)(LLM) 的推理 (Inference)(Inference) 过程,以下哪个述是错误的? {{ select(6) }}

  • 为了追求最高的输出质量和逻辑连贯性,在每次生成时都应该使用贪婪搜索 (Greedy(Greedy Search)Search) 策略。
  • 与训练过程相比,推理过程最核心的区别在于它不涉及反向传播 (Backpropagation)(Backpropagation) 和模型权重的更新。
  • 推理过程本质上是一个不断进行前向计算 (Forward(Forward Pass)Pass) 来生成新词元 (token)(token) 的过程。
  • KVKV CacheCache 是一种关键的内存优化技术,它通过缓存先前词元的键 (Key)(Key) 和值 (Value)(Value) 向量,来加速后续词元的生成 。

7、矩阵 AA 的条件数 κ(A)κ(A) 定义为 {{ select(7) }}

  • κ(A)=A2A12κ(A)=\frac{\|A\|_{2}}{\left\|A^{-1}\right\|_{2}}
  • κ(A)=A2A1κ(A)=\frac{\|A\|_{2}}{\left\|A\right\|_{1}}
  • κ(A)=A2A12κ(A)=\|A\|_{2}·\left\|A^{-1}\right\|_{2}
  • κ(A)=A2+A12κ(A)=\|A\|_{2}+\left\|A^{-1}\right\|_{2}

8、对同一物理量测量 33 次:测量值为 {3.0,3.2,2.83.0,3.2,2.8},真实值为 3.03.0 。均方根误差是 {{ select(8) }}

  • 0.1630.163
  • 0.2820.282
  • 0.20.2
  • 0.40.4

9、在比较 TransformerTransformer 的三种主要架构时,信息流动的"可见性”或”视野"是其根本区别。以下关于注意力机制中信息可见性的描述,哪一项是完全准确的? {{ select(9) }}

  • DecoderonlyDecoder-only 模型中,所有 tokentoken 都通过带掩码的自注意力机制,确保了在预测当前 tokentoken ii 时,模型只能利用到位置 11ii 的信息,这被称为因果 (Causal)(Causal) 注意力。
  • EncoderonlyEncoder-only 模型中,计算任何一个 tokentoken 的表示时,它只能关注到其左侧的 tokentoken ;在 DecoderonlyDecoder-only 模型中,则能关注到其右侧的 tokentoken
  • EncoderonlyEncoder-only 模型的双向注意力意味着信息只能在相邻的 tokentoken 之间双向流动,而无法跨越较长的距离。
  • EncoderDecoderEncoder-Decoder 模型中,DecoderDecoder 部分的自注意力 (SelfAttention)(Self-Attention) 是双向的,而其交叉注意力 (CrossAttention)(Cross-Attention) 是带掩码的单向的。

10、对于伯努利分布 (Bern(p))(Bern(p)),有 nn 个独立样本,成功次数为 kk , 最大似然估计得到的参数 pp 的估计值是多少? {{ select(10) }}

  • nk\frac{n}{k}
  • k+1n+1\frac{k+1}{n+1}
  • kn\frac{k}{n}
  • kn+1\frac{k}{n+1}

11、在深度学习中,BatchBatch NormalizationNormalization (批归一化)的主要作用是? {{ select(11) }}

  • 加速训练过程并减少对初始化的敏感度
  • 通过引入随机噪声增强模型泛化能力
  • 直接提高机型在测试集上的准确率
  • 增加模型参数数量以提升表达能力

12、在大型语言模型(LIM)(LIM)的高效推理过程中,"PD分离PD分离”是指将预填充阶段(PrefillPrefill)与动态解码阶段(DecodeDecode)进行分商的一种优化策路。以下关于"PD分离PD分离”的描述中,哪一项是最准确的?

{{ select(12) }}

  • PD分离““PD分离“允许PrefillPrefill阶段仅计算输入序列的初始部分,并将其结果存储于高速缓存中;DecodeDecode阶段则通过增量更新的方式扩展序列长度,但每次都需要从头开始重新计算整个序列的隐藏状态。
  • PD分离”“PD分离”机制下,PrefillPrefill阶段专注于处理完整的输入提示,生成必要的中间表示(如KVKV缓存),以便DecodeDecode阶段能够独立地、高效地逐个生成后续tokentoken,同时避免重复计算历史tokentoken的注意力信息。
  • PD分离“”PD分离“策略中,PrefillPrefill阶段会为整个序列预先分配连续的KVKV缓存空间,而DecodeDecode阶段则使用该缓存空间逐步生成后续tokentoken,无需重新计算之前已生成tokentoken的隐藏状态。
  • 通过PD分离”“PD分离”PrefillPrefill阶段负责初始化整个序列的KVKV缓存并完成所有tokentoken的一次性生成,而在DecodeDecode阶段,模型可以跳过计算直接输出剩余tokentoken,从而实现快速响应。

13、某银行使用分类决策树模型审批贷款,基于两个特征:年收入 ≥50,000美金、信用评分≥650。决策树结构如下根节点:信用评分≥650? 试种盘方向健;切换上下题吧 是→进入“年收入判断节点”;否→叶节点(30个样本:11人按时还款,19人违约)年收入判断节点:年收入≥50,000美金?是→批准贷款;否→叶节点(80个样本:46人按时还款,34人违约)模型的决策规则为:若叶节点中的违约概率≤30%,则批准贷款;否则拒绝 对于信用评分≥650但年收入<50,000美金的申请人,模型的预测结果是? {{ select(13) }}

  • 批准贷款,因为按时还款人数多于信用评分不足650650的群体。
  • 拒绝贷款,因为违约概率超过5050%。
  • 批准贷款,因为多数样本按时还款。
  • 拒绝贷款,因为违约概率为42.542.5%。

14、大模型微调(Finetuning)(Fine-tuning)时,以下哪种方法最能保留预训练模型的通用性? {{ select(14) }}

  • 仅微调位置编码
  • 全量微调(FullFinetuningFull Fine-tuning)
  • 使用LoRALoRA(LowRankAdaptationLow-Rank Adaptation)
  • 仅微调模型的输出层

15、现代大型语言模型(如LlamaLlama)普遍采用旋转位置编码(RotaryPositionEmbedding,RoPERotary Position Embedding,RoPE)来替代经典的sinusoidasinusoida绝对位置编码。RoPERoPE能够显著提升模型处理长序列的能力和外推性(extrapolationextrapolation)。其实现这一优势的核心机制是什么? {{ select(15) }}

  • RoPERoPE为每个位置学习一个独特的位置向量,并通过加法将其注入到词嵌入中,使得位置信息更具适应性。
  • RoPERoPE将位置信息作为一个独立的偏置项(bias)(bias)添加到注意力分数矩阵中,类似于T5T5模型中的相对位置偏置。
  • RoPERoPE通过一种矩阵旋转操作,将绝对位置信息编码为QueryQueryKeyKey向量之间的相对位置关系,使得注意力分数天然地对相对距离敏感。
  • RoPERoPE在注意力计算之后,对输出的ValueValue向量根据其位置进行一次修正性的旋转,从而校准上下文表示。

16、在基站信号干扰优化算法中,工程师小王需要基于某片区10个站点的数据来重建一个平滑的干扰分布曲面(假设干扰不会出现突变)。已知这些站点并非均匀分布,且数据可能存在噪声。目标是根据站点处测得的干扰数据,拟合片区内其他区域的干扰数据。假设小王打算使用三次样条插值替代原先使用的多项式插值算法,下列关于这两种插值算法的说法中正确的是: {{ multiselect(16) }}

  • 三次样条插值构建过程的复杂度较多项式差值更高,因此不适合用于资源受限的嵌入式系统中
  • 即使在数据点分布不均时,三次样条插值也能显著减少插值曲线在数据点之间龙格现象,从而获得更平滑的结果
  • 三次样条插值的精度和三次多项式差值相当,因此当多项式次数大于三次后,其精度会高于三次样条插值
  • 在计算过程中,三次样条插值能提供二阶导数连续性,这有助于避免曲率突变,使干扰数据梯度变化更平稳

17、在求解线性方程组时,迭代方法的收敛性主要受到哪些因素的便响 {{ multiselect(17) }}

  • 系统矩阵的特征值分布
  • 方程组的真解
  • 迭代初始值
  • 迭代步长
  • 计算机核心数
  • 迭代方法的选择
  • 矩阵的条件数

18、已知某二维数据集的协方差矩阵 $∑=\left[\begin{array}{ll}3 & 2 \\2 & 3\end{array}\right]$ 对该数据进行主成分分析 (PCA)(PCA) ,仅保留第一个主成分(即方差最大的方向),该主成分方向的单位特征向量取第一象限正方向,该特征向量与下列哪些向量的曼哈顿距离小于 0.30.3

提示:曼哈顿距离 d=x1x2+y1y2d=∣x_1-x_2∣+∣y_1-y_2∣

{{ multiselect(18) }}

  • [0.71,0.71][0.71,0.71]
  • [0.50,0.87][0.50,0.87]
  • [0,90,0.43][0,90,0.43]
  • [0.60,0.80][0.60,0.80]

19、在数值积分(如梯形公式、simpsonsimpson公式)中,以下哪些因素会影响计算结果的精度 {{ multiselect(19) }}

  • 积分区间的划分数量(步长越小,精度越高)
  • 被积函数的光滑性(函数越光滑,误差越小)
  • 计算机的浮点数精度(如单精度vs. vs.双精度)
  • 数值积分方法的代数精度(如 SimpsonSimpson 法的代数精度高于梯形法)

20、以下哪些技术或方法直接有助于提升多模态大模型的跨模态理解能力? {{ multiselect(20) }}

  • 增加模型的参数量以提升表达能力
  • 在训练中引入多模态的因果推理任务
  • 使用分层注意力机制HierarchicalAttention(Hierarchical Attention)
  • 引入跨模态对齐的预训练任务(如图文匹配)