#P3711. 第1题-选择题

第1题-选择题

1.1.设总体 XX 服从参数为 λ(λ>0)\lambda(\lambda>0) 的泊松分布,其概率分布为 P(X=a)=λaeλa!P(X=a)=\frac{\lambda^a e^{-\lambda}}{a!}a=0,1,2,a=0,1,2,\ldots。 从该总体中抽取容量为 nn 的独立随机样本 X1,,XnX_1,\ldots,X_n。则参数 λ\lambda 的极大似然估计是()。 {{ select(1) }}

  • $\displaystyle \frac{1}{n - 1}\sum_{i=1}^{n} (X_i - \overline{X}) ^ 2$(其中 $\overline{X} = \frac{1}{n}\displaystyle \sum_{i=1}^{n} X_i$)
  • 1ni=1nXi2\displaystyle \frac{1}{n}\sum_{i=1}^{n} X_i ^ 2
  • max(X1,,Xn)\displaystyle \max(X_1,\ldots,X_n)
  • 1ni=1nXi\frac{1}{n}\displaystyle \sum_{i=1}^{n} X_i

2.2.在神经网络中,反向传播算法的主要作用是() {{ select(2) }}

  • 随机初始化网络中的权重参数
  • 增加网络的深度以提升模型表达能力
  • 根据损失函数的梯度来更新网络参数
  • 计算损失函数在训练数据上的平均值

3.3.在集成学习的 Stacking 方法中,以下哪一项准确描述了第二层模型(Meta-Model)的作用?() {{ select(3) }}

  • 将基模型的预测结果作为输入,学习它们的组合方式
  • 对基模型的预测结果进行加权平均
  • 对基模型的参数进行优化
  • 对基模型的预测结果进行特征组合

4.4.假设 θ\theta 的一个无偏估计量是 θ^\hat\theta,其在一组样本下的值为 zz。对于下述陈述,正确的是() {{ select(4) }}

  • θ^\hat\thetaθ\theta 的组合估计
  • Eθ^\hat\theta = zz
  • θ=z\theta = z
  • 估计量 θ^\hat\theta 不存在系统性误差

5.5.对于二元逻辑回归问题,已训练得到的参数为 w=[0.5,1.0]w=[0.5,-1.0]b=1.0b=-1.0。 现在给输入样本 x=[2,1]x=[2,1],使用 Sigmoid 函数计算预测概率 P(y=1x)P(y=1|x),结果最接近的是以下哪个值? {{ select(5) }}

  • 0.270.27
  • 0.430.43
  • 0.560.56
  • 0.600.60

6.给定二维平面样本点:A(0,0)B(1,1)C(6,5)D(7,6)A(0,0),B(1,1),C(6,5),D(7,6)。 使用 KmeansK-means 算法(设聚类数k=2 k=2,且用欧氏距离)进行聚类,初始聚类中心分别为 (2,2) 和 (8,8)。 经过一次聚类迭代(即“分配–更新”各执行一次)后,新的中心坐标分别是()。 {{ select(6) }}

  • (0.0,0.0)(6.5,5.5)(0.0,0.0) (6.5,5.5)
  • (0.5,0.5)(6.0,5.0)(0.5,0.5) (6.0,5.0)
  • (0.5,0.5)(6.5,5.5)(0.5,0.5) (6.5,5.5)
  • (3.5,3.5)(4.0,4.0)(3.5,3.5) (4.0,4.0)

7.7.在机器学习中,关于监督学习、无监督学习、半监督学习和强化学习的下列说法中,哪一项是正确的? {{ select(7) }}

  • 半监督学习结合少最标记样本和大量未标记样本,以降低标注成本并提升性能。
  • 强化学习通过从带标签的数据集中学习输入到输出的映射关系,以最小化预测误差。
  • 无监督学习的目标是根据输入特征预测离散类别标签,常用于分类任务。
  • 监督学习通过环境奖励信号训练智能体,常见于游戏和机器人控制。

88.指数分布常用于非负随机变量事件发生的时间间隔,例如用户下次访问网站的等待时间。关于指数分布,下列哪项说法是错误的? {{ select(8) }}

  • 如果一系列事件的发生次数服从泊松分布,那么这些事件之间的时间间隔服从指数分布。
  • 指数分布的期望和方差是相等的。
  • 指数分布的概率密度函数在定义域内是单调递减的。
  • 指数分布具有“无记忆性”,即等待了多久不影响未来还需要等待多久的概率分布。

9、在神经网络中,由于模型层数增加,在计算梯度反向传播时容易造成数值表示过小,引发“梯度消失”问题,以下哪种激活函数可以有效地缓解梯度消失问题? {{ select(9) }}

  • SoftmaxSoftmax
  • TanhTanh
  • ReLUReLU
  • SigmoidSigmoid

10、一个LLMLLM推理服务在处理用户请求时,将过程分为PrefillPrefill(处理提示)和DecodeDecode(生成回复)两个阶段。现在有两个典型的请求

请求AA(代码生成):提示(Prompt)(Prompt)很长,包含大量上下文代码(2000 tokens),但期望生成的代码片段较短(100tokens(100 tokens)

请求BB(多轮对话):提示很短,只是用户的最新一句话(20tokens)(20 tokens),但需要生成一段较长的回复(500tokens)(500 tokens),且此时对话历史已有1500tokens1500 tokens

基于对现代GPUGPU架构和TransformerTransformer推理机制的理解,以下哪个判断是正确的?

{{ select(10) }}

  • 请求AA的耗时瓶颈主要在于DecodeDecode阶段,因为需要处理复杂的代码逻辑。
  • 请求BB的耗时瓶颈主要在于PrefillPrefill阶段,因为它需要快速响应用户的输入。
  • 请求AA的耗时主要由GPUGPU的计算单元(如Tensor CoreTensor\ Core)的吞吐量决定;请求B的耗时主要由GPUGPU显存(HBMHBM)的带宽决定。
  • 为了优化请求BB的总体延迟,最有效的措施是采用先进的模型量化技术(如INT4INT4),因为这能大幅减少每次DecodeDecode步骤中的矩阵乘法计算量。

11、下列方法中没有考虑先验分布的是() {{ select(11) }}

  • 贝叶斯分类器
  • 最大后验估计
  • 最大似然估计
  • 贝叶斯学习

12、为减少数值计算中的舍入误差,以下哪种方法是有效的? {{ select(12) }}

  • 增加算法的迭代次数
  • 简化数学模型
  • 增大数值方法的步长
  • 使用更高精度的浮点数表示

13、在大型语言模型(LLM)(LLM)进行自回归文本生成(例如,根据提示生成后续文本)的过程中,关于每一步生成新token时的计算,以下哪项描述是正确的? {{ select(13) }}

  • 生成每个新tokentoken时,只需要计算当前tokentoken对应的QueryQuery向量,而不需要重新计算KeyKeyValueValue
  • 模型在生成第一个tokentoken后,其后续所有tokentoken的生成都可以完全并行计算,无需等待。
  • 通常使用“KVKV缓存”(KeyValueCacheKey-Value Cache)技术来存储已计算的注意力KeyKeyValueValue向量,避免在生成后续tokentoken时重复计算历史信息。
  • 每生成一个新tokentoken,模型都需要重新计算之前所有已生成tokentoken的隐蔽状态(hidden stateshidden\ states)。

14、在使用混合精度训练(如FP16/BF16FP16/BF16FP32FP32结合)训练大型语言模型时,引入“损失缩放”(LossScalingLoss Scaling)技术的主要原因是什么? {{ select(14) }}

  • 加速前向传播计算中矩阵乘法的执行速度。
  • 防止梯度在低精度(如FP16FP16)表示下因数值过小而下溢(underflowunderflow)为零。
  • 降低模型权重更新时的数值噪声,提高训练稳定性。
  • 减少反向传播过程中激活值(activationsactivations)的内存占用。

15、已知准确值 a=100a = 100 的一个近似值 a=50a^* = 50,该近似值的相对误差为 {{ select(15) }}

  • 0.5-0.5
  • 11
  • 5050
  • 50-50

16、在数值计算中,以下关于误差的叙述中,正确的有 {{ multiselect(16) }}

  • 相对误差较小时,绝对误差一定也很小
  • 对误差定义为近似值减去真实值的绝对值
  • 截断误差是由于使用无限过程近似有限步骤计算引起的
  • 有效数字位数越多,计算结果的精度越高

17、误差来源中,截断误差和舍入误差的区别正确表述有哪些? {{ multiselect(17) }}

  • 两者均可完全消除
  • 舍入误差源于有限精度表示
  • 截断误差源于有限步近似无穷过程(如泰勒级数截断)
  • 在迭代法中,通常情况下,截断误差随迭代减小,舍入误差随迭代累积

18、深入分析TransformerTransformer架构的内部组件,会发现其设计充满了精妙的权衡。以下关于其核心组件的描述,哪些是准确的? {{ multiselect(18) }}

  • 标准的正弦/余弦位置编码(SinusoidalPositionalEncodingSinusoidal Positional Encoding)是专门为相对位置设计的编码。
  • 多头注意力机制的核心思想是将QueryKeyQuery、KeyValueValue投影到多个不同的低维表示子空间中,让每个“头”有机会学习到不同类型的依赖关系。
  • 前馈网络(FFNFFN)子层通过为序列中的每一个位置学习一套独立的权重参数,来增强模型对位置信息的建模能力。
  • RMSNormRMSNorm作为一种比LayerNormLayerNorm更简洁的归一化技术,其关键改进在于省略了对输入向量减去均值的中心化步骤,只进行缩放操作。

19、在大语言模型分布式并行训练中,allreduceall-reduce 是一个常用的集合通信算子。在以下哪些场景下,allreduceall-reduce 更倾向于通过reducescatter reduce-scatterallgatherall-gather 实现? {{ multiselect(19) }}

  • 短序列
  • batch\ size $
  • 长序列
  • 低带宽

20、已知三个数据点(1,3)(2,6)(3,11) (1,3)、(2,6)、(3,11),用二次多项式 P(x)=ax2+bx+cP(x) = ax^2 + bx + c 进行拟合(要求拟合多项式过前两个点,且与第三个点的误差平方和最小),则下列说法正确的是() {{ multiselect(20) }}

  • 系数 a=1a = 1
  • 系数b=0 b = 0
  • 拟合多项式与前三个点的误差为0 0
  • 系数c=2 c = 2