#P3711. 第1题-选择题
-
ID: 3053
Tried: 216
Accepted: 31
Difficulty: 5
所属公司 :
华为
时间 :2025年9月17日-AI岗
-
算法标签>选择题
第1题-选择题
1
答案:选D:n1∑i=1nXi。
解析: 因为泊松样本的似然 L(λ)∝λ∑Xie−nλ,取对数对 λ 求导并令为 0 得 $\hat\lambda=\dfrac{1}{n}\sum_{i=1}^{n} X_i=\overline{X}$。
2
答案:选C:根据损失函数的梯度来更新网络参数。
1.设总体 X 服从参数为 λ(λ>0) 的泊松分布,其概率分布为 P(X=a)=a!λae−λ,a=0,1,2,…。 从该总体中抽取容量为 n 的独立随机样本 X1,…,Xn。则参数 λ 的极大似然估计是()。 {{ select(1) }}
- $\displaystyle \frac{1}{n - 1}\sum_{i=1}^{n} (X_i - \overline{X}) ^ 2$(其中 $\overline{X} = \frac{1}{n}\displaystyle \sum_{i=1}^{n} X_i$)
- n1i=1∑nXi2
- max(X1,…,Xn)
- n1i=1∑nXi
2.在神经网络中,反向传播算法的主要作用是() {{ select(2) }}
- 随机初始化网络中的权重参数
- 增加网络的深度以提升模型表达能力
- 根据损失函数的梯度来更新网络参数
- 计算损失函数在训练数据上的平均值
3.在集成学习的 Stacking 方法中,以下哪一项准确描述了第二层模型(Meta-Model)的作用?() {{ select(3) }}
- 将基模型的预测结果作为输入,学习它们的组合方式
- 对基模型的预测结果进行加权平均
- 对基模型的参数进行优化
- 对基模型的预测结果进行特征组合
4.假设 θ 的一个无偏估计量是 θ^,其在一组样本下的值为 z。对于下述陈述,正确的是() {{ select(4) }}
- θ^ 是 θ 的组合估计
- Eθ^ = z
- θ=z
- 估计量 θ^ 不存在系统性误差
5.对于二元逻辑回归问题,已训练得到的参数为 w=[0.5,−1.0],b=−1.0。 现在给输入样本 x=[2,1],使用 Sigmoid 函数计算预测概率 P(y=1∣x),结果最接近的是以下哪个值? {{ select(5) }}
- 0.27
- 0.43
- 0.56
- 0.60
6.给定二维平面样本点:A(0,0),B(1,1),C(6,5),D(7,6)。 使用 K−means 算法(设聚类数k=2,且用欧氏距离)进行聚类,初始聚类中心分别为 (2,2) 和 (8,8)。 经过一次聚类迭代(即“分配–更新”各执行一次)后,新的中心坐标分别是()。 {{ select(6) }}
- (0.0,0.0)(6.5,5.5)
- (0.5,0.5)(6.0,5.0)
- (0.5,0.5)(6.5,5.5)
- (3.5,3.5)(4.0,4.0)
7.在机器学习中,关于监督学习、无监督学习、半监督学习和强化学习的下列说法中,哪一项是正确的? {{ select(7) }}
- 半监督学习结合少最标记样本和大量未标记样本,以降低标注成本并提升性能。
- 强化学习通过从带标签的数据集中学习输入到输出的映射关系,以最小化预测误差。
- 无监督学习的目标是根据输入特征预测离散类别标签,常用于分类任务。
- 监督学习通过环境奖励信号训练智能体,常见于游戏和机器人控制。
8.指数分布常用于非负随机变量事件发生的时间间隔,例如用户下次访问网站的等待时间。关于指数分布,下列哪项说法是错误的? {{ select(8) }}
- 如果一系列事件的发生次数服从泊松分布,那么这些事件之间的时间间隔服从指数分布。
- 指数分布的期望和方差是相等的。
- 指数分布的概率密度函数在定义域内是单调递减的。
- 指数分布具有“无记忆性”,即等待了多久不影响未来还需要等待多久的概率分布。
9、在神经网络中,由于模型层数增加,在计算梯度反向传播时容易造成数值表示过小,引发“梯度消失”问题,以下哪种激活函数可以有效地缓解梯度消失问题? {{ select(9) }}
- Softmax
- Tanh
- ReLU
- Sigmoid
10、一个LLM推理服务在处理用户请求时,将过程分为Prefill(处理提示)和Decode(生成回复)两个阶段。现在有两个典型的请求
请求A(代码生成):提示(Prompt)很长,包含大量上下文代码(2000 tokens),但期望生成的代码片段较短(100tokens)。
请求B(多轮对话):提示很短,只是用户的最新一句话(20tokens),但需要生成一段较长的回复(500tokens),且此时对话历史已有1500tokens。
基于对现代GPU架构和Transformer推理机制的理解,以下哪个判断是正确的?
{{ select(10) }}
- 请求A的耗时瓶颈主要在于Decode阶段,因为需要处理复杂的代码逻辑。
- 请求B的耗时瓶颈主要在于Prefill阶段,因为它需要快速响应用户的输入。
- 请求A的耗时主要由GPU的计算单元(如Tensor Core)的吞吐量决定;请求B的耗时主要由GPU显存(HBM)的带宽决定。
- 为了优化请求B的总体延迟,最有效的措施是采用先进的模型量化技术(如INT4),因为这能大幅减少每次Decode步骤中的矩阵乘法计算量。
11、下列方法中没有考虑先验分布的是() {{ select(11) }}
- 贝叶斯分类器
- 最大后验估计
- 最大似然估计
- 贝叶斯学习
12、为减少数值计算中的舍入误差,以下哪种方法是有效的? {{ select(12) }}
- 增加算法的迭代次数
- 简化数学模型
- 增大数值方法的步长
- 使用更高精度的浮点数表示
13、在大型语言模型(LLM)进行自回归文本生成(例如,根据提示生成后续文本)的过程中,关于每一步生成新token时的计算,以下哪项描述是正确的? {{ select(13) }}
- 生成每个新token时,只需要计算当前token对应的Query向量,而不需要重新计算Key和Value。
- 模型在生成第一个token后,其后续所有token的生成都可以完全并行计算,无需等待。
- 通常使用“KV缓存”(Key−ValueCache)技术来存储已计算的注意力Key和Value向量,避免在生成后续token时重复计算历史信息。
- 每生成一个新token,模型都需要重新计算之前所有已生成token的隐蔽状态(hidden states)。
14、在使用混合精度训练(如FP16/BF16与FP32结合)训练大型语言模型时,引入“损失缩放”(LossScaling)技术的主要原因是什么? {{ select(14) }}
- 加速前向传播计算中矩阵乘法的执行速度。
- 防止梯度在低精度(如FP16)表示下因数值过小而下溢(underflow)为零。
- 降低模型权重更新时的数值噪声,提高训练稳定性。
- 减少反向传播过程中激活值(activations)的内存占用。
15、已知准确值 a=100 的一个近似值 a∗=50,该近似值的相对误差为 {{ select(15) }}
- −0.5
- 1
- 50
- −50
16、在数值计算中,以下关于误差的叙述中,正确的有 {{ multiselect(16) }}
- 相对误差较小时,绝对误差一定也很小
- 对误差定义为近似值减去真实值的绝对值
- 截断误差是由于使用无限过程近似有限步骤计算引起的
- 有效数字位数越多,计算结果的精度越高
17、误差来源中,截断误差和舍入误差的区别正确表述有哪些? {{ multiselect(17) }}
- 两者均可完全消除
- 舍入误差源于有限精度表示
- 截断误差源于有限步近似无穷过程(如泰勒级数截断)
- 在迭代法中,通常情况下,截断误差随迭代减小,舍入误差随迭代累积
18、深入分析Transformer架构的内部组件,会发现其设计充满了精妙的权衡。以下关于其核心组件的描述,哪些是准确的? {{ multiselect(18) }}
- 标准的正弦/余弦位置编码(SinusoidalPositionalEncoding)是专门为相对位置设计的编码。
- 多头注意力机制的核心思想是将Query、Key和Value投影到多个不同的低维表示子空间中,让每个“头”有机会学习到不同类型的依赖关系。
- 前馈网络(FFN)子层通过为序列中的每一个位置学习一套独立的权重参数,来增强模型对位置信息的建模能力。
- RMSNorm作为一种比LayerNorm更简洁的归一化技术,其关键改进在于省略了对输入向量减去均值的中心化步骤,只进行缩放操作。
19、在大语言模型分布式并行训练中,all−reduce 是一个常用的集合通信算子。在以下哪些场景下,all−reduce更倾向于通过reduce−scatter 和 all−gather实现? {{ multiselect(19) }}
- 短序列
- 大batch\ size $
- 长序列
- 低带宽
20、已知三个数据点(1,3)、(2,6)、(3,11),用二次多项式 P(x)=ax2+bx+c进行拟合(要求拟合多项式过前两个点,且与第三个点的误差平方和最小),则下列说法正确的是() {{ multiselect(20) }}
- 系数 a=1
- 系数b=0
- 拟合多项式与前三个点的误差为0
- 系数c=2