第1题-选择题

会员专享

请先登录，登录后可使用今日免费解锁；开通会员，或购买该题目所属题库（华为校招机考题库），可解锁完整内容。

购买题库开通会员

T1

答案：B.采用点积相似度计算，其结果与余弦相似度等价，且计算效率更高

解析：向量已做 L2 归一化， $\mathbf{x}\cdot\mathbf{y}=\cos(\theta)$ ，点积无需再计算模长，效率更高。

T2

答案：B.权限收敛（Privilege Convergence）

1.在通信故障诊断 RAG 系统中，使用领域微调 Embedding 模型将用户查询与历史故障案例转换为 768 维向量。为提升检索精度，系统对所有向量执行L2归一化（向量模长为 1）。下列关于相似度计算的工程实践选择，最优的是（）

采用欧氏距离计算相似度，距离越小表示故障案例与查询匹配度越高
采用点积相似度计算，其结果与余弦相似度等价，且计算效率更高
采用曼哈顿距离计算，更适合高维稀疏的故障文本向量场景
采用余弦相似度计算，需额外对向量模长进行归一化处理

2.在分析“工具调用风险”时，发现 Agent 具有写文件权限（Write）和执行脚本权限（Exec）。若攻击者利用间接注入让 Agent 执行以下操作序列：1. 将 Base64 负载写入 temp.sh；2. 运行 chmod +x；3. 执行该脚本。这种攻击组合在权限风险矩阵中属于：

权限提权（Privilege Escalation）
权限收敛（Privilege Convergence）
职责分离缺失（Lack of Segregation of Duties）
跨站脚本（XSS）

3.当前主流多模态模型（如LLaVA、Qwen-VL）与原生多模态模型（如Gemini、GPT-4o）的核心架构差异是？

当前模型使用Transformer，原生多模态使用CNN+RNN混合架构
当前模型冻结视觉编码器+训练投影层，原生多模态端到端联合训练视觉和语言组件
当前模型参数量小，原生多模态参数量大，这是唯一区别
当前模型只支持文本输出，原生多模态支持图像生成

4.在随机梯度下降中，使用小批量（mini-batch）梯度 $\tilde{g}=\frac{1}{m}\sum_{i=1}^{m}\nabla f_i(x)$ 代替全梯度，关于噪声 $\epsilon=\tilde{g}-g$ 对数值稳定性的影响，正确的是：

噪声可通过增大学习率来完全消除
噪声方差与批量大小 $m$ 成正比，增大 $m$ 可增加噪声
噪声在接近最优解时帮助逃离鞍点，但可能导致在最优解附近波动
噪声导致目标函数值单调下降，但收敛点随机波动

5.电影院放映厅可以容纳150名观众，第一位观众进入放映厅前丢了票，不知道自己的座位号，就随机选择一个位置坐下。剩余观众均没有丢票，首选自己的位置坐，但是如果发现自己的位置已经被占了，就从剩下的空位中随机选一个位置坐。则最后一位进入的观众恰好坐在自己座位上的概率是多少？

113 /150
49 / 150
77 / 150
1 / 2

6.关于贪婪搜索（Greedy Search）的描述，正确的是：

它在每一步都选择当前概率最高的 Token，容易陷入局部最优或重复循环
它通过引入随机性来提高文本的创造力
它会考虑所有可能的序列路径，寻找全局最优解
它的计算量远大于束搜索（Beam Search）

7.在 CLIP 的对比学习中，假设 batch size 为 $N$ ，对于某个正样本对 $(i,i)$ ，其梯度对图像特征 $z_i^I$ 的贡献包含哪些部分？（不考虑温度参数）

仅来自对角线位置的梯度，非对角线位置梯度为 0
仅来自图像→文本方向的正样本梯度
来自图像→文本的正样本梯度，以及作为其他样本负样本时的梯度
来自两个方向：图像→文本的正样本梯度 + 文本→图像的正样本梯度

8.与 K-Means 不同，DBSCAN 算法的一个显著优点是能够识别并处理哪种类型的数据点？

噪声点（离群点）
核心点
中心点
边界点

9.自适应数值积分（adaptive quadrature）的基本策略是：

在整个区间上均匀加密节点
在估计误差较大的子区间上局部加密，误差较小的子区间保持不变
随机选择加密位置
先用高阶公式再用低阶公式

10.在评估一个二分类模型的性能时，如果关注的是模型预测为正类的样本中真正为正的比例，应该使用以下哪个指标？

精确率
F1分数
准确率
召回率

11、激活函数的主要作用是

加快训练
提高模型精度
增加模型参数
引入非线性

12、在目标检测或极度不平衡的分类任务中，研究人员提出了 Focal Loss。请问 Focal Loss 主要是通过引入下列哪种机制来调节不同样本对总损失的贡献？

动态权重衰减（Dynamic Weight Decay）：根据训练轮数自动减小所有样本的权重。
调制因子(Modulating Factor):引入参数 $(1 - p_t)^{\gamma}$ ，其中 $p_t$ 是预测概率，使得模型对已经预测准确的“简单样本”进行降权。
硬采样（Hard Example Mining）：在每轮训练中直接丢弃所有损失值低于阈值的简单样本，只计算困难样本的损失。
标签平滑（Label Smoothing）：将硬标签（0 或 1）转换为软概率分布，以减少模型对预测的过度自信。

13、某模型推理时，Decode阶段逐token生成，已知Prefill阶段缓存的KVCache为10个token的K/V向量，当前已生成5个token，若采用KVCache复用策略，则第6个token生成时，自注意力计算需新增计算的K/V向量数量为（）

1个
6个
5个
15个

14、ZeRO（Zero Redundancy Optimizer）技术通过对显存状态进行切片来打破数据并行的显存墙。关于ZeRO的不同阶段，ZeRO-2 具体对哪些状态进行了分片（Partition）来降低显存占用？

优化器状态、模型参数做切片
对梯度、模型参数做切片
对优化器状态、梯度做切片
对优化器状态、模型参数、梯度做切片

15、在基于n-gram的语言模型中，我们将句子看作是词的序列，假设当前词出现的概率只依赖于前一个词。这种假设对应的数学模型是？

泊松过程
独立同分布序列
隐马尔可夫模型
一阶马尔可夫链

16、以下关于Krylov子空间方法（通过构造 $\{b, Ab, A^2b, \ldots, A^{k-1}b\}$ 张成的子空间来寻找方程组近似解的一类迭代法）的说法，正确的有：

Krylov方法要求显式存储完整的系数矩阵A
Krylov方法总在k=1步就收敛
共轭梯度法（CG）是对称正定情况下的Krylov方法
GMRES（广义最小残差法）适用于一般非对称方程组

17、你看到 profile:

forward/backward 40%
allreduce 45%
dataloader 15%

哪些优化方向合理

考虑 ZeRO/FSDP 分片策略重配
增加通信与计算重叠
把 tokenizer 换成更大词表
调整梯度 bucket 大小

18、在描述数据分布特征时，均值、中位数和众数在什么情况下会完全重合？

数据呈偏态分布
数据呈连续型均匀分布
数据呈标准正态分布
数据呈对称的单峰分布

19、关于混合精度训练，以下哪些描述是正确的？

使用FP16存储参数和梯度可以减少显存占用，且有精度保障，常被设置为默认模型训练精度
BP梯度回传与模型推理过程类似，一般具有相同的精度要求
训练过程中主权重通常保存为FP32以保证数值稳定性
损失缩放用于防止梯度下溢

20、多模态DPO用于优化视觉-语言模型，使其学会区分“优选的回复”和“非优选的回复”。给定图像 $v$ ，查询文本 $x$ ，以及一对偏好数据（优选的回复 $y_w$ ，非优选的回复 $y_l$ )，DPO的损失函数定义为： $\mathcal{L}_{DPO}=-\log\sigma(\beta\cdot\Delta r)$ 其中：

$\sigma(z)=\frac{1}{1+e^{-z}}$ 是sigmoid函数

$\Delta r=\log\frac{\pi_\theta(y_w|v,x)}{\pi_{ref}(y_w|v,x)}-\log\frac{\pi_\theta(y_l|v,x)}{\pi_{ref}(y_l|v,x)}$

基于以上背景，关于多模态DPO的梯度行为和训练机制，以下哪些说法是正确的？

当模型严重错误排序（给 $y_l$ 的评分远高于 $y_w$ 0）时，sigmoid函数 $\sigma(-\beta\cdot\Delta r)$ 的输出值接近1，此时梯度幅度较大，模型会获得强烈的修正信号。
增大温度系数 $\beta$ 会增强模型对偏好数据的学习强度，使策略模型更快偏离参考模型；但过大的 $\beta$ 可能导致训练不稳定，甚至破坏预训练获得的视觉-语言对齐能力。
在多模态架构中，视觉投影层（将图像特征映射到语言模型输入空间）的梯度仅来自生成序列的第一个token，因为视觉特征只在初始位置注入，后续token生成不依赖投影层参数。
若优选的回复 $y_w$ 比非优选的回复 $y_l$ 长很多，由于长序列的累积对数概率通常绝对值更大，可能导致梯度被长序列主导，使模型倾向于生成更长回复而非质量更好的回复。

请从“运行结果”或“历史提交”选择一条记录

选择提交后开始分析

#P4937. 第1题-选择题

T1

T2

Status

Development

Support

About