#P4937. 第1题-选择题
-
Tried: 78
Accepted: 3
Difficulty: 5
所属公司 :
华为
时间 :2026年5月13日-AI方向
第1题-选择题
T1
答案:B.采用点积相似度计算,其结果与余弦相似度等价,且计算效率更高
解析:向量已做 L2 归一化,x⋅y=cos(θ),点积无需再计算模长,效率更高。
T2
答案:B.权限收敛(Privilege Convergence)
1.在通信故障诊断 RAG 系统中,使用领域微调 Embedding 模型将用户查询与历史故障案例转换为 768 维向量。为提升检索精度,系统对所有向量执行L2归一化(向量模长为 1)。下列关于相似度计算的工程实践选择,最优的是()
{{ select(1) }}
- 采用欧氏距离计算相似度,距离越小表示故障案例与查询匹配度越高
- 采用点积相似度计算,其结果与余弦相似度等价,且计算效率更高
- 采用曼哈顿距离计算,更适合高维稀疏的故障文本向量场景
- 采用余弦相似度计算,需额外对向量模长进行归一化处理
2.在分析“工具调用风险”时,发现 Agent 具有写文件权限(Write)和执行脚本权限(Exec)。若攻击者利用间接注入让 Agent 执行以下操作序列:1. 将 Base64 负载写入 temp.sh;2. 运行 chmod +x;3. 执行该脚本。这种攻击组合在权限风险矩阵中属于:
{{ select(2) }}
- 权限提权(Privilege Escalation)
- 权限收敛(Privilege Convergence)
- 职责分离缺失(Lack of Segregation of Duties)
- 跨站脚本(XSS)
3.当前主流多模态模型(如LLaVA、Qwen-VL)与原生多模态模型(如Gemini、GPT-4o)的核心架构差异是?
{{ select(3) }}
- 当前模型使用Transformer,原生多模态使用CNN+RNN混合架构
- 当前模型冻结视觉编码器+训练投影层,原生多模态端到端联合训练视觉和语言组件
- 当前模型参数量小,原生多模态参数量大,这是唯一区别
- 当前模型只支持文本输出,原生多模态支持图像生成
4.在随机梯度下降中,使用小批量(mini-batch)梯度 g~=m1∑i=1m∇fi(x) 代替全梯度,关于噪声 ϵ=g~−g 对数值稳定性的影响,正确的是:
{{ select(4) }}
- 噪声可通过增大学习率来完全消除
- 噪声方差与批量大小 m 成正比,增大 m 可增加噪声
- 噪声在接近最优解时帮助逃离鞍点,但可能导致在最优解附近波动
- 噪声导致目标函数值单调下降,但收敛点随机波动
5.电影院放映厅可以容纳150名观众,第一位观众进入放映厅前丢了票,不知道自己的座位号,就随机选择一个位置坐下。剩余观众均没有丢票,首选自己的位置坐,但是如果发现自己的位置已经被占了,就从剩下的空位中随机选一个位置坐。则最后一位进入的观众恰好坐在自己座位上的概率是多少?
{{ select(5) }}
- 113 /150
- 49 / 150
- 77 / 150
- 1 / 2
6.关于贪婪搜索(Greedy Search)的描述,正确的是:
{{ select(6) }}
- 它在每一步都选择当前概率最高的 Token,容易陷入局部最优或重复循环
- 它通过引入随机性来提高文本的创造力
- 它会考虑所有可能的序列路径,寻找全局最优解
- 它的计算量远大于束搜索(Beam Search)
7.在 CLIP 的对比学习中,假设 batch size 为 N,对于某个正样本对 (i,i),其梯度对图像特征 ziI 的贡献包含哪些部分?(不考虑温度参数)
{{ select(7) }}
- 仅来自对角线位置的梯度,非对角线位置梯度为 0
- 仅来自图像→文本方向的正样本梯度
- 来自图像→文本的正样本梯度,以及作为其他样本负样本时的梯度
- 来自两个方向:图像→文本的正样本梯度 + 文本→图像的正样本梯度
8.与 K-Means 不同,DBSCAN 算法的一个显著优点是能够识别并处理哪种类型的数据点?
{{ select(8) }}
- 噪声点(离群点)
- 核心点
- 中心点
- 边界点
9.自适应数值积分(adaptive quadrature)的基本策略是:
{{ select(9) }}
- 在整个区间上均匀加密节点
- 在估计误差较大的子区间上局部加密,误差较小的子区间保持不变
- 随机选择加密位置
- 先用高阶公式再用低阶公式
10.在评估一个二分类模型的性能时,如果关注的是模型预测为正类的样本中真正为正的比例,应该使用以下哪个指标?
{{ select(10) }}
- 精确率
- F1分数
- 准确率
- 召回率
11、激活函数的主要作用是
{{ select(11) }}
- 加快训练
- 提高模型精度
- 增加模型参数
- 引入非线性
12、在目标检测或极度不平衡的分类任务中,研究人员提出了 Focal Loss。请问 Focal Loss 主要是通过引入下列哪种机制来调节不同样本对总损失的贡献?
{{ select(12) }}
- 动态权重衰减(Dynamic Weight Decay):根据训练轮数自动减小所有样本的权重。
- 调制因子(Modulating Factor):引入参数(1−pt)γ ,其中 pt 是预测概率,使得模型对已经预测准确的“简单样本”进行降权。
- 硬采样(Hard Example Mining):在每轮训练中直接丢弃所有损失值低于阈值的简单样本,只计算困难样本的损失。
- 标签平滑(Label Smoothing):将硬标签(0 或 1)转换为软概率分布,以减少模型对预测的过度自信。
13、某模型推理时,Decode阶段逐token生成,已知Prefill阶段缓存的KVCache为10个token的K/V向量,当前已生成5个token,若采用KVCache复用策略,则第6个token生成时,自注意力计算需新增计算的K/V向量数量为()
{{ select(13) }}
- 1个
- 6个
- 5个
- 15个
14、ZeRO(Zero Redundancy Optimizer)技术通过对显存状态进行切片来打破数据并行的显存墙。关于ZeRO的不同阶段,ZeRO-2 具体对哪些状态进行了分片(Partition)来降低显存占用?
{{ select(14) }}
- 优化器状态、模型参数做切片
- 对梯度、模型参数做切片
- 对优化器状态、梯度做切片
- 对优化器状态、模型参数、梯度做切片
15、在基于n-gram的语言模型中,我们将句子看作是词的序列,假设当前词出现的概率只依赖于前一个词。这种假设对应的数学模型是?
{{ select(15) }}
- 泊松过程
- 独立同分布序列
- 隐马尔可夫模型
- 一阶马尔可夫链
16、以下关于Krylov子空间方法(通过构造 {b,Ab,A2b,…,Ak−1b} 张成的子空间来寻找方程组近似解的一类迭代法)的说法,正确的有:
{{ multiselect(16) }}
- Krylov方法要求显式存储完整的系数矩阵A
- Krylov方法总在k=1步就收敛
- 共轭梯度法(CG)是对称正定情况下的Krylov方法
- GMRES(广义最小残差法)适用于一般非对称方程组
17、你看到 profile:
- forward/backward 40%
- allreduce 45%
- dataloader 15%
哪些优化方向合理
{{ multiselect(17) }}
- 考虑 ZeRO/FSDP 分片策略重配
- 增加通信与计算重叠
- 把 tokenizer 换成更大词表
- 调整梯度 bucket 大小
18、在描述数据分布特征时,均值、中位数和众数在什么情况下会完全重合?
{{ multiselect(18) }}
- 数据呈偏态分布
- 数据呈连续型均匀分布
- 数据呈标准正态分布
- 数据呈对称的单峰分布
19、关于混合精度训练,以下哪些描述是正确的?
{{ multiselect(19) }}
- 使用FP16存储参数和梯度可以减少显存占用,且有精度保障,常被设置为默认模型训练精度
- BP梯度回传与模型推理过程类似,一般具有相同的精度要求
- 训练过程中主权重通常保存为FP32以保证数值稳定性
- 损失缩放用于防止梯度下溢
20、多模态DPO用于优化视觉-语言模型,使其学会区分“优选的回复”和“非优选的回复”。给定图像 v,查询文本 x,以及一对偏好数据(优选的回复 yw,非优选的回复 yl),DPO的损失函数定义为:LDPO=−logσ(β⋅Δr) 其中:
σ(z)=1+e−z1是sigmoid函数
Δr=logπref(yw∣v,x)πθ(yw∣v,x)−logπref(yl∣v,x)πθ(yl∣v,x)
基于以上背景,关于多模态DPO的梯度行为和训练机制,以下哪些说法是正确的?
{{ multiselect(20) }}
- 当模型严重错误排序(给 yl的评分远高于 yw 0)时,sigmoid函数 σ(−β⋅Δr) 的输出值接近1,此时梯度幅度较大,模型会获得强烈的修正信号。
- 增大温度系数 β 会增强模型对偏好数据的学习强度,使策略模型更快偏离参考模型;但过大的 β 可能导致训练不稳定,甚至破坏预训练获得的视觉-语言对齐能力。
- 在多模态架构中,视觉投影层(将图像特征映射到语言模型输入空间)的梯度仅来自生成序列的第一个token,因为视觉特征只在初始位置注入,后续token生成不依赖投影层参数。
- 若优选的回复 yw 比非优选的回复 yl 长很多,由于长序列的累积对数概率通常绝对值更大,可能导致梯度被长序列主导,使模型倾向于生成更长回复而非质量更好的回复。