#P5123. 第1题-选择题
-
Tried: 12
Accepted: 0
Difficulty: 5
所属公司 :
华为
时间 :2026年6月24日-AI方向
算法与标签>机器学习算法
第1题-选择题
答案与解析
T1
- 答案:A.搜索最优生成路径
- 解析:Beam Search 会保留多个候选路径,尽可能搜索概率较高的生成序列。
T2
- 答案:B.压缩文档存储空间,减少磁盘占用
- 解析:Embedding 的核心作用是语义表示与向量检索,不是为了压缩存储空间。
1、在解码过程中,Beam Search 的主要作用是?
{{ select(1) }}
- 搜索最优生成路径
- 减少生成时间
- 增加多样性
- 随机采样
2、以下哪项不是 Embedding 在 RAG 中的核心作用?
{{ select(2) }}
- 将查询与文档映射到同一语义空间,支持向量检索
- 压缩文档存储空间,减少磁盘占用
- 通过余弦相似度计算语义相关性
- 支持跨语言检索(多语言 Embedding)
3、关于Sigmoid激活函数,下列说法错误的是( )
{{ select(3) }}
- 具有平滑可导的特性,便于反向传播求导
- 易出现梯度消失问题,不适合深层网络
- 输出均值为0,有利于加快网络收敛
- 输出范围为(0,1),可用于二分类任务的输出层
4、多模态对齐训练中,对比损失(Contrastive Loss)和匹配损失(Matching Loss)的目标不同。以下哪项正确?
{{ select(4) }}
- 对比损失只优化正样本对,负样本不参与梯度计算;匹配损失优化所有样本对
- 两者完全相同,只是损失函数形式不同(InfoNCE vs BCE)
- 对比损失拉近所有正样本对、推远所有负样本对;匹配损失仅优化二分类边界,不关注负样本相对距离
- 对比损失需要大规模负采样,匹配损失只需要1个负样本,因此计算效率更高
5、在自注意力机制中,Q、K、V三个矩阵通常是通过什么方式得到的?
{{ select(5) }}
- 通过循环神经网络生成
- 输入向量与三个不同的权重矩阵相乘
- 随机初始化后保持不变
- 直接从输入向量复制得到
6、逻辑回归中关于Softmax函数的输出特性,以下哪项是正确的
{{ select(6) }}
- 所有输出之和等于1
- 输出值可能为负数
- 对于相同的输入,每次计算输出可能不同
- 输出值与输入值成线性关系
7、在Transformer模型中,自注意力机制的主要作用是什么?
{{ select(7) }}
- 对输入序列进行降维处理
- 生成词嵌入
- 捕获序列中的长距离依赖关系
- 将输入序列映射到固定长度向量
8、循环神经网络(RNN)的主要特点是
{{ select(8) }}
- 处理序列数据
- 以上都是
- 权重共享
- 具有记忆能力
9、已知随机变量X的方差Var(X)=4,则Var(3X−2)的值是?
{{ select(9) }}
- 36
- 10
- 34
- 12
10、在某自动驾驶传感器数据预处理任务中,系统提取了1024维的高频特征。为了降低下游神经网络的计算负担,工程师决定使用PCA进行降维。计算协方差矩阵后,提取出最大的前5个特征值依次为:λ1=45,λ2=25,λ3=10,λ4=8,λ5=2。已知所有特征值的总和为100。如果业务要求降维后的数据必须保留至少85%的原始信息(即累计方差贡献率≥0.85),系统最少需要保留多少个主成分?
{{ select(10) }}
- 2个
- 5个
- 3个
- 4个
11、在循环神经网络(RNN)中引入长短期记忆网络(LSTM)的主要目的是通过门控机制解决:
{{ select(11) }}
- 计算过程无法并行的问题
- 模型的过拟合问题
- 长距离依赖下的梯度消失或爆炸问题
- 输入特征的降维问题
12、设X1,X2,…,Xn是独立同分布的随机变量,且都服从参数为p的几何分布,则它们的和S=∑Xi服从什么分布?
{{ select(12) }}
- 几何分布
- 正态分布
- 泊松分布
- 负二项分布
13、Flash Decoding 技术是针对 LLM 推理哪个阶段的优化?
{{ select(13) }}
- Decode
- Embedding
- Tokenization
- Prefill
14、相比于Sigmoid函数,ReLU(Rectified Linear Unit)的主要优势不包括?
{{ select(14) }}
- 缓解了梯度消失问题
- 计算速度更快(只需判断阈值)
- 神经元的稀疏激活(很多神经元输出为0)
- 输出具有以零为中心的特性
15、在标准的 Multi-Head Attention 中,设输入序列长度为n,模型隐藏维度为d,注意力头数为h,每个头的维度为dk=d/h。以下关于其参数量和计算量(FLOPs)的说法,哪一项是正确的?
{{ select(15) }}
- 参数量为3d2+d2=4d2(忽略bias),FLOPs 主要项为O(nd2),与序列长度n呈线性关系。
- 参数量与序列长度n相关,为O(nd2);FLOPs 主要项为O(n2d)。
- 参数量为3h⋅dk2+d2;FLOPs 主要项为O(n2d2)。
- 参数量为3d2+d2=4d2(忽略bias),FLOPs 中与序列长度n相关的主要项为O(n2d),来自QKT矩阵乘法和 attention 加权求和。
16、为什么深层网络中更倾向于使用ReLU而不是Sigmoid?
{{ multiselect(16) }}
- Sigmoid在两端饱和区域梯度趋近于0,容易导致梯度消失
- Sigmoid的输出不是零中心的,会导致梯度更新呈锯齿状
- ReLU的计算涉及指数运算,比Sigmoid的简单阈值更高效
- ReLU的导数在正区间恒为1,利于梯度回传
17、在基于K近邻关系进行样本归组时,以下哪些问题是常见的挑战?
{{ multiselect(17) }}
- 对异常点和局部噪声较敏感
- 大规模数据下近邻搜索开销较高
- 高维空间中近邻关系可能变得不稳定
- 不同K取值可能导致分组结果差异较大
18、反向传播算法的优势包括
{{ multiselect(18) }}
- 高效计算梯度
- 实现简单
- 适用于深度学习网络
- 计算复杂度低
19、矩阵的可逆性是线性代数中的重要概念。下列哪些类型的矩阵一定是可逆的(非奇异的)?
{{ multiselect(19) }}
- 单位矩阵I
- 满秩方阵
- 零矩阵
- 行列式不为0的方阵
20、关于模型对齐(Alignment)失效场景,以下哪些情况可能导致模型输出有害内容?
{{ multiselect(20) }}
- 安全微调(RLHF)阶段的数据质量不足
- 模型推理时的温度参数(Temperature)设置过高
- 训练数据中包含大量有害言论
- 攻击者使用了特定的越狱提示词
请从“运行结果”或“历史提交”选择一条记录
选择提交后开始分析