#P4567. 第1题-选择题
-
Tried: 10
Accepted: 0
Difficulty: 5
所属公司 :
华为
时间 :2026年2月4日-AI方向
-
算法标签>机器学习算法
第1题-选择题
T1
答案:B.AT=A−1
解析:实正交矩阵满足 ATA=I,因此 A−1=AT。
T2
答案:C. Multi-Head Attention在不同位置间混合信息,而FFN则对每个位置的向量进行独立的非线性变换。
解析:在Transformer中,Multi-Head Attention通过自注意力机制计算序列中所有位置之间的关系,实现跨位置信息融合;而Position-wise FFN对每个位置的向量独立应用相同的全连接层进行非线性变换,不涉及位置间交互。
T3
答案:B.Positional Embedding
解析:Transformer Encoder 通过 Positional Embedding/Encoding 显式注入位置信息。
T4
答案:C. d(x,y)=∑i=1n∣xi−yi∣
解析:曼哈顿距离即L1距离,定义为各坐标维度绝对差之和。选项A是切比雪夫距离,B是欧氏距离,D是闵可夫斯基距离的一般形式。
T5
答案:D.Agent 同时思考和行动,以达到最佳效果
解析:ReAct 的核心是 Reasoning + Acting:边思考边行动(交替产生推理与工具调用/动作)。
T6
答案:D.将输入映射到[0,1]区间表示概率分布
解析:Softmax函数将神经网络的原始输出(logits)转换为概率分布,每个类别的概率值介于0到1之间,且所有类别的概率之和为1,适用于多分类任务。
T7
答案:B.0.8
解析:Accuracy=TP+FP+TN+FNTP+TN=50+10+30+1050+30=10080=0.8。
T8
答案:C.几乎不变
解析:在Flash-Attention v2中,序列并行将序列划分到多个设备,每个设备处理的序列长度减少,使每个设备的显存占用近似按比例降低。由于设备数增加,总显存占用理论上可保持接近不变(尤其当激活内存占主导且参数内存较小时)。
T9
答案:C.编码器中位置编码(Positional Encoding)的主要作用是解决 RNN 的梯度消失问题
解析:位置编码的作用是提供序列位置信息,并非为了解决 RNN 梯度消失问题。
T10
答案:C. 4/3
解析:对于均匀分布X~Uniform(0,2),其期望E[X]=1,方差Var(X)=(2-0)²/12=1/3,因此E[X²]=Var(X)+(E[X])²=1/3+1=4/3。
T11
答案:C.去掉均值计算,推理与训练均可省去一次减法
解析:RMSNorm 不做均值中心化(不减均值),省去均值相关计算,训练与推理都更省。
T12
答案:C.A的每个对角元素均大于1,每个非对角元素均属于[−n1,0]
解析:雅格比法收敛的一个充分条件是系数矩阵严格对角占优。选项C中,对角元素大于1且非对角元素绝对值不超过1/n,确保了每行对角元素绝对值大于该行非对角元素绝对值之和,满足严格对角占优条件。
T13
答案:C、初等行变换不改变矩阵的秩
解析:初等行变换不会改变矩阵的秩。
T14
答案:D.GPT是decoder-only,BERT是encoder-only,T5是encoder-decoder
解析:GPT系列模型使用Transformer解码器进行自回归生成,BERT使用Transformer编码器进行双向上下文编码,T5采用编码器-解码器架构处理序列到序列任务。
T15
答案:D、仍是 3s
解析:测试/推理阶段 Dropout 通常关闭(或等效为恒等映射),推理时延仍约为 3s。
T16
答案:B、无后效性, D、平稳性, E、普通性
解析:泊松时间流的典型性质包括无后效性(事件独立发生)、平稳性(发生率恒定)和普通性(短时间内最多一个事件)。非负性是计数过程的一般特性,无偏性不是泊松流的性质。
T17
答案:A.若 A 或 B 为零矩阵,则 rank(AB)=0
B.rank(AB)≤rank(A)、
C.rank(AB)≤rank(B) 解析:
-
零矩阵相乘必为零矩阵,秩为 0;
-
总有 rank(AB)≤rank(A)且 rank(AB)≤rank(B);
-
“都满秩 ⇒rank(AB)=min{m,p}”不总成立(受 n 限制,实际还需 ≤n)。
T18
答案:B、高斯径向基核函数, C、多项式核函数, D、线性核函数
解析:SVM核函数需满足Mercer条件,常见核函数包括高斯径向基核(RBF)、多项式核和线性核。逻辑函数(如sigmoid)虽有时被使用,但并非标准核函数且可能不满足半正定要求。
T19
答案:A.并非所有注意力变体都需计算 QK^T、 B.GQA 在推理时可减少 K/V 缓存的内存占用、 D.MHA 的参数量可能不随头数线性增长
解析:
- 有些注意力变体不一定显式计算 QKT;
- GQA 共享 K/V 头,推理时可减少 KV cache 占用;
- MHA 的参数量不一定随头数线性增长(常见实现是总维度固定、分头切分)。
T20
答案:A、K-Means算法在每次迭代中都会更新所有簇中心的位置, B、高斯混合模型(GMM)可以为每个数据点分配到多个簇的概率, D、DBSCAN算法能够自动确定聚类的数量,并且可以处理噪声数据
解析:K-Means每次迭代会重新计算所有簇的质心;GMM通过软分配给出数据点属于各簇的概率;DBSCAN基于密度自动确定簇数量并处理噪声。层次聚类可通过切割树状图获得扁平化簇集合,故C错误。
1、设 A为实正交矩阵(即 ATA=I),则以下结论正确的是: {{ select(1) }}
- A 的列向量不一定线性无关
- AT=A−1
- det(A)=−1
- AT=A
2、在一个标准的Transformer Block中,一个Multi-Head Attention子层之后通常会跟一个Position-wise FFN子层。关于这两个子层处理信息方式的描述,以下哪项最为准确? {{ select(2) }}
- Multi-Head Attention和FFN都独立地处理每个位置的向量,不进行位置间的信息交换。
- FFN负责在不同位置间混合信息,而Multi-Head Attention则对每个位置的向量进行独立的非线性变换。
- Multi-Head Attention在不同位置间混合信息,而FFN则对每个位置的向量进行独立的非线性变换。
- Multi-Head Attention和FFN都负责在整个序列的不同位置间进行信息交换。
3、在 Transformer Encoder 中,用来显式注入序列位置信息的模块是 {{ select(3) }}
- Feed-Forward Network
- Positional Embedding
- Self-Attention
- Layer Normalization
4、聚类算法在计算和迭代的过程中,需要反复计算不同点之间的距离,采用不同的距离公式通常会有不同的聚类效果,请问曼哈顿距离公式是以下哪个? {{ select(4) }}
- d(x,y)=maxi=1,2,3,…,n∥xi−yi∥
- d(x,y)=∑i=1n(xi−yi)2
- d(x,y)=∑i=1n∥xi−yi∥
- d(x,y)=[∑i=1n(xi−yi)p]1/p
5、考虑一个智能体 (Agent) 需要通过调用 API 来完成任务的情况,如果该 Agent 采用了 ReAct 框架来进行决策制定,那么以下哪一项描述了 ReAct 的核心机制? {{ select(5) }}
- Agent 依赖外部反馈来调整其行为
- Agent 先思考可能的结果再决定采取什么行动
- Agent 首先执行动作然后才思考后果
- Agent 同时思考和行动,以达到最佳效果
6、在分类任务中,Softmax函数的作用是? {{ select(6) }}
- 将输入映射到[-1,1]区间用于激活
- 将输入转换为对数概率用于交叉熵损失
- 限制输出范围以防止梯度爆炸
- 将输入映射到[0,1]区间表示概率分布
7、在一个二分类问题中,混淆矩阵为:TP=50, FP=10, TN=30, FN=10。模型的准确率(Accuracy)是多少? {{ select(7) }}
- 0.75
- 0.8
- 0.83
- 0.9
8、在Flash-Attention v2中,将序列并行度(sequence parallel)从1提升到4,理论上总显存占用 {{ select(8) }}
- 降至1/2
- 降至1/4
- 几乎不变
- 增加4倍
9、下面关于 Transformer 的结构描述不正确的? {{ select(9) }}
- Transformer 中编码器和解码器都由多层自注意力层和前馈神经网络层组成
- Transformer 中编码器用于将源语言句子编码为一系列的向量
- 编码器中位置编码(Positional Encoding)的主要作用是解决 RNN 的梯度消失问题
- Transformer 中解码器将向量翻译生成目标语言
10、假设随机变量X~Uniform(0,2),求E[X²] {{ select(10) }}
- 2/3
- 1/3
- 4/3
- 2
11、在 GPT-NeoX、Llama 等新一代 LLM 中,用 RMSNorm 取代 LayerNorm 的直接收益主要体现在 {{ select(11) }}
- 训练中减少一次矩阵乘法
- 减少参数总量约 10%
- 去掉均值计算,推理与训练均可省去一次减法
- 可用更高学习率
12、使用雅格比法求线性方程组 Ax=b 的解,其中 A 是一个 n 阶方阵。该算法收敛的一个充分条件是 {{ select(12) }}
- A为正定矩阵
- A为半正定矩阵,且b为零向量
- A的每个对角元素均大于1,每个非对角元素均属于[−n1,0]
- A的每个对角元素的绝对值均大于同一行的任一非对角元素的绝对值
13、以下关于矩阵秩的叙述中,正确的是? {{ select(12) }}
- 矩阵的秩等于其行空间维数,与列空间维数无关
- 任意两个矩阵乘积的秩满足 rank(AB)≥rank(A)
- 初等行变换不改变矩阵的秩
- 若矩阵 A 可逆,则 rank(A)=rank(A−1)
14、关于GPT、BERT、T5三种模型的架构,哪项描述是正确的? {{ select(14) }}
- GPT是encoder-only,BERT是decoder-only,T5是encoder-decoder
- GPT是encoder-decoder,BERT是decoder-only,T5是encoder-only
- GPT是encoder-decoder,BERT是encoder-decoder,T5是decoder-only
- GPT是decoder-only,BERT是encoder-only,T5是encoder-decoder
15、假设一个 10 层的卷积神经网络,使用 16GB 显存的 GPU 需要半小时训练完成,在测试过程中单个数据的推理时延为 3s。更改此网络架构,在第 5 和第 6 层中增加 Dropout,新架构在测试所用的时间会变为多少? {{ select(15) }}
- 时间随机,无法估计
- 小于 3s
- 大于 3s
- 仍是 3s
16、泊松时间流 (Poisson temporal flow) 也称为泊松流或最简单流, 是一种连续时间参数的随机过程, 用于描述在随机时刻出现的事件序列。泊松时间流具有哪些典型性质? {{ multiselect(16) }}
- 无偏性
- 无后效性
- 非负性
- 平稳性
- 普通性
17、设 A∈Rm×n, B∈Rn×p,关于乘积 AB 的秩,下列结论哪些总是正确? {{ multiselect(17) }}
- 若 A 或 B 为零矩阵,则 rank(AB)=0
- rank(AB)≤rank(A)
- rank(AB)≤rank(B)
- 若 A 与 B 均满秩,则 rank(AB)=min{m,p}
18、以下哪些可以作为SVM的核函数() {{ multiselect(18) }}
- 逻辑核函数
- 高斯径向基核函数
- 多项式核函数
- 线性核函数
19、关于注意力的表述,正确的是 {{ multiselect(19) }}
- 并非所有注意力变体都需计算 QK^T
- GQA 在推理时可减少 K/V 缓存的内存占用
- MLA 的训练速度通常快于 MHA
- MHA 的参数量可能不随头数线性增长
20、以下关于聚类算法的说法中,哪些是正确的? {{ multiselect(20) }}
- K-Means算法在每次迭代中都会更新所有簇中心的位置
- 高斯混合模型(GMM)可以为每个数据点分配到多个簇的概率
- 层次聚类算法只能生成固定的层次结构,无法形成扁平化的簇集合
- DBSCAN算法能够自动确定聚类的数量,并且可以处理噪声数据