第1题-选择题

会员专享

请先登录，登录后可使用今日免费解锁；开通会员，或购买该题目所属题库（华为校招机考题库），可解锁完整内容。

购买题库开通会员

T1

答案：A.余弦相似度

解析：余弦相似度衡量向量方向而非幅值，对亮度（尺度）变化不敏感，适合亮度差异大的图像相似度比较

T2

1、对比两张亮度差异较大的图片的内容相似的适合的相似度度量是？ {{ select(1) }}

余弦相似度
曼哈顿距离
汉明距离
欧氏距离

2、工厂抽检5个灯泡，寿命数据：[2年,0年,3年,0年,4年]。合格品寿命服从指数分布（参数λ），不合格品寿命为0。合格率p的MLE估计是？ {{ select(2) }}

0.7
0.6
0.5
0.4

3、贝叶斯定理的正确表达式是： {{ select(3) }}

P(A|B) = P(B|A)·P(A) / P(B)
P(A|B) = P(B|A) / P(B)
P(A|B) = P(A)·P(B) / P(B|A)
P(A|B) = P(A∩B) + P(B)

4、使用PCA降维时，需要决定保留多少个主成分。选择PCA主成分数量时，通常依据什么指标？ {{ select(4) }}

后续模型的准确率
原始特征的数量
累计解释方差比例（如85%-95%）
样本的数量

5、训练一个两层全连接神经网络做回归任务，在使用反向传播更新参数时发现：损失几乎不下降，梯度在多层传递后逐渐趋近于0。针对该现象，下列分析最合理的是（） {{ select(5) }}

数据集过小，与反向传播无关
梯度爆炸，应使用梯度裁剪
学习率过高，应大幅调大学习率
梯度消失，常见于深层网络或饱和激活函数

6、在反向传播中，如果激活函数的导数长期小于1，最可能导致的数值问题是？ {{ select(6) }}

梯度爆炸
维度崩溃
数值上溢
梯度消失

7、在判断一个集合是否为向量空间时，以下哪一项是必须满足的条件？ {{ select(7) }}

集合中所有向量的长度必须相等
集合中任意两个向量的和仍属于该集合
集合中存在零向量，并且对加法和数乘封闭
集合中任意一个向量与任意一个标量的乘积仍属于该集合

8、与普通SGD相比，Momentum方法的主要作用是什么？ {{ select(8) }}

保证全局最优解
不再需要设置学习率
引入历史梯度信息，减少震荡并加快收敛
自动减少训练数据噪声

9、对于多头注意力（Multi-Head Attention, MHA）和分组查询注意力（Grouped-Query Attention, GQA），GQA相较于MHA的结构变化在于： {{ select(9) }}

增加了Value头的维度
多个Query头共享一组Key和Value头
增加了Key和Value头的数目
减少了Query头的数量

10、当数据分布呈现右偏（正偏）特征时，意味着右侧有极端值拉高均值。此时均值、中位数、众数三者的关系通常是？ {{ select(10) }}

均值<中位数<众数
均值>中位数>众数
无法确定
均值=中位数=众数

11、原模型使用MHA（Multi-Head Attention）有 $64$ 个注意力头，如果采用MQA（Multi-Query Attention）替代MHA，KV Cache显存可减少多少倍?

$8$ 倍
$64$ 倍
$32$ 倍
$4$ 倍

12、对于输入为 $224\times224\times3$ 的图像，使用一个卷积层，包含 $96$ 个 $11\times11$ 的卷积核，步长为 $4$ ，无填充（padding = $0$ ），那么输出特征图的大小和深度分别是?

$55\times55\times96$
$57\times57\times96$
$54\times54\times96$
$56\times56\times96$

13、下列关于Embeddings的核心定义，正确的是（）

将离散数据（如单词、类别）映射到连续的低维向量空间
将离散数据映射到离散的低维向量空间
将连续数据映射到离散的高维向量空间
将连续数据映射到连续的高维向量空间

14、关于 SGD 的说法，错误的是

SGD 可能收敛速度较慢
SGD 需要设置学习率
SGD 使用整个数据集计算梯度
SGD 代表随机梯度下降

15、对角矩阵的行列式计算非常简单。矩阵 $A=[[3,0],[0,3]]$ 是对角矩阵，其行列式值为?

$6$
$27$
$9$
$3$

16、以下关于凸函数的性质，正确的有:

两个凸函数之和仍然是凸函数
凸函数的非负线性组合仍然是凸函数
凸函数的任意局部最小值都是全局最小值
凸函数与凹函数之和一定是凸函数

17、若某层注意力权重接近均匀分布，可能由于:

使用了因果掩码
输入序列所有token嵌入相同
查询和键的维度过高
注意力机制中softmax的温度参数设置过大

18、以下关于线性相关与线性无关的说法，哪些正确?

包含零向量的向量组必线性相关
$n$ 维向量空间中任意 $n+1$ 个向量必线性相关
若向量组线性相关，则其中每个向量都可由其余向量线性表示
单个非零向量构成的向量组线性无关

19、已知 $TP=50$ ， $FN=10$ ， $FP=5$ ， $TN=200$ ，下列正确的有

精确率 $\approx 0.91$
召回率 $\approx 0.83$
TPR $\approx 0.83$
准确率 $\approx 0.96$

20、在设计大模型训练并行策略时，通常采用 $3D$ 混合并行策略（TP + PP + DP）。这样设计的主要原因包括?

提高扩展性
减少单一并行方式的通信瓶颈
充分利用多节点 GPU
自动减少模型参数

请从“运行结果”或“历史提交”选择一条记录

选择提交后开始分析

#P5110. 第1题-选择题

11、原模型使用MHA（Multi-Head Attention）有 $64$ 个注意力头，如果采用MQA（Multi-Query Attention）替代MHA，KV Cache显存可减少多少倍?

12、对于输入为 $224\times224\times3$ 的图像，使用一个卷积层，包含 $96$ 个 $11\times11$ 的卷积核，步长为 $4$ ，无填充（padding = $0$ ），那么输出特征图的大小和深度分别是?

13、下列关于Embeddings的核心定义，正确的是（）

14、关于 SGD 的说法，错误的是

15、对角矩阵的行列式计算非常简单。矩阵 $A=[[3,0],[0,3]]$ 是对角矩阵，其行列式值为?

16、以下关于凸函数的性质，正确的有:

17、若某层注意力权重接近均匀分布，可能由于:

18、以下关于线性相关与线性无关的说法，哪些正确?

19、已知 $TP=50$ ， $FN=10$ ， $FP=5$ ， $TN=200$ ，下列正确的有

20、在设计大模型训练并行策略时，通常采用 $3D$ 混合并行策略（TP + PP + DP）。这样设计的主要原因包括?

Status

Development

Support

About

#P5110. 第1题-选择题

第1题-选择题

11、原模型使用MHA（Multi-Head Attention）有646464个注意力头，如果采用MQA（Multi-Query Attention）替代MHA，KV Cache显存可减少多少倍?

12、对于输入为224×224×3224\times224\times3224×224×3的图像，使用一个卷积层，包含969696个11×1111\times1111×11的卷积核，步长为444，无填充（padding = 000），那么输出特征图的大小和深度分别是?

13、下列关于Embeddings的核心定义，正确的是（ ）

14、关于 SGD 的说法，错误的是

15、对角矩阵的行列式计算非常简单。矩阵 A=[[3,0],[0,3]]A=[[3,0],[0,3]]A=[[3,0],[0,3]] 是对角矩阵，其行列式值为?

16、以下关于凸函数的性质，正确的有:

17、若某层注意力权重接近均匀分布，可能由于:

18、以下关于线性相关与线性无关的说法，哪些正确?

19、已知 TP=50TP=50TP=50，FN=10FN=10FN=10，FP=5FP=5FP=5，TN=200TN=200TN=200，下列正确的有

20、在设计大模型训练并行策略时，通常采用 3D3D3D 混合并行策略（TP + PP + DP）。这样设计的主要原因包括?

Status

Development

Support

About

Login

11、原模型使用MHA（Multi-Head Attention）有 $64$ 个注意力头，如果采用MQA（Multi-Query Attention）替代MHA，KV Cache显存可减少多少倍?

12、对于输入为 $224\times224\times3$ 的图像，使用一个卷积层，包含 $96$ 个 $11\times11$ 的卷积核，步长为 $4$ ，无填充（padding = $0$ ），那么输出特征图的大小和深度分别是?

13、下列关于Embeddings的核心定义，正确的是（）

15、对角矩阵的行列式计算非常简单。矩阵 $A=[[3,0],[0,3]]$ 是对角矩阵，其行列式值为?

19、已知 $TP=50$ ， $FN=10$ ， $FP=5$ ， $TN=200$ ，下列正确的有

20、在设计大模型训练并行策略时，通常采用 $3D$ 混合并行策略（TP + PP + DP）。这样设计的主要原因包括?