第1题-选择题

Tried: 203

Accepted: 28

Difficulty: 5

所属公司 : 华为

时间 :2025年12月17日-AI方向

一、单选题

1、使用岭回归(Ridge Regression)拟合样本数据，调试正则化参数λ来降低模型复杂度，当λ较大时、关于偏差(bias)和方差(Variance)，一般情况下

当入较大时，偏差增大，方差减小
当入较大时，偏差减小，方差增大
当入较大时，偏差增大，方差增大
当入较大时，偏差减小，方差减小

2、对于伯努利分布X~Bernoulli(p)，样本{1,0,1,1}对p的MLE(MaximumLikelihood Estimation，最大似然估计为 {{ select(2) }}

样本中位数
0.75
0.5
0.25

3、在最大似然估计中，为什么通常对似然函数取对数？ {{ select(3) }}

为了增加模型的复杂度
为了使参数估计更加准确
为了引入先验分布
为了将乘法转化为加法，简化计算

4、在图像分类任务中，若模型将大量负样本误判为正样本，这表明: {{ select(4) }}

Accuracy偏高
Precision 偏高
Recall偏低
Precision偏低

5、子空间的判断条件为存在零元，对加法和数乘计算封闭。在 $R^2$ 中，下列集合是子空间的有 {{ select(5) }}

{(x,y)|y=0}
{(x,y)|y =0}
{(x,y)|x+y=1}
{(x,y)|x+1=2y}

6、神经网络中，反向传播用于? {{ select(6) }}

计算梯度
前向计算
更新权重
初始化参数

7、在深度学习中，什么是“早停法”(Early Stopping)? {{ select(7) }}

在模型参数初始化时停止训练以提升收敛速度
在训练过程中提前结束训练以减少计算成本
在训练初期停止训练以避免梯度爆炸
在验证集性能不再提升时停止训练，防止过拟合

8、Scaled-Dot-Product Attention 中对 $QK^T$ 结果除以 $\sqrt{d_k}$ 的主要目的是 {{ select(8) }}

引入归一化的位置信息
缩小 softmax输入方差，避免梯度饱和
提高模型容量
减少计算量

9、对于一个满秩矩阵，以下哪项一定成立() {{ select(9) }}

零空间(Null Space)包含非零向量
行列式det(A)=0
可逆
特征值全为零

10、设事件A与自身独立，则A的概率为 {{ select(10) }}

0.5
1
0
0或1

11、考察向量组{(1,0,1),(0,1,1),(1,1,2)}的线性关系，其结论是: {{ select(11) }}

线性无关，秩为3
线性无关，秩为2
线性相关，秩为2
线性相关，秩为1

12、在Transformer中，位置编码(PositionalEncoding)的作用是?

提供序列中不同词的位置信息
增加模型的非线性
优化注意力权重
压缩序列长度

13、最大似然估计的核心思想是 {{ select(13) }}

找到使观测数据出现概率最大的参数
最小化模型预测误差的平方和
优先选择先验概率最大的参数
通过样本矩匹配总体矩来估计参数

14、交叉熵损失函数，主要用于哪种任务? {{ select(14) }}

回归任务
降维任务
分类任务
聚类任务

15、下列哪一项不是泊松过程的特征? {{ select(15) }}

事件发生的间隔服从指数分布
事件在不重叠时间区间内相互独立
事件发生的时间间隔服从正态分布
每个时间区间内事件发生的次数服从泊松分布

二、多选题

16、深入剖析自注意力机制的计算过程和其变体，以下哪些陈述是准确的? {{ multiselect(16) }}

在GQA中，由于多个Query头共享同一组K/,因此在模型训练时，不同组的Query头之间必须串行计算，无法像MHA一样在所有头上实现完全的计算并行
从MHA演进到GQA和MQA，其主要动机是在模型推理(inference)阶段，通过减少需要缓存的Key和Value头的数量来大幅降低显存占用，但这可能以牺牲一定的模型表达能力为代价。
在多头注意力机制中，为了保证点积计算的有效性，单个头内部的Qvery和Key的维度(d_k)必须相等，但Value的维度(d_v)理论上可以与它们不同。
在Scaled Dot-Product Attention公式中，将QK^T的结果除以缩放因子sqrt(dk)，其主要目的是为了在反向传播时维持稳定的梯度，防止点积过大导致Softmax函数进入梯度饱和区。

17、下列关于多模态大模型(例如 BLIP-2、LLaVA、GPT-4V)的表述,哪些是正确的?（可多选） {{ multiselect(17) }}

LLaVA通过端到端联合预训练，完全移除了视觉编码器
大多数开源多模态LLM的视觉适配层参数量远小于语言模型主体，因此可视作一种PEFT方案
GPT-4V的多模态能力部分来源于对视觉token的序列化，并使用同一套自注意力机物承文字与图像
BLIP-2使用冻结的视觉编码器加上Q-former，将视觉特征对齐到语言模型的强人空间

18、矩阵分解方法在推荐系统中的应用正确的有? {{ multiselect(18) }}

PCA用于降维
NMF用于非负矩阵分解
QR分解用于求解线性方程
SVD用于协同过滤

19、下列关于单位矩阵 $I_n$ 的性质，哪些一定成立? {{ multiselect(19) }}

$I_n$ 的所有特征值都等于1
$I_n$ 与任何同形矩阵相乘都保持该矩阵不变(左乘或右乘均可)。
$I_n$ 的秩等于n
det(In)=0

20、关于连续型随机变量(Continuous Random Variable)，以下说法正确的是() 注:E:表示数学期望，也称期望值，E(X)表示随机变量x的期望值 {{ multiselect(20) }}

对于连续型随机变量X.，若其概率密度函数fx(x)是偶函数，则X的分布关于0对称
连续型随机变量的累积分布函数(CDF)一定是连续函数
若X是连续型随机变量，则P(X=a)=0对任意实数a成立
连续型随机变量的概率密度函数(PDF)在任意单点的值可以大于1

#P4531. 第1题-选择题

T1

T2

T3

一、单选题

二、多选题

Status

Development

Support

About