#P4531. 第1题-选择题
-
Tried: 9
Accepted: 1
Difficulty: 5
所属公司 :
华为
时间 :2025年12月17日-AI方向
第1题-选择题
T1
答案:A. 当 λ 较大时,偏差增大,方差减小 解析:岭回归中正则化参数 λ 越大,对参数惩罚越强,模型更简单,方差降低但偏差增大,体现偏差–方差权衡原则。
T2
答案:B. 0.75 解析:伯努利分布参数 (p) 的极大似然估计等于样本均值。样本 ({1,0,1,1}) 中 1 的比例为 (3/4=0.75)。
T3
答案:D. 为了将乘法转化为加法,简化计算 解析:在最大似然估计中,对似然函数取对数不会改变最优解,同时可以把概率连乘变为求和,计算更简单、数值更稳定。
T4
答案:D. Precision 偏低 解析:将大量负样本误判为正样本会导致假正例(FP)增多,而 Precision = TP / (TP + FP),因此 Precision 会降低。
T5
答案:A. ({(x,y)\mid y=0}) 解析:子空间需包含零元,并且对加法和数乘封闭。 A 表示 (x) 轴,包含 ((0,0)),且满足封闭性; B 是两条坐标轴的并集,加法不封闭; C、D 不包含零向量,均不是子空间。
T6
答案:A. 计算梯度 解析:反向传播的核心作用是利用链式法则计算损失函数对各参数的梯度,为后续权重更新提供依据。
T7
答案:D. 在验证集性能不再提升时停止训练,防止过拟合 解析:早停法(Early Stopping)是在训练过程中监控验证集性能,当其不再提升(甚至下降)时提前停止训练,以防止过拟合;B 只是结果之一但不是核心定义,A、C表述不准确。
T8
答案:B. 缩小 softmax 输入方差,避免梯度过饱和 解析:在 Scaled Dot-Product Attention 中,(QK^T) 的数值随维度 (d_k) 增大而变大,直接送入 softmax 会导致输出分布过于尖锐、梯度消失;除以 (\sqrt{d_k}) 可以缩放数值、稳定训练。
T9
答案:C. 可逆 解析:满秩矩阵表示秩等于矩阵的阶数,因此零空间只包含零向量、行列式 不为 0、矩阵 可逆,且不可能所有特征值都为 0。A、B、D 均与满秩性质矛盾。
T10
答案:D. 0 或 1 解析:若事件 (A) 与自身独立,则 [ P(A\cap A)=P(A)\cdot P(A)\Rightarrow P(A)=P(A)^2 ] 解得 (P(A)=0) 或 (P(A)=1)。因此只有这两种情况满足与自身独立。
T11
答案:C. 线性相关,秩为 2 解析:向量 ((1,1,2) = (1,0,1) + (0,1,1)),因此三者线性相关;其中只有两个向量线性无关,张成空间的秩为 2。
T12
答案:A. 提供序列中不同词的位置信息 解析:Transformer 本身不具备顺序感知能力,位置编码通过向输入嵌入中加入位置信息,使模型能够区分序列中不同位置的词;B、C、D 并非其核心作用。
T13
答案:A. 找到使观测数据出现概率最大的参数 解析:最大似然估计(MLE)的核心思想是选择一组参数,使在该参数下观测到当前样本数据的概率最大;B 是最小二乘的表述,C 属于 MAP(最大后验估计),D 不是标准统计估计思想。
T14
答案:C. 分类任务 解析:交叉熵损失用于衡量预测概率分布与真实标签分布之间的差异,是分类模型(尤其是逻辑回归、神经网络分类)的常用损失函数;回归、降维和聚类通常使用其他损失或目标函数。
T15
答案:C. 事件发生的时间间隔服从正态分布 解析:泊松过程的典型特征包括:事件独立发生,单位时间内事件数服从泊松分布,相邻事件的时间间隔服从指数分布;正态分布不符合泊松过程的性质,因此 C 错误。
T16
答案:B 从 MHA 演进到 GQA 和 MQA…减少需要缓存的 Key/Value 头数量…(可能牺牲表达能力) 、C 单个头内部的 Query 和 Key 维度 (d_k) 必须相等,但 Value 维度 (d_v) 理论上可不同 、D 将 (QK^\top) 除以 (\sqrt{d_k})…防止点积过大导致 Softmax 进入梯度饱和区 解析:A“必须串行、无法并行”不对:GQA 只是共享/分组 K/V,计算仍可按张量维度并行;BCD均符合注意力计算与工程动机(KV cache、维度匹配、缩放稳定 softmax/梯度)。
T17
答案:B、C、D 解析:
- A 错误:LLaVA 并未移除视觉编码器,而是使用视觉编码器 + 连接模块(如 projector)对接 LLM。
- B 正确:多数开源多模态 LLM 采用轻量视觉适配层(如 projector、Q-former),参数量远小于语言模型主体,降低训练成本。
- C 正确:GPT-4V 的多模态能力可理解为将视觉信息token 化并序列化,再与文本一起送入统一的 Transformer 进行建模。
- D 正确:BLIP-2 的核心设计是冻结视觉编码器 + Q-former,将视觉特征对齐并映射到语言模型可接受的表示空间。
T18
答案:A、B、C、D 解析:
- A 正确:PCA 常用于对用户–物品特征进行降维与去噪。
- B 正确:NMF 是推荐系统中常见的非负矩阵分解方法,适合评分等非负数据。
- C 正确:QR 分解可用于求解线性方程和最小二乘问题,在模型求解中有应用。
- D 正确:SVD 是协同过滤(如矩阵分解推荐)的经典核心方法。
T19
答案:A、B、C 解析:
- A 正确:单位矩阵 (I_n) 的特征值全为 1。
- B 正确:对任意同形矩阵 (A),有 (I_nA=A)、(AI_n=A)。
- C 正确:(I_n) 满秩,(\mathrm{rank}(I_n)=n)。
- D 错误:(\det(I_n)=1),不是 0。
T20
答案:A、B、C、D 解析:
- A 正确:若连续型随机变量的 PDF (f_X(x)) 为偶函数,则分布关于 0 对称。
- B 正确:连续型随机变量的累积分布函数(CDF)一定是连续函数。
- C 正确:连续型随机变量在任意单点取值的概率均为 0。
- D 正确:PDF 在某些点的函数值可以大于 1,只要其在全空间上的积分为 1 即可。
一、单选题
1、使用岭回归(Ridge Regression)拟合样本数据,调试正则化参数λ来降低模型复杂度,当λ较大时、关于偏差(bias)和方差(Variance),一般情况下
{{ select(1) }}
- 当入较大时,偏差增大,方差减小
- 当入较大时,偏差减小,方差增大
- 当入较大时,偏差增大,方差增大
- 当入较大时,偏差减小,方差减小
2、对于伯努利分布X~Bernoulli(p),样本{1,0,1,1}对p的MLE(MaximumLikelihood Estimation,最大似然估计为 {{ select(2) }}
- 样本中位数
- 0.75
- 0.5
- 0.25
3、在最大似然估计中,为什么通常对似然函数取对数? {{ select(3) }}
- 为了增加模型的复杂度
- 为了使参数估计更加准确
- 为了引入先验分布
- 为了将乘法转化为加法,简化计算
4、在图像分类任务中,若模型将大量负样本误判为正样本,这表明: {{ select(4) }}
- Accuracy偏高
- Precision 偏高
- Recall偏低
- Precision偏低
5、子空间的判断条件为存在零元,对加法和数乘计算封闭。在R2中,下列集合是子空间的有 {{ select(5) }}
- {(x,y)|y=0}
- {(x,y)|y =0}
- {(x,y)|x+y=1}
- {(x,y)|x+1=2y}
6、神经网络中,反向传播用于? {{ select(6) }}
- 计算梯度
- 前向计算
- 更新权重
- 初始化参数
7、在深度学习中,什么是“早停法”(Early Stopping)? {{ select(7) }}
- 在模型参数初始化时停止训练以提升收敛速度
- 在训练过程中提前结束训练以减少计算成本
- 在训练初期停止训练以避免梯度爆炸
- 在验证集性能不再提升时停止训练,防止过拟合
8、Scaled-Dot-Product Attention 中对QKT结果除以dk的主要目的是 {{ select(8) }}
- 引入归一化的位置信息
- 缩小 softmax输入方差,避免梯度饱和
- 提高模型容量
- 减少计算量
9、对于一个满秩矩阵,以下哪项一定成立() {{ select(9) }}
- 零空间(Null Space)包含非零向量
- 行列式det(A)=0
- 可逆
- 特征值全为零
10、设事件A与自身独立,则A的概率为 {{ select(10) }}
- 0.5
- 1
- 0
- 0或1
11、考察向量组{(1,0,1),(0,1,1),(1,1,2)}的线性关系,其结论是: {{ select(11) }}
- 线性无关,秩为3
- 线性无关,秩为2
- 线性相关,秩为2
- 线性相关,秩为1
12、在Transformer中,位置编码(PositionalEncoding)的作用是?
{{ select(12) }}
- 提供序列中不同词的位置信息
- 增加模型的非线性
- 优化注意力权重
- 压缩序列长度
13、最大似然估计的核心思想是 {{ select(13) }}
- 找到使观测数据出现概率最大的参数
- 最小化模型预测误差的平方和
- 优先选择先验概率最大的参数
- 通过样本矩匹配总体矩来估计参数
14、交叉熵损失函数,主要用于哪种任务? {{ select(14) }}
- 回归任务
- 降维任务
- 分类任务
- 聚类任务
15、下列哪一项不是泊松过程的特征? {{ select(15) }}
- 事件发生的间隔服从指数分布
- 事件在不重叠时间区间内相互独立
- 事件发生的时间间隔服从正态分布
- 每个时间区间内事件发生的次数服从泊松分布
二、多选题
16、深入剖析自注意力机制的计算过程和其变体,以下哪些陈述是准确的? {{ multiselect(16) }}
- 在GQA中,由于多个Query头共享同一组K/,因此在模型训练时,不同组的Query头之间必须串行计算,无法像MHA一样在所有头上实现完全的计算并行
- 从MHA演进到GQA和MQA,其主要动机是在模型推理(inference)阶段,通过减少需要缓存的Key和Value头的数量来大幅降低显存占用,但这可能以牺牲一定的模型表达能力为代价。
- 在多头注意力机制中,为了保证点积计算的有效性,单个头内部的Qvery和Key的维度(d_k)必须相等,但Value的维度(d_v)理论上可以与它们不同。
- 在Scaled Dot-Product Attention公式中,将QK^T的结果除以缩放因子sqrt(dk),其主要目的是为了在反向传播时维持稳定的梯度,防止点积过大导致Softmax函数进入梯度饱和区。
17、下列关于多模态大模型(例如 BLIP-2、LLaVA、GPT-4V)的表述,哪些是正确的?(可多选) {{ multiselect(17) }}
- LLaVA通过端到端联合预训练,完全移除了视觉编码器
- 大多数开源多模态LLM的视觉适配层参数量远小于语言模型主体,因此可视作一种PEFT方案
- GPT-4V的多模态能力部分来源于对视觉token的序列化,并使用同一套自注意力机物承文字与图像
- BLIP-2使用冻结的视觉编码器加上Q-former,将视觉特征对齐到语言模型的强人空间
18、矩阵分解方法在推荐系统中的应用正确的有? {{ multiselect(18) }}
- PCA用于降维
- NMF用于非负矩阵分解
- QR分解用于求解线性方程
- SVD用于协同过滤
19、下列关于单位矩阵In的性质,哪些一定成立? {{ multiselect(19) }}
- In的所有特征值都等于1
- In与任何同形矩阵相乘都保持该矩阵不变(左乘或右乘均可)。
- In的秩等于n
- det(In)=0
20、关于连续型随机变量(Continuous Random Variable),以下说法正确的是() 注:E:表示数学期望,也称期望值,E(X)表示随机变量x的期望值 {{ multiselect(20) }}
-
对于连续型随机变量X.,若其概率密度函数fx(x)是偶函数,则X的分布关于0对称
-
连续型随机变量的累积分布函数(CDF)一定是连续函数
-
若X是连续型随机变量,则P(X=a)=0对任意实数a成立
-
连续型随机变量的概率密度函数(PDF)在任意单点的值可以大于1