#P4463. 第1题-选择题
-
Tried: 99
Accepted: 0
Difficulty: 5
所属公司 :
华为
时间 :2025年11月12日-AI方向
-
算法标签>机器学习算法
第1题-选择题
题目与答案整理
T1
答案:A. 计算 p 值(p-value)并与显著性水平(如 0.05)比较
解析:
A/B 测试通过假设检验评估两版本差异是否显著,常以 p 值 < 显著性水平 (如 0.05) 判断 B 版本优于 A 的统计显著性;协方差与相关系数不能判断显著差异。
T2
答案:B
$$\text{ReLU}'(x)=\begin{cases} 1, & \text{if } x > 0 \\ 0, & \text{if } x < 0 \end{cases} $$T3
答案:C. 条件概率
解析:
贝叶斯定理通过先验概率与似然函数计算后验概率,本质上是更新条件概率 P(A∣B)=P(B)P(B∣A)P(A)。
T4
答案:B. BERT 使用 Transformer 编码器,GPT 使用 Transformer 解码器
T5
答案:A
解析:
GQA 是介于 MHA 与 MQA 之间的折中方案——通过让若干头共享同一组 K/V 来减少显存与计算,而非介于 MHA 与 MLA 之间;B、C、D 的描述均正确。
T6
答案:B. 特征值为 2, 2,且 B 不可对角化
T7
答案:A. −log(0.1)
T8
答案:B. 奇异值分解(SVD)截断
T9
答案:B. 马尔科夫性
解析:
马尔科夫性假设指出:系统的未来状态只依赖于当前状态,而与过去状态无关,即 P(Xt∣Xt−1,…,X0)=P(Xt∣Xt−1)。
T10
答案:A. 向量归一化(单位化)
T11
答案:B
解析:
LayerNorm 通过在特征维度上归一化每个样本,使层输入分布稳定,从而缓解内部协变量偏移并稳定训练;A为Post-LN描述,C混淆BN特性,D错误因其在特征维度(embedding维)上归一化而非序列维。
T12
答案:A. GQA 的参数量与头数无关
T13
答案:D. 几何分布
解析:
几何分布描述"第一次成功"出现所需的独立伯努利试验次数;泊松和指数分布用于时间间隔建模,二项分布描述固定次数内成功次数。
T14
答案:B. 标准差
T15
答案:C. 1216
解析:
每个卷积核参数数 = 5×5×3=75 个权重 + 1 个偏置 = 76;共有 16 个卷积核,故总参数 76×16=1216。
T16
答案:A、B
- A. A 的逆矩阵为 $A^{-1} = \begin{bmatrix} -2 & 1 \\ 1.5 & -0.5 \end{bmatrix}$
- B. A 的行列式 det(A)=−2
T17
答案:A、C、D
- A. Newton插值法
- C. Hermite插值
- D. Lagrange插值法
解析:
Newton 插值、Hermite 插值和 Lagrange 插值都属于多项式插值方法;B样条插值采用分段低次多项式,属于样条插值而非整体多项式插值。
T18
答案:A、C
- A. 基于"滑动窗口 + 重叠"的切分可以缓解固定长度切分带来的边界截断问题
- C. 基于语义递归切分(Recursive Character Split)会先按段落、再按句子、再按字符逐步降级,直到满足长度限制
T19
答案:A、B、C、D
- A. BERT输入时加入token type嵌入用于区分句子对,GPT省略了token type嵌入,仅依赖位置与词嵌入
- B. BERT的双向上下文表示更适合句子级分类、序列标注等理解类任务,GPT的单向生成能力更适合续写与对话生成
- C. GPT原生支持从左到右的文本生成与填空续写,BERT由于掩码策略在端到端生成任务上能力有限
- D. BERT采用掩码语言模型(Masked LM)+下一句预测(Next Sentence Prediction),GPT采用自回归语言模型(Auto-Regressive LM)
T20
答案:A、B、C、D
- A. 使用 AdamW 配合 Decoupled Weight Decay
- B. 在学习率预热(warm-up)结束后采用 Cosine Annealing 带 Restarts
- C. 采用 Gradient Accumulation 维持大批量等效,但在优化器中使用小批量梯度均值
- D. 将批大小从 2k 提升到 32k,并按线性规则放大学习率,同时配合更长的 warmup 与合适的 KL / 权重衰减与梯度裁剪
1、A/B测试是工业界常用的一种评估功能效果的方法。假设你想测试一个新的推荐算法(B版本)是否比旧算法(A版本)有更高的点击率。在收集到足够数据后,你通常会使用什么统计学概念来判断B版本是否“显著地”优于A版本? {{ select(1) }}
- 计算p值(p-value)并与显著性水平(如0.05)比较
- 计算两个版本点击率的协方差
- 计算两个版本点击率的相关系数
- 使用最大似然估计来重新拟合模型
2、ReLU 激活函数的导数为: {{ select(2) }}
- $\text{ReLU}'(x)=\begin{cases} 1, & \text{if } x \neq 0 \\ 0, & \text{if } x = 0 \end{cases}$
- $\text{ReLU}'(x)=\begin{cases} 1, & \text{if } x > 0 \\ 0, & \text{if } x < 0 \end{cases}$
- $\text{ReLU}'(x)=\begin{cases} 1, & \text{if } x \geq 0 \\ 0, & \text{if } x < 0 \end{cases}$
- $\text{ReLU}'(x)=\begin{cases} 1, & \text{if } x > 0 \\ 0, & \text{if } x \leq 0 \end{cases}$
3、贝叶斯定理的核心是用于计算什么类型的概率? {{ select(3) }}
- 边缘概率
- 先验概率
- 条件概率
- 联合概率
4、BERT 模型与 GPT 模型的主要区别是? {{ select(4) }}
- BERT 不支持微调,GPT 支持微调
- BERT 使用 Transformer 编码器,GPT 使用 Transformer 解码器
- BERT 是生成模型,GPT 是预训练模型
- BERT 是单向的,GPT 是双向的
5、以下关于自注意力机制中多头注意力(Multi-Head Attention MHA)、多查询注意力机制(Multi-Query Attention MQA)、分组查询注意力机制(Grouped Query Attention GQA)、多头潜在注意力(Multi-Head Latent Attention MLA)描述错误的是? {{ select(5) }}
- GQA是对多头注意力(MHA)和多头潜在注意力(MLA)的折中优化方案
- MHA核心思想是将输入映射到多个子空间,分别计算注意力权重并聚合结果,从而增强模型对复杂模式的捕捉能力。
- MQA核心思想是共享键(Key)和值(Value)的投影参数,仅对查询(Query)使用独立投影参数。
- MLA核心思想是通过低秩投影压缩查询(Q)、键(K)、值(V)的维度,并在注意力计算中解耦内容与位置信息,从而减少计算复杂度,同时保留长距离依赖建模能力。
6、设矩阵 B=[2012],下列关于 B 的说法正确的是: {{ select(6) }}
- 特征值为 2, 2,且 B 可对角化
- 特征值为 2, 2,且 B 不可对角化
- 特征值为 1, 3,且 B 可对角化
- 特征值为 1, 3,且 B 不可对角化
7、在逻辑回归中,若样本x(i)的标签y(i)=1且hθ(x(i))=0.1,则该样本的交叉熵损失贡献为? {{ select(7) }}
- −log(0.1)
- log(0.1)
- log(0.9)
- −log(0.9)
8、给定样本矩阵 X∈Rn×d(行对应样本,列对应特征)。若要在不丢失信息的前提下压缩表示,使得重构误差(Frobenius 范数)最小,应采用 {{ select(8) }}
- LU 分解
- 奇异值分解(SVD)截断
- Cholesky 分解
- QR 分解
9、在马尔科夫模型中,当前状态的概率仅依赖于前一个状态的假设称为? {{ select(9) }}
- 独立同分布假设
- 马尔科夫性
- 平稳性假设
- 贝叶斯定理
10、在推荐系统中,用户偏好用向量 u,v∈Rn 表示。若采用余弦相似度衡量用户相似性,其值与以下哪种操作有关? {{ select(10) }}
- 向量归一化(单位化)
- 向量缩放
- 向量平移(加常数)
- 向量同时取反
11、在Transformer架构的每个子层(如自注意力层、前馈网络层)之后,通常会应用层归一化(Layer Normalization)。关于LayerNorm在Transformer中的作用和计算方式,以下哪项描述是正确的? {{ select(11) }}
- 在Transformer的“预归一化”(Pre-LN)结构中,LayerNorm被应用在残差连接之后、非线性激活之前。
- LayerNorm的主要目的是稳定模型训练过程,通过归一化使每一层的输入分布保持相对稳定,缓解内部协变量偏移(Internal Covariate Shift)
- LayerNorm与Batch Normalization(BN)一样,其归一化统计量(均值和方差)在推理阶段依赖于当前推理批次的样本。
- LayerNorm在每个样本的所有token维度上进行归一化,即对序列长度方向(sequence length)求均值和方差。
12、关于 MHA(multi-head attention)、GQA(Grouped-Query Attention)、MLA(Multi-Head Latent Attention)的区别,错误的是
{{ select(12) }}
- GQA 的参数量与头数无关
- MLA(多查询注意力)的所有头共享同一组 K/V
- GQA 是 MHA 和 MLA 的折中方案,分组共享 K/V
- MHA 的计算成本最高,但表达能力最强
13、某事件在独立重复试验中首次成功所需的试验次数服从 {{ select(13) }}
- 泊松分布
- 指数分布
- 二项分布
- 几何分布
14、下列哪一个指标可以用来衡量数据的 “离散程度”? {{ select(14) }}
- 众数
- 标准差
- 均值
- 中位数
15、一个卷积神经网络的某个卷积层,接收一个尺寸为(32,32,3)的输入特征图(高度、宽度、通道数),该卷积层的配置如下:16个卷积核,每个卷积核的尺寸为5×5,步长(Stride)为2,填充方式为“VALID”(即无填充),该卷积带Biases为True。请问这个卷积层包含多少个可训练的参数? {{ select(15) }}
- 3136
- 1200
- 1216
- 416
16、矩阵 A=[1324],向量 b=[56]。以下选项中正确的有 {{ multiselect(16) }}
- A 的逆矩阵为 $A^{-1} = \begin{bmatrix} -2 & 1 \\ 1.5 & -0.5 \end{bmatrix}$
- A 的行列式 det(A)=−2
- A 的秩为 1
- 方程组 Ax=b 的解是 x=[4−1]
17、下列属于多项式插值方法的是? {{ multiselect(17) }}
- Newton插值法
- B样条插值
- Hermite插值
- Lagrange插值法
18、以下关于文档切分(Chunking)策略的说法,哪些是正确的? {{ multiselect(18) }}
- 基于 “滑动窗口 + 重叠” 的切分可以缓解固定长度切分带来的边界截断问题
- 使用句子级切分(sentences)时,必须保证每个 chunk 的 token 数严格相同
- 基于语义递归切分(Recursive Character Split)会先按段落、再按句子、再按字符逐步降级,直到满足长度限制
- 固定长度切分(如每 512 token)不会破坏句子或段落的语义完整性
19、下列关于BERT与GPT两种Transformer模型在预训练目标、架构设计及适用场景等方面的说法,哪些是正确的? {{ multiselect(19) }}
- BERT输入时加入token type嵌入用于区分句子对,GPT省略了token type嵌入,仅依赖位置与词嵌入。
- BERT的双向上下文表示更适合句子级分类、序列标注等理解类任务,GPT的单向生成能力更适合续写与对话生成。
- GPT原生支持从左到右的文本生成与填空续写,BERT由于掩码策略在端到端生成任务上能力有限。
- BERT采用掩码语言模型(Masked LM)+下一句预测(Next Sentence Prediction),GPT采用自回归语言模型(Auto-Regressive LM)
20、在大规模预训练过程中,为了缓解梯度噪声、加速收敛并提升最终泛化能力,以下哪些做法被证实有效? {{ multiselect(20) }}
-
使用 AdamW 配合 Decoupled Weight Decay
-
在学习率预热(warm-up)结束后采用 Cosine Annealing 带 Restarts
-
采用 Gradient Accumulation 维持大批量等效,但在优化器中使用小批量梯度均值
-
将批大小从 2k 提升到 32k,并按线性规则放大学习率,同时配合更长的 warmup 与合适的 KL / 权重衰减与梯度裁剪