#P4463. 第1题-选择题

第1题-选择题

1、A/B测试是工业界常用的一种评估功能效果的方法。假设你想测试一个新的推荐算法(B版本)是否比旧算法(A版本)有更高的点击率。在收集到足够数据后,你通常会使用什么统计学概念来判断B版本是否“显著地”优于A版本? {{ select(1) }}

  • 计算pp值(p-value)并与显著性水平(如0.05)比较
  • 计算两个版本点击率的协方差
  • 计算两个版本点击率的相关系数
  • 使用最大似然估计来重新拟合模型

2、ReLU 激活函数的导数为: {{ select(2) }}

  • $\text{ReLU}'(x)=\begin{cases} 1, & \text{if } x \neq 0 \\ 0, & \text{if } x = 0 \end{cases}$
  • $\text{ReLU}'(x)=\begin{cases} 1, & \text{if } x > 0 \\ 0, & \text{if } x < 0 \end{cases}$
  • $\text{ReLU}'(x)=\begin{cases} 1, & \text{if } x \geq 0 \\ 0, & \text{if } x < 0 \end{cases}$
  • $\text{ReLU}'(x)=\begin{cases} 1, & \text{if } x > 0 \\ 0, & \text{if } x \leq 0 \end{cases}$

3、贝叶斯定理的核心是用于计算什么类型的概率? {{ select(3) }}

  • 边缘概率
  • 先验概率
  • 条件概率
  • 联合概率

4、BERT 模型与 GPT 模型的主要区别是? {{ select(4) }}

  • BERT 不支持微调,GPT 支持微调
  • BERT 使用 Transformer 编码器,GPT 使用 Transformer 解码器
  • BERT 是生成模型,GPT 是预训练模型
  • BERT 是单向的,GPT 是双向的

5、以下关于自注意力机制中多头注意力(Multi-Head Attention MHA)、多查询注意力机制(Multi-Query Attention MQA)、分组查询注意力机制(Grouped Query Attention GQA)、多头潜在注意力(Multi-Head Latent Attention MLA)描述错误的是? {{ select(5) }}

  • GQA是对多头注意力(MHA)和多头潜在注意力(MLA)的折中优化方案
  • MHA核心思想是将输入映射到多个子空间,分别计算注意力权重并聚合结果,从而增强模型对复杂模式的捕捉能力。
  • MQA核心思想是共享键(Key)和值(Value)的投影参数,仅对查询(Query)使用独立投影参数。
  • MLA核心思想是通过低秩投影压缩查询(Q)、键(K)、值(V)的维度,并在注意力计算中解耦内容与位置信息,从而减少计算复杂度,同时保留长距离依赖建模能力。

6、设矩阵 B=[2102]B = \begin{bmatrix} 2 & 1 \\ 0 & 2 \end{bmatrix},下列关于 B 的说法正确的是: {{ select(6) }}

  • 特征值为 2, 2,且 B 可对角化
  • 特征值为 2, 2,且 B 不可对角化
  • 特征值为 1, 3,且 B 可对角化
  • 特征值为 1, 3,且 B 不可对角化

7、在逻辑回归中,若样本x(i)x^{(i)}的标签y(i)=1y^{(i)}=1hθ(x(i))=0.1h_{\theta}(x^{(i)})=0.1,则该样本的交叉熵损失贡献为? {{ select(7) }}

  • log(0.1)-\log(0.1)
  • log(0.1)\log(0.1)
  • log(0.9)\log(0.9)
  • log(0.9)-\log(0.9)

8、给定样本矩阵 XRn×dX \in \mathbb{R}^{n \times d}(行对应样本,列对应特征)。若要在不丢失信息的前提下压缩表示,使得重构误差(Frobenius 范数)最小,应采用 {{ select(8) }}

  • LU 分解
  • 奇异值分解(SVD)截断
  • Cholesky 分解
  • QR 分解

9、在马尔科夫模型中,当前状态的概率仅依赖于前一个状态的假设称为? {{ select(9) }}

  • 独立同分布假设
  • 马尔科夫性
  • 平稳性假设
  • 贝叶斯定理

10、在推荐系统中,用户偏好用向量 u,vRn\mathbf{u}, \mathbf{v} \in \mathbb{R}^n 表示。若采用余弦相似度衡量用户相似性,其值与以下哪种操作有关? {{ select(10) }}

  • 向量归一化(单位化)
  • 向量缩放
  • 向量平移(加常数)
  • 向量同时取反

11、在Transformer架构的每个子层(如自注意力层、前馈网络层)之后,通常会应用层归一化(Layer Normalization)。关于LayerNorm在Transformer中的作用和计算方式,以下哪项描述是正确的? {{ select(11) }}

  • 在Transformer的“预归一化”(Pre-LN)结构中,LayerNorm被应用在残差连接之后、非线性激活之前。
  • LayerNorm的主要目的是稳定模型训练过程,通过归一化使每一层的输入分布保持相对稳定,缓解内部协变量偏移(Internal Covariate Shift)
  • LayerNorm与Batch Normalization(BN)一样,其归一化统计量(均值和方差)在推理阶段依赖于当前推理批次的样本。
  • LayerNorm在每个样本的所有token维度上进行归一化,即对序列长度方向(sequence length)求均值和方差。

12、关于 MHA(multi-head attention)、GQA(Grouped-Query Attention)、MLA(Multi-Head Latent Attention)的区别,错误的是

{{ select(12) }}

  • GQA 的参数量与头数无关
  • MLA(多查询注意力)的所有头共享同一组 K/V
  • GQA 是 MHA 和 MLA 的折中方案,分组共享 K/V
  • MHA 的计算成本最高,但表达能力最强

13、某事件在独立重复试验中首次成功所需的试验次数服从 {{ select(13) }}

  • 泊松分布
  • 指数分布
  • 二项分布
  • 几何分布

14、下列哪一个指标可以用来衡量数据的 “离散程度”? {{ select(14) }}

  • 众数
  • 标准差
  • 均值
  • 中位数

15、一个卷积神经网络的某个卷积层,接收一个尺寸为(32,32,3)(32, 32, 3)的输入特征图(高度、宽度、通道数),该卷积层的配置如下:16个卷积核,每个卷积核的尺寸为5×55 \times 5,步长(Stride)为2,填充方式为“VALID”(即无填充),该卷积带Biases为True。请问这个卷积层包含多少个可训练的参数? {{ select(15) }}

  • 3136
  • 1200
  • 1216
  • 416

16、矩阵 A=[1234]A = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix},向量 b=[56]\mathbf{b} = \begin{bmatrix} 5 \\ 6 \end{bmatrix}。以下选项中正确的有 {{ multiselect(16) }}

  • A 的逆矩阵为 $A^{-1} = \begin{bmatrix} -2 & 1 \\ 1.5 & -0.5 \end{bmatrix}$
  • A 的行列式 det(A)=2\det(A) = -2
  • A 的秩为 1
  • 方程组 Ax=bA\mathbf{x} = \mathbf{b} 的解是 x=[41]\mathbf{x} = \begin{bmatrix} 4 \\ -1 \end{bmatrix}

17、下列属于多项式插值方法的是? {{ multiselect(17) }}

  • Newton插值法
  • B样条插值
  • Hermite插值
  • Lagrange插值法

18、以下关于文档切分(Chunking)策略的说法,哪些是正确的? {{ multiselect(18) }}

  • 基于 “滑动窗口 + 重叠” 的切分可以缓解固定长度切分带来的边界截断问题
  • 使用句子级切分(sentences)时,必须保证每个 chunk 的 token 数严格相同
  • 基于语义递归切分(Recursive Character Split)会先按段落、再按句子、再按字符逐步降级,直到满足长度限制
  • 固定长度切分(如每 512 token)不会破坏句子或段落的语义完整性

19、下列关于BERT与GPT两种Transformer模型在预训练目标、架构设计及适用场景等方面的说法,哪些是正确的? {{ multiselect(19) }}

  • BERT输入时加入token type嵌入用于区分句子对,GPT省略了token type嵌入,仅依赖位置与词嵌入。
  • BERT的双向上下文表示更适合句子级分类、序列标注等理解类任务,GPT的单向生成能力更适合续写与对话生成。
  • GPT原生支持从左到右的文本生成与填空续写,BERT由于掩码策略在端到端生成任务上能力有限。
  • BERT采用掩码语言模型(Masked LM)+下一句预测(Next Sentence Prediction),GPT采用自回归语言模型(Auto-Regressive LM)

20、在大规模预训练过程中,为了缓解梯度噪声、加速收敛并提升最终泛化能力,以下哪些做法被证实有效? {{ multiselect(20) }}

  • 使用 AdamW 配合 Decoupled Weight Decay

  • 在学习率预热(warm-up)结束后采用 Cosine Annealing 带 Restarts

  • 采用 Gradient Accumulation 维持大批量等效,但在优化器中使用小批量梯度均值

  • 将批大小从 2k 提升到 32k,并按线性规则放大学习率,同时配合更长的 warmup 与合适的 KL / 权重衰减与梯度裁剪