#P3873. 第1题-选择题

第1题-选择题

一、单选题

1、在大型语言模型的三阶段训练流程中,哪一个阶段的主要目标是让模型从一个只会“续写”文本的基座模型,转变为一个能理解并遵循人类指令格式的“对话助手”? {{ select(1) }}

  • 预训练 (Pre-training)
  • 有监督微调 (Supervised Fine-Tuning, SFT)
  • 奖励模型训练 (Reward Model Training)
  • 基于人类反馈的强化学习 (RLHF)

2、若输入序列长度 ss,模型层数 LL,隐藏层维度 dd,当 s>>ds>>d 时,prefill 阶段计算量为 {{ select(2) }}

  • O(Lssd)O(L*s*s*d)
  • O(Lsdd)O(L*s*d*d)
  • O(Lsd)O(L*s*d)
  • O(sd+Ldd) O(s*d+L*d*d)

3、对于 3×224×2243\times224\times224 输入,卷积核 7×77\times7stride=2stride=2padding=3padding=3out_channels=64out\_channels=64,输出特征图的空间尺寸为? {{ select(3) }}

  • 128×128128\times128
  • 256×256256\times256
  • 112×112112\times112
  • 224×224224\times224

4、连续掷一枚均匀硬币,首次出现 “正反” 序列(即一次正面后立刻反面)所需的期望掷币次数为 {{ select(4) }}

  • 88
  • 66
  • 44
  • 55

5、在探索两个连续变量的非线性关系时,应当采用以下哪种图作为可视化工具: {{ select(5) }}

  • 箱线图
  • 柱状图
  • 折线图
  • 散点图

6、在自然语言处理的 N-gram 模型中,我们计算一个词出现的概率时会依赖于它前面的 N-1 个词,即$P(w_{i} | w_{i - 1}, w_{i - 2}, \dots, w_{i - N + 1})$,给定之前全部词的条件概率,等同于给定前 N 个词的条件概率。这种建模思想与完全历史依赖的条件概率形成对比,请问这种建模思想与概率论中的哪个概念最相关? {{ select(6) }}

  • 大数定律
  • 贝叶斯定理
  • 马尔可夫假设
  • 全概率公式

7、有以下伪代码,定义大小3×3×3,stride=2,padding=1的3D卷积核,计算卷积操作后输出tensor的形状

1. conv = Convolution3D(in_channel=24,out_channel=32,kernel_size(3,3,3),stride=2, padding-1)
2. input tensor =create random tensor(batch=16,in_hannel=24,50,24,18)
3. output tensor = conv(input tensor)

{{ select(7) }}

  • 16×32×23×10×716\times32\times23\times10\times7
  • 16×32×25×12×916\times32\times25\times12\times9
  • 16×32×26×13×1016\times32\times26\times13\times10
  • 16×32×24×11×816\times32\times24\times11\times8

8、已知矩阵$A = \begin{pmatrix}1&0&-1\\2&-1&1\\-1&2&-5\end{pmatrix}\\$,若下三角可逆矩阵PP和上三角可逆矩阵QQ,使得PAQPAQ为对角矩阵,则P,QP,Q可以分别取() {{ select(8) }}

  • $\begin{pmatrix}1&0&0\\0&1&0\\0&0&1\end{pmatrix},\begin{pmatrix}1&0&1\\0&1&3\\0&0&1\end{pmatrix}$
  • $\begin{pmatrix}1&0&0\\2&-1&0\\-3&2&1\end{pmatrix},\begin{pmatrix}1&0&0\\0&1&0\\0&0&1\end{pmatrix}$
  • $\begin{pmatrix}1&0&0\\0&1&0\\1&3&1\end{pmatrix},\begin{pmatrix}1&2&-3\\0&-1&2\\0&0&1\end{pmatrix}$
  • $\begin{pmatrix}1&0&0\\2&-1&0\\-3&2&1\end{pmatrix},\begin{pmatrix}1&0&1\\0&1&3\\0&0&1\end{pmatrix}$

9、给定以下6个二维数据点及其类别,其坐标表示为(x,y)(x, y),类别标签用[+][+]表示正类,[][-]表示负类:

A(0,0)[+]A(0,0)[+]B(1,0)[+]B(1,0)[+]C(0,1)[]C(0,1)[-]D(3,3)[]D(3,3)[-]E(4,5)[]E(4,5)[-]F(3,4)[]F(3,4)[-]

使用4-近邻算法(4-NN)和欧氏距离对样本G(2,2)G(2,2)进行分类预测。若采用多数投票法,则其预测类别是什么?

{{ select(9) }}

  • 预测为负类(-
  • 正类(++)与负类(-)各2票,无法形成多数
  • 预测为正类(++
  • 所有4个邻居到GG的距离相等,必须使用加权投票

10、令{xi:i=0,,n}\{x_i : i = 0, \dots, n\}[a,b][a,b]中的任意(n + 1)个不同点,且fC[a,b]f \in C[a,b]。那么,存在唯一个次数不超过n的插值多项式pnp_n,请选择下述正确的表达式,其中ω(x)=(xx0)(xxn)\omega(x) = (x - x_0)\cdots(x - x_n)

{{ select(10) }}

  • $p_n(x) = \sum_{i = 0}^n y_i \frac{\omega(x)}{(x - x_i)\omega(x_i)}$
  • $p_n(x) = \sum_{i = 0}^n y_i \frac{\omega(x)}{(x - x_i)\omega(x)}$
  • $p_n(x) = \sum_{i = 0}^n y_i \frac{\omega(x)}{(x - x_i)\omega'(x_i)}$
  • $p_n(x) = \sum_{i = 0}^n y_i \frac{\omega(x)}{(x - x_i)\omega'(x)}$

11、设 $A = \begin{pmatrix} -11 & 4 \\ -30 & 11 \end{pmatrix}$, 则 (A+E)(EA+A2A3+A4A5+A6)=()(A + E)(E - A + A^2 - A^3 + A^4 - A^5 + A^6) = ( )

注:EE 为单位矩阵

{{ select(11) }}

  • $A = \begin{pmatrix} 12 & 4 \\ 30 & 10 \end{pmatrix}$
  • $A = \begin{pmatrix} -12 & 4 \\ -30 & 10 \end{pmatrix}$
  • $A = \begin{pmatrix} 10 & 4 \\ 30 & 12 \end{pmatrix}$
  • $A = \begin{pmatrix} -10 & 4 \\ -30 & 12 \end{pmatrix}$

12、某电商公司构建推荐系统时,需对用户的 “月均消费金额” 特征进行预处理。该特征通常呈现严重右偏(即多数用户消费较低,少数用户消费极高)。考虑一个模拟的用户月均消费数据集,取值分别为(单位:元)[9,99,999,9999][9, 99, 999, 9999],整体分布右偏。为改善特征分布的对称性(即降低偏度),数据科学家考虑以下三种变换方式:

变换 1:最小 - 最大缩放(Min-Max Scaling)

x=xxminxmaxxminx' = \frac{x - x_{min}}{x_{max} - x_{min}}

变换 2:Z-score 标准化(Z-score Standardization)

x=xμσx' = \frac{x - \mu}{\sigma}

变换 3:对数变换(Log Transformation)

x=log10(x+1)x' = \log_{10}(x + 1)

下列哪一种变换后的数据分布最对称(即偏度最小)?

{{ select(12) }}

  • 变换 1
  • 变换 3
  • 变换 2
  • 三种变换对称性相同

13、已知变量 XXYY 的两组数据分布如下:

组A:(1,20)、(2,18)、(3,16)、(4,14)、(5,12)、(6,10)、(7,8)、(8,6)、(9,4)、(10,2)

组B:组A所有数据 + 额外数据点 (11,20)(11,20)

若两组数据的相关系数分别为 r1r_1(组A)和 r2r_2(组B),则下列关系正确的是( )

{{ select(13) }}

  • 0>r1>r20 > r_1 > r_2
  • r1>r2>0r_1 > r_2 > 0
  • 0>r2>r10 > r_2 > r_1
  • r1>r2>0r_1 > r_2 > 0

14、在一个基于 Transformer 的大型语言模型中,Tokenizer(如 BPE 分词器)和 Embedding 层是处理输入文本的最初两个步骤。关于这两个组件的功能和关系,以下哪个描述最为精确? {{ select(14) }}

  • Tokenizer 负责将文本分割成有意义的语义单元(tokens),而 Embedding 层则进一步将考虑不同 Token 之间的关联并将 Token 间的语义关系编码到高维空间中。
  • Tokenizer 是一个基于固定规则或统计学习得到的、独立于下游模型的词汇映射系统;而 Embedding 层是一个包含可训练参数的神经网络层,其参数会在模型训练过程中不断优化。
  • Tokenizer 的唯一目的是压缩文本以减少计算量,而 Embedding 层则负责将压缩后的 ID 恢复成密集的向量表示。
  • Tokenizer 和 Embedding 层共同决定了模型的词汇量大小,并且在模型训练完成后,两者都可以被轻易替换以适应新的语言或领域。

15、如图所示的超平面 Ax=bAx=b 到圆心距离等价于欠定方程组 Ax=bAx=b 的最小范数解。

**问题如下:已知线性方程组 y=Axy = Ax 中,ARm×nA \in \mathbb{R}^{m \times n} 是行满秩的胖矩阵(即 m<nm < n),其解集为 {xp+zzN(A)}\{x_p + z \mid z \in \mathcal{N}(A)\}xpx_p 为特解,N(A)\mathcal{N}(A)AA 的零空间)。 **

若要在解集中找到二范数最小的解,该解为:

{{ select(15) }}

  • x=(ATA)1yx = (A^T A)^{-1} y
  • x=(ATA)1ATyx = (A^T A)^{-1} A^T y
  • x=ATyx = A^T y
  • x=AT(AAT)1yx = A^T (A A^T)^{-1} y

二、多选题

16、最大池化 (Max Pooling) 在卷积神经网络中是一种常见的下采样操作,该操作的主要优点包括 {{ multiselect(16) }}

  • 能提供一定程度的平移不变性,使模型对输入的小变化不敏感
  • 能精准保留输入特征的空间位置信息
  • 能够有效抑制图像中的噪声
  • 能保留图像中局部极值,用于提取显著的特征(如纹理、边缘)
  • 能够显著减少特征图的空间维度和后续计算量

17、回归任务中可用的评估指标有? {{ multiselect(17) }}

  • 均方误差(MSE)
  • 均方根误差(RMSE)
  • 平均绝对误差(MAE)
  • R2R^2 分数

18、在度量文本嵌入的相似度时,适合的处理方式包括哪些? {{ multiselect(18) }}

  • 应用 PCA 降维
  • 使用曼哈顿距离
  • 使用点积并归一化
  • 计算余弦相似度

19、对实矩阵 XRm×dX \in \mathbb{R}^{m \times d} 的奇异值分解 X=UΣVTX = U \Sigma V^T,下列说法正确的是: {{ multiselect(19) }}

  • Σ\Sigma 的对角元素按非递增顺序排列
  • Σ\Sigma 的非零奇异值等于 XXTXX^T 的非零特征值的平方根
  • rank(X)rank(X) 等于 Σ\Sigma 的非零对角元素个数
  • U,VU, V 均为正交矩阵
  • UU 的前 r(=col(X))r (= col(X)) 列向量给出了一组 XX 列空间的正交基

20、以下模型与结构匹配正确的是 {{ multiselect(20) }}

  • T5 → Encoder-Decoder
  • BART → Encoder-Decoder
  • BERT → Decoder-only
  • GPT-4 → Decoder-only