Difficulty: 4

所属公司 : 华为

时间 :2025年10月10日-AI方向

算法标签>

数学

题目与答案解析

T1

问题：关于模型训练阶段的描述
答案：B. 有监督微调 (Supervised Fine-Tuning, SFT)
解析：
SFT 使用指令-回复的数据对，让仅会续写的基座模型学会按人类指令格式理解与作答。

预训练只学习“下一个词”
RM/RLHF 主要用于偏好对齐与细化风格

T2

问题：关于计算复杂度
答案：A. O(L×s²×d)
解析：
Prefill 阶段主要为自注意力计算，复杂度与序列长度平方成正比，为 O(L×s²×d)。

T3

问题：卷积输出尺寸计算
答案：C. 112×112
解析：
输出尺寸 =
$\left\lfloor \frac{224 + 2 \times 3 - 7}{2} \right\rfloor + 1 = \lfloor 111.5\rfloor + 1 = 112$

注：卷积核数量只影响通道数，不影响空间尺寸。

T4

问题：期望掷币次数
答案：C. 4
解析：
用马尔可夫状态（初始/刚出正/刚出反）建立期望递推方程，先求 $E_1=2$ 、 $E_2=4$ ，回代得 $E_0=4$ 。

T5

问题：适合展示两连续变量关系的图表
答案：D. 散点图
解析：
散点图直接展示两连续变量的配对数据，可观察曲线型等非线性关系与离群点。

箱线图/柱状图/折线图更适合分布或单变量趋势，难以刻画二者关系。

T6

问题：N-gram 基于的假设
答案：C. 马尔可夫假设
解析：
N-gram 假设当前词仅依赖前 N−1 个词，即为马尔可夫假设。

T7

问题：3D 卷积输出尺寸
答案：B. 16×32×25×12×9
解析：
3D 卷积输出尺寸：
$L_{\text{out}} = \left\lfloor \frac{L_{\text{in}} + 2p - (k - 1) - 1}{s} + 1 \right\rfloor = \left\lfloor \frac{L_{\text{in}} + 1}{2} \right\rfloor$
（其中 k=3, p=1, s=2）
对输入尺寸 50, 24, 18 得 25, 12, 9；批量与输出通道分别为 16 和 32。

T8

问题：矩阵分解
答案：D. $\begin{pmatrix}1&0&0\\2&-1&0\\-3&2&1\end{pmatrix},\ \begin{pmatrix}1&0&1\\0&1&3\\0&0&1\end{pmatrix}$ 解析：
通过 LU 分解思想计算，可得 P, Q 分别对应选项 D。

T9

问题：KNN 分类预测
答案：A. 预测为负类（−）
解析：
到 G(2,2) 的最近四个点：

D(3,3)[-]
B(1,0)[+]
C(0,1)[-]
F(3,4)[-]
距离分别为 √2, √5, √5, √5
投票结果为：负类 3 票，正类 1 票，故判为负类。

T10

问题：拉格朗日插值公式
答案：C. $p_n(x) = \sum_{i = 0}^n y_i \frac{\omega(x)}{(x - x_i)\omega'(x_i)}$ 解析：
拉格朗日插值公式为： $p_n(x) = \sum_{i=0}^n y_i \frac{\omega(x)}{(x - x_i)\omega'(x_i)}$

T11

问题：矩阵运算
答案：D
解析：
$(I + A) \sum_{k=0}^{6} (-A)^k = I + (-A)^7 = I + A^7$ 由 A² = I（直接相乘可得），故 A⁷ = A，于是结果为： $I + A = \begin{pmatrix} -10 & 4 \\ -30 & 12 \end{pmatrix}$

T12

问题：数据变换方法
答案：B. 变换 3
解析：
对数变换能有效缓解右偏分布，使分布更接近对称。

T13

问题：相关系数比较
答案：C. 0 > r₂ > r₁
解析：

组 A 点严格在直线 y = 22 - 2x 上，故 r₁ = -1
加入离群点 (11,20) 打破完全负相关，使相关性减弱（变得不那么负），因此： $-1 = r_1 < r_2 < 0$

T14

问题：Tokenizer 与 Embedding 的区别
答案：B. Tokenizer 是一个基于固定规则或统计学习得到的、独立于下游模型的词汇映射系统；而 Embedding 层是一个包含可训练参数的神经网络层，其参数会在模型训练过程中不断优化。
解析：

Tokenizer：负责词到 ID 的静态映射
Embedding 层：可训练参数层，用于学习词向量

T15

问题：最小二范数解
答案：D. x = Aᵀ(AAᵀ)⁻¹y
解析：
对行满秩的胖矩阵（欠定）最小二范数解为伪逆解： $x = A^+ y = A^T (AA^T)^{-1} y$ 其等价于在解集中取与零空间正交的解。

B 形式适用于列满秩的“高”矩阵，A/C 一般不成立。

T16

问题：池化层的作用
答案：

A. 能提供一定程度的平移不变性，使模型对输入的小变化不敏感
C. 能够有效抑制图像中的噪声
D. 能保留图像中局部极值，用于提取显著的特征（如纹理、边缘）
E. 能够显著减少特征图的空间维度和后续计算量

T17

问题：回归评估指标
答案：

A. 均方误差（MSE）
B. 均方根误差（RMSE）
C. 平均绝对误差（MAE）
D. R² 分数
解析：
它们都是常用的回归评估指标：
MSE/RMSE 强调较大误差惩罚
MAE 较稳健
R² 衡量模型解释方差的比例

T18

问题：K-means 可用的距离度量
答案：

T19

问题：SVD 性质
答案：

A. Σ 的对角元素按非递增顺序排列
B. Σ 的非零奇异值等于 XXᵀ 的非零特征值的平方根
C. rank(X) 等于 Σ 的非零对角元素个数
D. U, V 均为正交矩阵
E. U 的前 r = col(X) 列向量给出了一组 X 列空间的正交基
解析：
约定下奇异值按非增排列，σᵢ = √λᵢ(XXᵀ)，非零奇异值个数等于 rank(X)。在全 SVD 中 U, V 为正交矩阵，且对应非零奇异值的前 r = rank(X) = dim(Col(X)) 个左奇异向量构成 X 列空间的正交基。

T20

问题：模型架构分类
答案：

A. T5 → Encoder-Decoder
B. BART → Encoder-Decoder
D. GPT-4 → Decoder-only

一、单选题

1、在大型语言模型的三阶段训练流程中，哪一个阶段的主要目标是让模型从一个只会“续写”文本的基座模型，转变为一个能理解并遵循人类指令格式的“对话助手”？ {{ select(1) }}

预训练 (Pre-training)
有监督微调 (Supervised Fine-Tuning, SFT)
奖励模型训练 (Reward Model Training)
基于人类反馈的强化学习 (RLHF)

2、若输入序列长度 $s$ ，模型层数 $L$ ，隐藏层维度 $d$ ，当 $s>>d$ 时，prefill 阶段计算量为 {{ select(2) }}

$O(L*s*s*d)$
$O(L*s*d*d)$
$O(L*s*d)$
$O(s*d+L*d*d)$

3、对于 $3\times224\times224$ 输入，卷积核 $7\times7$ 、 $stride=2$ 、 $padding=3$ 、 $out\_channels=64$ ，输出特征图的空间尺寸为？ {{ select(3) }}

$128\times128$
$256\times256$
$112\times112$
$224\times224$

4、连续掷一枚均匀硬币，首次出现 “正反” 序列（即一次正面后立刻反面）所需的期望掷币次数为 {{ select(4) }}

5、在探索两个连续变量的非线性关系时，应当采用以下哪种图作为可视化工具： {{ select(5) }}

箱线图
柱状图
折线图
散点图

6、在自然语言处理的 N-gram 模型中，我们计算一个词出现的概率时会依赖于它前面的 N-1 个词，即$P(w_{i} | w_{i - 1}, w_{i - 2}, \dots, w_{i - N + 1})$，给定之前全部词的条件概率，等同于给定前 N 个词的条件概率。这种建模思想与完全历史依赖的条件概率形成对比，请问这种建模思想与概率论中的哪个概念最相关？ {{ select(6) }}

大数定律
贝叶斯定理
马尔可夫假设
全概率公式

7、有以下伪代码，定义大小3×3×3,stride=2,padding=1的3D卷积核，计算卷积操作后输出tensor的形状

1.	conv = Convolution3D(in_channel=24,out_channel=32,kernel_size(3,3,3),stride=2, padding-1)
2.	input tensor =create random tensor(batch=16,in_hannel=24,50,24,18)
3.	output tensor = conv(input tensor)

$16\times32\times23\times10\times7$
$16\times32\times25\times12\times9$
$16\times32\times26\times13\times10$
$16\times32\times24\times11\times8$

8、已知矩阵$A = \begin{pmatrix}1&0&-1\\2&-1&1\\-1&2&-5\end{pmatrix}\\$，若下三角可逆矩阵 $P$ 和上三角可逆矩阵 $Q$ ，使得 $PAQ$ 为对角矩阵，则 $P,Q$ 可以分别取（） {{ select(8) }}

$\begin{pmatrix}1&0&0\\0&1&0\\0&0&1\end{pmatrix}，\begin{pmatrix}1&0&1\\0&1&3\\0&0&1\end{pmatrix}$
$\begin{pmatrix}1&0&0\\2&-1&0\\-3&2&1\end{pmatrix}，\begin{pmatrix}1&0&0\\0&1&0\\0&0&1\end{pmatrix}$
$\begin{pmatrix}1&0&0\\0&1&0\\1&3&1\end{pmatrix}，\begin{pmatrix}1&2&-3\\0&-1&2\\0&0&1\end{pmatrix}$
$\begin{pmatrix}1&0&0\\2&-1&0\\-3&2&1\end{pmatrix}，\begin{pmatrix}1&0&1\\0&1&3\\0&0&1\end{pmatrix}$

9、给定以下6个二维数据点及其类别，其坐标表示为 $(x, y)$ ，类别标签用 $[+]$ 表示正类， $[-]$ 表示负类：

$A(0,0)[+]$ ， $B(1,0)[+]$ ， $C(0,1)[-]$ ， $D(3,3)[-]$ ， $E(4,5)[-]$ ， $F(3,4)[-]$

使用4-近邻算法（4-NN）和欧氏距离对样本 $G(2,2)$ 进行分类预测。若采用多数投票法，则其预测类别是什么?

预测为负类（ $-$ ）
正类（ $+$ ）与负类（ $-$ ）各2票，无法形成多数
预测为正类（ $+$ ）
所有4个邻居到 $G$ 的距离相等，必须使用加权投票

10、令 $\{x_i : i = 0, \dots, n\}$ 是 $[a,b]$ 中的任意(n + 1)个不同点，且 $f \in C[a,b]$ 。那么，存在唯一个次数不超过n的插值多项式 $p_n$ ，请选择下述正确的表达式，其中 $\omega(x) = (x - x_0)\cdots(x - x_n)$ 。

$p_n(x) = \sum_{i = 0}^n y_i \frac{\omega(x)}{(x - x_i)\omega(x_i)}$
$p_n(x) = \sum_{i = 0}^n y_i \frac{\omega(x)}{(x - x_i)\omega(x)}$
$p_n(x) = \sum_{i = 0}^n y_i \frac{\omega(x)}{(x - x_i)\omega'(x_i)}$
$p_n(x) = \sum_{i = 0}^n y_i \frac{\omega(x)}{(x - x_i)\omega'(x)}$

11、设 $A = \begin{pmatrix} -11 & 4 \\ -30 & 11 \end{pmatrix}$，则 $(A + E)(E - A + A^2 - A^3 + A^4 - A^5 + A^6) = ( )$

注： $E$ 为单位矩阵

$A = \begin{pmatrix} 12 & 4 \\ 30 & 10 \end{pmatrix}$
$A = \begin{pmatrix} -12 & 4 \\ -30 & 10 \end{pmatrix}$
$A = \begin{pmatrix} 10 & 4 \\ 30 & 12 \end{pmatrix}$
$A = \begin{pmatrix} -10 & 4 \\ -30 & 12 \end{pmatrix}$

12、某电商公司构建推荐系统时，需对用户的 “月均消费金额” 特征进行预处理。该特征通常呈现严重右偏（即多数用户消费较低，少数用户消费极高）。考虑一个模拟的用户月均消费数据集，取值分别为（单位：元） $[9, 99, 999, 9999]$ ，整体分布右偏。为改善特征分布的对称性（即降低偏度），数据科学家考虑以下三种变换方式：

变换 1：最小 - 最大缩放（Min-Max Scaling）

$x' = \frac{x - x_{min}}{x_{max} - x_{min}}$

变换 2：Z-score 标准化（Z-score Standardization）

$x' = \frac{x - \mu}{\sigma}$

变换 3：对数变换（Log Transformation）

$x' = \log_{10}(x + 1)$

下列哪一种变换后的数据分布最对称（即偏度最小）？

变换 1
变换 3
变换 2
三种变换对称性相同

13、已知变量 $X$ 和 $Y$ 的两组数据分布如下：

组A：(1,20)、(2,18)、(3,16)、(4,14)、(5,12)、(6,10)、(7,8)、(8,6)、(9,4)、(10,2)

组B：组A所有数据 + 额外数据点 $(11,20)$

若两组数据的相关系数分别为 $r_1$ （组A）和 $r_2$ （组B），则下列关系正确的是（）

$0 > r_1 > r_2$
$r_1 > r_2 > 0$
$0 > r_2 > r_1$
$r_1 > r_2 > 0$

14、在一个基于 Transformer 的大型语言模型中，Tokenizer（如 BPE 分词器）和 Embedding 层是处理输入文本的最初两个步骤。关于这两个组件的功能和关系，以下哪个描述最为精确？ {{ select(14) }}

Tokenizer 负责将文本分割成有意义的语义单元（tokens），而 Embedding 层则进一步将考虑不同 Token 之间的关联并将 Token 间的语义关系编码到高维空间中。
Tokenizer 是一个基于固定规则或统计学习得到的、独立于下游模型的词汇映射系统；而 Embedding 层是一个包含可训练参数的神经网络层，其参数会在模型训练过程中不断优化。
Tokenizer 的唯一目的是压缩文本以减少计算量，而 Embedding 层则负责将压缩后的 ID 恢复成密集的向量表示。
Tokenizer 和 Embedding 层共同决定了模型的词汇量大小，并且在模型训练完成后，两者都可以被轻易替换以适应新的语言或领域。

15、如图所示的超平面 $Ax=b$ 到圆心距离等价于欠定方程组 $Ax=b$ 的最小范数解。

**问题如下：已知线性方程组 $y = Ax$ 中， $A \in \mathbb{R}^{m \times n}$ 是行满秩的胖矩阵（即 $m < n$ ），其解集为 $\{x_p + z \mid z \in \mathcal{N}(A)\}$ （ $x_p$ 为特解， $\mathcal{N}(A)$ 为 $A$ 的零空间）。 **

若要在解集中找到二范数最小的解，该解为：

$x = (A^T A)^{-1} y$
$x = (A^T A)^{-1} A^T y$
$x = A^T y$
$x = A^T (A A^T)^{-1} y$

二、多选题

16、最大池化 (Max Pooling) 在卷积神经网络中是一种常见的下采样操作，该操作的主要优点包括 {{ multiselect(16) }}

能提供一定程度的平移不变性，使模型对输入的小变化不敏感
能精准保留输入特征的空间位置信息
能够有效抑制图像中的噪声
能保留图像中局部极值，用于提取显著的特征（如纹理、边缘）
能够显著减少特征图的空间维度和后续计算量

17、回归任务中可用的评估指标有？ {{ multiselect(17) }}

均方误差（MSE）
均方根误差（RMSE）
平均绝对误差（MAE）
$R^2$ 分数

18、在度量文本嵌入的相似度时，适合的处理方式包括哪些？ {{ multiselect(18) }}

应用 PCA 降维
使用曼哈顿距离
使用点积并归一化
计算余弦相似度

19、对实矩阵 $X \in \mathbb{R}^{m \times d}$ 的奇异值分解 $X = U \Sigma V^T$ ，下列说法正确的是： {{ multiselect(19) }}

$\Sigma$ 的对角元素按非递增顺序排列
$\Sigma$ 的非零奇异值等于 $XX^T$ 的非零特征值的平方根
$rank(X)$ 等于 $\Sigma$ 的非零对角元素个数
$U, V$ 均为正交矩阵
$U$ 的前 $r (= col(X))$ 列向量给出了一组 $X$ 列空间的正交基

20、以下模型与结构匹配正确的是 {{ multiselect(20) }}

T5 → Encoder-Decoder
BART → Encoder-Decoder
BERT → Decoder-only
GPT-4 → Decoder-only

#P3873. 第1题-选择题

第1题-选择题

题目与答案解析

T1

T2

T3

T4

T5

T6

T7

T8

T9

T10

T11

T12

T13

T14

T15

T16

T17

T18

T19

T20

一、单选题

二、多选题

Status

Development

Support

About