#P3873. 第1题-选择题
-
Tried: 249
Accepted: 32
Difficulty: 4
所属公司 :
华为
时间 :2025年10月10日-AI方向
-
算法标签>数学
第1题-选择题
题目与答案解析
T1
问题:关于模型训练阶段的描述
答案:B. 有监督微调 (Supervised Fine-Tuning, SFT)
解析:
SFT 使用指令-回复的数据对,让仅会续写的基座模型学会按人类指令格式理解与作答。
- 预训练只学习“下一个词”
- RM/RLHF 主要用于偏好对齐与细化风格
T2
问题:关于计算复杂度
答案:A. O(L×s²×d)
解析:
Prefill 阶段主要为自注意力计算,复杂度与序列长度平方成正比,为 O(L×s²×d)。
T3
问题:卷积输出尺寸计算
答案:C. 112×112
解析:
输出尺寸 =
$\left\lfloor \frac{224 + 2 \times 3 - 7}{2} \right\rfloor + 1 = \lfloor 111.5\rfloor + 1 = 112$
注:卷积核数量只影响通道数,不影响空间尺寸。
T4
问题:期望掷币次数
答案:C. 4
解析:
用马尔可夫状态(初始/刚出正/刚出反)建立期望递推方程,先求 E1=2、E2=4,回代得 E0=4。
T5
问题:适合展示两连续变量关系的图表
答案:D. 散点图
解析:
散点图直接展示两连续变量的配对数据,可观察曲线型等非线性关系与离群点。
- 箱线图/柱状图/折线图更适合分布或单变量趋势,难以刻画二者关系。
T6
问题:N-gram 基于的假设
答案:C. 马尔可夫假设
解析:
N-gram 假设当前词仅依赖前 N−1 个词,即为马尔可夫假设。
T7
问题:3D 卷积输出尺寸
答案:B. 16×32×25×12×9
解析:
3D 卷积输出尺寸:
$L_{\text{out}} = \left\lfloor \frac{L_{\text{in}} + 2p - (k - 1) - 1}{s} + 1 \right\rfloor = \left\lfloor \frac{L_{\text{in}} + 1}{2} \right\rfloor$
(其中 k=3, p=1, s=2)
对输入尺寸 50, 24, 18 得 25, 12, 9;批量与输出通道分别为 16 和 32。
T8
问题:矩阵分解
答案:D.
$\begin{pmatrix}1&0&0\\2&-1&0\\-3&2&1\end{pmatrix},\
\begin{pmatrix}1&0&1\\0&1&3\\0&0&1\end{pmatrix}$
解析:
通过 LU 分解思想计算,可得 P, Q 分别对应选项 D。
T9
问题:KNN 分类预测
答案:A. 预测为负类(−)
解析:
到 G(2,2) 的最近四个点:
- D(3,3)[-]
- B(1,0)[+]
- C(0,1)[-]
- F(3,4)[-]
距离分别为 √2, √5, √5, √5
投票结果为:负类 3 票,正类 1 票,故判为负类。
T10
问题:拉格朗日插值公式
答案:C.
$p_n(x) = \sum_{i = 0}^n y_i \frac{\omega(x)}{(x - x_i)\omega'(x_i)}$
解析:
拉格朗日插值公式为:
$p_n(x) = \sum_{i=0}^n y_i \frac{\omega(x)}{(x - x_i)\omega'(x_i)}$
T11
问题:矩阵运算
答案:D
解析:
$(I + A) \sum_{k=0}^{6} (-A)^k = I + (-A)^7 = I + A^7$
由 A² = I(直接相乘可得),故 A⁷ = A,于是结果为:
$I + A = \begin{pmatrix} -10 & 4 \\ -30 & 12 \end{pmatrix}$
T12
问题:数据变换方法
答案:B. 变换 3
解析:
对数变换能有效缓解右偏分布,使分布更接近对称。
T13
问题:相关系数比较
答案:C. 0 > r₂ > r₁
解析:
- 组 A 点严格在直线 y = 22 - 2x 上,故 r₁ = -1
- 加入离群点 (11,20) 打破完全负相关,使相关性减弱(变得不那么负),因此: −1=r1<r2<0
T14
问题:Tokenizer 与 Embedding 的区别
答案:B. Tokenizer 是一个基于固定规则或统计学习得到的、独立于下游模型的词汇映射系统;而 Embedding 层是一个包含可训练参数的神经网络层,其参数会在模型训练过程中不断优化。
解析:
- Tokenizer:负责词到 ID 的静态映射
- Embedding 层:可训练参数层,用于学习词向量
T15
问题:最小二范数解
答案:D. x = Aᵀ(AAᵀ)⁻¹y
解析:
对行满秩的胖矩阵(欠定)最小二范数解为伪逆解:
x=A+y=AT(AAT)−1y
其等价于在解集中取与零空间正交的解。
B 形式适用于列满秩的“高”矩阵,A/C 一般不成立。
T16
问题:池化层的作用
答案:
- A. 能提供一定程度的平移不变性,使模型对输入的小变化不敏感
- C. 能够有效抑制图像中的噪声
- D. 能保留图像中局部极值,用于提取显著的特征(如纹理、边缘)
- E. 能够显著减少特征图的空间维度和后续计算量
T17
问题:回归评估指标
答案:
- A. 均方误差(MSE)
- B. 均方根误差(RMSE)
- C. 平均绝对误差(MAE)
- D. R² 分数
解析:
它们都是常用的回归评估指标: - MSE/RMSE 强调较大误差惩罚
- MAE 较稳健
- R² 衡量模型解释方差的比例
T18
问题:K-means 可用的距离度量
答案:
- C
- D
T19
问题:SVD 性质
答案:
- A. Σ 的对角元素按非递增顺序排列
- B. Σ 的非零奇异值等于 XXᵀ 的非零特征值的平方根
- C. rank(X) 等于 Σ 的非零对角元素个数
- D. U, V 均为正交矩阵
- E. U 的前 r = col(X) 列向量给出了一组 X 列空间的正交基
解析:
约定下奇异值按非增排列,σᵢ = √λᵢ(XXᵀ),非零奇异值个数等于 rank(X)。在全 SVD 中 U, V 为正交矩阵,且对应非零奇异值的前 r = rank(X) = dim(Col(X)) 个左奇异向量构成 X 列空间的正交基。
T20
问题:模型架构分类
答案:
- A. T5 → Encoder-Decoder
- B. BART → Encoder-Decoder
- D. GPT-4 → Decoder-only
一、单选题
1、在大型语言模型的三阶段训练流程中,哪一个阶段的主要目标是让模型从一个只会“续写”文本的基座模型,转变为一个能理解并遵循人类指令格式的“对话助手”? {{ select(1) }}
- 预训练 (Pre-training)
- 有监督微调 (Supervised Fine-Tuning, SFT)
- 奖励模型训练 (Reward Model Training)
- 基于人类反馈的强化学习 (RLHF)
2、若输入序列长度 s,模型层数 L,隐藏层维度 d,当 s>>d 时,prefill 阶段计算量为 {{ select(2) }}
- O(L∗s∗s∗d)
- O(L∗s∗d∗d)
- O(L∗s∗d)
- O(s∗d+L∗d∗d)
3、对于 3×224×224 输入,卷积核 7×7、stride=2、padding=3、out_channels=64,输出特征图的空间尺寸为? {{ select(3) }}
- 128×128
- 256×256
- 112×112
- 224×224
4、连续掷一枚均匀硬币,首次出现 “正反” 序列(即一次正面后立刻反面)所需的期望掷币次数为 {{ select(4) }}
- 8
- 6
- 4
- 5
5、在探索两个连续变量的非线性关系时,应当采用以下哪种图作为可视化工具: {{ select(5) }}
- 箱线图
- 柱状图
- 折线图
- 散点图
6、在自然语言处理的 N-gram 模型中,我们计算一个词出现的概率时会依赖于它前面的 N-1 个词,即$P(w_{i} | w_{i - 1}, w_{i - 2}, \dots, w_{i - N + 1})$,给定之前全部词的条件概率,等同于给定前 N 个词的条件概率。这种建模思想与完全历史依赖的条件概率形成对比,请问这种建模思想与概率论中的哪个概念最相关? {{ select(6) }}
- 大数定律
- 贝叶斯定理
- 马尔可夫假设
- 全概率公式
7、有以下伪代码,定义大小3×3×3,stride=2,padding=1的3D卷积核,计算卷积操作后输出tensor的形状
| 1. | conv = Convolution3D(in_channel=24,out_channel=32,kernel_size(3,3,3),stride=2, padding-1) |
|---|---|
| 2. | input tensor =create random tensor(batch=16,in_hannel=24,50,24,18) |
| 3. | output tensor = conv(input tensor) |
{{ select(7) }}
- 16×32×23×10×7
- 16×32×25×12×9
- 16×32×26×13×10
- 16×32×24×11×8
8、已知矩阵$A = \begin{pmatrix}1&0&-1\\2&-1&1\\-1&2&-5\end{pmatrix}\\$,若下三角可逆矩阵P和上三角可逆矩阵Q,使得PAQ为对角矩阵,则P,Q可以分别取() {{ select(8) }}
- $\begin{pmatrix}1&0&0\\0&1&0\\0&0&1\end{pmatrix},\begin{pmatrix}1&0&1\\0&1&3\\0&0&1\end{pmatrix}$
- $\begin{pmatrix}1&0&0\\2&-1&0\\-3&2&1\end{pmatrix},\begin{pmatrix}1&0&0\\0&1&0\\0&0&1\end{pmatrix}$
- $\begin{pmatrix}1&0&0\\0&1&0\\1&3&1\end{pmatrix},\begin{pmatrix}1&2&-3\\0&-1&2\\0&0&1\end{pmatrix}$
- $\begin{pmatrix}1&0&0\\2&-1&0\\-3&2&1\end{pmatrix},\begin{pmatrix}1&0&1\\0&1&3\\0&0&1\end{pmatrix}$
9、给定以下6个二维数据点及其类别,其坐标表示为(x,y),类别标签用[+]表示正类,[−]表示负类:
A(0,0)[+],B(1,0)[+],C(0,1)[−],D(3,3)[−],E(4,5)[−],F(3,4)[−]
使用4-近邻算法(4-NN)和欧氏距离对样本G(2,2)进行分类预测。若采用多数投票法,则其预测类别是什么?
{{ select(9) }}
- 预测为负类(−)
- 正类(+)与负类(−)各2票,无法形成多数
- 预测为正类(+)
- 所有4个邻居到G的距离相等,必须使用加权投票
10、令{xi:i=0,…,n}是[a,b]中的任意(n + 1)个不同点,且f∈C[a,b]。那么,存在唯一个次数不超过n的插值多项式pn,请选择下述正确的表达式,其中ω(x)=(x−x0)⋯(x−xn)。
{{ select(10) }}
- $p_n(x) = \sum_{i = 0}^n y_i \frac{\omega(x)}{(x - x_i)\omega(x_i)}$
- $p_n(x) = \sum_{i = 0}^n y_i \frac{\omega(x)}{(x - x_i)\omega(x)}$
- $p_n(x) = \sum_{i = 0}^n y_i \frac{\omega(x)}{(x - x_i)\omega'(x_i)}$
- $p_n(x) = \sum_{i = 0}^n y_i \frac{\omega(x)}{(x - x_i)\omega'(x)}$
11、设 $A = \begin{pmatrix} -11 & 4 \\ -30 & 11 \end{pmatrix}$, 则 (A+E)(E−A+A2−A3+A4−A5+A6)=()
注:E 为单位矩阵
{{ select(11) }}
- $A = \begin{pmatrix} 12 & 4 \\ 30 & 10 \end{pmatrix}$
- $A = \begin{pmatrix} -12 & 4 \\ -30 & 10 \end{pmatrix}$
- $A = \begin{pmatrix} 10 & 4 \\ 30 & 12 \end{pmatrix}$
- $A = \begin{pmatrix} -10 & 4 \\ -30 & 12 \end{pmatrix}$
12、某电商公司构建推荐系统时,需对用户的 “月均消费金额” 特征进行预处理。该特征通常呈现严重右偏(即多数用户消费较低,少数用户消费极高)。考虑一个模拟的用户月均消费数据集,取值分别为(单位:元)[9,99,999,9999],整体分布右偏。为改善特征分布的对称性(即降低偏度),数据科学家考虑以下三种变换方式:
变换 1:最小 - 最大缩放(Min-Max Scaling)
x′=xmax−xminx−xmin
变换 2:Z-score 标准化(Z-score Standardization)
x′=σx−μ
变换 3:对数变换(Log Transformation)
x′=log10(x+1)
下列哪一种变换后的数据分布最对称(即偏度最小)?
{{ select(12) }}
- 变换 1
- 变换 3
- 变换 2
- 三种变换对称性相同
13、已知变量 X 和 Y 的两组数据分布如下:
组A:(1,20)、(2,18)、(3,16)、(4,14)、(5,12)、(6,10)、(7,8)、(8,6)、(9,4)、(10,2)
组B:组A所有数据 + 额外数据点 (11,20)
若两组数据的相关系数分别为 r1(组A)和 r2(组B),则下列关系正确的是( )
{{ select(13) }}
- 0>r1>r2
- r1>r2>0
- 0>r2>r1
- r1>r2>0
14、在一个基于 Transformer 的大型语言模型中,Tokenizer(如 BPE 分词器)和 Embedding 层是处理输入文本的最初两个步骤。关于这两个组件的功能和关系,以下哪个描述最为精确? {{ select(14) }}
- Tokenizer 负责将文本分割成有意义的语义单元(tokens),而 Embedding 层则进一步将考虑不同 Token 之间的关联并将 Token 间的语义关系编码到高维空间中。
- Tokenizer 是一个基于固定规则或统计学习得到的、独立于下游模型的词汇映射系统;而 Embedding 层是一个包含可训练参数的神经网络层,其参数会在模型训练过程中不断优化。
- Tokenizer 的唯一目的是压缩文本以减少计算量,而 Embedding 层则负责将压缩后的 ID 恢复成密集的向量表示。
- Tokenizer 和 Embedding 层共同决定了模型的词汇量大小,并且在模型训练完成后,两者都可以被轻易替换以适应新的语言或领域。
15、如图所示的超平面 Ax=b 到圆心距离等价于欠定方程组 Ax=b 的最小范数解。

**问题如下:已知线性方程组 y=Ax 中,A∈Rm×n 是行满秩的胖矩阵(即 m<n),其解集为 {xp+z∣z∈N(A)} (xp 为特解,N(A) 为 A 的零空间)。 **
若要在解集中找到二范数最小的解,该解为:
{{ select(15) }}
- x=(ATA)−1y
- x=(ATA)−1ATy
- x=ATy
- x=AT(AAT)−1y
二、多选题
16、最大池化 (Max Pooling) 在卷积神经网络中是一种常见的下采样操作,该操作的主要优点包括 {{ multiselect(16) }}
- 能提供一定程度的平移不变性,使模型对输入的小变化不敏感
- 能精准保留输入特征的空间位置信息
- 能够有效抑制图像中的噪声
- 能保留图像中局部极值,用于提取显著的特征(如纹理、边缘)
- 能够显著减少特征图的空间维度和后续计算量
17、回归任务中可用的评估指标有? {{ multiselect(17) }}
- 均方误差(MSE)
- 均方根误差(RMSE)
- 平均绝对误差(MAE)
- R2 分数
18、在度量文本嵌入的相似度时,适合的处理方式包括哪些? {{ multiselect(18) }}
- 应用 PCA 降维
- 使用曼哈顿距离
- 使用点积并归一化
- 计算余弦相似度
19、对实矩阵 X∈Rm×d 的奇异值分解 X=UΣVT,下列说法正确的是: {{ multiselect(19) }}
- Σ 的对角元素按非递增顺序排列
- Σ 的非零奇异值等于 XXT 的非零特征值的平方根
- rank(X) 等于 Σ 的非零对角元素个数
- U,V 均为正交矩阵
- U 的前 r(=col(X)) 列向量给出了一组 X 列空间的正交基
20、以下模型与结构匹配正确的是 {{ multiselect(20) }}
- T5 → Encoder-Decoder
- BART → Encoder-Decoder
- BERT → Decoder-only
- GPT-4 → Decoder-only