#P3873. 第1题-选择题
          
                        
                                    
                      
        
              - 
          
          
          
                      Tried: 224
            Accepted: 27
            Difficulty: 4
            
          
          
          
                       所属公司 : 
                              华为
                                
            
                        
              时间 :2025年10月10日-AI方向
                              
                      
          
 
- 
                        算法标签>数学          
 
第1题-选择题
题目与答案解析
T1
问题:关于模型训练阶段的描述
答案:B. 有监督微调 (Supervised Fine-Tuning, SFT)
解析:
SFT 使用指令-回复的数据对,让仅会续写的基座模型学会按人类指令格式理解与作答。
- 预训练只学习“下一个词”
 - RM/RLHF 主要用于偏好对齐与细化风格
 
T2
问题:关于计算复杂度
答案:A. O(L×s²×d)
解析:
Prefill 阶段主要为自注意力计算,复杂度与序列长度平方成正比,为 O(L×s²×d)。
T3
问题:卷积输出尺寸计算
答案:C. 112×112
解析:
输出尺寸 =
$\left\lfloor \frac{224 + 2 \times 3 - 7}{2} \right\rfloor + 1 = \lfloor 111.5\rfloor + 1 = 112$
注:卷积核数量只影响通道数,不影响空间尺寸。
T4
问题:期望掷币次数
答案:C. 4
解析:
用马尔可夫状态(初始/刚出正/刚出反)建立期望递推方程,先求 E1=2、E2=4,回代得 E0=4。
T5
问题:适合展示两连续变量关系的图表
答案:D. 散点图
解析:
散点图直接展示两连续变量的配对数据,可观察曲线型等非线性关系与离群点。
- 箱线图/柱状图/折线图更适合分布或单变量趋势,难以刻画二者关系。
 
T6
问题:N-gram 基于的假设
答案:C. 马尔可夫假设
解析:
N-gram 假设当前词仅依赖前 N−1 个词,即为马尔可夫假设。
T7
问题:3D 卷积输出尺寸
答案:B. 16×32×25×12×9
解析:
3D 卷积输出尺寸:
$
L_{\text{out}} = \left\lfloor \frac{L_{\text{in}} + 2p - (k - 1) - 1}{s} + 1 \right\rfloor = \left\lfloor \frac{L_{\text{in}} + 1}{2} \right\rfloor
$
(其中 k=3, p=1, s=2)
对输入尺寸 50, 24, 18 得 25, 12, 9;批量与输出通道分别为 16 和 32。
T8
问题:矩阵分解
答案:D.
$
\begin{pmatrix}1&0&0\\2&-1&0\\-3&2&1\end{pmatrix},\ 
\begin{pmatrix}1&0&1\\0&1&3\\0&0&1\end{pmatrix}
$
解析:
通过 LU 分解思想计算,可得 P, Q 分别对应选项 D。
T9
问题:KNN 分类预测
答案:A. 预测为负类(−)
解析:
到 G(2,2) 的最近四个点:
- D(3,3)[-]
 - B(1,0)[+]
 - C(0,1)[-]
 - F(3,4)[-]
距离分别为 √2, √5, √5, √5
投票结果为:负类 3 票,正类 1 票,故判为负类。 
T10
问题:拉格朗日插值公式
答案:C.
$
p_n(x) = \sum_{i = 0}^n y_i \frac{\omega(x)}{(x - x_i)\omega'(x_i)}
$
解析:
拉格朗日插值公式为:
$
p_n(x) = \sum_{i=0}^n y_i \frac{\omega(x)}{(x - x_i)\omega'(x_i)}
$
T11
问题:矩阵运算
答案:D
解析:
$
(I + A) \sum_{k=0}^{6} (-A)^k = I + (-A)^7 = I + A^7
$
由 A² = I(直接相乘可得),故 A⁷ = A,于是结果为:
$
I + A = \begin{pmatrix} -10 & 4 \\ -30 & 12 \end{pmatrix}
$
T12
问题:数据变换方法
答案:B. 变换 3
解析:
对数变换能有效缓解右偏分布,使分布更接近对称。
T13
问题:相关系数比较
答案:C. 0 > r₂ > r₁
解析:
- 组 A 点严格在直线 y = 22 - 2x 上,故 r₁ = -1
 - 加入离群点 (11,20) 打破完全负相关,使相关性减弱(变得不那么负),因此: −1=r1<r2<0
 
T14
问题:Tokenizer 与 Embedding 的区别
答案:B. Tokenizer 是一个基于固定规则或统计学习得到的、独立于下游模型的词汇映射系统;而 Embedding 层是一个包含可训练参数的神经网络层,其参数会在模型训练过程中不断优化。
解析:
- Tokenizer:负责词到 ID 的静态映射
 - Embedding 层:可训练参数层,用于学习词向量
 
T15
问题:最小二范数解
答案:D. x = Aᵀ(AAᵀ)⁻¹y
解析:
对行满秩的胖矩阵(欠定)最小二范数解为伪逆解:
x=A+y=AT(AAT)−1y
其等价于在解集中取与零空间正交的解。
B 形式适用于列满秩的“高”矩阵,A/C 一般不成立。
T16
问题:池化层的作用
答案:
- A. 能提供一定程度的平移不变性,使模型对输入的小变化不敏感
 - C. 能够有效抑制图像中的噪声
 - D. 能保留图像中局部极值,用于提取显著的特征(如纹理、边缘)
 - E. 能够显著减少特征图的空间维度和后续计算量
 
T17
问题:回归评估指标
答案:
- A. 均方误差(MSE)
 - B. 均方根误差(RMSE)
 - C. 平均绝对误差(MAE)
 - D. R² 分数
解析:
它们都是常用的回归评估指标: - MSE/RMSE 强调较大误差惩罚
 - MAE 较稳健
 - R² 衡量模型解释方差的比例
 
T18
问题:K-means 可用的距离度量
答案:
- C
 - D
 
T19
问题:SVD 性质
答案:
- A. Σ 的对角元素按非递增顺序排列
 - B. Σ 的非零奇异值等于 XXᵀ 的非零特征值的平方根
 - C. rank(X) 等于 Σ 的非零对角元素个数
 - D. U, V 均为正交矩阵
 - E. U 的前 r = col(X) 列向量给出了一组 X 列空间的正交基
解析:
约定下奇异值按非增排列,σᵢ = √λᵢ(XXᵀ),非零奇异值个数等于 rank(X)。在全 SVD 中 U, V 为正交矩阵,且对应非零奇异值的前 r = rank(X) = dim(Col(X)) 个左奇异向量构成 X 列空间的正交基。 
T20
问题:模型架构分类
答案:
- A. T5 → Encoder-Decoder
 - B. BART → Encoder-Decoder
 - D. GPT-4 → Decoder-only
 
一、单选题
1、在大型语言模型的三阶段训练流程中,哪一个阶段的主要目标是让模型从一个只会“续写”文本的基座模型,转变为一个能理解并遵循人类指令格式的“对话助手”? {{ select(1) }}
- 预训练 (Pre-training)
 - 有监督微调 (Supervised Fine-Tuning, SFT)
 - 奖励模型训练 (Reward Model Training)
 - 基于人类反馈的强化学习 (RLHF)
 
2、若输入序列长度 s,模型层数 L,隐藏层维度 d,当 s>>d 时,prefill 阶段计算量为 {{ select(2) }}
- O(L∗s∗s∗d)
 - O(L∗s∗d∗d)
 - O(L∗s∗d)
 - O(s∗d+L∗d∗d)
 
3、对于 3×224×224 输入,卷积核 7×7、stride=2、padding=3、out_channels=64,输出特征图的空间尺寸为? {{ select(3) }}
- 128×128
 - 256×256
 - 112×112
 - 224×224
 
4、连续掷一枚均匀硬币,首次出现 “正反” 序列(即一次正面后立刻反面)所需的期望掷币次数为 {{ select(4) }}
- 8
 - 6
 - 4
 - 5
 
5、在探索两个连续变量的非线性关系时,应当采用以下哪种图作为可视化工具: {{ select(5) }}
- 箱线图
 - 柱状图
 - 折线图
 - 散点图
 
6、在自然语言处理的 N-gram 模型中,我们计算一个词出现的概率时会依赖于它前面的 N-1 个词,即$P(w_{i} | w_{i - 1}, w_{i - 2}, \dots, w_{i - N + 1})$,给定之前全部词的条件概率,等同于给定前 N 个词的条件概率。这种建模思想与完全历史依赖的条件概率形成对比,请问这种建模思想与概率论中的哪个概念最相关? {{ select(6) }}
- 大数定律
 - 贝叶斯定理
 - 马尔可夫假设
 - 全概率公式
 
7、有以下伪代码,定义大小3×3×3,stride=2,padding=1的3D卷积核,计算卷积操作后输出tensor的形状
| 1. | conv = Convolution3D(in_channel=24,out_channel=32,kernel_size(3,3,3),stride=2, padding-1) | 
|---|---|
| 2. | input tensor =create random tensor(batch=16,in_hannel=24,50,24,18) | 
| 3. | output tensor = conv(input tensor) | 
{{ select(7) }}
- 16×32×23×10×7
 - 16×32×25×12×9
 - 16×32×26×13×10
 - 16×32×24×11×8
 
8、已知矩阵$A = \begin{pmatrix}1&0&-1\\2&-1&1\\-1&2&-5\end{pmatrix}\\$,若下三角可逆矩阵P和上三角可逆矩阵Q,使得PAQ为对角矩阵,则P,Q可以分别取() {{ select(8) }}
- $\begin{pmatrix}1&0&0\\0&1&0\\0&0&1\end{pmatrix},\begin{pmatrix}1&0&1\\0&1&3\\0&0&1\end{pmatrix}$
 - $\begin{pmatrix}1&0&0\\2&-1&0\\-3&2&1\end{pmatrix},\begin{pmatrix}1&0&0\\0&1&0\\0&0&1\end{pmatrix}$
 - $\begin{pmatrix}1&0&0\\0&1&0\\1&3&1\end{pmatrix},\begin{pmatrix}1&2&-3\\0&-1&2\\0&0&1\end{pmatrix}$
 - $\begin{pmatrix}1&0&0\\2&-1&0\\-3&2&1\end{pmatrix},\begin{pmatrix}1&0&1\\0&1&3\\0&0&1\end{pmatrix}$
 
9、给定以下6个二维数据点及其类别,其坐标表示为(x,y),类别标签用[+]表示正类,[−]表示负类:
A(0,0)[+],B(1,0)[+],C(0,1)[−],D(3,3)[−],E(4,5)[−],F(3,4)[−]
使用4-近邻算法(4-NN)和欧氏距离对样本G(2,2)进行分类预测。若采用多数投票法,则其预测类别是什么?
{{ select(9) }}
- 预测为负类(−)
 - 正类(+)与负类(−)各2票,无法形成多数
 - 预测为正类(+)
 - 所有4个邻居到G的距离相等,必须使用加权投票
 
10、令{xi:i=0,…,n}是[a,b]中的任意(n + 1)个不同点,且f∈C[a,b]。那么,存在唯一个次数不超过n的插值多项式pn,请选择下述正确的表达式,其中ω(x)=(x−x0)⋯(x−xn)。
{{ select(10) }}
- $p_n(x) = \sum_{i = 0}^n y_i \frac{\omega(x)}{(x - x_i)\omega(x_i)}$
 - $p_n(x) = \sum_{i = 0}^n y_i \frac{\omega(x)}{(x - x_i)\omega(x)}$
 - $p_n(x) = \sum_{i = 0}^n y_i \frac{\omega(x)}{(x - x_i)\omega'(x_i)}$
 - $p_n(x) = \sum_{i = 0}^n y_i \frac{\omega(x)}{(x - x_i)\omega'(x)}$
 
11、设 $A = \begin{pmatrix} -11 & 4 \\ -30 & 11 \end{pmatrix}$, 则 (A+E)(E−A+A2−A3+A4−A5+A6)=()
注:E 为单位矩阵
{{ select(11) }}
- $A = \begin{pmatrix} 12 & 4 \\ 30 & 10 \end{pmatrix}$
 - $A = \begin{pmatrix} -12 & 4 \\ -30 & 10 \end{pmatrix}$
 - $A = \begin{pmatrix} 10 & 4 \\ 30 & 12 \end{pmatrix}$
 - $A = \begin{pmatrix} -10 & 4 \\ -30 & 12 \end{pmatrix}$
 
12、某电商公司构建推荐系统时,需对用户的 “月均消费金额” 特征进行预处理。该特征通常呈现严重右偏(即多数用户消费较低,少数用户消费极高)。考虑一个模拟的用户月均消费数据集,取值分别为(单位:元)[9,99,999,9999],整体分布右偏。为改善特征分布的对称性(即降低偏度),数据科学家考虑以下三种变换方式:
变换 1:最小 - 最大缩放(Min-Max Scaling)
x′=xmax−xminx−xmin
变换 2:Z-score 标准化(Z-score Standardization)
x′=σx−μ
变换 3:对数变换(Log Transformation)
x′=log10(x+1)
下列哪一种变换后的数据分布最对称(即偏度最小)?
{{ select(12) }}
- 变换 1
 - 变换 3
 - 变换 2
 - 三种变换对称性相同
 
13、已知变量 X 和 Y 的两组数据分布如下:
组A:(1,20)、(2,18)、(3,16)、(4,14)、(5,12)、(6,10)、(7,8)、(8,6)、(9,4)、(10,2)
组B:组A所有数据 + 额外数据点 (11,20)
若两组数据的相关系数分别为 r1(组A)和 r2(组B),则下列关系正确的是( )
{{ select(13) }}
- 0>r1>r2
 - r1>r2>0
 - 0>r2>r1
 - r1>r2>0
 
14、在一个基于 Transformer 的大型语言模型中,Tokenizer(如 BPE 分词器)和 Embedding 层是处理输入文本的最初两个步骤。关于这两个组件的功能和关系,以下哪个描述最为精确? {{ select(14) }}
- Tokenizer 负责将文本分割成有意义的语义单元(tokens),而 Embedding 层则进一步将考虑不同 Token 之间的关联并将 Token 间的语义关系编码到高维空间中。
 - Tokenizer 是一个基于固定规则或统计学习得到的、独立于下游模型的词汇映射系统;而 Embedding 层是一个包含可训练参数的神经网络层,其参数会在模型训练过程中不断优化。
 - Tokenizer 的唯一目的是压缩文本以减少计算量,而 Embedding 层则负责将压缩后的 ID 恢复成密集的向量表示。
 - Tokenizer 和 Embedding 层共同决定了模型的词汇量大小,并且在模型训练完成后,两者都可以被轻易替换以适应新的语言或领域。
 
15、如图所示的超平面 Ax=b 到圆心距离等价于欠定方程组 Ax=b 的最小范数解。

**问题如下:已知线性方程组 y=Ax 中,A∈Rm×n 是行满秩的胖矩阵(即 m<n),其解集为 {xp+z∣z∈N(A)} (xp 为特解,N(A) 为 A 的零空间)。 **
若要在解集中找到二范数最小的解,该解为:
{{ select(15) }}
- x=(ATA)−1y
 - x=(ATA)−1ATy
 - x=ATy
 - x=AT(AAT)−1y
 
二、多选题
16、最大池化 (Max Pooling) 在卷积神经网络中是一种常见的下采样操作,该操作的主要优点包括 {{ multiselect(16) }}
- 能提供一定程度的平移不变性,使模型对输入的小变化不敏感
 - 能精准保留输入特征的空间位置信息
 - 能够有效抑制图像中的噪声
 - 能保留图像中局部极值,用于提取显著的特征(如纹理、边缘)
 - 能够显著减少特征图的空间维度和后续计算量
 
17、回归任务中可用的评估指标有? {{ multiselect(17) }}
- 均方误差(MSE)
 - 均方根误差(RMSE)
 - 平均绝对误差(MAE)
 - R2 分数
 
18、在度量文本嵌入的相似度时,适合的处理方式包括哪些? {{ multiselect(18) }}
- 应用 PCA 降维
 - 使用曼哈顿距离
 - 使用点积并归一化
 - 计算余弦相似度
 
19、对实矩阵 X∈Rm×d 的奇异值分解 X=UΣVT,下列说法正确的是: {{ multiselect(19) }}
- Σ 的对角元素按非递增顺序排列
 - Σ 的非零奇异值等于 XXT 的非零特征值的平方根
 - rank(X) 等于 Σ 的非零对角元素个数
 - U,V 均为正交矩阵
 - U 的前 r(=col(X)) 列向量给出了一组 X 列空间的正交基
 
20、以下模型与结构匹配正确的是 {{ multiselect(20) }}
- T5 → Encoder-Decoder
 - BART → Encoder-Decoder
 - BERT → Decoder-only
 - GPT-4 → Decoder-only