#P3873. 第1题-选择题
-
ID: 3237
Tried: 122
Accepted: 8
Difficulty: 4
所属公司 :
华为
时间 :2025年10月10日-AI方向
第1题-选择题
题目与答案解析
T1
问题:关于模型训练阶段的描述
答案:B. 有监督微调 (Supervised Fine-Tuning, SFT)
解析:
SFT 使用指令-回复的数据对,让仅会续写的基座模型学会按人类指令格式理解与作答。
- 预训练只学习“下一个词”
- RM/RLHF 主要用于偏好对齐与细化风格
一、单选题
1、在大型语言模型的三阶段训练流程中,哪一个阶段的主要目标是让模型从一个只会“续写”文本的基座模型,转变为一个能理解并遵循人类指令格式的“对话助手”? {{ select(1) }}
- 预训练 (Pre-training)
- 有监督微调 (Supervised Fine-Tuning, SFT)
- 奖励模型训练 (Reward Model Training)
- 基于人类反馈的强化学习 (RLHF)
2、若输入序列长度 s,模型层数 L,隐藏层维度 d,当 s>>d 时,prefill 阶段计算量为 {{ select(2) }}
- O(L∗s∗s∗d)
- O(L∗s∗d∗d)
- O(L∗s∗d)
- O(s∗d+L∗d∗d)
3、对于 3×224×224 输入,卷积核 7×7、stride=2、padding=3、out_channels=64,输出特征图的空间尺寸为? {{ select(3) }}
- 128×128
- 256×256
- 112×112
- 224×224
4、连续掷一枚均匀硬币,首次出现 “正反” 序列(即一次正面后立刻反面)所需的期望掷币次数为 {{ select(4) }}
- 8
- 6
- 4
- 5
5、在探索两个连续变量的非线性关系时,应当采用以下哪种图作为可视化工具: {{ select(5) }}
- 箱线图
- 柱状图
- 折线图
- 散点图
6、在自然语言处理的 N-gram 模型中,我们计算一个词出现的概率时会依赖于它前面的 N-1 个词,即$P(w_{i} | w_{i - 1}, w_{i - 2}, \dots, w_{i - N + 1})$,给定之前全部词的条件概率,等同于给定前 N 个词的条件概率。这种建模思想与完全历史依赖的条件概率形成对比,请问这种建模思想与概率论中的哪个概念最相关? {{ select(6) }}
- 大数定律
- 贝叶斯定理
- 马尔可夫假设
- 全概率公式
7、有以下伪代码,定义大小3×3×3,stride=2,padding=1的3D卷积核,计算卷积操作后输出tensor的形状
1. | conv = Convolution3D(in_channel=24,out_channel=32,kernel_size(3,3,3),stride=2, padding-1) |
---|---|
2. | input tensor =create random tensor(batch=16,in_hannel=24,50,24,18) |
3. | output tensor = conv(input tensor) |
{{ select(7) }}
- 16×32×23×10×7
- 16×32×25×12×9
- 16×32×26×13×10
- 16×32×24×11×8
8、已知矩阵$A = \begin{pmatrix}1&0&-1\\2&-1&1\\-1&2&-5\end{pmatrix}\\$,若下三角可逆矩阵P和上三角可逆矩阵Q,使得PAQ为对角矩阵,则P,Q可以分别取() {{ select(8) }}
- $\begin{pmatrix}1&0&0\\0&1&0\\0&0&1\end{pmatrix},\begin{pmatrix}1&0&1\\0&1&3\\0&0&1\end{pmatrix}$
- $\begin{pmatrix}1&0&0\\2&-1&0\\-3&2&1\end{pmatrix},\begin{pmatrix}1&0&0\\0&1&0\\0&0&1\end{pmatrix}$
- $\begin{pmatrix}1&0&0\\0&1&0\\1&3&1\end{pmatrix},\begin{pmatrix}1&2&-3\\0&-1&2\\0&0&1\end{pmatrix}$
- $\begin{pmatrix}1&0&0\\2&-1&0\\-3&2&1\end{pmatrix},\begin{pmatrix}1&0&1\\0&1&3\\0&0&1\end{pmatrix}$
9、给定以下6个二维数据点及其类别,其坐标表示为(x,y),类别标签用[+]表示正类,[−]表示负类:
A(0,0)[+],B(1,0)[+],C(0,1)[−],D(3,3)[−],E(4,5)[−],F(3,4)[−]
使用4-近邻算法(4-NN)和欧氏距离对样本G(2,2)进行分类预测。若采用多数投票法,则其预测类别是什么?
{{ select(9) }}
- 预测为负类(−)
- 正类(+)与负类(−)各2票,无法形成多数
- 预测为正类(+)
- 所有4个邻居到G的距离相等,必须使用加权投票
10、令{xi:i=0,…,n}是[a,b]中的任意(n + 1)个不同点,且f∈C[a,b]。那么,存在唯一个次数不超过n的插值多项式pn,请选择下述正确的表达式,其中ω(x)=(x−x0)⋯(x−xn)。
{{ select(10) }}
- $p_n(x) = \sum_{i = 0}^n y_i \frac{\omega(x)}{(x - x_i)\omega(x_i)}$
- $p_n(x) = \sum_{i = 0}^n y_i \frac{\omega(x)}{(x - x_i)\omega(x)}$
- $p_n(x) = \sum_{i = 0}^n y_i \frac{\omega(x)}{(x - x_i)\omega'(x_i)}$
- $p_n(x) = \sum_{i = 0}^n y_i \frac{\omega(x)}{(x - x_i)\omega'(x)}$
11、设 $A = \begin{pmatrix} -11 & 4 \\ -30 & 11 \end{pmatrix}$, 则 (A+E)(E−A+A2−A3+A4−A5+A6)=()
注:E 为单位矩阵
{{ select(11) }}
- $A = \begin{pmatrix} 12 & 4 \\ 30 & 10 \end{pmatrix}$
- $A = \begin{pmatrix} -12 & 4 \\ -30 & 10 \end{pmatrix}$
- $A = \begin{pmatrix} 10 & 4 \\ 30 & 12 \end{pmatrix}$
- $A = \begin{pmatrix} -10 & 4 \\ -30 & 12 \end{pmatrix}$
12、某电商公司构建推荐系统时,需对用户的 “月均消费金额” 特征进行预处理。该特征通常呈现严重右偏(即多数用户消费较低,少数用户消费极高)。考虑一个模拟的用户月均消费数据集,取值分别为(单位:元)[9,99,999,9999],整体分布右偏。为改善特征分布的对称性(即降低偏度),数据科学家考虑以下三种变换方式:
变换 1:最小 - 最大缩放(Min-Max Scaling)
x′=xmax−xminx−xmin
变换 2:Z-score 标准化(Z-score Standardization)
x′=σx−μ
变换 3:对数变换(Log Transformation)
x′=log10(x+1)
下列哪一种变换后的数据分布最对称(即偏度最小)?
{{ select(12) }}
- 变换 1
- 变换 3
- 变换 2
- 三种变换对称性相同
13、已知变量 X 和 Y 的两组数据分布如下:
组A:(1,20)、(2,18)、(3,16)、(4,14)、(5,12)、(6,10)、(7,8)、(8,6)、(9,4)、(10,2)
组B:组A所有数据 + 额外数据点 (11,20)
若两组数据的相关系数分别为 r1(组A)和 r2(组B),则下列关系正确的是( )
{{ select(13) }}
- 0>r1>r2
- r1>r2>0
- 0>r2>r1
- r1>r2>0
14、在一个基于 Transformer 的大型语言模型中,Tokenizer(如 BPE 分词器)和 Embedding 层是处理输入文本的最初两个步骤。关于这两个组件的功能和关系,以下哪个描述最为精确? {{ select(14) }}
- Tokenizer 负责将文本分割成有意义的语义单元(tokens),而 Embedding 层则进一步将考虑不同 Token 之间的关联并将 Token 间的语义关系编码到高维空间中。
- Tokenizer 是一个基于固定规则或统计学习得到的、独立于下游模型的词汇映射系统;而 Embedding 层是一个包含可训练参数的神经网络层,其参数会在模型训练过程中不断优化。
- Tokenizer 的唯一目的是压缩文本以减少计算量,而 Embedding 层则负责将压缩后的 ID 恢复成密集的向量表示。
- Tokenizer 和 Embedding 层共同决定了模型的词汇量大小,并且在模型训练完成后,两者都可以被轻易替换以适应新的语言或领域。
15、如图所示的超平面 Ax=b 到圆心距离等价于欠定方程组 Ax=b 的最小范数解。
**问题如下:已知线性方程组 y=Ax 中,A∈Rm×n 是行满秩的胖矩阵(即 m<n),其解集为 {xp+z∣z∈N(A)} (xp 为特解,N(A) 为 A 的零空间)。 **
若要在解集中找到二范数最小的解,该解为:
{{ select(15) }}
- x=(ATA)−1y
- x=(ATA)−1ATy
- x=ATy
- x=AT(AAT)−1y
二、多选题
16、最大池化 (Max Pooling) 在卷积神经网络中是一种常见的下采样操作,该操作的主要优点包括 {{ multiselect(16) }}
- 能提供一定程度的平移不变性,使模型对输入的小变化不敏感
- 能精准保留输入特征的空间位置信息
- 能够有效抑制图像中的噪声
- 能保留图像中局部极值,用于提取显著的特征(如纹理、边缘)
- 能够显著减少特征图的空间维度和后续计算量
17、回归任务中可用的评估指标有? {{ multiselect(17) }}
- 均方误差(MSE)
- 均方根误差(RMSE)
- 平均绝对误差(MAE)
- R2 分数
18、在度量文本嵌入的相似度时,适合的处理方式包括哪些? {{ multiselect(18) }}
- 应用 PCA 降维
- 使用曼哈顿距离
- 使用点积并归一化
- 计算余弦相似度
19、对实矩阵 X∈Rm×d 的奇异值分解 X=UΣVT,下列说法正确的是: {{ multiselect(19) }}
- Σ 的对角元素按非递增顺序排列
- Σ 的非零奇异值等于 XXT 的非零特征值的平方根
- rank(X) 等于 Σ 的非零对角元素个数
- U,V 均为正交矩阵
- U 的前 r(=col(X)) 列向量给出了一组 X 列空间的正交基
20、以下模型与结构匹配正确的是 {{ multiselect(20) }}
- T5 → Encoder-Decoder
- BART → Encoder-Decoder
- BERT → Decoder-only
- GPT-4 → Decoder-only