第1题-选择题

会员专享

请先登录，登录后可使用今日免费解锁；开通会员，或购买该题目所属题库（华为校招机考题库），可解锁完整内容。

购买题库开通会员

T1

答案： B. 特征空间中的超平面 $w^T x+b=0$
解析： 逻辑回归用 $sigmoid$ 输出概率，但分类边界对应 $w^T x+b=0$ 。

T2

答案： B. 局部内存（Local Memory，由全局内存物理支持） 解析： 寄存器溢出后变量会被放到 local memory，物理上通常位于 global memory。

1、逻辑回归的决策边界是：

一条 S 形曲线
特征空间中的超平面 $w^T x+b=0$
以原点为圆心的超球面
由核函数决定的非线性曲面

2、当CUDA内核因寄存器压力过大导致寄存器溢出时，溢出的数据会被存储到哪种内存中？

L1缓存
局部内存（Local Memory，由全局内存物理支持）
常量内存
共享内存

3、采用固定页管理KV-Cache（页大小固定）在显存碎片严重的场景下，最直接的好处是：

减少小对象频繁分配导致的碎片与分配开销
减少碎片对不齐，提高数值精度
降低显存访问的带宽压力（通过页对齐减少随机小块访问）
降低小对象的内存访问延迟（通过页内局部性优化）

4、在长文本生成模型中，关于温度（Temperature）系数下面说法正确的是？

初始温度 $T=0.4$ ，随长度递增逐渐增至 $0.8$
保持温度 $T=0.8$ ，保证变化量一致
初始温度 $T=0.8$ ，随长度递增逐渐降至 $0.4$
每1000 Token随机设置温度 $T$

5、关于Decoder-only，下列哪一项说法是错误的？

常用于文本续写和对话生成
输入提示和输出文本常被组织为同一连续序列
必须包含独立编码器才能生成输出
常见训练思路是根据已有上下文继续预测后续 token

6、在 PPO 中使用截断代理目标函数（clipped surrogate objective）的主要目的是什么？

使策略梯度估计保持无偏性
消除价值函数估计带来的偏差
保证每次策略更新都严格满足 KL 散度约束
限制策略更新幅度，防止因更新过大导致训练不稳定

7、关于Prompt Tuning（或Prefix Tuning）的描述，正确的是？

微调整个预训练模型的全部参数
对模型进行知识蒸馏
完全冻结模型参数，仅调整输出层
在输入前添加可学习的连续向量，仅更新这些向量的参数

8、梯度爆炸问题通常与权重矩阵的什么性质相关？

特征值过大
行列式为0
秩为1
非对称性

9、设样本 $X_1,X_2,X_n$ 来自二项分布 $B(m,p)$ （ $m$ 已知， $p$ 未知），则 $p$ 的最大似然估计值为（）

$S^2/m$
$\bar{X}$
$\bar{X}/m$
$S^2$

10、标准的自注意力机制存在一个著名的计算瓶颈：其时间和空间复杂度都是 $O(N^2)$ ，其中 $N$ 为序列长度。假设我们在显存中需要分配连续空间来存储某个Attention Head 的 $N \times N$ 注意力打分矩阵。如果我们希望将模型的上下文窗口从标准的4096（4K）暴力扩展到32768（32K），在保持批次大小（Batch Size）和其他维度不变的情况下，仅该打分矩阵所占用的显存理论上会膨胀多少倍？

512倍
64倍
8倍
16倍

11、在Transformer的标准缩放点积注意力（Scaled Dot-Product Attention）中，为什么要除以 $\sqrt{d_k}$ （ $d_k$ 为键向量的维度）？ {{ select(11) }}

降低计算复杂度
避免点积结果过大导致 Softmax 进入饱和区，梯度极小
对查询和键向量的模长进行归一化
防止梯度消失，使训练更加稳定

12、在编写底层降维算法时，清楚矩阵维度的变化至关重要。假设我们有一个包含 N 个样本、每个样本具有 D 维特征的数据集，将其表示为中心化后的矩阵 $X\in \mathbb{R}^{N\times D}$ 。我们使用 PCA 将其降至 K 维（其中 $K < D$ ），得到了投影矩阵 $W\in \mathbb{R}^{D\times K}$ 。降维后的特征矩阵记为 Z。随后，我们尝试将 Z 重构回原始特征空间，得到重构矩阵 $\hat{X}$ 。请问，重构矩阵 $\hat{X}$ 的维度大小是多少？ {{ select(12) }}

$N\times K$
$N\times D$
$D\times D$
$K\times D$

13、某电商平台系统对用户停留在某商品页面的时长（分钟）进行分析，使用逻辑回归判断其是否为该商品的潜在用户，已知回归斜率是1.5，截距是-15，回归模型中使用sigmoid函数（ $\frac{1}{1+e^{-x}}$ ），如果某用户停留时长是10分钟，那么他是潜在用户的概率是多少？

0.4
0.5
1
0.9

14、某模型经过 SFT 后，出现了 "过度道歉" 现象（如频繁说 "抱歉，作为一个 AI 助手..."）。最可能的原因是什么？

训练时使用了混合精度（FP16），导致数值精度损失
SFT 的学习率设置过高，导致模型参数更新过度
模型的参数量太小，无法承载复杂的指令遵循能力
训练数据中包含大量安全审核后的样本，模型学习到了保守的回答风格

15、贝叶斯网络中，链式结构A→B→C，在B已被观测（给定）时，A与C的关系是？

A与C完全相关
A与C条件独立（给定B）
A与C边缘独立
A与C的关系与B是否被观测无关

16、关于KV缓存机制在大模型推理中的作用，以下说法正确的有

使用KV缓存后，自注意力计算复杂度从 $O(n^3)$ 降低到 $O(n^2)$
KV缓存存储的是历史token的Key和Value向量
Query向量不会被缓存，因为每个新token的Query需要重新计算
KV缓存的大小与序列长度、批大小、层数、头数成正比

17、对于数据集{3, 4, 5, 3, 8, 7}，以下描述正确的是？

中位数 $=4$
方差 $=11/3$
平均数 $=5$
众数 $=3$

18、在构建工业级大规模机器学习管道（Machine Learning Pipeline）时，关于特征处理与选择的深层逻辑，下列说法中正确的有

嵌入式方法（Embedded Methods）如Lasso回归，其特征选择过程是在模型训练的损失函数中通过 $L_1$ 正则项实现的。与其相比，过滤式方法（Filter Methods）完全不考虑特征间的组合效应（Interaction）
在使用PCA（主成分分析）进行降维前，必须先进行Standardization（标准化）。这是因为PCA寻找的是最大方差方向，若不缩放，方差绝对值大的特征会改变成分，导致投影方向偏向量纲大的变量
Permutation Importance（排列重要性）在处理具有**强相关性（Collinear）**的特征组时，往往会低估其中单个特征的重要性。这是因为当一个特征被"洗牌"后，模型仍能从其相关的冗余特征中获取大部分信息，导致性能下降不明显
特征哈希（Feature Hashing/Hashing Trick）虽然能有效处理高基数（High Cardinality）类别特征并固定特征维度，但其代价是会产生哈希冲突（Collision），这在数学本质上相当于给特征引入了不可控的加性噪声

19、在 INT8 量化部署中，以下哪些因素会影响量化后模型的精度？

校准集分布是否接近真实数据
激活范围统计是否稳定
是否存在离群值导致 scale 不合理
是否使用了浮点数进行训练

20、关于模型推理中Prefill和Decode阶段的区别，下列说法正确的有（）

计算并缓存KVCache，Decode阶段复用KVCache，仅新增计算当前token的K/V
一次性处理所有输入token，Decode阶段逐token处理
仅存在于生成式模型推理，Decode阶段存在于所有模型推理
耗时与输入token数量正相关，Decode阶段耗时与生成token数量正相关

请从“运行结果”或“历史提交”选择一条记录

选择提交后开始分析

#P4904. 第1题-选择题

T1

T2

Status

Development

Support

About