#P4904. 第1题-选择题
-
Tried: 57
Accepted: 1
Difficulty: 5
所属公司 :
华为
时间 :2026年5月9日-AI方向
第1题-选择题
T1
答案: B. 特征空间中的超平面 wTx+b=0
解析: 逻辑回归用 sigmoid 输出概率,但分类边界对应 wTx+b=0。
T2
答案: B. 局部内存(Local Memory,由全局内存物理支持) 解析: 寄存器溢出后变量会被放到 local memory,物理上通常位于 global memory。
1、逻辑回归的决策边界是:
{{ select(1) }}
-
一条 S 形曲线
-
特征空间中的超平面 wTx+b=0
-
以原点为圆心的超球面
-
由核函数决定的非线性曲面
2、当CUDA内核因寄存器压力过大导致寄存器溢出时,溢出的数据会被存储到哪种内存中?
{{ select(2) }}
-
L1缓存
-
局部内存(Local Memory,由全局内存物理支持)
-
常量内存
-
共享内存
3、采用固定页管理KV-Cache(页大小固定)在显存碎片严重的场景下,最直接的好处是:
{{ select(3) }}
-
减少小对象频繁分配导致的碎片与分配开销
-
减少碎片对不齐,提高数值精度
-
降低显存访问的带宽压力(通过页对齐减少随机小块访问)
-
降低小对象的内存访问延迟(通过页内局部性优化)
4、在长文本生成模型中,关于温度(Temperature)系数下面说法正确的是?
{{ select(4) }}
-
初始温度T=0.4,随长度递增逐渐增至0.8
-
保持温度T=0.8,保证变化量一致
-
初始温度T=0.8,随长度递增逐渐降至0.4
-
每1000 Token随机设置温度T
5、关于Decoder-only,下列哪一项说法是错误的?
{{ select(5) }}
-
常用于文本续写和对话生成
-
输入提示和输出文本常被组织为同一连续序列
-
必须包含独立编码器才能生成输出
-
常见训练思路是根据已有上下文继续预测后续 token
6、在 PPO 中使用截断代理目标函数(clipped surrogate objective)的主要目的是什么?
{{ select(6) }}
-
使策略梯度估计保持无偏性
-
消除价值函数估计带来的偏差
-
保证每次策略更新都严格满足 KL 散度约束
-
限制策略更新幅度,防止因更新过大导致训练不稳定
7、关于Prompt Tuning(或Prefix Tuning)的描述,正确的是?
{{ select(7) }}
-
微调整个预训练模型的全部参数
-
对模型进行知识蒸馏
-
完全冻结模型参数,仅调整输出层
-
在输入前添加可学习的连续向量,仅更新这些向量的参数
8、梯度爆炸问题通常与权重矩阵的什么性质相关?
{{ select(8) }}
-
特征值过大
-
行列式为0
-
秩为1
-
非对称性
9、设样本X1,X2,Xn来自二项分布B(m,p)(m已知,p未知),则p的最大似然估计值为()
{{ select(9) }}
-
S2/m
-
Xˉ
-
Xˉ/m
-
S2
10、标准的自注意力机制存在一个著名的计算瓶颈:其时间和空间复杂度都是O(N2),其中N为序列长度。假设我们在显存中需要分配连续空间来存储某个Attention Head 的N×N注意力打分矩阵。如果我们希望将模型的上下文窗口从标准的4096(4K)暴力扩展到32768(32K),在保持批次大小(Batch Size)和其他维度不变的情况下,仅该打分矩阵所占用的显存理论上会膨胀多少倍?
{{ select(10) }}
-
512倍
-
64倍
-
8倍
-
16倍
11、在Transformer的标准缩放点积注意力(Scaled Dot-Product Attention)中,为什么要除以 dk(dk 为键向量的维度)? {{ select(11) }}
- 降低计算复杂度
- 避免点积结果过大导致 Softmax 进入饱和区,梯度极小
- 对查询和键向量的模长进行归一化
- 防止梯度消失,使训练更加稳定
12、在编写底层降维算法时,清楚矩阵维度的变化至关重要。假设我们有一个包含 N 个样本、每个样本具有 D 维特征的数据集,将其表示为中心化后的矩阵X∈RN×D。我们使用 PCA 将其降至 K 维(其中K<D),得到了投影矩阵W∈RD×K。降维后的特征矩阵记为 Z。随后,我们尝试将 Z 重构回原始特征空间,得到重构矩阵X^。请问,重构矩阵X^的维度大小是多少? {{ select(12) }}
- N×K
- N×D
- D×D
- K×D
13、某电商平台系统对用户停留在某商品页面的时长(分钟)进行分析,使用逻辑回归判断其是否为该商品的潜在用户,已知回归斜率是1.5,截距是-15,回归模型中使用sigmoid函数(1+e−x1),如果某用户停留时长是10分钟,那么他是潜在用户的概率是多少?
{{ select(13) }}
-
0.4
-
0.5
-
1
-
0.9
14、某模型经过 SFT 后,出现了 "过度道歉" 现象(如频繁说 "抱歉,作为一个 AI 助手...")。最可能的原因是什么?
{{ select(14) }}
-
训练时使用了混合精度(FP16),导致数值精度损失
-
SFT 的学习率设置过高,导致模型参数更新过度
-
模型的参数量太小,无法承载复杂的指令遵循能力
-
训练数据中包含大量安全审核后的样本,模型学习到了保守的回答风格
15、贝叶斯网络中,链式结构A→B→C,在B已被观测(给定)时,A与C的关系是?
{{ select(15) }}
-
A与C完全相关
-
A与C条件独立(给定B)
-
A与C边缘独立
-
A与C的关系与B是否被观测无关
16、关于KV缓存机制在大模型推理中的作用,以下说法正确的有
{{ multiselect(16) }}
- 使用KV缓存后,自注意力计算复杂度从O(n3)降低到O(n2)
- KV缓存存储的是历史token的Key和Value向量
- Query向量不会被缓存,因为每个新token的Query需要重新计算
- KV缓存的大小与序列长度、批大小、层数、头数成正比
17、对于数据集{3, 4, 5, 3, 8, 7},以下描述正确的是?
{{ multiselect(17) }}
-
中位数=4
-
方差=11/3
-
平均数=5
-
众数=3
18、在构建工业级大规模机器学习管道(Machine Learning Pipeline)时,关于特征处理与选择的深层逻辑,下列说法中正确的有
{{ multiselect(18) }}
- 嵌入式方法(Embedded Methods)如Lasso回归,其特征选择过程是在模型训练的损失函数中通过L1正则项实现的。与其相比,过滤式方法(Filter Methods)完全不考虑特征间的组合效应(Interaction)
- 在使用PCA(主成分分析)进行降维前,必须先进行Standardization(标准化)。这是因为PCA寻找的是最大方差方向,若不缩放,方差绝对值大的特征会改变成分,导致投影方向偏向量纲大的变量
- Permutation Importance(排列重要性)在处理具有**强相关性(Collinear)**的特征组时,往往会低估其中单个特征的重要性。这是因为当一个特征被"洗牌"后,模型仍能从其相关的冗余特征中获取大部分信息,导致性能下降不明显
- 特征哈希(Feature Hashing/Hashing Trick)虽然能有效处理高基数(High Cardinality)类别特征并固定特征维度,但其代价是会产生哈希冲突(Collision),这在数学本质上相当于给特征引入了不可控的加性噪声
19、在 INT8 量化部署中,以下哪些因素会影响量化后模型的精度?
{{ multiselect(19) }}
- 校准集分布是否接近真实数据
- 激活范围统计是否稳定
- 是否存在离群值导致 scale 不合理
- 是否使用了浮点数进行训练
20、关于模型推理中Prefill和Decode阶段的区别,下列说法正确的有( )
{{ multiselect(20) }}
-
计算并缓存KVCache,Decode阶段复用KVCache,仅新增计算当前token的K/V
-
一次性处理所有输入token,Decode阶段逐token处理
-
仅存在于生成式模型推理,Decode阶段存在于所有模型推理
-
耗时与输入token数量正相关,Decode阶段耗时与生成token数量正相关