#P4570. 第1题-选择题
-
Tried: 14
Accepted: 0
Difficulty: 5
所属公司 :
华为
时间 :2026年3月4日-AI方向
-
算法标签>选择题
第1题-选择题
题目与答案整理
T1
答案:D. 自注意力机制
解析: Transformer模型完全依赖于自注意力机制来建模序列中任意位置之间的依赖关系,这是其区别于CNN、RNN等传统序列模型的核心创新。
T2
答案:A. 插值函数在节点处二阶导数不连续
解析: 三次样条插值要求插值函数在节点处一阶和二阶导数连续,以保证光滑性,因此选项A错误。其他选项正确描述了三次样条的分段三次多项式形式、插值条件以及避免Runge现象的优点。
T3
答案:A. 时间序列预测
解析: RNN通过循环连接保留历史信息,能够有效处理具有时序依赖的序列数据,如时间序列预测。前馈神经网络无法直接建模序列的时间动态特性。
T4
答案:A. 一般情况下,精确率和召回率是相互矛盾的指标
解析: 精确率与召回率通常存在权衡,提高一方往往导致另一方下降。精确率关注预测为正的样本中实际为正的比例,而召回率关注实际为正的样本中被正确预测的比例,两者定义不同且受分类阈值影响。
T5
答案:D. P(X≥1)≤E[X]
解析: 对于非负整数值随机变量X,由期望定义有 E[X]=∑k=1∞P(X≥k)≥P(X≥1),故不等式成立。
T6
答案:A. AUC
解析: AUC衡量模型在不同阈值下的整体排序能力,基于真正例率与假正例率,两者均不受类别先验分布影响,因此对类别不平衡最不敏感。其他指标如准确率、召回率和精确率在类别不平衡时易产生误导。
T7
答案:A. Random Forest
解析: 随机森林(Random Forest)是一种典型的Bagging算法,它通过自助采样构建多个决策树并进行投票,以降低模型方差、提高泛化能力。GBDT属于Boosting算法,而决策树和线性回归是基学习器,不属于集成方法。
T8
答案:D. 2
解析: 计算样本协方差矩阵,特征x和y的样本方差均为1(离差平方和除以n-1),协方差矩阵迹为两方差之和,即2。
T9
答案:A. 必须依赖标注数据
解析: 预训练(如BERT的MLM)属于自监督学习,其训练信号(如被遮蔽的单词)直接从无标注文本中构造,无需人工标注。其目标是让模型通过上下文预测来学习语言的通用表示。
T10
答案:C. 收敛方式
解析: 强大数律(SLLN)要求样本均值以概率1(几乎必然)收敛于期望,而弱大数律(WLLN)只要求依概率收敛,两者核心差异在于收敛的强度。
T11
答案:B. 包裹法(Wrapper Method)应用交叉验证评估候选特征子集性能,计算成本高但能有效减少过拟合风险
解析: 包裹法通过交叉验证评估特征子集的泛化性能,计算开销大但能选择出提升模型性能的特征组合,从而降低过拟合风险。其他选项对过滤法、嵌入法和方差阈值法的描述均有错误。
T12
答案:D. O(h2)
解析: 中心差分公式的截断误差由泰勒展开推导得出,其主要项与 h2 成正比,因此误差阶数为 O(h2)。
T13
答案:A. [0, 8, 0, 2]
解析: ReLU激活函数定义为 f(x)=max(0,x),会将负数置零而正数保留。选项A中均为非负数,且符合ReLU的输出特性,而其他选项包含负数或长度不匹配,因此A最可能为正确输出。
T14
答案:B. 当模型规模(参数量、训练数据量)达到某个阈值时突然展现的小模型不具备或表现不佳的能力
解析: 涌现能力指模型在参数量、数据等规模超过临界点后,突然产生的复杂新能力(如推理、泛化),并非线性增长或人为设计的结果。
T15
答案:D. PPO(Proximal Policy Optimization)
解析: RLHF在获得奖励模型后,第三阶段通常使用PPO算法优化策略模型,以最大化奖励得分并保持训练稳定性。SFT是前期监督微调,奖励模型是第二阶段,DQN不适用于此类连续动作空间优化。
T16
答案:B、D
- B. Progressive Distillation(渐进式蒸馏)
- D. Consistency Models(一致性模型)
解析: 渐进式蒸馏(B)通过知识蒸馏将多步扩散模型压缩为少步模型;一致性模型(D)通过学习从任意噪声到数据的确定性映射,直接实现一步生成。DDIM逆过程(A)用于编辑而非加速生成,无条件引导(C)控制生成质量而非减少步数。
T17
答案:A、C、D
解析:
- A 正确。计算softmax时先减去输入向量的最大值,即 xi−max(x),可确保指数运算输入为负值或零,防止数值溢出,并且不改变softmax的输出结果。
- B 错误。LayerNorm中的仿射变换参数(γ,β)是为了让模型有能力恢复或调整归一化后的数据分布,而不是严格保持为标准正态分布,这增加了模型的表达能力。
- C 正确。嵌入层的参数量为 V×dmodel,对于给定的例子,64000×512=32,768,000,其量级约为3.2千万。
- D 正确。自注意力的计算复杂度为 O(N2d),而FFN的计算复杂度为 O(Nd2)。因此,当 N≫d 时,N2 项主导计算;当 d≫N 时,d2 项主导计算。
T18
答案:A、B、C、D
解析: 这四项均为神经网络中的基础与核心模块。批归一化用于稳定训练,全连接层是基本结构,注意力机制处理序列依赖,卷积层提取空间特征。
T19
答案:B、D
- B. 选择适当的松弛因子
- D. 改进迭代初始值
解析: 选择合适的松弛因子(如SOR方法)可优化迭代矩阵的谱半径,加速收敛。改进初始值可减少达到精度所需的迭代次数。稀疏存储和增加计算精度不影响迭代法的固有收敛性。
T20
答案:A、B
- A. (A−B)∩(A−C)=A−(B∪C)
- B. A∪B−B=A−B
解析: A项为集合运算的德摩根律形式,恒成立。B项左右均等于 A∩Bc。C、D项在一般情况下不成立。
一、单选题
1、Transformer模型的核心机制是? {{ select(1) }}
- 线性回归
- 卷积神经网络
- 循环神经网络
- 自注意力机制
2、关于三次样条插值的描述,错误的是: {{ select(2) }}
- 插值函数在节点处二阶导数不连续
- 在每个子区间上用三次多项式逼近函数
- 插值函数通过所有给定数据点
- 相比高次多项式插值,三次样条能避免Runge现象
3、循环神经网络(RNN)相比前馈神经网络更适合处理以下哪种任务: {{ select(3) }}
- 时间序列预测
- 高维数据降维
- 图像分类
- 文本分类
4、在模型评估中,精确率(Precision)与召回率(Recall)的关系是? {{ select(4) }}
- 一般情况下,精确率和召回率是相互矛盾的指标
- 精确率越高,召回率一定越高
- 精确率衡量真正例的比例,召回率衡量预测为正例的样本中实际为正的比例
- 精确率和召回率均与阈值无关
5、设X是非负整数的随机变量,则P(X≥1)与E[X]满足 {{ select(5) }}
- P(X≥1)=E[X]
- P(X≥1)≥E[X]
- 无必然关系
- P(X≥1)≤E[X]
6、在分类模型评估中,以下哪项指标对类别不平衡最不敏感? {{ select(6) }}
- AUC
- Accuracy
- Recall
- Precision
7、集成学习通过组合多个学习器来提升整体模型性能,Bagging类算法属于集成学习的一种,通过学习多个训练器,采用投票的方式降低模型方差,以下属于Bagging类算法的是 {{ select(7) }}
- Random Forest
- GBDT
- Decision Tree
- Linear Regression
8、给定二维数据集,包含三个样本 {(0,0), (1,1), (2,2)},求其协方差矩阵的迹(Trace) {{ select(8) }}
- 2/3
- 0
- 4/3
- 2
9、关于预训练的目标,错误的是 {{ select(8) }}
- 必须依赖标注数据
- 主要使用交叉熵损失函数
- 通过无监督学习捕捉语言统计规律
- 模型需学习上下文表示能力
10、强大数律(SLLN)与弱大数律(WLLN)的关键差别在于: {{ select(10) }}
- 随机变量是否独立
- 样本容量
- 收敛方式
- 矩条件
11、在机器学习中特征选择过程中,下列关于常用方法的说法正确的是 {{ select(11) }}
- 过滤法(Filter Method)依据已训练模型的特征重要性进行特征筛选。因此可降低模型复杂度。
- 包裹法(Wrapper Method)应用交叉验证评估候选特征子集性能,计算成本高但能有效减少过拟合风险。
- 嵌入法(Embedded Method)在模型训练前计算特征与目标的相关系数,独立于模型进行选择。
- 方差阈值法(Variance Threshold)通过保留方差较低特征,增强模型对噪声的鲁棒性,防止过拟合。
12、已知函数 f(x),用中心差分近似导数 f′(x),公式为 f′(x)≈2hf(x+h)−f(x−h),请向近似导数的误差分析原因。 {{ select(12) }}
- O(h)
- O(hlogh)
- O(h3)
- O(h2)
13、假设输入组 a=[0,1,2,3],则以下ReLU激活函数后,输出向量为: {{ select(13) }}
- [0,8,0,2]
- [0,8,−1,2,2,1]
- [0,186,0,050,0,764]
- [0,−1,2,0]
14、大模型中的“涌现能力”(Emergent Abilities)是指? {{ select(14) }}
- 模型参数减少到一定程度后出现的新能力
- 当模型规模(参数量、训练数据量)达到某个阈值时突然展现的小模型不具备或表现不佳的能力
- 需要人工手动添加的专项功能
- 只能通过特定硬件才能实现的加速能力
15、RLHF阶段使用的典型算法是 {{ select(15) }}
- 监督式微调(SFT)
- 最大化人类偏好得分
- DQN (Deep Q-Network)
- PPO (Proximal Policy Optimization)
二、多选题
16、在扩散模型推理中,以下哪些技术被用于一步/少步生成? {{ multiselect(16) }}
- DDIM inversion(DDIM逆过程)
- Progressive Distillation(渐进式蒸馏)
- condition-free guidance(无条件引导)
- Consistency Models(一致性模型)
17、一位深度学习工程师正在分析一个标准Transformer模型的性能瓶颈和训练动态。在深入研究其基础运算单元时,得出了以下几个结论,请判断哪些结论 {{ multiselect(17) }}
- 在计算softmax时,为了防止因输入值过大导致exp()函数结果溢出,一个标准的实现技巧是先从所有输入值中减去它们的最大值,这个操作在数学上是等价的,且能有效提升的领域包括
- 在LayerNorm中,可学习的仿射变换参数gamma(增益)和beta(偏置)的主要作用是严格维持归一化后的数据分布为标准正态分布(均值为0,方差为1),从而加速模型收敛。
- 采用子词(subword)分词的Tokenizer,其词汇表大小(V)直接决定了模型输入端嵌入层(Embedding Layer)的参数量。一个拥有64000个词元的词汇表和一个512维的d_model,其嵌入层的参数数量级约为3200万。
- 当序列长度N远大于模型的隐藏维度d_model时(例如在处理长文档时),自注意力机制中与N^2相关的计算会成为主要的计算瓶颈;反之,当N较小时,前馈网络(FFN)的计算量通常会占据主导地位。
18、下列哪些属于常用的神经网络模块
{{ multiselect(18) }}
- Batch Norm
- 全连接层
- Attention
- 卷积层
19. 以下哪些措施可以提高迭代法的收敛性?
{{ multiselect(19) }}
- 使用稀疏矩阵存储
- 选择适当的松弛因子
- 增加计算精度
- 改进迭代初始值
20、设A、B、C为三个事件,则下面的等式中正确的是
{{ multiselect(20) }}
- (A−B)∩(A−C)=A−(B∪C)
- A∪B−B=A−B
- (A∪B)−C=A∪(B−C)
- (A−B)∪B=A