题目与答案整理
T1
答案:D. 自注意力机制
解析: Transformer模型完全依赖于自注意力机制来建模序列中任意位置之间的依赖关系,这是其区别于CNN、RNN等传统序列模型的核心创新。
T2
答案:A. 插值函数在节点处二阶导数不连续
解析: 三次样条插值要求插值函数在节点处一阶和二阶导数连续,以保证光滑性,因此选项A错误。其他选项正确描述了三次样条的分段三次多项式形式、插值条件以及避免Runge现象的优点。
一、单选题
1、Transformer模型的核心机制是?
{{ select(1) }}
- 线性回归
- 卷积神经网络
- 循环神经网络
- 自注意力机制
2、关于三次样条插值的描述,错误的是:
{{ select(2) }}
- 插值函数在节点处二阶导数不连续
- 在每个子区间上用三次多项式逼近函数
- 插值函数通过所有给定数据点
- 相比高次多项式插值,三次样条能避免Runge现象
3、循环神经网络(RNN)相比前馈神经网络更适合处理以下哪种任务:
{{ select(3) }}
4、在模型评估中,精确率(Precision)与召回率(Recall)的关系是?
{{ select(4) }}
- 一般情况下,精确率和召回率是相互矛盾的指标
- 精确率越高,召回率一定越高
- 精确率衡量真正例的比例,召回率衡量预测为正例的样本中实际为正的比例
- 精确率和召回率均与阈值无关
5、设X是非负整数的随机变量,则P(X≥1)与E[X]满足
{{ select(5) }}
- P(X≥1)=E[X]
- P(X≥1)≥E[X]
- 无必然关系
- P(X≥1)≤E[X]
6、在分类模型评估中,以下哪项指标对类别不平衡最不敏感?
{{ select(6) }}
- AUC
- Accuracy
- Recall
- Precision
7、集成学习通过组合多个学习器来提升整体模型性能,Bagging类算法属于集成学习的一种,通过学习多个训练器,采用投票的方式降低模型方差,以下属于Bagging类算法的是
{{ select(7) }}
- Random Forest
- GBDT
- Decision Tree
- Linear Regression
8、给定二维数据集,包含三个样本 {(0,0), (1,1), (2,2)},求其协方差矩阵的迹(Trace)
{{ select(8) }}
9、关于预训练的目标,错误的是
{{ select(9) }}
- 必须依赖标注数据
- 主要使用交叉熵损失函数
- 通过无监督学习捕捉语言统计规律
- 模型需学习上下文表示能力
10、强大数律(SLLN)与弱大数律(WLLN)的关键差别在于:
{{ select(10) }}
11、在机器学习中特征选择过程中,下列关于常用方法的说法正确的是
{{ select(11) }}
- 过滤法(Filter Method)依据已训练模型的特征重要性进行特征筛选。因此可降低模型复杂度。
- 包裹法(Wrapper Method)应用交叉验证评估候选特征子集性能,计算成本高但能有效减少过拟合风险。
- 嵌入法(Embedded Method)在模型训练前计算特征与目标的相关系数,独立于模型进行选择。
- 方差阈值法(Variance Threshold)通过保留方差较低特征,增强模型对噪声的鲁棒性,防止过拟合。
12、已知函数 f(x),用中心差分近似导数 f′(x),公式为 f′(x)≈2hf(x+h)−f(x−h),请向近似导数的误差分析原因。
{{ select(12) }}
- O(h)
- O(hlogh)
- O(h3)
- O(h2)
13、假设输入组 a=[0.5,−1.2,2.1],则以下ReLU激活函数后,输出向量为:
{{ select(13) }}
- [0.5,0,2.1]
- [0.5,−1.2,2.1]
- [0.186,0.050,0.764]
- [0,−1.2,0]
14、大模型中的“涌现能力”(Emergent Abilities)是指?
{{ select(14) }}
- 模型参数减少到一定程度后出现的新能力
- 当模型规模(参数量、训练数据量)达到某个阈值时突然展现的小模型不具备或表现不佳的能力
- 需要人工手动添加的专项功能
- 只能通过特定硬件才能实现的加速能力
15、RLHF阶段使用的典型算法是
{{ select(15) }}
- 监督式微调(SFT)
- 最大化人类偏好得分
- DQN (Deep Q-Network)
- PPO (Proximal Policy Optimization)
二、多选题
16、在扩散模型推理中,以下哪些技术被用于一步/少步生成?
{{ multiselect(16) }}
- DDIM inversion(DDIM逆过程)
- Progressive Distillation(渐进式蒸馏)
- condition-free guidance(无条件引导)
- Consistency Models(一致性模型)
17、一位深度学习工程师正在分析一个标准Transformer模型的性能瓶颈和训练动态。在深入研究其基础运算单元时,得出了以下几个结论,请判断哪些结论
{{ multiselect(17) }}
- 在计算softmax时,为了防止因输入值过大导致exp()函数结果溢出,一个标准的实现技巧是先从所有输入值中减去它们的最大值,这个操作在数学上是等价的,且能有效提升的领域包括
- 在LayerNorm中,可学习的仿射变换参数gamma(增益)和beta(偏置)的主要作用是严格维持归一化后的数据分布为标准正态分布(均值为0,方差为1),从而加速模型收敛。
- 采用子词(subword)分词的Tokenizer,其词汇表大小(V)直接决定了模型输入端嵌入层(Embedding Layer)的参数量。一个拥有64000个词元的词汇表和一个512维的d_model,其嵌入层的参数数量级约为3200万。
- 当序列长度N远大于模型的隐藏维度d_model时(例如在处理长文档时),自注意力机制中与N^2相关的计算会成为主要的计算瓶颈;反之,当N较小时,前馈网络(FFN)的计算量通常会占据主导地位。
18、下列哪些属于常用的神经网络模块
{{ multiselect(18) }}
- Batch Norm
- 全连接层
- Attention
- 卷积层
19. 以下哪些措施可以提高迭代法的收敛性?
{{ multiselect(19) }}
- 使用稀疏矩阵存储
- 选择适当的松弛因子
- 增加计算精度
- 改进迭代初始值
20、设A、B、C为三个事件,则下面的等式中正确的是
{{ multiselect(20) }}
- (A−B)∩(A−C)=A−(B∪C)
- A∪B−B=A−B
- (A∪B)−C=A∪(B−C)
- (A−B)∪B=A