#P4474. 第1题-选择题

第1题-选择题

一、单选题

1、在 Transformer 的最后一层,Softmax 作为“激活层”的核心意义是下列哪一项? {{ select(1) }}

  • 自动选择最大 logit 对应的类别索引,并输出整数组标签
  • 对 logits 进行非线性放大,从而增大不同类别之间的数值差异
  • 将任意实数向量转换成相加后和为 1 的概率分布,使模型输出可直接解释为类别置信度
  • 将输出映射到 (1,1)(-1,1) 区间,避免梯度消失

2、给定数据:x=[1,2,3]x=[1,2,3]y=[1,4,9]y=[1,4,9]。用最小二乘法拟合直线 y=a+bxy=a+bx,则系数 bb 为? {{ select(2) }}

  • 2.5
  • 3.0
  • 4.0
  • 3.5

3、连续随机变量 XX 的概率密度函数为 f(x)=2xf(x)=2x,其中 0x10 \le x \le 1,那么 P(0.5X1)P(0.5 \le X \le 1) 为? {{ select(3) }}

  • 0.5
  • 1
  • 0.25
  • 0.75

4、以下关于自注意力机制中多头注意力(Multi-Head Attention MHA)、多查询注意力机制(Multi-Query Attention MQA)、分组查询注意力机制(Grouped Query Attention GQA)、多头潜在注意力(Multi-Head Latent Attention MLA)描述错误的是? {{ select(4) }}

  • MQA 核心思想是共享键(Key)和值(Value)的投影参数,仅对查询(Query)使用独立的头参数。
  • MLA 核心思想是通过低秩投影压缩查询(Q)、键(K)、值(V)的维度,并在注意力计算中解耦内容与位置信息,从而减少计算复杂度,同时保留长距离依赖建模能力。
  • MHA 核心思想是将输入映射到多个子空间,分别计算注意力权重并聚合结果,从而增强模型对复杂模式的捕捉能力。
  • GQA 是对多头注意力(MHA)和多头潜在注意力(MLA)的折中优化方案。

5、在反向传播过程中,如果发现某个特定层的学习速度显著慢于其他层,以下选项中,最可能的原因是? {{ select(5) }}

  • 该层的参数数量较少
  • 数据标准化不充分
  • 学习率设置过低
  • 该层的梯度消失

6、ROC曲线的主要用途是什么? {{ select(6) }}

  • 展示回归模型的预测误差分布
  • 计算分类模型的F1分数
  • 计算分类模型的准确率
  • 评估分类模型在不同阈值下的真正性率和假阳性率表现

7、在数值计算中,截断误差的主要来源是什么? {{ select(7) }}

  • 数学模型近似(如用有限项近似无穷级数)导致的误差
  • 计算机有限的存储精度导致的误差
  • 算法迭代过程中的随机误差
  • 数据输入时的测量误差

8、如果随机变量XXYY的期望满足E(XY)=E(X)E(Y)E(XY)=E(X)E(Y),则下式哪项成立 {{ select(8) }}

  • Var(X+Y)=Var(X)+Var(Y)Var(X+Y)=Var(X)+Var(Y)
  • Var(X2+Y2)=Var(X2)+Var(Y2)Var(X^2+Y^2)=Var(X^2)+Var(Y^2)
  • Var(XY)=Var(X)Var(Y)Var(X-Y)=Var(X)-Var(Y)
  • Var(XY)=Var(X)Var(Y)Var(XY)=Var(X)Var(Y)

9、设总体XN(μ,σ2)X \sim N(\mu,\sigma^2)X1,X2,X3X_1,X_2,X_3是来自XX的简单随机样本,则Cov(X1+X2,X3)=Cov(X_1+X_2,X_3)=( )注:简单随机样本指X1,X2,X3X_1,X_2,X_3独立同分布,且每个XiX_i与总体XX同分布

{{ select(9) }}

  • 0
  • σ2\sigma^2
  • 2σ22\sigma^2
  • σ23\frac{\sigma^2}{3}

10、朴素贝叶斯分类器的特点是( ) {{ select(10) }}

  • 假设样本各维属性存在依赖
  • 假设样本服从多项式分布
  • 假设样本各维属性独立
  • 假设样本服从正态分布

11、在训练超大规模语言模型时,为了在显存受限的情况下仍能使用较深的网络并保持梯度正确,常用的内存优化技术是 {{ select(11) }}

  • 随机失活(Dropout)
  • 梯度裁剪(Gradient Clipping)
  • 激活检查点(Activation Checkpointing)
  • 权重衰减(Weight Decay)

12、某二分类模型混淆矩阵为:TP=80,TN=100,FP=20,FN=50,其F1分数约为? {{ select(12) }}

  • 0.78
  • 0.54
  • 0.7
  • 0.62

13、在多层感知器(MLP)中,隐藏层通过一系列非线性变换(由激活函数实现)对输入数据进行变化操作,这样的主要作用是什么? {{ select(13) }}

  • 直接映射输入到输出,无需中间处理
  • 学习输入特征之间的复杂关系,并进行非线性变换
  • 确保模型的预测结果为线性可分
  • 用于减少模型的训练时间

14、对线性方程组 Ax=bAx=b,其中 AA3×43\times4 矩阵,rank(A)=rank([Ab])=3rank(A)=rank([A\mid b])=3,这里 [Ab][A\mid b] 表示增广矩阵,则该方程组的解的情况是:

{{ select(14) }}

  • 无穷多解,且含 2 个自由变量
  • 无解
  • 唯一解
  • 无穷多解,且含 1 个自由变量

15、设 AAn(n2)n(n\ge 2) 阶非零矩阵,且满足 aij=Aij,i,j=1,2,,na_{ij}=A_{ij},\, i,j=1,2,\ldots,n,其中 AijA_{ij}aija_{ij} 的代数余子式,则下列选项中正确的是( ) {{ select(15) }}

  • AA 对称
  • AA 可逆
  • A<0|A|<0
  • AA 的所有元素的平方和为 nn

二、多选题

16、在大模型预训练过程中,以下哪几项技术通常被用来提高模型的训练效率和稳定性? {{ multiselect(16) }}

  • 采用混合精度训练(Mixed Precision Training)
  • 使用 FP32 以提高精度
  • 使用多种并行策略分配计算负载
  • 使用动态学习率调度

17、下列关于 BERT 与 GPT 两种 Transformer 模型在预训练目标、架构设计及适用场景等方面的说法,哪些是正确的? {{ multiselect(17) }}

  • GPT 原生支持从左到右的文本生成与填空续写,BERT 由于掩码策略在端到端生成任务上能力有限。
  • BERT 的双向上下文表示更适合句子级分类、序列标注等理解任务,GPT 的单向生成能力更适合续写与对话生成。
  • BERT 采用掩码语言模型(Masked LM)+ 下一句预测(Next Sentence Prediction),GPT 采用自回归语言模型(Auto-Regressive LM)。
  • BERT 输入时加入 token type 嵌入用于区分句子对,GPT 省略了 token type 嵌入,仅依赖位置与词嵌入。

18、在使用强化学习(Reinforcement Learning, RL)对大语言模型(LLM)进行对齐(Alignment),例如基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)中,以下哪些说法是正确的? {{ multiselect(18) }}

  • 强化学习微调阶段的目标是直接最小化模型输出与人类标注的“完美”回答之间的交叉熵损失。
  • 在 PPO(Proximal Policy Optimization)算法的应用中,策略模型(即 LLM)的更新目标是最大化由奖励模型给出的奖励以及最小化当前策略模型与初始 SFT 模型之间的 KL 距离。
  • 通常使用一个独立的“奖励模型”(Reward Model, RM)来代替环境,为 LLM(作为智能体)的输出提供奖励信号。
  • “冷启动”(Cold Start)问题指的是在没有人类标注数据的情况下,直接用强化学习训练 LLM 会非常困难,因此通常需要先进行监督微调(Supervised Fine-Tuning, SFT)。

19、在卷积神经网络中,哪些层是最常见的? {{ multiselect(19) }}

  • 卷积层
  • 全连接层
  • 循环层
  • 池化层

20、关于 PCA,以下正确的是: {{ multiselect(20) }}

  • 特征向量按特征值排序
  • 可直接捕捉非线性结构
  • 最大化样本在新坐标系的方差
  • 是一种线性降维方法