#P4440. 第1题-选择题

第1题-选择题

一、单选题

1、设 A, P 均为 3 阶矩阵,PTP^T 为 P 的转置矩阵,且 $P^TAP = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 2 \end{pmatrix}$,若 $P = (\alpha_1, \alpha_2, \alpha_3), Q = (\alpha_1 + \alpha_2, \alpha_2, \alpha_3)$,则 QTAQQ^TAQ 为() {{ select(1) }}

  • $\begin{pmatrix} 2 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 2 \end{pmatrix}$
  • $\begin{pmatrix} 2 & 1 & 0 \\ 1 & 1 & 0 \\ 0 & 0 & 2 \end{pmatrix}$
  • $\begin{pmatrix} 1 & 1 & 0 \\ 1 & 2 & 0 \\ 0 & 0 & 2 \end{pmatrix}$
  • $\begin{pmatrix} 1 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & 2 \end{pmatrix}$

2、设 P(A)=0.3,P(BA)=0.6,P(B¬A)=0.2P(A) = 0.3, P(B|A) = 0.6, P(B|\neg A) = 0.2,则 P(AB)P(A|B) 的值为 {{ select(2) }}

  • 0.36
  • 0.56
  • 0.72
  • 0.18

3、已知函数 f(x)=x2f(x)=x^2,用中心差分公式 f(x)f(x+h)f(xh)2hf'(x)\approx\dfrac{f(x+h)-f(x-h)}{2h},取步长 h=0.1h=0.1,计算 f(1)f'(1) 数值结果为: {{ select(3) }}

  • 1.8
  • 2.2
  • 2.0
  • 2.4

4、设 $\hat{\theta} = \hat{\theta}(X_1, X_2 \dots \dots X_n)$ 是基于随机样本 X1,X2XnX_1, X_2 \dots \dots X_n 构造的未知参数 θ\theta 的一个估计量,若 θ^\hat{\theta} 满足以下条件()时,则称 θ^\hat{\theta}θ\theta 的无偏估计 {{ select(4) }}

  • θ^=θ\hat{\theta} = \theta
  • E(θ^θ)=θE(\hat{\theta} - \theta) = \theta
  • E(θ^)=θE(\hat{\theta}) = \theta
  • P(θ^=θ)=1P(\hat{\theta} = \theta) = 1

5、在回归问题中,以下哪种损失函数对异常值(outliers)最敏感? {{ select(5) }}

  • 平均绝对误差(MAE)
  • 均方误差(MSE)
  • 对数损失(Log Loss)
  • Huber损失

6、使用算法计算数列 $I_n = \int_0^1 \frac{x^n}{x + 5}dx, n = 0,1,\dots, 100$,如果初始值 I0I_0^* 的绝对误差为 0.010.01,那么以下哪种情形可以称该算法是数值稳定的? {{ select(6) }}

  • InI_n^*的绝对误差均不超过 0.01
  • InI_n^*的绝对误差单调不增加
  • InI_n^* 的绝对误差有上界

7、在反向传播过程中,如果发现某个特定层的学习速度显著慢于其他层,以下选项中,最可能的原因是? {{ select(7) }}

  • 该层的参数数量较少
  • 该层的梯度消失
  • 数据标准化不充分
  • 学习率设置过低

8、在一个二分类问题中,精确率(Precision)为 0.8,召回率(Recall)为 0.5,F1 分数最接近如下哪个选项? {{ select(8) }}

  • 0.62
  • 0.31
  • 0.4
  • 0.7

9、某二分类模型混淆矩阵为:TP=80,TN=100,FP=20,FN=50。其 F1 分数约为? {{ select(9) }}

  • 0.62
  • 0.54
  • 0.7
  • 0.78

10、A 为 2 阶矩阵,B 为 2 阶矩阵,且已知 det(A)=2,det(B)=3\det(A) = 2, \det(B) = 3,则下列结论正确的是()

{{ select(10) }}

  • det(ATB)=5\det(A^T B) = 5ATA^TAA的转置矩阵)
  • det(AB)=6\det(AB) = 6
  • det(2A)=4\det(2A) = 4
  • det(A+B)=5\det(A + B) = 5

11、在多层感知器(MLP)中,隐藏层通过一系列非线性变换(由激活函数实现)对输入数据进行变化操作,这样的主要作用是? {{ select(11) }}

  • 直接映射输入到输出,无需中间处理
  • 学习输入特征之间的复杂关系,并进行非线性变换
  • 用于减少模型的训练时间
  • 确保模型的预测结果为线性可分

12、假设输入的向量为 a=[0,1]a = [0,1]b=[2,0]b = [2,0],其中 Wk=[0110]W_k = \begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix}Wq=[1112]W_q = \begin{bmatrix} 1 & 1 \\ 1 & 2 \end{bmatrix}Wv=[2001]W_v = \begin{bmatrix} 2 & 0 \\ 0 & 1 \end{bmatrix},温度因子 dk=1d_k = 1,已知 e12.718e^1 \approx 2.718e27.389e^2 \approx 7.389e320.086e^3 \approx 20.086e454.598e^4 \approx 54.598,计算 self-attention 后的a,b的输出

{{ select(12) }}

  • a=[0,1]a = [0, 1] b=[2,0]b = [2, 0]
  • a=[16,1]a = [16, 1] b=[16,2]b = [16, 2]
  • a=[2.9242,0,2689]a = [2.9242, 0, 2689] b=[0.4768,0.8807]b = [0.4768, 0.8807]
  • a=[3.8104,0,0474]a = [3.8104, 0, 0474] b=[3,5232,0.1192]b = [3, 5232, 0.1192]

13、在 Transformer 模型中,自注意力机制(Self-Attention)的核心作用是 {{ select(13) }}

  • 捕捉序列中不同位置元素之间的依赖关系
  • 替代卷积操作提取局部特征
  • 降低模型的计算复杂度
  • 减少参数数量

14、假设一个大模型 Agent 在解决数学推理任务时采用 “反思 - 修正” 机制,其核心流程为:

  1. 生成初步答案 A1A_1

  2. 通过独立模块生成反思信号 RR

  3. 根据RR修正答案 A1A2A_1 \to A_2

    若训练时采用强化学习(RL)框架,则以下哪项最可能是奖励函数的设计目标?

{{ select(14) }}

  • 最大化 RRA1A_1 的语义相似度
  • 最大化 A2A_2 与真实答案 GG 的匹配度,同时最小化 A1A2|A_1 - A_2|
  • 最小化 A1A_1A2A_2 的计算开销差异
  • 最大化 A1A_1 与真实答案 GG 的匹配度

15、某种电子设备的寿命(单位:小时)服从参数为 λ=0.01\lambda = 0.01 的指数分布,即其概率密度函数为 f(t)=0.01e0.01tf(t)=0.01e^{-0.01t},其中 t0t \ge 0。以下陈述正确的是: {{ select(15) }}

  • 设备失效率(瞬时故障率)随时间增长而降低。
  • 设备已经工作100小时,它在未来10小时内失效的条件概率小于一个新设备在前10小时内失效的概率。
  • 设备失效率(瞬时故障率)随时间增长而增加。
  • 设备已经工作100小时,它在未来10小时内失效的条件概率等于一个新设备在前10小时内失效的概率。

二、多选题

16、以下哪些操作不会改变 Transformer 的位置编码信息? {{ multiselect(16) }}

  • 交换两个 token
  • 对输入嵌入加常数向量
  • 将序列整体左移 1 个 token
  • 对输入嵌入乘常数矩阵

17、关于激活函数 GELU 与 ReLU,下列描述正确的是(可多选) {{ multiselect(17) }}

  • GELU 近似保留输入分布的均值,使深网络更易训练
  • 在绝大多数现代 Transformer 变体中,GELU 已被 SwiGLU 全面替代
  • GELU 相较于 ReLU 无需额外随机性即可引入“软门控”
  • 在相同学习率下,GELU 的梯度上界大于 ReLU

18、在深度学习中,权重初始化是一个重要步骤。假设某个网络层的权重被初始化为来自均值为 0、标准差为 sigma 的高斯分布(正态分布)。关于这个初始化策略,以下哪些说法在概率论上是正确的? {{ multiselect(18) }}

  • 权重的取值范围被严格限制在 [3sigma,3sigma][-3\text{sigma}, 3\text{sigma}]之内
  • 增加标准差 sigma 会使得初始化的权重值更倾向于远离 0
  • 大约 68% 的权重值会落在 [sigma,sigma][-\text{sigma}, \text{sigma}] 的区间内
  • 初始化权重的期望值为 0

19、在机器学习中,以下哪些方法可以用于处理类别不平衡问题? {{ multiselect(19) }}

  • 对少数类样本进行过采样(Oversampling)
  • 使用 AUC-ROC 曲线作为评价指标
  • 使用 F1 分数作为评价指标
  • 对多数类样本进行欠采样(Undersampling)

20、梯度检查点 (Gradient Checkpointing) 与 ZeRO-Offload 的主要区别体现在(可多选) {{ multiselect(20) }}

  • 两者可叠加以进一步扩大可训练模型规模
  • 前者通过丢弃中间激活再正向重算,减少显存;后者将部分参数 / 优化器状态搬到 CPU 或 NVMe
  • 两者都会增加前向推理时延
  • 前者仅影响前向计算图;后者改动优化器加载激活值的方式(例如 CPU)