#P4537. 第1题-选择题

第1题-选择题

一、单选题

1、若二次型 $f(x_1,x_2,x_3)=5x{_1^2}+5x{_2^2}+cx{_3^2}-2x_1x_2+6x_1x_3-6x_1x_3$的秩为 22 ,则 c=()c =() {{ select(1) }}

  • 3
  • 5
  • 9
  • 6

2、在处理用户评论情感分类任务时,你发现数据集里正面评论和负面评论的比例是9:1,这是一个典型的数据不平衡问题。在这种情况下,以下哪个评估指标最不能客观地反映模型的性能? {{ select(2) }}

  • 召回率(Recall)
  • AUC(ROC曲线下面积)
  • F1-score
  • 准确率(Accuracy)

3、设 AA33 阶矩阵,且 A=2|A|=2 ,则 (13A)112A=()|(\frac{1}{3}A)^{-1}-\frac{1}{2}A^*|=()

注:AA^* 表示 AA 的伴随矩阵

{{ select(3) }}

  • 11
  • 12516\frac{125}{16}
  • 44
  • 427-\frac{4}{27}

4、设 A 是 3 阶方阵,将 A 的第 1 列与第 2 列交换得到 B,再把 B 的第 2 列加到第 3 列得到C,则满足 AQ=C 的可逆矩阵 Q 为 {{ select(4) }}

  • $\left[\begin{array}{lll}0 & 1 & 0 \\1 & 0 & 0 \\1 & 0 & 1\end{array}\right]$
  • $\left[\begin{array}{lll}0 & 1 & 0 \\1 & 0 & 0 \\0 & 1 & 1\end{array}\right]$
  • $\left[\begin{array}{lll}0 & 1 & 1 \\1 & 0 & 0 \\0 & 0 & 1\end{array}\right]$
  • $\left[\begin{array}{lll}0 & 1 & 0 \\1 & 0 & 1 \\0 & 0 & 1\end{array}\right]$

5、大模型训练中的"LoRA(Low-Rank Adaptation)“技术主要作用是 {{ select(5) }}

  • 解决模型推理时的幻觉问题
  • 在微测阶段通过低秩矩阵减少要更新的参数量
  • 提升模型的上下文窗口长度
  • 降低预渊练阶段的计算成本

6、向量 A=[1,2,3,0,3]A=[1,2,3,0,-3]L1L1 范数为? {{ select(6) }}

  • 33
  • 23\sqrt{23}
  • 44
  • 99

7、如果一个模型出现了过拟合,我们通过以下哪些操作和优化能够缓解或者减少这种过拟合可能带来的问题? {{ select(7) }}

  • 在原有数据集上重新训练
  • 添加正则化
  • 将数据集复制后再训练
  • 减少数据集后再训练

8、Transformer 位置编码(Position Encoding)主要作用: {{ select(8) }}

  • 增强非线性
  • 提供序列位置信息
  • 提升并行带宽
  • 降低模型计算量

9、在机器学习中,将一张 28 × 28 像素的灰度图像转换为特征向量时,要求特征向量能完整保存原有信息的操作是? {{ select(9) }}

  • 仅保留边缘检测后的像素值
  • 计算每个 4×4 块的平均值,生成 49 维向量
  • 将像素矩阵按行展开为784维向量
  • 直接使用原始像素矩阵作为输入

10、在参数高效微调(PEFT)方法中,LoRA 通过在 Transformer 线性层插入可训练的低秩矩阵来近似权重更新。下面哪一项最能解释为什么 LoRA 对推理时延几平没有负面影响? {{ select(10) }}

  • LORA 会把权重量化为 INT4,从而加速推理
  • 低秩更新的秩r很小,且与原矩阵乘法可并行融合
  • LORA 只在训练阶段发挥作用,推理阶段被完全丢弃
  • 低秩矩阵的乘法可以离线编译到权重中

11、某12层Transformer,hidden size=768,MLP 扩展比=4,则每层 MLP 的参数量约为 {{ select(11) }}

  • 18.88 M
  • 9.44 M
  • 4.72 M
  • 2.36 M

12、设 AR2×2\mathbf{A} \in \mathbb{R}^{2 \times 2} 的特征值为 λ1=3,λ2=1λ_1=3,λ_2=-1 ,则 A 的迹为:

{{ select(12) }}

  • 3
  • 4
  • -1
  • 2

13、用梯形法则计算定积分时,若被积函数的二阶导数在区间 [a,b]上的最大值为M,积分区间等分为 n 段,则截断误差的上界为以下哪一项? {{ select(13) }}

  • M(ba)22n2\frac{M(b-a)^2}{2n^2}
  • M(ba)312n2\frac{M(b-a)^3}{12n^2}
  • M(ba)n\frac{M(b-a)}{n}
  • M(ba)424n3\frac{M(b-a)^4}{24n^3}

14、在一个基于Transformer的多模态模型中,视觉-文本对齐模块的目标是将图像特征 VRn×dv\mathbf{V} \in \mathbb{R}^{n \times d_v} 和文本特征 TRm×dt\mathbf{T} \in \mathbb{R}^{m \times d_t} 映射到同一语义空间若采用对比学习(Contrastive Learning)框架,则损失函数可选下列哪个? {{ select(14) }}

  • $\log \frac{\exp \left(\sin \left(V_{1}, T_{j}\right)\right)}{\sum_{k \neq j} \exp \left(\sin \left(V_{i}, T_{k}\right)\right)}$
  • CrossEntropy(Vi,Tj)CrossEntropy(V_i,T_j)
  •  KL-Divergence (ViTj)\text { KL-Divergence }\left(V_{i} \| T_{j}\right)
  • MSE(Vi,Tj)MSE(V_i,T_j)

15、二分法(Bisection Method)求解方程 时,其收敛速度是() {{ select(15) }}

  • 超线性收敛
  • 不收敛
  • 二次收敛
  • 线性收敛

二、多选题

16、以下说法正确的是() {{ multiselect(16) }}

  • 向量组 α1,α2,,anα_1,α_2,…,a_n, 线性相关的充要条件是向量组中的任意一个向量 αiα_i 都可以由剩余的 n1n-1 个向量线性表示
  • n2n ≥2 ,向量组 α1a2,,αn1αn,2(αnα1)α_1- a_2,…, α_{n-1}-α_n,2(α_n-α_1) 一定线性相关
  • A,BA,B 是满足 AB=0AB=0 的任意两个非零矩阵,则一定有 AA 的列向量线性相关, BB 的行向量线性相关
  • AA33 阶非零实方阵,AA*AA 的伴随方阵,若 A=ATA*=-A^T,则 det(A)<0det(A)<0

17、主成分分析(PCA)的前k个主成分具有哪些性质? {{ multiselect(17) }}

  • 方差依次最大
  • 原始数据旋转后主成分不变
  • 主成分之间正交
  • 与原始特征线性无关

18、在为一个大型语言模型(LLM)选择和调整优化器时,一位算法工程师面临以下几个论断。假设训练资源(计算卡、时间)非常宝贵,且模型训练需要考虑收敛速度、最终性能和内存占用。下列哪些论断是理论上成立或在工程实践中被广泛认可的? {{ multiselect(18) }}

  • Adam优化器中的偏差校正(Bias Corecion)机制,主要用于解决训练初期动量估计值因初始化为零而系统性偏小的问题,有助于在训练开始阶段获得更合理的学习步长,
  • 在损失函数的"峡谷“地形(即某个方向梯度很大,而正交方向梯度很小)中,相较于朴素SGD,Adam或RMSprop能够为梯度较大的参数维度提供更小的有效学习率,为梯度较小的维度提供较大的有效学习率,从而抑制振荡并加速收敛。
  • 对于RMSprop或Adam,如果某个参数的梯度在许多连续步骤中都非常稀疏(如梯度持续为零),那么该参数的有效学习率会逐渐减小,从而在梯度最终出现时能进行更稳定的更新,
  • 相比于SGD with Momentum,Adam或RMSprop这类自适应优化器,由于为每个参数维护一个二阶动量(如v_t),因此会显著增加优化器状态的内存占用。

19、在某场景中,事件 A1,A2,A3A_1,A_2,A_3 构成样本空间的一个划分,满足 P(A1)=0.2P(A2)=0.3,P(A3)=0.5P(A_1)=0.2,P(A_2)=0.3,P(A_3)=0.5。已知条件概率 P(BA1)=0.1P(BA2)=0.4,P(BA3)=0.6P(B丨A_1)=0.1,P(B丨A_2)=0.4,P(B|A_3)= 0.6。以下哪些是正确的? {{ multiselect(19) }}

  • P(A2B)=P(BA2)P(A_2|B)= P(B|A_2)
  • P(B)=0.44P(B)=0.44
  • P(A1B)0.045P(A_1|B)≈0.045
  • P(A2B)0.273P(A_2|B)≈ 0.273

20、对于以下优化算法,说法正确的是? {{ multiselect(20) }}

  • L-BFGS是二阶优化方法
  • Momentum是二阶优化方法
  • Adam是一阶优化方法
  • AdaGrad是一阶优化方法
  • Adamw是一阶优化方法