#P4531. 第1题-选择题

第1题-选择题

一、单选题

1、使用岭回归(Ridge Regression)拟合样本数据,调试正则化参数λ来降低模型复杂度,当λ较大时、关于偏差(bias)和方差(Variance),一般情况下

{{ select(1) }}

  • 当入较大时,偏差增大,方差减小
  • 当入较大时,偏差减小,方差增大
  • 当入较大时,偏差增大,方差增大
  • 当入较大时,偏差减小,方差减小

2、对于伯努利分布X~Bernoulli(p),样本{1,0,1,1}对p的MLE(MaximumLikelihood Estimation,最大似然估计为 {{ select(2) }}

  • 样本中位数
  • 0.75
  • 0.5
  • 0.25

3、在最大似然估计中,为什么通常对似然函数取对数? {{ select(3) }}

  • 为了增加模型的复杂度
  • 为了使参数估计更加准确
  • 为了引入先验分布
  • 为了将乘法转化为加法,简化计算

4、在图像分类任务中,若模型将大量负样本误判为正样本,这表明: {{ select(4) }}

  • Accuracy偏高
  • Precision 偏高
  • Recall偏低
  • Precision偏低

5、子空间的判断条件为存在零元,对加法和数乘计算封闭。在R2R^2中,下列集合是子空间的有 {{ select(5) }}

  • {(x,y)|y=0}
  • {(x,y)|y =0}
  • {(x,y)|x+y=1}
  • {(x,y)|x+1=2y}

6、神经网络中,反向传播用于? {{ select(6) }}

  • 计算梯度
  • 前向计算
  • 更新权重
  • 初始化参数

7、在深度学习中,什么是“早停法”(Early Stopping)? {{ select(7) }}

  • 在模型参数初始化时停止训练以提升收敛速度
  • 在训练过程中提前结束训练以减少计算成本
  • 在训练初期停止训练以避免梯度爆炸
  • 在验证集性能不再提升时停止训练,防止过拟合

8、Scaled-Dot-Product Attention 中对QKTQK^T结果除以dk\sqrt{d_k}的主要目的是 {{ select(8) }}

  • 引入归一化的位置信息
  • 缩小 softmax输入方差,避免梯度饱和
  • 提高模型容量
  • 减少计算量

9、对于一个满秩矩阵,以下哪项一定成立() {{ select(9) }}

  • 零空间(Null Space)包含非零向量
  • 行列式det(A)=0
  • 可逆
  • 特征值全为零

10、设事件A与自身独立,则A的概率为 {{ select(10) }}

  • 0.5
  • 1
  • 0
  • 0或1

11、考察向量组{(1,0,1),(0,1,1),(1,1,2)}的线性关系,其结论是: {{ select(11) }}

  • 线性无关,秩为3
  • 线性无关,秩为2
  • 线性相关,秩为2
  • 线性相关,秩为1

12、在Transformer中,位置编码(PositionalEncoding)的作用是?

{{ select(12) }}

  • 提供序列中不同词的位置信息
  • 增加模型的非线性
  • 优化注意力权重
  • 压缩序列长度

13、最大似然估计的核心思想是 {{ select(13) }}

  • 找到使观测数据出现概率最大的参数
  • 最小化模型预测误差的平方和
  • 优先选择先验概率最大的参数
  • 通过样本矩匹配总体矩来估计参数

14、交叉熵损失函数,主要用于哪种任务? {{ select(14) }}

  • 回归任务
  • 降维任务
  • 分类任务
  • 聚类任务

15、下列哪一项不是泊松过程的特征? {{ select(15) }}

  • 事件发生的间隔服从指数分布
  • 事件在不重叠时间区间内相互独立
  • 事件发生的时间间隔服从正态分布
  • 每个时间区间内事件发生的次数服从泊松分布

二、多选题

16、深入剖析自注意力机制的计算过程和其变体,以下哪些陈述是准确的? {{ multiselect(16) }}

  • 在GQA中,由于多个Query头共享同一组K/,因此在模型训练时,不同组的Query头之间必须串行计算,无法像MHA一样在所有头上实现完全的计算并行
  • 从MHA演进到GQA和MQA,其主要动机是在模型推理(inference)阶段,通过减少需要缓存的Key和Value头的数量来大幅降低显存占用,但这可能以牺牲一定的模型表达能力为代价。
  • 在多头注意力机制中,为了保证点积计算的有效性,单个头内部的Qvery和Key的维度(d_k)必须相等,但Value的维度(d_v)理论上可以与它们不同。
  • 在Scaled Dot-Product Attention公式中,将QK^T的结果除以缩放因子sqrt(dk),其主要目的是为了在反向传播时维持稳定的梯度,防止点积过大导致Softmax函数进入梯度饱和区。

17、下列关于多模态大模型(例如 BLIP-2、LLaVA、GPT-4V)的表述,哪些是正确的?(可多选) {{ multiselect(17) }}

  • LLaVA通过端到端联合预训练,完全移除了视觉编码器
  • 大多数开源多模态LLM的视觉适配层参数量远小于语言模型主体,因此可视作一种PEFT方案
  • GPT-4V的多模态能力部分来源于对视觉token的序列化,并使用同一套自注意力机物承文字与图像
  • BLIP-2使用冻结的视觉编码器加上Q-former,将视觉特征对齐到语言模型的强人空间

18、矩阵分解方法在推荐系统中的应用正确的有? {{ multiselect(18) }}

  • PCA用于降维
  • NMF用于非负矩阵分解
  • QR分解用于求解线性方程
  • SVD用于协同过滤

19、下列关于单位矩阵InI_n的性质,哪些一定成立? {{ multiselect(19) }}

  • InI_n的所有特征值都等于1
  • InI_n与任何同形矩阵相乘都保持该矩阵不变(左乘或右乘均可)。
  • InI_n的秩等于n
  • det(In)=0

20、关于连续型随机变量(Continuous Random Variable),以下说法正确的是() 注:E:表示数学期望,也称期望值,E(X)表示随机变量x的期望值 {{ multiselect(20) }}

  • 对于连续型随机变量X.,若其概率密度函数fx(x)是偶函数,则X的分布关于0对称

  • 连续型随机变量的累积分布函数(CDF)一定是连续函数

  • 若X是连续型随机变量,则P(X=a)=0对任意实数a成立

  • 连续型随机变量的概率密度函数(PDF)在任意单点的值可以大于1