#P4342. 第1题-选择题

第1题-选择题

一、单选题

1、用雅可比迭代法求解方程组

$\begin{cases} 4x - y = 7 \\ -x + 4y = 5 \end{cases}$

取初值 x(0)=(0,0)Tx^{(0)} = (0, 0)^T,求第一次迭代结果 x(1)x^{(1)}

{{ select(1) }}

  • (1.75,1.5)T(1.75, 1.5)^T
  • (1.75,1.25)T(1.75, 1.25)^T
  • (1.5,1.5)T(1.5, 1.5)^T
  • (1.5,1.25)T(1.5, 1.25)^T

2、设n阶矩阵A和B等价,则必有 {{ select(2) }}

  • A=a(a0)|A|=a(a≠0)时,B=a|B|=-a
  • A=0|A|=0时,B=0|B|=0
  • A0|A|≠0时,B=0|B|=0
  • A=a(a0)|A|=a(a≠0)时,B=a|B|=a

3、对于平稳时间序列,若自相关函数在滞后阶 k=0k = 0 处为 1,而在其他滞后阶上快速衰减,则该序列最可能是: {{ select(3) }}

  • 周期信号
  • 白噪声序列
  • 存在强烈趋势的非平稳序列
  • 阶跃趋势序列

4、以下哪种分布是连续型分布且具有无记忆性 {{ select(4) }}

  • 指数分布
  • 泊松分布
  • 正态分布
  • 均匀分布

5、 某研发中心有甲、乙两组团队负责一款芯片的缺陷检测,甲团队检测过的芯片占总量 60%,乙团队检测过的芯片占总量 40%。已知甲团队的检测准确率为95%(即缺陷芯片被检出的概率为95%,非缺陷芯片被误判为缺陷的概率为 5%),乙团队的检测准确率为 90%(即缺陷芯片被检出的概率为 90%,非缺陷芯片被误判为缺陷的概率为 10%)。现随机抽取一片被判定为 “缺陷” 的芯片,该芯片实际确实为缺陷芯片的概率为()。

(注:该芯片的缺陷率为 1%,即随机抽取一片芯片,其本身为缺陷的概率为 0.01)

{{ select(5) }}

  • 68.3%
  • 11.8%
  • 5.7%
  • 92.5%

6、在RLHF(基于人类反馈的强化学习)流程中,奖励模型(Reward Model,RM)扮演了至关重要的角色。关于奖励模型的作用,以下描述最准确的是? {{ select(6) }}

  • 奖励模型是一个可微分的“人类偏好代理(proxy)”,它将人类对答案好坏的、主观的、不可导的判断,转化为了一个可用于优化语言模型的、连续的、可导的奖励信号。
  • 奖励模型直接修改基座模型的权重,使其生成更高质量的文本。
  • 奖励模型的目标是学习模仿人类的写作风格,以便在后续的PPO阶段指导语言模型生成更像人话的文本。
  • 奖励模型本身就是一个强化学习智能体(Agent),它通过与语言模型互动来学习如何给出最佳回答。

7、关于协方差和相关系数,以下哪个说法是正确的? {{ select(7) }}

  • 如果变量 Y 是变量 X 的线性函数 Y=aX+bY = aX + b(其中 a>0a > 0),那么它们的相关系数会大于 1。
  • 两个随机变量的协方差为 0,意味着这两个变量相互独立。
  • 相关系数的取值范围是 [0,1][0, 1]
  • 相比于协方差,相关系数更能体现变量之间线性关系的强弱,因为它经过了标准化。

8、在注意力机制中,假设为单头注意力,QKV的矩阵维度均为[L,D][L, D],其中LL是序列长度,DD是每个向量的维度。请问通过QKQK点积计算出的Attention ScoreAttention\ Score和输出的矩阵维度分别是? {{ select(8) }}

  • attention score [L,L][L, L],输出为[L,L][L, L]
  • attention score [L,D][L, D],输出为[L,L][L, L]
  • attention score [D,L][D, L],输出为[L,D][L, D]
  • attention score [L,L][L, L],输出为[L,D][L, D]

9、LSTM(长短期记忆网络)引入 “遗忘门” 的主要作用是: {{ select(9) }}

  • 决定当前输入信息是否写入记忆单元
  • 控制上一时刻隐藏状态有多少保留到当前状态
  • 过滤当前输入的噪声
  • 删除无关历史信息,避免梯度爆炸

10、在基于Transformer的大语言模型推理中,为了减少KV-Cache的显存占用并提升长文本生成吞吐,一种被广泛采用的策略是 {{ select(10) }}

  • 使用FlashAttention重新计算部分注意力
  • 按token粒度对KV-Cache进行LRU淘汰
  • 在每一步解码后对KV向量做PCA降维
  • 将KV-Cache组织成固定大小的“页”(paged attention)

11、PCA(主成分分析)在做降维处理时,优先选取哪些特征() {{ select(11) }}

  • 最大的特征根
  • 最大的梯度方向
  • 最强梯度方向
  • 中心化样本的协方差矩阵的最大特征值对应的特征向量

12、已知三维向量u=[123]u=\begin{bmatrix}1\\-2\\3\end{bmatrix}v=[401]v=\begin{bmatrix}4\\0\\-1\end{bmatrix},则u×vu\times v(叉积)结果是?

{{ select(12) }}

  • [8132]\begin{bmatrix}-8\\13\\-2\end{bmatrix}
  • [6120]\begin{bmatrix}6\\12\\0\end{bmatrix}
  • [2138]\begin{bmatrix}2\\13\\8\end{bmatrix}
  • [2138]\begin{bmatrix}2\\13\\-8\end{bmatrix}

13、假设有一个三层全连接神经网络,输入维度为 dd,隐藏层维度为 hh,输出层维度为 kk。若使用 L2 正则化(权重衰减系数为 λ\lambda),并采用均方误差损失函数(MSE),则反向传播中输出的权重W(3)W^{(3)}的梯度更新公式为?

{{ select(13) }}

  • $\nabla W^{(3)} = \frac{1}{n}X^T(y - \hat{y}) - \lambda W^{(3)}$
  • $\nabla W^{(3)} = \frac{1}{n}X^T(y - \hat{y}) + \lambda W^{(3)}$
  • $\nabla W^{(3)} = \frac{1}{n}X^T(y - \hat{y}) + \frac{\lambda}{2}W^{(3)}$
  • $\nabla W^{(3)} = \frac{1}{n}X^T(y - \hat{y}) \cdot \text{diag}(W^{(3)})$

14、在三维图形变换中,点P(1,2,3)P(1,2,3)先绕ZZ轴旋转θ=90°\theta=90°,再平移d=(4,5,6)d=(4,5,6)。用齐次坐标表示,最终变换矩阵TT与点坐标PP'分别为:

(旋转变换矩阵:$R_z(\theta)= \begin{bmatrix} \cos\theta & -\sin\theta & 0 & 0\\ \sin\theta & \cos\theta & 0 & 0\\ 0 & 0 & 1 & 0\\ 0 & 0 & 0 & 1 \end{bmatrix}$

平移矩阵:$D(d)= \begin{bmatrix} 1 & 0 & 0 & d_x\\ 0 & 1 & 0 & d_y\\ 0 & 0 & 1 & d_z\\ 0 & 0 & 0 & 1 \end{bmatrix}$)

{{ select(14) }}

  • T=DRzT = D R_zP=(3,7,9,1)TP' = (3,7,9,1)^T
  • T=DRzT = D R_zP=(2,6,9,1)TP' = (2,6,9,1)^T
  • T=RzDT = R_z DP=(5,3,9,1)TP' = (5,3,9,1)^T
  • T=DRzT = D R_zP=(6,1,9,1)TP' = (6,-1,9,1)^T

15、关于常见特征选择策略,下列哪项说法最为准确? {{ select(15) }}

  • L1 正则化策略是在训练过程中使部分特征权重趋近于零,从而实现特征选择。
  • 递归特征消除(RFE)通过分析特征与目标的统计相关性进行筛选,其过程独立于具体模型。
  • 方差阈值法通过设定一个方差阈值,剔除那些在样本间变化很小的特征,但该方法依赖于模型训练后得到的特征重要性权重。
  • 卡方检验需要训练模型来评估不同特征组合的预测性能。

二、多选题

16、在设计先进的卷积神经网络(CNN)架构时,对每个组件的深层特性和相互作用的理解至关重要。以下关于CNN设计原则的陈述中,哪些是准确的? {{ multiselect(16) }}

  • 1×11×1卷积层可以在不改变特征图空间(高分辨率)情况下,对通道维度进行线性组合与非线性变换,常用于实现跨通道的信息交互和维度调整。
  • 相较于使用最大池化层(Max Pooling)进行下采样,采用步长(Stride)大于1的卷积层可以使下采样过程本身成为一个可学习的参数化操作。
  • 连续堆叠两个步长为1的3×33×3卷积层(含激活函数),可以达到与单个5×55×5卷积层相同的感受野大小,但前者的参数量更少且引入了更多的非线性。
  • 为了迅速增加模型的感受野(Receptive Field)并捕获更全局的上下文信息,设计时应优先采用单个较大的卷积核(如7×7或9×9),而不是堆叠多个小卷积核(如3×3),因为前者在参数数量和计算效率上更具优势。

17、下列哪几种 Transformer 变体 / 技术旨在降低长序列自注意力的计算或显存复杂度?(可多选) {{ multiselect(17) }}

  • Sparse Attention(如 Longformer, Sparse Transformer)
  • Performer(Random Feature Attention)
  • Linformer
  • Rotary Position Embedding (RoPE)

18、数据之间的关系以及数据服从的分布形态影响了模型建模的效果,下列关于线性回归的描述中,哪些是正确的? {{ multiselect(18) }}

  • 线性回归模型的目标是最大化预测值与真实值之间的误差
  • 线性回归模型假设自变量和因变量之间存在线性关系
  • 线性回归模型可以通过最小二乘法进行参数估计
  • 线性回归模型中,误差项(残差)必须服从正态分布

19、假设有两个离散随机变量 X 和 Y 的联合概率质量函数 (PMF) 用下表给出:

Y=0 Y=1
X=0 0.1 0.4
X=1 0.3 0.2

根据上表,以下哪些计算或推断是正确的?

{{ multiselect(19) }}

  • X=1X=1 的条件下,Y=0Y=0 的条件概率 P(Y=0X=1)=0.6P(Y=0 | X=1) = 0.6
  • Y=1Y=1 的概率 P(Y=1)=0.6P(Y=1) = 0.6
  • 随机变量 XXYY 是相互独立的
  • XX 的期望值 E[X]=0.5E[X] = 0.5%

20、设B B={b1b2b3b₁,b₂,b₃} 是 R3R^3 的一个组基,其中:b1[101]b₁=\begin{bmatrix}1\\0\\1\end{bmatrix}b2[011]b₂=\begin{bmatrix}0\\1\\1\end{bmatrix}b3[110]b₃=\begin{bmatrix}1\\1\\0\end{bmatrix} 。向量vv在基 BB 下的坐标表示为[v]B[213][v]_{B}=\begin{bmatrix}2\\-1\\3\end{bmatrix} ,则以下说法正确的是( ) {{ multiselect(20) }}

  • 基B为一组正交基
  • 从基B到标准基的过渡矩阵P的第三列为[110]\begin{bmatrix}1\\1\\0\end{bmatrix};注:过渡矩阵是将一个基下的坐标转化为另一个基下的坐标的矩阵,即vEP[v]Bv_{E}=P·[v]_{B}
  • 向量vv在标准基下的表示为[521]\begin{bmatrix}5\\2\\1\end{bmatrix}
  • [w]B[111][w]_{B}=\begin{bmatrix}1\\1\\1\end{bmatrix},则vvww的内积为6