#P3841. 第1题-选择题

第1题-选择题

一、单选题

1、设 $S = \text{span}\left\{\begin{bmatrix}2 \\ 2 \\ 3\end{bmatrix}, \begin{bmatrix}8 \\ 5 \\ 6\end{bmatrix}\right\}$ , $T = \text{span}\left\{\begin{bmatrix}1 \\ 0 \\ -1\end{bmatrix}, \begin{bmatrix}2 \\ 2 \\ 2\end{bmatrix}\right\}$ , 则 STS \cap T 的维度可能是? {{ select(1) }}

  • 1
  • 0
  • 2
  • 3

2、在智能交通系统中,车辆到达某个交叉口的时间可以视为泊松过程。 如果平均每小时有120辆车通过,那么任意连续两辆车之间的时间间隔大于1分钟的概率是多少? {{ select(2) }}

  • e1e^{-1}
  • e2e^{-2}
  • e4e^{-4}
  • e3e^{-3}

3、一个团队构建的RAG问答系统在测试中表现不佳。用户提问:“在B-21轰炸机的研发合同中,诺斯罗普·格鲁曼公司承诺的初始作战能力(IOC)目标年份是哪一年?”

系统未能找到答案,尽管知识库中的一份文档里明确写着:“...该项目的主要承包商是诺斯罗普·格鲁曼公司。根据合同条款,B-21轰炸机的初始作战能力目标设定在2027年。”

工程师排查后发现,文档切分时,恰好将这两句话分在了两个相邻但独立的文本块(chunk)中:

- Chunk A: "...该项目的主要承包商是诺斯罗普·格鲁曼公司。"

- Chunk B: "根据合同条款,B-21轰炸机的初始作战能力目标设定在2027年。"

基于以上信息,请判断导致这次检索失败的最直接、最根本的技术原因是什么? {{ select(3) }}

  • 使用的Embedding模型质量太差,无法理解“诺斯罗普·格鲁曼”和“B-21轰炸机”之间的关联。

  • 文档切分策略不当,破坏了关键信息的上下文完整性。Chunk A虽包含了关键实体,但与“年份”无关;Chunk B虽然有答案,但其自身文本不足以和包含“B-21”及“诺斯罗普·格鲁曼”的查询建立强语义关联。

  • Tokenizer的词汇表不包含“诺斯罗普·格鲁曼”,导致该专有名词被错误地分割,影响了查询向量的生成。

  • 向量搜索中的近似最近邻(ANN)算法精度过低,没能从海量向量中找到正确的Chunk B。

4、在基于人类反馈的强化学习(RLHF)流程中,奖励模型(Reward Model, RM)扮演着至关重要的角色。

它作为人类偏好的代理来指导语言模型的对齐。然而,过度优化奖励模型会导致一系列问题。

以下哪个现象不属于“奖励黑客”(Reward Hacking)或奖励模型过优化(Over-optimization)的典型表现? {{ select(4) }}

  • 模型为了获得高分,倾向于生成更长、更啰嗦的回答,因为奖励模型可能将“详细”错误地关联为“更好”。
  • 模型在多轮对话中,其回答的风格和价值观逐渐偏离了初始SFT阶段的状态,表现出与人类普遍价值观不符的倾向。
  • 模型为了显得“有帮助”,即使在不知道答案的情况下,也会编造听起来非常plausible(貌似可信)但不正确的信息。
  • 模型在面对它在预训练阶段从未见过的,全新的领域知识问题时,无法给出准确的回答。

5、已知矩阵 $A = \begin{pmatrix} 1 & 0 & -1 \\ 2 & -1 & 1 \\ -1 & 2 & -5 \end{pmatrix}$ , 若下三角可逆矩阵 PP 和上三角可逆矩阵 QQ ,使得 PAQPAQ 为对角矩阵,则 P,QP, Q 可以分别取( ) {{ select(5) }}

  • $\begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}, \quad \begin{pmatrix} 1 & 0 & 1 \\ 0 & 1 & 3 \\ 0 & 0 & 1 \end{pmatrix}$

  • $\begin{pmatrix} 1 & 0 & 0 \\ 2 & -1 & 0 \\ -3 & 2 & 1 \end{pmatrix}, \quad \begin{pmatrix} 1 & 0 & 1 \\ 0 & 1 & 3 \\ 0 & 0 & 1 \end{pmatrix}$

  • $\begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 1 & 3 & 1 \end{pmatrix}, \quad \begin{pmatrix} 1 & 2 & -3 \\ 0 & -1 & 2 \\ 0 & 0 & 1 \end{pmatrix}$

  • $\begin{pmatrix} 1 & 0 & 0 \\ 2 & -1 & 0 \\ -3 & 2 & 1 \end{pmatrix}, \quad \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}$

6、对不平衡二分类(正例1%,负例99%),下列哪种指标不会因「全部预测负例」而失效? {{ select(6) }}

  • AUC-ROC
  • F1-score
  • Precision@Top-10%
  • Accuracy

7、用线性回归在50个样本上得到,残差平方和 SSESSE(Sum of Squared Errors) = 18,总平方和 SSTSST = 50,求 R2R^2 {{ select(7) }}

  • 0.64
  • 0.62
  • 0.68
  • 0.66

8、关于多头注意力(Multi-Head Attention)机制的核心设计目的,以下哪项说法最准确? {{ select(8) }}

  • 通过共享各头的Query与Key权重矩阵,减少参数数量,从而提高计算效率并降低模型复杂度。

  • 通过在多个头中重复相同的注意力计算,增强对长距离依赖的建模稳定性,并加快模型训练收敛速度。

  • 通过将输入映射到多个不同特征子空间并分别计算注意力,使模型能够同时捕捉不同子空间的信息,提升表达能力。

  • 其本质是引入多个前馈神经网络,对输入序列进行并行非线性变换,增强模型的拟合能力。

9、设二维随机向量 (X,Y)(X,Y) 的概率密度函数为
$f(x,y) =\begin{cases}Ax^2, & 0<|x|<y<1 \\0, & 其它\end{cases}$则常数 AA 的取值 ( ),条件概率 P(X0.25Y=0.5)P(X \leq 0.25|Y=0.5) 的值为 ( )
{{ select(9) }}

  • 6, 9/16
  • 3, 9/16
  • 3, 5/16
  • 6, 5/16

10、某工厂两条生产线 A(合格率 90%,产量 60%)和 B(合格率 80%,产量 40%)。随机抽取一件不合格品,其来自 A 线的概率为? {{ select(10) }}

  • 3/7
  • 6/7
  • 4/7
  • 5/7

11、循环神经网络(RNN)之所以特别适合处理文本、语音等序列数据,其最根本的结构性原因是? {{ select(11) }}

  • 它在网络的不同空间位置共享参数,类似于CNN。
  • 它包含一个内部的循环,允许信息从输入的一个时间步持续传递到下一个时间步。
  • 它将整个输入序列一次性全部输入到网络中进行并行计算。
  • 它使用了比其他网络更复杂的激活函数。

12、在训练一个回归模型(如线性回归)来预测房价时,我们通常选择最小化均方误差(MSE)作为损失函数,这背后隐含了一个关于数据噪声的什么概率假设?

{{ select(12) }}

  • 噪声服从泊松分布
  • 噪声服从均匀分布
  • 噪声服从指数分布
  • 噪声服从高斯分布(正态分布)

13、用 Newton 迭代法求方程 f(x)=x23=0f(x)=x^2-3=0 的正根,初值 x0=2x_0=2,求第一次迭代后的近似值 x1x_1 {{ select(13) }}

  • 1.25
  • 1.75
  • 2.25
  • 2.5

14、在神经网络中,以下哪种激活函数可以缓解梯度消失问题,并且在隐藏层中被广泛使用? {{ select(14) }}

  • Tanh
  • 阶跃函数
  • Sigmoid
  • ReLU

15、已知 AA33 阶矩阵,rank(A)=1\mathrm{rank}(A)=1,则 AA 的特征值是() {{ select(15) }}

  • 一重、二重、三重特征值都有可能
  • 至少是 00 的二重特征值
  • 至多是 00 的二重特征值
  • 必然是 00 的二重特征值

二、多选题

16、以下哪些方法适用于关键词提取任务 {{ multiselect(16) }}

  • 最大熵模型
  • TextRank
  • LDA(隐狄利克雷分布)
  • TF-IDF

17、在构建大模型时,以下哪些因素会影响其泛化能力? {{ multiselect(17) }}

  • 训练数据的规模
  • 正则化技术的应用
  • 数据集的多样性
  • 模型参数的数量
  • 使用更大的学习率

18、关于 Causal Mask 的作用,正确的是 {{ multiselect(18) }}

  • 是一个上三角为负无穷的矩阵
  • 防止解码器在训练时看到未来的信息
  • 仅用于文本生成任务
  • 用于增强自注意力模型的局部性

19、设 XiX_i 独立同分布,E[Xi]=μ\mathbb{E}[X_i]=\muVar(Xi)=σ2\mathrm{Var}(X_i)=\sigma^2。当 nn\to\infty 时,记 Xˉn=1ni=1nXi\bar{X}_n=\frac1n \sum_{i=1}^{n}X_iSn=i=1nXiS_n=\sum_{i=1}^n X_i。以下哪些是正确的渐近分布? {{ multiselect(19) }}

  • $\frac{\bar{X}_n-\mu}{\sigma/\sqrt{n}}\xrightarrow{d}N(0,1)$
  • $\sqrt{n}(\bar{X}_n-\mu)/\sigma \xrightarrow{d} N(0,1)$
  • SnnμσdN(0,1)\frac{S_n - n\mu}{\sigma} \xrightarrow{d} N(0,1)
  • XndN(μ,σ2)X_n \xrightarrow{d} N(\mu,\sigma^2)

20、激活函数在神经网络中起到非线性变换的作用,使模型能够拟合更加复杂的问题和场景。请问以下哪项是常用的激活函数? {{ multiselect(20) }}

  • ReLU
  • Softmax
  • Linear
  • Sigmoid