#P4237. 第1题-选择题

第1题-选择题

一、单选题

1、设 λ1,λ2\lambda_1,\lambda_2 是矩阵 A 的两个不同的特征值,对应的特征向量分别为 α1,α2\alpha_1,\alpha_2,则 α1,A(α1+α2)\alpha_1, A(\alpha_1 + \alpha_2) 线性无关的充分必要条件是 {{ select(1) }}

  • λ10\lambda_1 \neq 0
  • λ20\lambda_2 \neq 0
  • λ1=0\lambda_1 = 0
  • λ2=0\lambda_2 = 0

2、设 XB(n=10,p=0.3)X \sim B(n=10, p=0.3),则 P(X=2)P(X=2) 的值为 {{ select(2) }}

  • C102×0.72×0.38C_{10}^{2} \times 0.7^{2} \times 0.3^{8}
  • e3×322!e^{-3} \times \dfrac{3^{2}}{2!}
  • 0.3×0.70.3 \times 0.7
  • C102×0.32×0.78C_{10}^{2} \times 0.3^{2} \times 0.7^{8}

3、在现代大语言模型(LLM)的架构设计中,关于编码器(Encoder)和解码器(Decoder)的使用,以下哪项描述是最准确的? {{ select(3) }}

  • 所有大型语言模型,如 BERT、GPT 系列和 T5,都采用标准的编码器 - 解码器(Encoder-Decoder)架构。
  • 仅使用编码器(Encoder-only)架构的模型(如 BERT)能够进行高效的自回归文本生成,因为它可以并行处理整个输入序列。
  • 仅使用解码器(Decoder-only)架构的模型(如 GPT 系列)在自回归语言建模任务上表现出色,其自注意力机制通常需要掩码(Masked)以防止信息泄露。
  • 编码器 - 解码器(Encoder-Decoder)架构(如 T5)中的解码器,在训练和推理时都只关注编码器的输出,并不需要关注已经生成的前文。

4、一个均匀6面骰子,平均投掷多少次能投出连续的两个6点 {{ select(4) }}

  • 48
  • 37
  • 36
  • 42

5、用牛顿迭代法求 f(x)=x32f(x) = x^3 - 2 的根,如果初始值为 x0=1x_0 = 1,一步迭代值 x1x_1 应为: {{ select(5) }}

  • 23\sqrt[3]{2}
  • 43\frac{4}{3}
  • 32\frac{3}{2}
  • 23\frac{2}{3}

6、已知 x=1.250±0.040, y=8.000±0.200x = 1.250 \pm 0.040,\ y = 8.000 \pm 0.200,计算 z=xyz = xy 的绝对误差限。 {{ select(6) }}

  • 0.578
  • 0.562
  • 0.560
  • 0.570

7、在逻辑回归中,若目标函数为 $J(\theta) = -\frac{1}{m}\sum_{i=1}^m \left[y^{(i)}\log(h_\theta(x^{(i)})) + (1 - y^{(i)})\log(1 - h_\theta(x^{(i)}))\right]$,以下哪种优化方法最可能陷入局部最优? {{ select(7) }}

  • 拟牛顿法(BFGS)
  • 高斯 - 牛顿法
  • 随机梯度下降(SGD)
  • 牛顿法

8、一个团队构建的RAG问答系统在测试中表现不佳。用户提问:“在B-21轰炸机的研发合同中,诺斯罗普·格鲁曼公司承接的初始作战能力(IOC)目标年份是哪一年?” 系统未能找到答案,尽管知识库中的一份文档里明确写着:“……该项目的主要承包商是诺斯罗普·格鲁曼公司。根据合同条款,B-21轰炸机的初始作战能力目标设定在2027年。” 工程师排查后发现,文档切分时,恰好将这两句话分在了两个相邻但独立的文本块(chunk)中:

• Chunk A: “……该项目的主要承包商是诺斯罗普·格鲁曼公司。” • Chunk B: “根据合同条款,B-21轰炸机的初始作战能力目标设定在2027年。”

基于以上信息,请判断导致这次检索失败的最直接、最根本的技术原因是什么?

{{ select(8) }}

  • Tokenizer的词汇表不包含“诺斯罗普·格鲁曼”,导致该专有名词被错误地分割,影响了查询向量的生成。
  • 使用的Embedding模型质量太差,无法理解“诺斯罗普·格鲁曼”和“B-21轰炸机”之间的关联。
  • 文档切分策略不当,破坏了关键信息的上下文完整性。Chunk A虽然包含了关键实体,但与“年份”无关;Chunk B虽然含答案,但其自身文本不足以和包含“B-21”及“诺斯罗普·格鲁曼”的查询建立强语义关联。
  • 向量搜索中的近似最近邻(ANN)算法精度过低,没能从海量向量中找到正确的Chunk B。

9、关于线性回归算法的下列说法中,哪一项是正确的? {{ select(9) }}

  • 岭回归(Ridge Regression)在损失函数中引入 L1 正则项,可将部分系数压缩至零,从而实现特征选择。
  • 多重共线性会导致特征之间高度线性相关,虽然模型在训练集上的预测精度可能仍然较高,但会显著增大回归系数的方差。
  • 线性回归的R2R^2值越高,表明模型对新样本的预测能力越强;因此,应尽可能通过增加特征来提升R2R^2,从而提高模型泛化性能。
  • 普通最小二乘法(OLS)通过最小化残差的绝对值之和来估计参数,该问题存在闭式解,可通过矩阵运算直接求解。

10、已知隔壁老王夫妇生了两个孩子,且这两个孩子不是同时双胞胎。 有一天,邻居听到隔壁老王夸一个男孩活泼可爱,确认了隔壁老王夫妇至少有一个男孩。请问,老王两个孩子都是男孩的概率是多少? {{ select(10) }}

  • 2/5
  • 7/12
  • 1/2
  • 1/3

11、在神经网络中,以下哪种激活函数可以缓解梯度消失问题,并且在隐藏层中被广泛使用? {{ select(11) }}

  • Sigmoid
  • Tanh
  • ReLU
  • 阶跃函数

12、矩阵的秩是描述矩阵非常关键的性质,其描述的是一组向量中线性无关基的个数的最大值。 把矩阵的行或列看成一个向量,可以定义行秩和列秩。行秩和列秩的大小关系正确的是:

{{ select(12) }}

  • 行秩 < 列秩
  • 其他三种都有可能
  • 行秩 = 列秩
  • 行秩 > 列秩

13、在 Transformer 的架构中,几乎每个子层(如自注意力层、前馈网络层)的输出都会经过一个 Layer Normalization(层归一化)操作,在自然语言处理任务中,相比于在计算机视觉中常用的 Batch Normalization(批归一化),选择 LayerNorm 最关键的原因是? {{ select(13) }}

  • LayerNorm 能够更好地处理词汇表外的(Out-of-Vocabulary)单词。
  • LayerNorm 在计算归一化统计量(均值和方差)时,独立于批次中的其他样本,因此对不同长度的输入序列和变化的批次大小(Batch Size)具有更好的鲁棒性。
  • LayerNorm 的计算量远小于 Batch Normalization,可以显著提升模型的训练速度。
  • Batch Normalization 只能用于卷积层,而 LayerNorm 可以用于全连接层。

14、已知从人群中随机抽取一名男性,该男性年龄在30-40岁之间的概率为0.25,在其他年龄段的概率为0.75,且人群中30-40岁年龄段和其他年龄段中男性的比例都为0.4。若用贝叶斯定理估计该男性属于30-40岁年龄段的后验概率,结果为: {{ select(14) }}

  • 0.4
  • 0.25
  • 0.1
  • 0.5

15、关于检索增强生成技术(Retrieval-Augmented Generation, RAG)中,将 HNSW(Hierarchical Navigable Small World)等近似最近邻(ANN)向量索引用于查询阶段的主要优势是什么? {{ select(15) }}

  • 在检索过程中自动优化嵌入表示,增强查询与文档的语义对齐能力。
  • 显著降低查询延迟,同时仅轻微牺牲召回率,实现效率与效果的平衡
  • 利用分层图结构加速搜索路径收敛,提升高维空间中相似性排序的稳定性。
  • 结合向量二值化技术,将存储开销压缩至 1-bit,极大节省内存占用。

二、多选题

16、下列哪些方法可用于解决过拟合 {{ multiselect(16) }}

  • L2正则化
  • 增加训练样本多样性
  • 减少模型复杂度
  • 提前停止

17、关于大模型的文本语义相似度计算,下列说法正确的是 {{ multiselect(17) }}

  • 所有大模型的嵌入向量维度必须统一才能计算相似度
  • 可通过计算两文本的嵌入向量(Embedding)余弦相似度实现
  • 微调时增加同义句对数据可提升相似度计算精度
  • 模型对语义相似但表达方式差异大的文本识别能力有限

18、关于向量空间的基和维度,以下哪些说法正确? {{ multiselect(18) }}

  • 零向量不能包含在任何基中
  • RnR^n空间的维度为 nn
  • 矩阵列向量张成空间的维度等于其行向量张成空间的维度
  • 一组向量是基当且仅当其线性无关且张成整个空间

19、在神经网络的反向传播过程中,以下哪些描述是正确的? {{ multiselect(19) }}

  • 反向传播直接修改网络的参数,无需梯度下降等优化算法
  • 反向传播需要先进行一次完整的前向传播以得到输出结果
  • 反向传播通过链式法则计算损失函数对各层参数的梯度
  • 在反向传播中,梯度会逐层从输出层向输入层传播

20、数据之间的关系以及数据服从的分布形态影响了模型建模的效果,下列关于线性回归的描述中,哪些是正确的? {{ multiselect(20) }}

  • 线性回归模型中,误差项(残差)必须服从正态分布
  • 线性回归模型可以通过最小二乘法进行参数估计
  • 线性回归模型假设自变量和因变量之间存在线性关系
  • 线性回归模型的目标是最大化预测值与真实值之间的误差