#P4226. 第1题-选择题

第1题-选择题

一、单选题

1、Lasso 回归相比 Ridge 回归的特点是: {{ select(1) }}

  • L2 正则可做变量选择
  • L2 正则可做变量选择
  • L1 正则可做变量选择
  • L2 正则更稀疏

2、在神经网络中,以下哪种激活函数可以缓解梯度消失问题,并且在隐藏层中被广泛使用? {{ select(2) }}

  • Sigmoid
  • 阶跃函数
  • Tanh
  • ReLU

3、在大型语言模型(LLM)的文本预处理流程中,分词器(Tokenizer)将原始文本转换为模型可处理的 token ID 序列。关于现代 LLM 常用的子词(subword)分词算法(如 BPE、WordPiece),以下哪项描述是正确的? {{ select(3) }}

  • BPE(Byte Pair Encoding)和 WordPiece 的核心思想完全相同,唯一的区别在于它们使用的预训练模型不同(BPE 用于 GPT,WordPiece 用于 BERT)。
  • 子词分词算法的词汇表是在模型预训练完成后,根据训练语料的最终统计特性动态生成的。
  • 这些算法能够有效处理未登录词(OOV, Out-of-Vocabulary),因为任何未知单词都可以被分解为已知的子词单元(如词根、前缀、后缀)进行表示。
  • 分词器的输出 token 序列长度总是等于原始输入文本的字符数(character count)。

4、Adam优化器的核心优势是: {{ select(4) }}

  • 仅需要一阶梯度
  • 自适应调整学习率,结合动量的思想
  • 保证得到非凸优化问题的最优解
  • 不依赖超参数

5、在标准的 Transformer 模型的 Attention 计算中,给定查询(Query, Q)、键(Key, K)和值(Value, V),其计算公式为 $\text{Attention}(Q, K, V) = \text{softmax}(QK^T / \text{sqrt}(d\_k)) * V$。请问其中 sqrt(d_k)\text{sqrt}(d\_k) 的作用是什么? {{ select(5) }}

  • QKTQK^T的结果归一化到([0, 1])区间。
  • 防止 softmax 函数的输入值过大,导致梯度消失问题。
  • 抑制注意力权重,避免过拟合
  • 加速模型的训练收敛速度

6、已知矩阵 $A = \begin{pmatrix} 1 & 0 & -1 \\ 2 & -1 & 1 \\ -1 & 2 & -5 \end{pmatrix}$ 若下三角可逆矩阵 PP 和上三角可逆矩阵 QQ,使得 PAQPAQ 为对角矩阵,则 P,QP, Q 可以分别取()

{{ select(6) }}

  • $P = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 1 & 3 & 1 \end{pmatrix}, \quad Q = \begin{pmatrix} 1 & 2 & -3 \\ 0 & -1 & 2 \\ 0 & 0 & 1 \end{pmatrix}$
  • $P = \begin{pmatrix} 1 & 0 & 0 \\ 2 & -1 & 0 \\ -3 & 2 & 1 \end{pmatrix}, \quad Q = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}$
  • $P = \begin{pmatrix} 1 & 0 & 0 \\ 2 & -1 & 0 \\ -3 & 2 & 1 \end{pmatrix}, \quad Q = \begin{pmatrix} 1 & 0 & 1 \\ 0 & 1 & 3 \\ 0 & 0 & 1 \end{pmatrix}$
  • $P = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}, \quad Q = \begin{pmatrix} 1 & 0 & 1 \\ 0 & 1 & 3 \\ 0 & 0 & 1 \end{pmatrix}$

7、给定以下 6 个二维数据点及其类别,其坐标表示为((x, y)),类别标签用([+])表示正类,([-])表示负类:A(0,0)[+]A(0,0)[+]B(1,0)[+]B(1,0)[+]C(0,1)[]C(0,1)[-]D(3,3)[]D(3,3)[-]E(4,5)[]E(4,5)[-]F(3,4)[]F(3,4)[-]使用 4 - 近邻算法(4-NN)和欧氏距离对样本G(2,2)G(2,2)进行分类预测。若采用多数投票法,则其预测类别是什么? {{ select(7) }}

  • 所有 4 个邻居到 G 的距离相等,必须使用加权投票
  • 正类(+)与负类(-)各 2 票,无法形成多数
  • 预测为正类(+)
  • 预测为负类(-)

8、某工厂两条生产线 A(合格率 90%,产量 60%)和 B(合格率 80%,产量 40%)。 随机抽取一件不合格品,其来自 A 线的概率为? {{ select(8) }}

  • 3/73/7
  • 5/75/7
  • 4/74/7
  • 6/76/7

9、在贝叶斯网络中,节点 A 和 B 都依赖于节点 C,且彼此之间条件独立(即给定 C 的情况下,A 和 B 独立)。如果已知 C 发生的概率为 0.5,那么 A 和 B 同时发生的联合概率是多少? {{ select(9) }}

  • 无法确定
  • 0.25
  • 0.75
  • 0.5

10、某疾病在人群中的发病率为 1%1\%,检测准确率如下:

若患病,检测阳性概率 99%99\%

若未患病,检测阴性概率 98%98\%

假设某人检测结果为阳性,那么他实际患病的概率最接近( )

{{ select(10) }}

  • 10%10\%
  • 99%99\%
  • 66%66\%
  • 33%33\%

11、如果齐次线性方程组 $\begin{cases} a_{11}x_1 + a_{12}x_2 + \cdots + a_{1n}x_n = 0 \\ a_{21}x_1 + a_{22}x_2 + \cdots + a_{2n}x_n = 0 \\ \cdots \cdots \\ a_{s1}x_1 + a_{s2}x_2 + \cdots + a_{sn}x_n = 0 \end{cases}$ 有非零解,那么() {{ select(11) }}

  • 以上三种情况都有可能发生
  • s=n
  • s>ns > n
  • s<ns < n

12、用 Newton 迭代法去求方程 f(x)=x23=0f(x) = x^2 - 3 = 0 的正根,初值 x0=2x_0 = 2,求第一次迭代后的近似值 x1x_1

{{ select(12) }}

  • 1.251.25
  • 1.751.75
  • 2.52.5
  • 2.252.25

13、考虑一个简单的马尔可夫决策过程(MDP),包含两个状态:s1 和 s2,其中 s2 是终止状态。在每个状态有两个可行动作:a1 和 a2。环境的动态如下:

在状态 s1:执行动作 a1:以概率 1 转移到 s2,获得即时奖励 r=3r=3

执行动作 a2:以概率 1 转移到 s2,获得即时奖励 r=1r=-1

在状态 s2:为终止状态,无动作可执行。

使用 Q-learning 算法进行学习,折扣因子γ=0.9\gamma=0.9,学习率α=0.1\alpha=0.1。初始 Q 值全为 0.假设智能体从 s1 开始,执行动作 a1,转移到 s2,并终止。问题:请根据此次经历,使用 Q-learning 更新规则,计算更新后的Q(s1,a1)Q(s1, a1)的值。

{{ select(13) }}

  • 0.4
  • 0.3
  • 0.5
  • 0.2

14、假设某种通信编码解码算法中,在接收端需要计算如下的对数-求和-指数表达式:y=log(k=1nexk)y=\log\left(\sum_{k=1}^{n} e^{x_k}\right)

其中,xkx_k 为接收信号的采样值(其取值可能在区间 [2000,2000][-2000,2000] 内浮动)。现有数据: x1=1000, x2=1001, x3=1002, x4=1000x_1=1000,\ x_2=1001,\ x_3=1002,\ x_4=-1000

为了避免数值溢出影响计算精度,最稳定的计算方法是?

{{ select(14) }}

  • 使用变换 $y=\max_j(x_j)+\log\!\left(\sum_{k=1}^{n} e^{\,x_k-\max_j(x_j)}\right)$
  • 直接计算 $y=\log\!\left(e^{1000}+e^{1001}+e^{1002}+e^{-1000}\right)$
  • 使用变换 $y=2000+\log\!\left(\sum_{k=1}^{n} e^{\,x_k-2000}\right)$
  • 使用变换 $y=\bar{x}+\log\!\left(\sum_{k=1}^{n} e^{\,x_k-\bar{x}}\right)$,其中 xˉ\bar{x} 为所有采样值的平均值。

15、在一个文本分类任务中,某个单词‘free’在垃圾邮件 (Spam) 中出现的概率是 0.8,在正常邮件 (Ham) 中出现的概率是 0.1。假设垃圾邮件和正常邮件的先验概率相等,P(Spam)=P(Ham)=0.5P(\text{Spam}) = P(\text{Ham}) = 0.5。根据朴素贝叶斯分类器,如果一封新邮件中包含了单词‘free’,那么这封邮件是垃圾邮件的后验概率P(Spam‘free’)P(\text{Spam} | \text{‘free’})是多少? {{ select(15) }}

  • 1/2
  • 4/9
  • 8/9
  • 8/10

二、多选题

16、给定 $B = AA^T,\ A \in \mathbb{R}^{m \times n},\ m \le n,\ \text{rank}(A) = m$。

关于特征值与奇异值,下列描述正确的是(多选)

{{ multiselect(16) }}

  • BB 可逆且正定
  • BB 的所有特征值均为非负
  • BB 的非零特征值等于 AA 非零奇异值的平方
  • λ\lambdaBB 的特征值,则 λ\sqrt{\lambda} 必为 AA 的奇异值

17、矩阵范数需要满足的定义有: {{ multiselect(17) }}

  • 正规性
  • 正定性
  • 对称性
  • 相容性
  • 半可加性
  • 齐次性

18、在处理复杂的序列到序列(Seq2Seq)任务时,研究者们发展了多种RNN的增强技术。以下关于这些技术的描述,哪些是准确的? {{ multiselect(18) }}

  • 在LSTM单元中,遗忘门(Forget Gate)的作用是让网络根据当前输入和前一时刻的隐藏状态,学习决定应该从长期记忆(细胞状态)中丢弃哪些信息。
  • 双向RNN(Bidirectional RNN)因其能够整合过去和未来的上下文信息,在许多离线处理任务(如机器翻译)上表现优越,但它无法被用于需要即时响应的实时流数据预测。
  • GRU作为LSTM的简化变体,其参数数量更少,计算成本更低,通常被认为是在模型性能和计算效率之间的一个有效权衡。
  • GRU单元通过一个更新门和一个重置门和一个独立的输出门来精确控制信息流动,结构比LSTM更复杂。

19、指令微调的目标是 {{ multiselect(19) }}

  • 让模型理解并遵循自然语言指令
  • 替代预训练阶段
  • 提升 zero-shot 任务泛化能力
  • 减少模型参数量

20、关于大模型的文本语义相似度计算,下列说法正确的是 {{ multiselect(20) }}

  • 所有大模型的嵌入向量维度必须统一才能计算相似度
  • 可通过计算两文本的嵌入向量(Embedding)余弦相似度实现
  • 模型对语义相似但表达方式差异大的文本识别能力有限
  • 微调时增加同义句对数据可提升相似度计算精度