#P4273. 第1题-选择题

第1题-选择题

一、单选题

1、在深度学习中,若模型参数的更新依赖数值不稳定的矩阵求逆操作(如(XTX)1(X^T X)^{-1}),则可能导致: {{ select(1) }}

  • 模型过拟合
  • 参数估计误差大
  • 模型欠拟合
  • 训练加速过快

2、在构建一个用于预测用户是否流失的机器学习模型时,某数据科学家从原始数据中提取了 15 个特征,包括年龄、月消费金额、登录频率、服务投诉次数等。为了提升模型性能并减少过拟合,他决定使用递归特征消除(Recursive Feature Elimination, RFE)方法进行特征选择。已知他使用了一个训练好的逻辑回归模型作为评估器,并设定最终保留 5 个特征。

以下关于 RFE 过程的描述中,哪一项是正确的?

{{ select(2) }}

  • A. RFE 通过反复训练模型,每次移除当前模型中系数绝对值最小的特征,逐步缩小特征集,最终得到一个包含 5 个特征的子集。
  • B. RFE 基于特征的方差阈值逐步剔除低方差特征,直到保留指定数量为止。
  • C. RFE 根据各特征在逻辑回归中的 p 值显著性进行排序,每次移除最不显著的特征,直到保留 5 个具有统计显著性的特征。
  • D. RFE 计算每个特征与目标变量之间的皮尔逊相关系数,保留相关性最高的 5 个特征。

3、在自然语言处理中,比较两个词嵌入向量 u=[0.80.6]u=\begin{bmatrix}0.8 \\ 0.6\end{bmatrix}v=[0.50.866]v=\begin{bmatrix}0.5 \\ 0.866\end{bmatrix} 的语义相似性。以下结论正确的是? {{ select(3) }}

  • 点积=0.8,表明语义高度相似
  • 点积结果受向量模影响,余弦相似度更可靠
  • 余弦相似度≈0.99,表明语义几乎相同
  • 向量vv的模更大,因此更重要

4、当把 ReLU 换成 GELU 后,在相同初始化下,训练初期梯度 L2 范数通常会 {{ select(4) }}

  • 不可预测
  • 几乎不变
  • 显著增大
  • 显著减小

5、设 XBinomial(n=10,p=0.3)X \sim Binomial(n = 10, p = 0.3),则 E[X2]E[X^2] 为: {{ select(5) }}

  • 5.2
  • 4.2
  • 3.9
  • 11.1

6、在大模型训练中,以下哪项技术最能有效缓解 “幻觉”(Hallucination)问题? {{ select(6) }}

  • 降低模型的温度参数(Temperature)
  • 增加训练数据量
  • 引入外部知识库(如检索增强生成,RAG)
  • 使用更复杂的模型结构

7、Swish激活函数 f(x)=xσ(βx)f(x) = x \cdot \sigma(\beta x),当 β\beta \to \infty 时逼近以下哪个函数 {{ select(7) }}

  • tanh
  • sigmoid
  • 线性
  • ReLU

8、在逻辑回归中,若目标函数为 $J(\theta) = -\frac{1}{m} \sum_{i=1}^m [y^{(i)} \log(h_\theta(x^{(i)})) + (1 - y^{(i)}) \log(1 - h_\theta(x^{(i)}))]$,以下哪种优化方法最可能陷入局部最优? {{ select(8) }}

  • 牛顿法
  • 拟牛顿法(BFGS)
  • 高斯 - 牛顿法
  • 随机梯度下降(SGD)

9、设 AAm×nm \times n 矩阵,BBn×mn \times m 矩阵,则线性方程组 (AB)x=0(AB)x = 0 {{ select(9) }}

  • n>mn > m 时仅有零解
  • n>mn > m 时必有非零解
  • m>nm > n 时必有非零解
  • m>nm > n 时仅有零解

10、关于检索增强生成技术(Retrieval-Augmented Generation, RAG)中,将 HNSW(Hierarchical Navigable Small World)等近似最近邻(ANN)向量索引用于查询阶段的主要优势是什么? {{ select(10) }}

  • 结合向量二值化技术,将存储开销压缩至 1-bit,极大节省内存占用。
  • 在检索过程中自动优化嵌入表示,增强查询与文档的语义对齐能力。
  • 显著降低查询延迟,同时仅轻微牺牲召回率,实现效率与效果的平衡。
  • 利用分层图结构加速搜索路径收敛,提升高维空间中相似性排序的稳定性。

11、在标准的多头注意力(MHA)中,Q/K/V矩阵的生成方式是 {{ select(11) }}

  • 共享同一组线性变换权重
  • 通过卷积生成
  • 每个头独立生成Q/K/V
  • 仅Q矩阵需要多头拆分,K/V共享

12、设 X1,X2,...,XnX_1, X_2, ..., X_n 为来自二项分布总体 B(n,p)B(n,p) 的一组简单随机样本,且记 Xˉ\bar{X}S2S^2 为样本均值和样本方差,若 Xˉ+kS2\bar{X} + kS^2np2np^2 的一个无偏估计,则常数 k=k =

{{ select(12) }}

  • -2
  • 2
  • 1
  • -1

13、在三维图形变换中,点P(1,2,3)先绕Z轴旋转θ=90\theta=90^\circ,再平移d=(4,5,6)d=(4,5,6)。用齐次坐标表示,最终变换矩阵TT与点坐标PP'分别为?

(旋转变换矩阵:$R_z(\theta)= \begin{bmatrix} \cos\theta & -\sin\theta & 0 & 0\\ \sin\theta & \cos\theta & 0 & 0\\ 0 & 0 & 1 & 0\\ 0 & 0 & 0 & 1 \end{bmatrix}$, 平移矩阵:$D(d)= \begin{bmatrix} 1 & 0 & 0 & d_x\\ 0 & 1 & 0 & d_y\\ 0 & 0 & 1 & d_z\\ 0 & 0 & 0 & 1 \end{bmatrix}$)

{{ select(13) }}

  • T=DRz, P=(6,1,9,1)TT = D R_z,\ P' = (6, -1, 9, 1)^T
  • T=DRz, P=(3,7,9,1)TT = D R_z,\ P' = (3, 7, 9, 1)^T
  • T=RzD, P=(2,6,9,1)TT = R_z D,\ P' = (2, 6, 9, 1)^T
  • T=RzD, P=(5,3,9,1)TT = R_z D,\ P' = (5, 3, 9, 1)^T

14、假设样本数据 x1,x2,...,xnx_1, x_2, ..., x_n 来自指数分布 f(x;λ)=λeλx,x0f(x;\lambda) = \lambda e^{-\lambda x}, x \geq 0。最大似然估计得到的 λ\lambda 的估计量是多少? {{ select(14) }}

  • i=1nxin\frac{\sum_{i=1}^n x_i}{n}
  • 1ni=1nxi\frac{1}{n}\sum_{i=1}^n x_i
  • i=1nxi\sum_{i=1}^n x_i
  • ni=1nxi\frac{n}{\sum_{i=1}^n x_i}

15、一个均匀6面骰子,平均投掷多少次能投出连续的两个6点 {{ select(15) }}

  • 37
  • 36
  • 48
  • 42

二、多选题

16、设事件 A 和 B 是两个随机事件,下列结论哪些总是成立? {{ multiselect(16) }}

  • 如果 ABA \subseteq B,则 P(AB)=P(A)P(A \cap B) = P(A)
  • AABB 互斥,则 AAB B 不独立
  • 如果 AABB 独立,则 AABB 的补事件也独立
  • 如果 P(A)=1P(A) = 1,则 AA 为样本空间

17、Scaled Dot-Product Attention中缩放因子dk\sqrt{d_k}的作用是 {{ multiselect(17) }}

  • 补偿query和key向量维度的影响
  • 防止点积数值过大导致梯度消失
  • 使Softmax输出更均匀
  • 减少计算量

18、对于拥有数千唯一取值的高基数分类特征,若希望在不显著增加特征维度的前提下,充分利用类别与监督目标之间的统计关系,以下处理方式中,哪些做法合适? {{ multiselect(18) }}

  • 将类别直接编码为连续整数标签(如 0, 1, 2, ...),并作为数值型特征输入模型。
  • 对所有类别执行独热编码(One-Hot Encoding),并用全零向量表示训练中未出现的未知类别。
  • 使用目标编码(Target Encoding),将每个类别映射为其在训练集中对应目标变量的均值(或正类比例),并辅以平滑或交叉验证策略防止过拟合。
  • 引入可学习的嵌入层(Embedding Layer),将每个类别映射到低维稠密空间,在模型训练中联合学习优化嵌入表示。

19、关于泊松分布和指数分布的关系,以下哪些说法正确? {{ multiselect(19) }}

  • 泊松分布的期望和方差不同,指数分布的期望和方差相等。
  • 若事件发生次数服从均值为λ\lambda的泊松分布,则两次事件间时间间隔服从均值为λ\lambda的指数分布。
  • 泊松分布和指数分布都是连续型分布。
  • 泊松分布描述单位时间内事件发生次数,指数分布描述两次事件间的时间间隔。

20、在以下问答场景中,哪些是普通 RAG 难以处理、需要借助领域知识图谱实现 GraphRAG 的? {{ multiselect(20) }}

  • 知识库包含分散的人物关系描述(如 “B 的父亲是 C”、“B 的母亲是 A”),用户提问 “A 的女儿是谁”,需结合指代消解与多跳逻辑推理得出答案。

  • 用户查询与知识库中预定义的 FAQ 问题语义高度相似,系统通过向量检索匹配最接近的问答对,并直接返回对应答案。

  • 系统存储大量领域论文及其引用网络,用户基于语义查询某研究方向的代表性文献。

  • 用户希望从多篇娱乐报道中找出被高频提及的核心人物,系统需跨文档识别并归一化人物名称,统计共现频率以生成聚合性结论。