第1题-选择题

Tried: 260

Accepted: 7

Difficulty: 5

所属公司 : 华为

时间 :2026年1月21日-AI方向

1、在RLHF中，reward model的训练依赖于: {{ select(1) }}

人类偏好排序
监督数据
蒙特卡罗采样
随机初始化

2、若模型中attention部分head数h=8，GQA分组数g=2，则K/V矩阵的共享情况是 {{ select(2) }}

仅Q矩阵分组
每2个头共享K/V，共4组
每组4个头共享K/V
所有头共享同一组K/V

3、缩放点积注意力(Scaled Dot-Product Attention)与点积注意力(Dot-Product Attention)的区别是什么?假设键向量的维度为 $d_k$ 。 {{ select(3) }}

对点积结果进行乘以 $d_k$ 缩放
对点积结果进行除以 $d_k$ 缩放
对点积结果进行除以 $\sqrt{d_k}$ 缩放
对点积结果进行乘以 $\sqrt{d_k}$ 缩放

4、现有同一问题的两个算法A和B，A的时间复杂度为 $O(nk)$ ，B的时间复杂度为 $O(n\log(n)k)$ ，且已知该问题的规模仅与正整数 $n$ 和 $k$ 有关。以下说法正确的是 {{ select(4) }}

对相同的n和k，A的运行耗时比B短
当k不变而n变大时，A的运行耗时增长速度比B慢
对相同的n和k，A的结果精度比B高
当n不变而k变大时，A的运行耗时与B保持一致

5、多模态Transformer中，若视觉输入被分块（patch）处理，以下关于分块的描述（一般情况下）哪项正确？ {{ select(5) }}

分块嵌入与文本嵌入维度对齐
分块大小不影响模型性能
分块数量与模型参数量无关
分块仅适用于卷积神经网络

6、设 $A \in \mathbb{R}^{3 \times 3}$ 是实对称正定矩阵，下列哪一种分解一定存在且唯一? {{ select(6) }}

LU分解：存在单位下三角矩阵 $L$ 与上三角矩阵 $U$ ，使得 $A=LU$
QR分解：存在正交矩阵 $Q$ 与上三角矩阵 $R$ ，使得 $A=QR$
奇异值分解（SVD）：存在正交矩阵 $U,V$ ，使得 $A=U\Sigma V^T$
Cholesky分解：存在下三角矩阵 $L$ ，使得 $A=LL^T$

7、某二分类问题，混淆矩阵如下：TP=80, FP=20, TN=180, FN=20。求F1-score (保留两位小数) {{ select(7) }}

0.80
0.83
0.85
0.77

8、在深度学习中，交叉熵损失函数（Cross-Entropy Loss）通常用于？ {{ select(8) }}

增加模型的泛化能力
无监督学习中优化数据分布
回归任务中衡量预测值与真实值的差异
分类任务中衡量预测概率与真实标签的差异

9、在数值计算中, 若输入数据的微小扰动会导致输出结果发生显著变化, 则称该问题是病态的。以下哪种情况最可能表明问题病态? {{ select(9) }}

求解线性方程组时, 系数矩阵的行列式值接近 0
数值积分时, 步长过大导致截断误差增大
使用牛顿迭代法求根时, 初值选择不当导致收敛变慢
浮点数运算时, 舍入误差累积导致结果偏离真值

10、某地区下雨的概率为0.4，刮风的概率为0.3，且下雨和刮风是独立事件，则既下雨又刮风的概率为？ {{ select(10) }}

0.5
0.12
0.1
0.7

11、设矩阵 $A=(a_{ij})_{3\times3}$ 满足 $A^* = A^T$ ，其中 $A^*$ 是 $A$ 的转置矩阵， $A^T$ 是 $A$ 的逆矩阵。若 $a_{11}$ $a_{12}$ $a_{13}$ 是三个相等的正数，则 $a_{11}$ 为（） {{ select(11) }}

$\dfrac{\sqrt{3}}{3}$
$\sqrt{3}$
$\dfrac{1}{3}$
$3$

12、机器学习在学习过程中需要定义不同的损失函数来满足不同的任务需求，逻辑回归主要用来二分类问题的建模，其使用的损失函数是哪个（） {{ select(12) }}

RMSE
MAE
MSE
交叉熵损失函数 (Cross-Entropy)

13、设 $\hat{\theta}_1=\hat{\theta}_1(X_1,X_2,\cdots,X_n),$ $\hat{\theta}_2=\hat{\theta}_2(X_1,X_2,\cdots,X_n)$ 均是未知参数 $θ$ 的无偏估计量，若满足条件（），则称 $\hat{\theta}_1$ 比 $\hat{\theta}_2$ 更有效。

注：名词解释

E：表示数学期望，也称期望值， $E[\hat{\theta}]$ 表示估计量 $\hat{\theta}$ 的期望值
MSE：表示均方误差，是衡量估计量质量的综合指标
D：表示方差
$\hat{\theta}$ ：表示对未知参数 $θ$ 的一个估计量

选项： {{ select(13) }}

$D(\hat{\theta}_1)\le D(\hat{\theta}_2)$
$MSE(\hat{\theta}_1)<MSE(\hat{\theta}_2)$
$D(\hat{\theta}_1)>D(\hat{\theta}_2)$
$E|\hat{\theta}_1|<E|\hat{\theta}_2|$

14、逻辑回归（Logistic Regression）是一种用于解决分类问题的统计学习方法，尤其常用于二分类问题。在逻辑回归模型中，输出结果通常解释为那种概率？（）

样本属于正类别的概率
输入特征的概率
样本属于负类别的概率
模型参数的概率

15、关于先验概率和后验概率，正确的是（）

先验概率是已知条件概率后的修正结果
先验概率是未考虑新信息前的初始概率
后验概率可以大于 1
后验概率必须通过贝叶斯定理计算

16、避免过拟合的正则化方法包括？

Dropout
L1 正则（Lasso）
L2 正则（Ridge）
交叉验证

17、在政务报告生成场景中，用户希望一次性生成多个候选报告以供选择。关于大语言模型（LLM）推理生成策略的说法，正确的有？

贪心搜索在每一步从 token 概率分布中随机采样生成结果，因此能自然生成多个不同的候选报告。
若需确保生成文本中必须包含 “乡村振兴”“数字经济” 等关键词，可采用带约束的束搜索（Constrained Beam Search）。
为增强候选报告之间的差异性，可在生成时使用较低的温度参数，使模型更倾向于探索低概率词，提升创造性。
为生成多个语义合理且风格一致的候选报告，可采用 top-p 采样，在保证语言流畅性的同时引入适度随机性，提升输出多样性。

18、下列哪些项是马尔可夫链的特征？

所有状态之间都可以互相到达
下一状态仅依赖于当前状态
状态空间可以是连续的
状态转移矩阵是固定的

19、在推荐系统中，使用嵌入表示用户和商品。已知：

用户嵌入矩阵 $U\in\mathbb{R}^{N\times d}$ （N=用户数，d=嵌入维度）商品嵌入矩阵 $V\in\mathbb{R}^{M\times d}$ （M=商品数）用户 iii 对商品 jjj 的预测评分为 $\hat{r}_{ij}=U_iV_j^{T}$ 其中 N 和 M 都比较小

以下哪些操作能够提升模型效果？

选项： {{ multiselect(19) }}

将嵌入维度 d从16增加到256
对 $U_i$ 和 $V_j$ 进行 L2归一化： $\tilde{U}_i=\dfrac{U_i}{\|U_i\|_2},\ \tilde{V}_j=\dfrac{V_j}{\|V_j\|_2}$
用商品ID的独热编码直接作为输入特征
添加有效的负采样损失函数： $L=-\log(\sigma(\hat{r}_{ij}))-\sum_{k=1}^{K}\log(\sigma(-\hat{r}_{ik}))$

20、在数据预处理过程中，某类数据（浮点数类型）使用了 min-max 归一化。假设在一个数据集中，该类数据的最大值为 2.0050×106，最小值为 1.9950×106。有关其有效数字的说法中，正确的说法有：

注：有效数字定义是指一个数中从第一个非零数字开始，到最后一位可靠的数字为止的所有数字。 {{ multiselect(20) }}

该类数据原本的有效数字应有 6 位。
归一化后，有效数字下降到 2 位。
计算机的浮点数表示使用二进制而非十进制，因此使用十进制位数表示的有效数字不受影响。
减法操作在两个数字量级相似时可能导致有效数字位数降低。

#P4546. 第1题-选择题

Status

Development

Support

About