#P4546. 第1题-选择题
-
Tried: 77
Accepted: 3
Difficulty: 5
所属公司 :
华为
时间 :2026年1月21日-AI方向
第1题-选择题
T1
答案:A.人类偏好排序 解析:在RLHF中,奖励模型的训练直接依赖于人类对模型生成结果的偏好排序数据,这些数据用于学习一个模拟人类偏好的奖励函数。
T2 答案: C.每组4个头共享K/V
解析:GQA(Grouped Query Attention)中,分组数g决定了K/V投影的组数,每组包含h/g个头。当h=8、g=2时,每4个头共享一组K/V投影。
T3
答案: C. 对点积结果进行除以 \sqrt{d_{k}} 缩放
解析:缩放点积注意力在点积结果上除以 \sqrt{d_k} ,以缓解点积值过大导致的梯度问题,而标准点积注意力无此缩放。
T4
答案: B.当k不变而n变大时,A的运行耗时增长速度比B慢
解析:当k固定时,算法A的时间复杂度为O(n),算法B为O(n log n),因此A的运行耗时随n增长的速度比B慢。时间复杂度与精度无关,且n固定时两者虽均为O(k),但常数因子不同,耗时并不一致。
T5
答案: A.分块嵌入与文本嵌入维度对齐
解析:多模态Transformer通常将视觉分块嵌入投影到与文本嵌入相同的维度,以便在统一的Transformer架构中进行跨模态融合。其他选项均不准确:分块大小和数量会影响模型性能或参数量,且分块处理并非仅用于卷积神经网络。
T6
答案: D. Cholesky分解:存在下三角矩阵L,使得A=LL^T
解析:实对称正定矩阵的Cholesky分解存在且唯一(通常要求L对角元为正),其他分解如LU、QR、SVD虽存在但不唯一或需附加条件。
T7
答案:A. 0.80
解析:精确率 P = 80/(80+20)=0.8,召回率 R = 80/(80+20)=0.8,F1 = 2×P×R/(P+R)=1.28/1.6=0.80。
T8
答案:
D. 分类任务中衡量预测概率与真实标签的差异
解析:交叉熵损失函数是分类任务中的常用损失函数,用于衡量模型预测概率分布与真实标签之间的差异。它鼓励模型对正确类别的预测概率接近1。
T9
答案:A.求解线性方程组时,系数矩阵的行列式值接近0
解析:问题病态通常由条件数衡量,系数矩阵的行列式接近0往往意味着矩阵接近奇异,条件数大,输入微小扰动会导致解的巨大变化。其他选项主要涉及数值方法误差或算法收敛性,而非问题本身的病态性。
T10
答案:B. 0.12
解析:由于下雨和刮风是独立事件,两者同时发生的概率为各自概率的乘积,即0.4 × 0.3 = 0.12。
T11
答案:A. \dfrac{\sqrt{3}}{3}
解析: 由A^*=A^T(即“转置 = 逆”)可知 AAA 为正交矩阵,行向量长度为 1。第一行 (a11,a12,a13)=(x,x,x),则3x^2=1\Rightarrow x=\frac{\sqrt3}{3}。
T12
答案:D交叉熵损失函数 (Cross-Entropy)
解析: 逻辑回归做二分类,常用损失为交叉熵(对数似然损失)。 T13 答案:A. D(\hat{\theta}_1)\le D(\hat{\theta}_2) 解析: 两者均为无偏估计量时,“更有效”指方差更小:D(\hat\theta_1)\le D(\hat\theta_2)。
T14
答案:A样本属于正类别的概率
解析: 逻辑回归输出通常解释为“样本属于正类”的概率 P(y=1∣x)
T15
答案:B先验概率是未考虑新信息前的初始概率
解析: 先验概率是未观察到新信息前对事件的初始判断概率。 T16 答案:A、Dropout、B、L1 正则(Lasso)、C、 L2 正则(Ridge) 解析: Dropout、L1、L2 都是抑制模型复杂度/权重的常见正则化手段;交叉验证主要用于评估与选参。
T17 答案: B若需确保生成文本中必须包含 “乡村振兴”“数字经济” 等关键词,可采用带约束的束搜索(Constrained Beam Search)、
D为生成多个语义合理且风格一致的候选报告,可采用 top-p 采样,在保证语言流畅性的同时引入适度随机性,提升输出多样性。
T18
答案:B下一状态仅依赖于当前状态、D状态转移矩阵是固定的
解析: 马尔可夫链核心是“无后效性”(下一状态只依赖当前状态),并用(时间齐次时)固定的转移矩阵描述转移概率。
T19
答案:B对 U_i 和 V_j进行 L2归一化:、D添加有效的负采样损失函数:L=-\log(\sigma(\hat{r}{ij}))-\sum{k=1}^{K}\log(\sigma(-\hat{r}_{ik}))
解析:
- B:对向量做 L2 归一化可稳定打分尺度、改善训练/相似度度量。
- D:引入有效负采样损失能增强区分能力、提升排序效果。 (A 在 N,M都较小时大幅增大维度更易过拟合;C 独热编码本质上不比学习到的嵌入更优。)
T20
答案:
B归一化后,有效数字下降到 2 位。、
D减法操作在两个数字量级相似时可能导致有效数字位数降低。
解析:
- B:先做“大数相减”再缩放,差值有效位数可能显著下降,归一化结果精度常变差。
- D:相近量级做减法易发生“消去误差”,导致有效数字减少。 (A 原数如 2.0050\times10^6有效数字为 5 位;C 二进制表示并不能避免十进制意义下的有效数字损失。)
1、在RLHF中,reward model的训练依赖于: {{ select(1) }}
- 人类偏好排序
- 监督数据
- 蒙特卡罗采样
- 随机初始化
2、若模型中attention部分head数h=8,GQA分组数g=2,则K/V矩阵的共享情况是 {{ select(2) }}
- 仅Q矩阵分组
- 每2个头共享K/V,共4组
- 每组4个头共享K/V
- 所有头共享同一组K/V
3、缩放点积注意力(Scaled Dot-Product Attention)与点积注意力(Dot-Product Attention)的区别是什么?假设键向量的维度为dk。 {{ select(3) }}
- 对点积结果进行乘以dk缩放
- 对点积结果进行除以dk缩放
- 对点积结果进行除以dk缩放
- 对点积结果进行乘以dk缩放
4、现有同一问题的两个算法A和B,A的时间复杂度为O(nk),B的时间复杂度为O(nlog(n)k),且已知该问题的规模仅与正整数n和k有关。以下说法正确的是 {{ select(4) }}
- 对相同的n和k,A的运行耗时比B短
- 当k不变而n变大时,A的运行耗时增长速度比B慢
- 对相同的n和k,A的结果精度比B高
- 当n不变而k变大时,A的运行耗时与B保持一致
5、多模态Transformer中,若视觉输入被分块(patch)处理,以下关于分块的描述(一般情况下)哪项正确? {{ select(5) }}
- 分块嵌入与文本嵌入维度对齐
- 分块大小不影响模型性能
- 分块数量与模型参数量无关
- 分块仅适用于卷积神经网络
6、设 A∈R3×3 是实对称正定矩阵,下列哪一种分解一定存在且唯一? {{ select(6) }}
- LU分解:存在单位下三角矩阵L与上三角矩阵U,使得A=LU
- QR分解:存在正交矩阵Q与上三角矩阵R,使得A=QR
- 奇异值分解(SVD):存在正交矩阵U,V,使得A=UΣVT
- Cholesky分解:存在下三角矩阵L,使得A=LLT
7、某二分类问题,混淆矩阵如下:TP=80, FP=20, TN=180, FN=20。求F1-score (保留两位小数) {{ select(7) }}
- 0.80
- 0.83
- 0.85
- 0.77
8、在深度学习中,交叉熵损失函数(Cross-Entropy Loss)通常用于? {{ select(8) }}
- 增加模型的泛化能力
- 无监督学习中优化数据分布
- 回归任务中衡量预测值与真实值的差异
- 分类任务中衡量预测概率与真实标签的差异
9、在数值计算中, 若输入数据的微小扰动会导致输出结果发生显著变化, 则称该问题是病态的。以下哪种情况最可能表明问题病态? {{ select(9) }}
- 求解线性方程组时, 系数矩阵的行列式值接近 0
- 数值积分时, 步长过大导致截断误差增大
- 使用牛顿迭代法求根时, 初值选择不当导致收敛变慢
- 浮点数运算时, 舍入误差累积导致结果偏离真值
10、某地区下雨的概率为0.4,刮风的概率为0.3,且下雨和刮风是独立事件,则既下雨又刮风的概率为? {{ select(10) }}
- 0.5
- 0.12
- 0.1
- 0.7
11、设矩阵 A=(aij)3×3 满足 A∗=AT,其中 A∗ 是 A 的转置矩阵,AT 是 A 的逆矩阵。若 a11 a12 a13是三个相等的正数,则 a11 为() {{ select(11) }}
- 33
- 3
- 31
- 3
12、机器学习在学习过程中需要定义不同的损失函数来满足不同的任务需求,逻辑回归主要用来二分类问题的建模,其使用的损失函数是哪个() {{ select(12) }}
- RMSE
- MAE
- MSE
- 交叉熵损失函数 (Cross-Entropy)
13、设θ^1=θ^1(X1,X2,⋯,Xn),θ^2=θ^2(X1,X2,⋯,Xn)均是未知参数 θ 的无偏估计量,若满足条件( ),则称 θ^1 比 θ^2 更有效。
注:名词解释
- E:表示数学期望,也称期望值,E[θ^]表示估计量 θ^ 的期望值
- MSE:表示均方误差,是衡量估计量质量的综合指标
- D:表示方差
- θ^:表示对未知参数 θ 的一个估计量
选项: {{ select(13) }}
- D(θ^1)≤D(θ^2)
- MSE(θ^1)<MSE(θ^2)
- D(θ^1)>D(θ^2)
- E∣θ^1∣<E∣θ^2∣
14、逻辑回归(Logistic Regression)是一种用于解决分类问题的统计学习方法,尤其常用于二分类问题。在逻辑回归模型中,输出结果通常解释为那种概率?()
{{ select(14) }}
- 样本属于正类别的概率
- 输入特征的概率
- 样本属于负类别的概率
- 模型参数的概率
15、关于先验概率和后验概率,正确的是()
{{ select(15) }}
- 先验概率是已知条件概率后的修正结果
- 先验概率是未考虑新信息前的初始概率
- 后验概率可以大于 1
- 后验概率必须通过贝叶斯定理计算
16、避免过拟合的正则化方法包括?
{{ multiselect(16) }}
- Dropout
- L1 正则(Lasso)
- L2 正则(Ridge)
- 交叉验证
17、在政务报告生成场景中,用户希望一次性生成多个候选报告以供选择。关于大语言模型(LLM)推理生成策略的说法,正确的有?
{{ multiselect(17) }}
- 贪心搜索在每一步从 token 概率分布中随机采样生成结果,因此能自然生成多个不同的候选报告。
- 若需确保生成文本中必须包含 “乡村振兴”“数字经济” 等关键词,可采用带约束的束搜索(Constrained Beam Search)。
- 为增强候选报告之间的差异性,可在生成时使用较低的温度参数,使模型更倾向于探索低概率词,提升创造性。
- 为生成多个语义合理且风格一致的候选报告,可采用 top-p 采样,在保证语言流畅性的同时引入适度随机性,提升输出多样性。
18、下列哪些项是马尔可夫链的特征?
{{ multiselect(18) }}
- 所有状态之间都可以互相到达
- 下一状态仅依赖于当前状态
- 状态空间可以是连续的
- 状态转移矩阵是固定的
19、在推荐系统中,使用嵌入表示用户和商品。已知:
用户嵌入矩阵 U∈RN×d(N=用户数,d=嵌入维度) 商品嵌入矩阵 V∈RM×d(M=商品数) 用户 iii 对商品 jjj 的预测评分为 r^ij=UiVjT 其中 N 和 M 都比较小
以下哪些操作能够提升模型效果?
选项: {{ multiselect(19) }}
- 将嵌入维度 d从16增加到256
- 对 Ui 和 Vj进行 L2归一化: U~i=∥Ui∥2Ui, V~j=∥Vj∥2Vj
- 用商品ID的独热编码直接作为输入特征
- 添加有效的负采样损失函数:L=−log(σ(r^ij))−∑k=1Klog(σ(−r^ik))
20、在数据预处理过程中,某类数据(浮点数类型)使用了 min-max 归一化。假设在一个数据集中,该类数据的最大值为 2.0050×106,最小值为 1.9950×106。有关其有效数字的说法中,正确的说法有:
注:有效数字定义是指一个数中从第一个非零数字开始,到最后一位可靠的数字为止的所有数字。 {{ multiselect(20) }}
- 该类数据原本的有效数字应有 6 位。
- 归一化后,有效数字下降到 2 位。
- 计算机的浮点数表示使用二进制而非十进制,因此使用十进制位数表示的有效数字不受影响。
- 减法操作在两个数字量级相似时可能导致有效数字位数降低。