#P4440. 第1题-选择题
-
Tried: 76
Accepted: 6
Difficulty: 4
所属公司 :
华为
时间 :2025年11月5日-AI方向
-
算法标签>选择题
第1题-选择题
题目与答案整理
T1
答案:B
$$\begin{pmatrix} 2 & 1 & 0 \\ 1 & 1 & 0 \\ 0 & 0 & 2 \end{pmatrix}$$解析:
设 D=PTAP=diag(1,1,2)。由 Q=(α1+α2,α2,α3)=PS,其中 S=110010001。故 $Q^TAQ=S^TDS=\begin{pmatrix}2&1&0\\1&1&0\\0&0&2\end{pmatrix}$。
T2
答案:A. 0.36
解析:
贝叶斯公式:$\frac{0.6\times0.3}{0.6\times0.3+0.2\times0.7}=0.36$。
T3
答案:C. 2.0
解析:
中心差分:$f'(1)\approx \frac{f(1.1)-f(0.9)}{2\times0.1}=\frac{1.21-0.81}{0.2}=2.0$,与解析导数 f′(x)=2x=2 一致。
T4
答案:C. E(θ^)=θ
解析:
无偏估计定义:E(θ^)=θ。
T5
答案:B. 均方误差(MSE)
解析:
MSE 含平方项,使大误差(异常值)的影响被放大,因此对异常值最敏感;MAE 与 Huber 损失更稳健,Log Loss 主要用于分类任务。
T6
答案:C. In∗ 的绝对误差有上界
解析:
数值稳定性要求误差有界不发散。
T7
答案:B. 该层的梯度消失
解析:
梯度消失会导致反向传播到该层时更新信号极小,从而学习速度显著变慢;参数数量、标准化或学习率问题虽影响整体训练,但不会导致单层明显停滞。
T8
答案:A. 0.62
解析:
$F1=\frac{2PR}{P+R}=\frac{2\times0.8\times0.5}{0.8+0.5}\approx0.62$。
T9
答案:A. 0.62
解析:
Precision = 80 / (80+20) = 0.8,Recall = 80 / (80+50) ≈ 0.615;
F1 = 2PR / (P+R) = 2×0.8×0.615 / 1.415 ≈ 0.62。
T10
答案:B. det(AB)=6
解析:
det(AB)=det(A)det(B)=2×3=6。
T11
答案:B. 学习输入特征之间的复杂关系,并进行非线性变换
解析:
隐藏层通过激活函数引入非线性,使模型能捕捉输入特征的复杂关系,从而拟合非线性映射;A、C、D均与隐藏层的本质功能不符。
T12
答案:D
- a = [3.8104, 0.0474]
- b = [3.5232, 0.1192]
解析:
按 Q=XWq,K=XWk,V=XWv,
对 a: 分数 [1,4] ⇒ softmax [0.0474,0.9526],输出 [3.8104,0.0474];
对 b: 分数 [2,4] ⇒ softmax [0.1192,0.8808],输出 [3.5232,0.1192]。
T13
答案:A. 捕捉序列中不同位置元素之间的依赖关系
解析:
自注意力机制通过计算序列中各位置间的相关性权重,使模型能够建模长程依赖关系;B、C、D只是其衍生效果或部分特性,非核心作用。
T14
答案:B. 最大化 A2 与真实答案 G 的匹配度,同时最小化 ∣A1−A2∣
解析:
奖励应提升 A2 与真值 G 的匹配并约束改动幅度。
T15
答案:D. 设备已经工作100小时,它在未来10小时内失效的条件概率等于一个新设备在前10小时内失效的概率
解析:
指数分布具有无记忆性,满足 P(T>t+s∣T>t)=P(T>s),即设备已运行时间不影响后续失效概率;因此在未来10小时内失效的条件概率与新设备相同。
T16
答案:B、D
- B. 对输入嵌入加常数向量
- D. 对输入嵌入乘常数矩阵
解析:
仅改输入嵌入的平移/线性变换不改变位置编码本身;交换或平移序列会改变位置。
T17
答案:A、C
- A. GELU 近似保留输入分布的均值,使深网络更易训练
- C. GELU 相较于 ReLU 无需额外随机性即可引入"软门控"
解析:
GELU 通过高斯分布加权实现平滑的"软门控",近似保持输入均值,有助于训练稳定;B错误,SwiGLU仅在部分模型中替代;D错误,ReLU梯度上界为1,GELU梯度上界略小于1。
T18
答案:B、C、D
- B. 增加标准差 sigma 会使得初始化的权重值更倾向于远离 0
- C. 大约 68% 的权重值会落在 [−sigma,sigma] 的区间内
- D. 初始化权重的期望值为 0
解析:
正态分布非严格限于 ±3σ;增大 σ 更分散;约 68% 落在 ±σ;期望为 0。
T19
答案:A、B、C、D
- A. 对少数类样本进行过采样(Oversampling)
- B. 使用 AUC-ROC 曲线作为评价指标
- C. 使用 F1 分数作为评价指标
- D. 对多数类样本进行欠采样(Undersampling)
T20
答案:A、B
- A. 两者可叠加以进一步扩大可训练模型规模
- B. 前者通过丢弃中间激活再正向重算,减少显存;后者将部分参数 / 优化器状态搬到 CPU 或 NVMe
解析:
可叠加;前者丢弃激活重算省显存,后者把参数/优化器状态迁到 CPU/NVMe。
一、单选题
1、设 A, P 均为 3 阶矩阵,PT 为 P 的转置矩阵,且 $P^TAP = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 2 \end{pmatrix}$,若 $P = (\alpha_1, \alpha_2, \alpha_3), Q = (\alpha_1 + \alpha_2, \alpha_2, \alpha_3)$,则 QTAQ 为() {{ select(1) }}
- $\begin{pmatrix} 2 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 2 \end{pmatrix}$
- $\begin{pmatrix} 2 & 1 & 0 \\ 1 & 1 & 0 \\ 0 & 0 & 2 \end{pmatrix}$
- $\begin{pmatrix} 1 & 1 & 0 \\ 1 & 2 & 0 \\ 0 & 0 & 2 \end{pmatrix}$
- $\begin{pmatrix} 1 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & 2 \end{pmatrix}$
2、设 P(A)=0.3,P(B∣A)=0.6,P(B∣¬A)=0.2,则 P(A∣B) 的值为 {{ select(2) }}
- 0.36
- 0.56
- 0.72
- 0.18
3、已知函数 f(x)=x2,用中心差分公式 f′(x)≈2hf(x+h)−f(x−h),取步长 h=0.1,计算 f′(1) 数值结果为: {{ select(3) }}
- 1.8
- 2.2
- 2.0
- 2.4
4、设 $\hat{\theta} = \hat{\theta}(X_1, X_2 \dots \dots X_n)$ 是基于随机样本 X1,X2……Xn 构造的未知参数 θ 的一个估计量,若 θ^ 满足以下条件()时,则称 θ^是 θ 的无偏估计 {{ select(4) }}
- θ^=θ
- E(θ^−θ)=θ
- E(θ^)=θ
- P(θ^=θ)=1
5、在回归问题中,以下哪种损失函数对异常值(outliers)最敏感? {{ select(5) }}
- 平均绝对误差(MAE)
- 均方误差(MSE)
- 对数损失(Log Loss)
- Huber损失
6、使用算法计算数列 $I_n = \int_0^1 \frac{x^n}{x + 5}dx, n = 0,1,\dots, 100$,如果初始值 I0∗ 的绝对误差为 0.01,那么以下哪种情形可以称该算法是数值稳定的? {{ select(6) }}
- In∗的绝对误差均不超过 0.01
- In∗的绝对误差单调不增加
- In∗ 的绝对误差有上界
7、在反向传播过程中,如果发现某个特定层的学习速度显著慢于其他层,以下选项中,最可能的原因是? {{ select(7) }}
- 该层的参数数量较少
- 该层的梯度消失
- 数据标准化不充分
- 学习率设置过低
8、在一个二分类问题中,精确率(Precision)为 0.8,召回率(Recall)为 0.5,F1 分数最接近如下哪个选项? {{ select(8) }}
- 0.62
- 0.31
- 0.4
- 0.7
9、某二分类模型混淆矩阵为:TP=80,TN=100,FP=20,FN=50。其 F1 分数约为? {{ select(9) }}
- 0.62
- 0.54
- 0.7
- 0.78
10、A 为 2 阶矩阵,B 为 2 阶矩阵,且已知 det(A)=2,det(B)=3,则下列结论正确的是()
{{ select(10) }}
- det(ATB)=5(AT 为A的转置矩阵)
- det(AB)=6
- det(2A)=4
- det(A+B)=5
11、在多层感知器(MLP)中,隐藏层通过一系列非线性变换(由激活函数实现)对输入数据进行变化操作,这样的主要作用是? {{ select(11) }}
- 直接映射输入到输出,无需中间处理
- 学习输入特征之间的复杂关系,并进行非线性变换
- 用于减少模型的训练时间
- 确保模型的预测结果为线性可分
12、假设输入的向量为 a=[0,1],b=[2,0],其中 Wk=[0110],Wq=[1112],Wv=[2001],温度因子 dk=1,已知 e1≈2.718,e2≈7.389,e3≈20.086,e4≈54.598,计算 self-attention 后的a,b的输出
{{ select(12) }}
- a=[0,1] b=[2,0]
- a=[16,1] b=[16,2]
- a=[2.9242,0,2689] b=[0.4768,0.8807]
- a=[3.8104,0,0474] b=[3,5232,0.1192]
13、在 Transformer 模型中,自注意力机制(Self-Attention)的核心作用是 {{ select(13) }}
- 捕捉序列中不同位置元素之间的依赖关系
- 替代卷积操作提取局部特征
- 降低模型的计算复杂度
- 减少参数数量
14、假设一个大模型 Agent 在解决数学推理任务时采用 “反思 - 修正” 机制,其核心流程为:
-
生成初步答案 A1;
-
通过独立模块生成反思信号 R;
-
根据R修正答案 A1→A2。
若训练时采用强化学习(RL)框架,则以下哪项最可能是奖励函数的设计目标?
{{ select(14) }}
- 最大化 R 与 A1 的语义相似度
- 最大化 A2 与真实答案 G 的匹配度,同时最小化 ∣A1−A2∣
- 最小化 A1 与 A2 的计算开销差异
- 最大化 A1 与真实答案 G 的匹配度
15、某种电子设备的寿命(单位:小时)服从参数为 λ=0.01 的指数分布,即其概率密度函数为 f(t)=0.01e−0.01t,其中 t≥0。以下陈述正确的是: {{ select(15) }}
- 设备失效率(瞬时故障率)随时间增长而降低。
- 设备已经工作100小时,它在未来10小时内失效的条件概率小于一个新设备在前10小时内失效的概率。
- 设备失效率(瞬时故障率)随时间增长而增加。
- 设备已经工作100小时,它在未来10小时内失效的条件概率等于一个新设备在前10小时内失效的概率。
二、多选题
16、以下哪些操作不会改变 Transformer 的位置编码信息? {{ multiselect(16) }}
- 交换两个 token
- 对输入嵌入加常数向量
- 将序列整体左移 1 个 token
- 对输入嵌入乘常数矩阵
17、关于激活函数 GELU 与 ReLU,下列描述正确的是(可多选) {{ multiselect(17) }}
- GELU 近似保留输入分布的均值,使深网络更易训练
- 在绝大多数现代 Transformer 变体中,GELU 已被 SwiGLU 全面替代
- GELU 相较于 ReLU 无需额外随机性即可引入“软门控”
- 在相同学习率下,GELU 的梯度上界大于 ReLU
18、在深度学习中,权重初始化是一个重要步骤。假设某个网络层的权重被初始化为来自均值为 0、标准差为 sigma 的高斯分布(正态分布)。关于这个初始化策略,以下哪些说法在概率论上是正确的? {{ multiselect(18) }}
- 权重的取值范围被严格限制在 [−3sigma,3sigma]之内
- 增加标准差 sigma 会使得初始化的权重值更倾向于远离 0
- 大约 68% 的权重值会落在 [−sigma,sigma] 的区间内
- 初始化权重的期望值为 0
19、在机器学习中,以下哪些方法可以用于处理类别不平衡问题? {{ multiselect(19) }}
- 对少数类样本进行过采样(Oversampling)
- 使用 AUC-ROC 曲线作为评价指标
- 使用 F1 分数作为评价指标
- 对多数类样本进行欠采样(Undersampling)
20、梯度检查点 (Gradient Checkpointing) 与 ZeRO-Offload 的主要区别体现在(可多选) {{ multiselect(20) }}
- 两者可叠加以进一步扩大可训练模型规模
- 前者通过丢弃中间激活再正向重算,减少显存;后者将部分参数 / 优化器状态搬到 CPU 或 NVMe
- 两者都会增加前向推理时延
- 前者仅影响前向计算图;后者改动优化器加载激活值的方式(例如 CPU)