#P4440. 第1题-选择题
-
Tried: 177
Accepted: 14
Difficulty: 4
所属公司 :
华为
时间 :2025年11月5日-AI方向
-
算法标签>选择题
第1题-选择题
题目与答案整理
T1
答案:B
$$\begin{pmatrix} 2 & 1 & 0 \\ 1 & 1 & 0 \\ 0 & 0 & 2$$一、单选题
1、设 A, P 均为 3 阶矩阵,PT 为 P 的转置矩阵,且 PTAP=100010002,若 P=(α1,α2,α3),Q=(α1+α2,α2,α3),则 QTAQ 为() {{ select(1) }}
- 200010002
- 210110002
- 110120002
- 100020002
2、设 P(A)=0.3,P(B∣A)=0.6,P(B∣¬A)=0.2,则 P(A∣B) 的值为 {{ select(2) }}
- 0.36
- 0.56
- 0.72
- 0.18
3、已知函数 f(x)=x2,用中心差分公式 f′(x)≈2hf(x+h)−f(x−h),取步长 h=0.1,计算 f′(1) 数值结果为: {{ select(3) }}
- 1.8
- 2.2
- 2.0
- 2.4
4、设 θ^=θ^(X1,X2……Xn) 是基于随机样本 X1,X2……Xn 构造的未知参数 θ 的一个估计量,若 θ^ 满足以下条件()时,则称 θ^是 θ 的无偏估计 {{ select(4) }}
- θ^=θ
- E(θ^−θ)=θ
- E(θ^)=θ
- P(θ^=θ)=1
5、在回归问题中,以下哪种损失函数对异常值(outliers)最敏感? {{ select(5) }}
- 平均绝对误差(MAE)
- 均方误差(MSE)
- 对数损失(Log Loss)
- Huber损失
6、使用算法计算数列 In=∫01x+5xndx,n=0,1,…,100,如果初始值 I0∗ 的绝对误差为 0.01,那么以下哪种情形可以称该算法是数值稳定的? {{ select(6) }}
- In∗的绝对误差均不超过 0.01
- In∗的绝对误差单调不增加
- In∗ 的绝对误差有上界
7、在反向传播过程中,如果发现某个特定层的学习速度显著慢于其他层,以下选项中,最可能的原因是? {{ select(7) }}
- 该层的参数数量较少
- 该层的梯度消失
- 数据标准化不充分
- 学习率设置过低
8、在一个二分类问题中,精确率(Precision)为 0.8,召回率(Recall)为 0.5,F1 分数最接近如下哪个选项? {{ select(8) }}
- 0.62
- 0.31
- 0.4
- 0.7
9、某二分类模型混淆矩阵为:TP=80,TN=100,FP=20,FN=50。其 F1 分数约为? {{ select(9) }}
- 0.62
- 0.54
- 0.7
- 0.78
10、A 为 2 阶矩阵,B 为 2 阶矩阵,且已知 det(A)=2,det(B)=3,则下列结论正确的是()
{{ select(10) }}
- det(ATB)=5(AT 为A的转置矩阵)
- det(AB)=6
- det(2A)=4
- det(A+B)=5
11、在多层感知器(MLP)中,隐藏层通过一系列非线性变换(由激活函数实现)对输入数据进行变化操作,这样的主要作用是? {{ select(11) }}
- 直接映射输入到输出,无需中间处理
- 学习输入特征之间的复杂关系,并进行非线性变换
- 用于减少模型的训练时间
- 确保模型的预测结果为线性可分
12、假设输入的向量为 a=[0,1],b=[2,0],其中 Wk=[0110],Wq=[1112],Wv=[2001],温度因子 dk=1,已知 e1≈2.718,e2≈7.389,e3≈20.086,e4≈54.598,计算 self-attention 后的a,b的输出
{{ select(12) }}
- a=[0,1] b=[2,0]
- a=[16,1] b=[16,2]
- a=[2.9242,0,2689] b=[0.4768,0.8807]
- a=[3.8104,0,0474] b=[3,5232,0.1192]
13、在 Transformer 模型中,自注意力机制(Self-Attention)的核心作用是 {{ select(13) }}
- 捕捉序列中不同位置元素之间的依赖关系
- 替代卷积操作提取局部特征
- 降低模型的计算复杂度
- 减少参数数量
14、假设一个大模型 Agent 在解决数学推理任务时采用 “反思 - 修正” 机制,其核心流程为:
-
生成初步答案 A1;
-
通过独立模块生成反思信号 R;
-
根据R修正答案 A1→A2。
若训练时采用强化学习(RL)框架,则以下哪项最可能是奖励函数的设计目标?
{{ select(14) }}
- 最大化 R 与 A1 的语义相似度
- 最大化 A2 与真实答案 G 的匹配度,同时最小化 ∣A1−A2∣
- 最小化 A1 与 A2 的计算开销差异
- 最大化 A1 与真实答案 G 的匹配度
15、某种电子设备的寿命(单位:小时)服从参数为 λ=0.01 的指数分布,即其概率密度函数为 f(t)=0.01e−0.01t,其中 t≥0。以下陈述正确的是: {{ select(15) }}
- 设备失效率(瞬时故障率)随时间增长而降低。
- 设备已经工作100小时,它在未来10小时内失效的条件概率小于一个新设备在前10小时内失效的概率。
- 设备失效率(瞬时故障率)随时间增长而增加。
- 设备已经工作100小时,它在未来10小时内失效的条件概率等于一个新设备在前10小时内失效的概率。
二、多选题
16、以下哪些操作不会改变 Transformer 的位置编码信息? {{ multiselect(16) }}
- 交换两个 token
- 对输入嵌入加常数向量
- 将序列整体左移 1 个 token
- 对输入嵌入乘常数矩阵
17、关于激活函数 GELU 与 ReLU,下列描述正确的是(可多选) {{ multiselect(17) }}
- GELU 近似保留输入分布的均值,使深网络更易训练
- 在绝大多数现代 Transformer 变体中,GELU 已被 SwiGLU 全面替代
- GELU 相较于 ReLU 无需额外随机性即可引入“软门控”
- 在相同学习率下,GELU 的梯度上界大于 ReLU
18、在深度学习中,权重初始化是一个重要步骤。假设某个网络层的权重被初始化为来自均值为 0、标准差为 sigma 的高斯分布(正态分布)。关于这个初始化策略,以下哪些说法在概率论上是正确的? {{ multiselect(18) }}
- 权重的取值范围被严格限制在 [−3sigma,3sigma]之内
- 增加标准差 sigma 会使得初始化的权重值更倾向于远离 0
- 大约 68% 的权重值会落在 [−sigma,sigma] 的区间内
- 初始化权重的期望值为 0
19、在机器学习中,以下哪些方法可以用于处理类别不平衡问题? {{ multiselect(19) }}
- 对少数类样本进行过采样(Oversampling)
- 使用 AUC-ROC 曲线作为评价指标
- 使用 F1 分数作为评价指标
- 对多数类样本进行欠采样(Undersampling)
20、梯度检查点 (Gradient Checkpointing) 与 ZeRO-Offload 的主要区别体现在(可多选) {{ multiselect(20) }}
- 两者可叠加以进一步扩大可训练模型规模
- 前者通过丢弃中间激活再正向重算,减少显存;后者将部分参数 / 优化器状态搬到 CPU 或 NVMe
- 两者都会增加前向推理时延
- 前者仅影响前向计算图;后者改动优化器加载激活值的方式(例如 CPU)