#P4537. 第1题-选择题
-
Tried: 18
Accepted: 2
Difficulty: 5
所属公司 :
华为
时间 :2025年1月7日-AI方向
-
算法标签>选择题
第1题-选择题
题目与答案整理
T1
答案:A. 3
解析:
二次型 $f = 5x_1^2 + 5x_2^2 + cx_3^2 - 2x_1x_2 + 6x_1x_3 - 6x_2x_3$ 对应的对称矩阵为
已知二次型的秩为 2,即矩阵 A 的秩为 2,要求:
- 至少有一个二阶主子式不为 0
- 行列式为 0
计算行列式得
∣A∣=24(c−3)令 ∣A∣=0,得 c=3。
此时存在非零二阶子式,因此秩正好为 2。
T2
答案:D. 准确率(Accuracy)
解析:
在正负样本比例为 9:1 的严重类别不平衡数据集中,模型即使全部预测为正类,也能得到很高的准确率,但实际上对负类几乎没有识别能力,因此准确率无法客观反映模型真实性能。相比之下,Recall、F1-score 和 AUC 对类别不平衡更为敏感。
T3
答案:C. 4
解析:
第一步:化简逆矩阵
(31A)−1=3A−1而
A−1=∣A∣1A∗=21A∗所以
$$\left(\tfrac13 A\right)^{-1} = 3 \cdot \frac12 A^* = \frac32 A^*$$第二步:代入原式
23A∗−21A∗=A∗原式变为:
∣A∗∣第三步:利用伴随矩阵的行列式性质
对于 n×n 矩阵:
∣A∗∣=∣A∣,n−1这里 n=3,所以:
∣A∗∣=∣A∣2=22=4对应选项 C。
T4
答案:A. $\begin{pmatrix}0&1&1\\[2pt]1&0&0\\[2pt]0&0&1\end{pmatrix}$
解析:
对矩阵 A 做列变换等价于右乘初等矩阵。
- 先交换第 1、2 列:右乘 P=010100001
- 再将第 2 列加到第 3 列:右乘 E=100010011
综合变换矩阵为 PE=010100101,对应选项 A。
T5
答案:B. 在微调阶段通过低秩矩阵减少要更新的参数量
解析:
LoRA 的核心思想是在微调时冻结原模型参数,仅引入可训练的低秩矩阵来近似参数更新,从而大幅减少需要训练和存储的参数量。它不用于解决幻觉问题,也不影响上下文长度或预训练阶段的计算成本。
T6
答案:D. 9
解析:
向量的 L1 范数等于各分量绝对值之和:
∣1∣+∣2∣+∣3∣+∣0∣+∣−3∣=1+2+3+0+3=9。
T7
答案:B. 添加正则化
解析:
过拟合说明模型过于复杂、对训练数据拟合过度。添加正则化(如 L1/L2、Dropout)可以约束模型复杂度,提高泛化能力;其余选项要么无效,要么会加重过拟合。
T8
答案:B. 提供序列位置信息
解析:
Transformer 的自注意力机制本身不包含顺序信息,位置编码用于向模型注入序列中各 token 的相对或绝对位置信息;它不用于增强非线性、提升带宽或降低计算量。
T9
答案:C. 将像素矩阵按行展开为 784 维向量
解析:
题目要求在特征转换时完整保留原始信息。将 28×28 的像素矩阵直接按行(或列)展开为 784 维向量是信息无损的变换;其余选项都会丢失部分空间或像素信息。
T10
答案:D. 低秩矩阵的乘法可以离线编译到权重中
解析:
LoRA 在推理时可将低秩更新 ΔW=BA 直接合并进原权重 W,不引入额外计算路径,因此对推理时延几乎没有影响;其余选项要么表述不准确,要么不是“时延几乎不受影响”的根本原因。
T11
答案:C. 4.72 M
解析:
Transformer 的 MLP 通常包含两层全连接:
- 第一层:768→4×768=3072
- 第二层:3072→768
参数量约为:
偏置参数量相对很小,可忽略不计,因此选 C。
T12
答案:D. 2
解析:
矩阵的迹等于其所有特征值之和:
因此选 D。
T13
答案:B. 12n2M(b−a)3
解析:
复合梯形公式的截断误差满足
代入得
$$|E_T|\le \frac{(b-a)}{12}\left(\frac{b-a}{n}\right)^2 M=\frac{M(b-a)^3}{12n^2}$$因此选 B。
T14
答案:A. $\log \dfrac{\exp(\mathrm{sim}(V_i,T_i))}{\sum_j \exp(\mathrm{sim}(V_i,T_j))}$
解析:
对比学习(如 CLIP)的核心是 InfoNCE / 对比损失,通过最大化匹配图文对的相似度、最小化不匹配对的相似度实现跨模态对齐。选项 A 正是基于相似度的 softmax 对比损失,其余(交叉熵、KL、MSE)不符合典型对比学习设定。
T15
答案:D. 线性收敛
解析:
二分法每一步将区间长度减半,误差按固定比例缩小,因此其收敛速度为线性收敛,而非二次或超线性收敛。
T16
答案:B、C
解析:
- A 错:线性相关的充要条件是“至少存在一个向量可由其余向量线性表示”,而不是“任意一个”。
- B 对:给出的向量组之间存在线性组合关系(相加可抵消),必然线性相关。
- C 对:AB=0 且 A,B 均非零,说明 A 的列向量或 B 的行向量必然线性相关。
- D 错:由 A∗=−AT 不能推出 det(A)<0,结论不成立。
T17
答案:A、C
解析:
- A 对:前 k 个主成分依次最大化数据方差。
- B 错:PCA 对数据旋转后,主成分方向一般会发生变化。
- C 对:主成分对应协方差矩阵的特征向量,彼此正交。
- D 错:主成分是原始特征的线性组合,并非线性无关。
T18
答案:A、B、C、D
解析:
- A 对:Adam 的偏差校正用于修正一阶、二阶动量在训练初期因初始化为 0 带来的系统性低估,有助于更稳定、有效的早期收敛。
- B 对:在“峡谷型”损失地形中,自适应优化器(Adam / RMSprop)能对不同维度自动调整学习率,缓解震荡并加快收敛,相比纯 SGD 更有优势。
- C 对:当某参数梯度长期稀疏(接近 0)时,Adam / RMSprop 会因二阶矩较小而提高有效学习率,使更新更稳定、更有效。
- D 对:Adam / RMSprop 需要为每个参数维护额外的动量与平方梯度统计量,相比 SGD with Momentum 占用更多显存,这是工程实践中广泛认可的结论。
T19
答案:B、D
解析:
先用全概率公式:
⇒ B 正确。
再用贝叶斯公式:
$$P(A_2|B)=\frac{P(B|A_2)P(A_2)}{P(B)}=\frac{0.4\times0.3}{0.44}\approx0.273$$⇒ D 正确。
其余选项:
- A 错:P(A2∣B)=P(B∣A2),条件概率不可互换。
- C 错:$P(A_1|B)=\frac{0.1\times0.2}{0.44}\approx0.0455\neq$ 题中精确表述。
T20
答案:A、C、D、E
解析:
- A 对:L-BFGS 属于拟牛顿法,利用梯度信息近似 Hessian(或其逆),属于二阶优化方法。
- B 错:Momentum 仅使用一阶梯度信息,引入动量项,不涉及二阶信息。
- C 对:Adam 基于一阶梯度及其统计量(动量、一阶/二阶矩的估计),仍属于一阶优化方法。
- D 对:AdaGrad 通过累积平方梯度调整学习率,但不使用 Hessian,属于一阶方法。
- E 对:AdamW 是 Adam 的改进版本(解耦权重衰减),本质仍是一阶优化方法。
一、单选题
1、若二次型 $f(x_1,x_2,x_3)=5x{_1^2}+5x{_2^2}+cx{_3^2}-2x_1x_2+6x_1x_3-6x_1x_3$的秩为 2 ,则 c=() {{ select(1) }}
- 3
- 5
- 9
- 6
2、在处理用户评论情感分类任务时,你发现数据集里正面评论和负面评论的比例是9:1,这是一个典型的数据不平衡问题。在这种情况下,以下哪个评估指标最不能客观地反映模型的性能? {{ select(2) }}
- 召回率(Recall)
- AUC(ROC曲线下面积)
- F1-score
- 准确率(Accuracy)
3、设 A 为 3 阶矩阵,且 ∣A∣=2 ,则 ∣(31A)−1−21A∗∣=()
注:A∗ 表示 A 的伴随矩阵
{{ select(3) }}
- 1
- 16125
- 4
- −274
4、设 A 是 3 阶方阵,将 A 的第 1 列与第 2 列交换得到 B,再把 B 的第 2 列加到第 3 列得到C,则满足 AQ=C 的可逆矩阵 Q 为 {{ select(4) }}
- $\left[\begin{array}{lll}0 & 1 & 0 \\1 & 0 & 0 \\1 & 0 & 1\end{array}\right]$
- $\left[\begin{array}{lll}0 & 1 & 0 \\1 & 0 & 0 \\0 & 1 & 1\end{array}\right]$
- $\left[\begin{array}{lll}0 & 1 & 1 \\1 & 0 & 0 \\0 & 0 & 1\end{array}\right]$
- $\left[\begin{array}{lll}0 & 1 & 0 \\1 & 0 & 1 \\0 & 0 & 1\end{array}\right]$
5、大模型训练中的"LoRA(Low-Rank Adaptation)“技术主要作用是 {{ select(5) }}
- 解决模型推理时的幻觉问题
- 在微测阶段通过低秩矩阵减少要更新的参数量
- 提升模型的上下文窗口长度
- 降低预渊练阶段的计算成本
6、向量 A=[1,2,3,0,−3] 的 L1 范数为? {{ select(6) }}
- 3
- 23
- 4
- 9
7、如果一个模型出现了过拟合,我们通过以下哪些操作和优化能够缓解或者减少这种过拟合可能带来的问题? {{ select(7) }}
- 在原有数据集上重新训练
- 添加正则化
- 将数据集复制后再训练
- 减少数据集后再训练
8、Transformer 位置编码(Position Encoding)主要作用: {{ select(8) }}
- 增强非线性
- 提供序列位置信息
- 提升并行带宽
- 降低模型计算量
9、在机器学习中,将一张 28 × 28 像素的灰度图像转换为特征向量时,要求特征向量能完整保存原有信息的操作是? {{ select(9) }}
- 仅保留边缘检测后的像素值
- 计算每个 4×4 块的平均值,生成 49 维向量
- 将像素矩阵按行展开为784维向量
- 直接使用原始像素矩阵作为输入
10、在参数高效微调(PEFT)方法中,LoRA 通过在 Transformer 线性层插入可训练的低秩矩阵来近似权重更新。下面哪一项最能解释为什么 LoRA 对推理时延几平没有负面影响? {{ select(10) }}
- LORA 会把权重量化为 INT4,从而加速推理
- 低秩更新的秩r很小,且与原矩阵乘法可并行融合
- LORA 只在训练阶段发挥作用,推理阶段被完全丢弃
- 低秩矩阵的乘法可以离线编译到权重中
11、某12层Transformer,hidden size=768,MLP 扩展比=4,则每层 MLP 的参数量约为 {{ select(11) }}
- 18.88 M
- 9.44 M
- 4.72 M
- 2.36 M
12、设 A∈R2×2 的特征值为 λ1=3,λ2=−1 ,则 A 的迹为:
{{ select(12) }}
- 3
- 4
- -1
- 2
13、用梯形法则计算定积分时,若被积函数的二阶导数在区间 [a,b]上的最大值为M,积分区间等分为 n 段,则截断误差的上界为以下哪一项? {{ select(13) }}
- 2n2M(b−a)2
- 12n2M(b−a)3
- nM(b−a)
- 24n3M(b−a)4
14、在一个基于Transformer的多模态模型中,视觉-文本对齐模块的目标是将图像特征 V∈Rn×dv 和文本特征 T∈Rm×dt 映射到同一语义空间若采用对比学习(Contrastive Learning)框架,则损失函数可选下列哪个? {{ select(14) }}
- $\log \frac{\exp \left(\sin \left(V_{1}, T_{j}\right)\right)}{\sum_{k \neq j} \exp \left(\sin \left(V_{i}, T_{k}\right)\right)}$
- CrossEntropy(Vi,Tj)
- KL-Divergence (Vi∥Tj)
- MSE(Vi,Tj)
15、二分法(Bisection Method)求解方程 时,其收敛速度是() {{ select(15) }}
- 超线性收敛
- 不收敛
- 二次收敛
- 线性收敛
二、多选题
16、以下说法正确的是() {{ multiselect(16) }}
- 向量组 α1,α2,…,an, 线性相关的充要条件是向量组中的任意一个向量 αi 都可以由剩余的 n−1 个向量线性表示
- n≥2 ,向量组 α1−a2,…,αn−1−αn,2(αn−α1) 一定线性相关
- 设 A,B 是满足 AB=0 的任意两个非零矩阵,则一定有 A 的列向量线性相关, B 的行向量线性相关
- 设 A 为 3 阶非零实方阵,A∗ 为 A 的伴随方阵,若 A∗=−AT,则 det(A)<0
17、主成分分析(PCA)的前k个主成分具有哪些性质? {{ multiselect(17) }}
- 方差依次最大
- 原始数据旋转后主成分不变
- 主成分之间正交
- 与原始特征线性无关
18、在为一个大型语言模型(LLM)选择和调整优化器时,一位算法工程师面临以下几个论断。假设训练资源(计算卡、时间)非常宝贵,且模型训练需要考虑收敛速度、最终性能和内存占用。下列哪些论断是理论上成立或在工程实践中被广泛认可的? {{ multiselect(18) }}
- Adam优化器中的偏差校正(Bias Corecion)机制,主要用于解决训练初期动量估计值因初始化为零而系统性偏小的问题,有助于在训练开始阶段获得更合理的学习步长,
- 在损失函数的"峡谷“地形(即某个方向梯度很大,而正交方向梯度很小)中,相较于朴素SGD,Adam或RMSprop能够为梯度较大的参数维度提供更小的有效学习率,为梯度较小的维度提供较大的有效学习率,从而抑制振荡并加速收敛。
- 对于RMSprop或Adam,如果某个参数的梯度在许多连续步骤中都非常稀疏(如梯度持续为零),那么该参数的有效学习率会逐渐减小,从而在梯度最终出现时能进行更稳定的更新,
- 相比于SGD with Momentum,Adam或RMSprop这类自适应优化器,由于为每个参数维护一个二阶动量(如v_t),因此会显著增加优化器状态的内存占用。
19、在某场景中,事件 A1,A2,A3 构成样本空间的一个划分,满足 P(A1)=0.2,P(A2)=0.3,P(A3)=0.5。已知条件概率 P(B丨A1)=0.1,P(B丨A2)=0.4,P(B∣A3)=0.6。以下哪些是正确的? {{ multiselect(19) }}
- P(A2∣B)=P(B∣A2)
- P(B)=0.44
- P(A1∣B)≈0.045
- P(A2∣B)≈0.273
20、对于以下优化算法,说法正确的是? {{ multiselect(20) }}
- L-BFGS是二阶优化方法
- Momentum是二阶优化方法
- Adam是一阶优化方法
- AdaGrad是一阶优化方法
- Adamw是一阶优化方法