#P4480. 第1题-选择题
-
Tried: 13
Accepted: 0
Difficulty: 5
所属公司 :
华为
时间 :2025年11月20日-AI方向
-
算法标签>选择题
第1题-选择题
T1
答案:A. 同时接近似幂律比例增大模型参数数、训练 token 数和训练步数。
解析:
Kaplan 等人在 2020 年的 Scaling Laws 工作里发现,语言模型的训练损失在模型规模、训练数据量(token 数)和计算量(步数)之间呈幂律关系,想高效降低损失,需要在这三者之间按近似幂律比例共同扩展,而不是只单独放大模型参数、embedding 维度或批大小。
T2
答案:B. S 的特征向量可以构成一组正交基
解析:
实矩阵 S 可正交对角化,等价于存在一组由其特征向量组成的正交(规范)基,此时可写成
其中 Q 为正交矩阵,其列向量正是 S 的一组正交特征向量,因此 B 正好是“可正交对角化”的等价表述。
- A:S2=I 只说明特征值为 ±1,但矩阵未必是正交可对角化的(可以构造非对称、不可正交对角化但满足 S2=I 的矩阵)。
- C:不可约与是否能正交对角化没有直接关系。
- D:特征值都为正数只保证谱为正,但矩阵仍可能不可对角化或非正交对角化,例如上三角的非对角矩阵。
T3
答案:C. 220×220×5
解析:
卷积输出空间尺寸计算公式为:
题中:H=224, K=7, P=1, S=1,所以
$$H_{\text{out}} = \frac{224 + 2 \times 1 - 7}{1} + 1 = 220 $$因此空间尺寸是 220×220。
通道数等于卷积核个数,这里为 5 个卷积核,所以输出为 220×220×5。
T4
答案:B. 2.0
解析:
题给函数 f(x)=x2,用中心差分公式
步长 h=0.1,在 x=1 处有
$$f'(1) \approx \frac{f(1.1) - f(0.9)}{2 \times 0.1} = \frac{f(1.1) - f(0.9)}{0.2} $$计算
$$f(1.1) = 1.1^2 = 1.21,\quad f(0.9) = 0.9^2 = 0.81, $$$$f'(1) \approx \frac{1.21 - 0.81}{0.2} = \frac{0.40}{0.2} = 2.0. $$所以数值结果为 2.0,选 B。
T5
答案:C. 4.0
解析:
对直线 y=a+bx 做最小二乘回归,斜率
其中
$$\bar x = \frac{1+2+3}{3} = 2,\quad \bar y = \frac{1+4+9}{3} = \frac{14}{3}. $$计算得:
$$\sum (x_i - \bar x)(y_i - \bar y) = 8,\quad \sum (x_i - \bar x)^2 = 2 \Rightarrow b = \frac{8}{2} = 4.0 $$所以选 C. 4.0。
T6
答案:D. w0=60.0, w1=5.0
解析:
给出的数据为
可以看到,当 x 每增加 1,小费 y 都增加 5,说明数据几乎严格服从线性关系
y=5x+b取任一点代入求截距:如用 (x,y)=(1,65):
65=5×1+b⇒b=60因此最优的最小二乘直线是
y^=60+5x即 w0=60, w1=5,对应选项 D。
T7
答案:D. Var(X+Y)=Var(X)+Var(Y)
解析:
由条件
可得协方差
Cov(X,Y)=E(XY)−E(X)E(Y)=0因此
$$\text{Var}(X+Y) = \text{Var}(X) + \text{Var}(Y) + 2\text{Cov}(X,Y) = \text{Var}(X) + \text{Var}(Y) $$所以只有选项 D 在该条件下必然成立。
T8
答案:A. 0.4
解析:
相关系数定义为
题中给出
$$\text{Cov}(X,Y) = 8,\quad \text{Var}(X) = 16,\quad \text{Var}(Y) = 25 $$则
$$\rho_{X,Y} = \frac{8}{\sqrt{16 \cdot 25}} = \frac{8}{4 \cdot 5} = \frac{8}{20} = 0.4. $$所以选择 A. 0.4。
T9
答案:D. 捕捉序列中不同位置元素之间的依赖关系
解析:
Transformer 中的自注意力机制会让序列中每个位置的表示,都根据序列中其它所有位置的信息进行加权融合,从而有效建模长距离、全局的依赖关系。这才是它的核心作用,而不是单纯减少参数或计算复杂度。
T10
答案:D. O(k(m+n))
解析:
评分矩阵 A∈Rm×n 通过截断 SVD 压缩为
只保留前 k 个奇异值(其中 k≪m,n)。
压缩后需要存储:
- 左奇异向量矩阵 Uk:大小为 m×k,存储量约为 mk;
- 奇异值对角矩阵 Σk:只需保存 k 个奇异值,存储量约为 k;
- 右奇异向量矩阵 Vk:大小为 n×k,存储量约为 nk。
总存储量为
因此压缩后的存储空间复杂度为 O(k(m+n)),选 D。
T11
答案:C. 均方误差(MSE)
解析:
MSE 对误差做平方:误差越大,平方后增长得越快,所以大残差(异常值)会被放大得非常厉害,使得整体损失对少量 outliers 极其敏感。
MAE、Huber 损失相比之下都更“鲁棒”,而对数损失(Log Loss)主要用于分类问题。
T12
答案:B. 0.62
解析:
二分类中 F1 分数为精确率和召回率的调和平均:
题中给 P=0.8, R=0.5,代入得
$$F1 = \frac{2 \times 0.8 \times 0.5}{0.8 + 0.5} = \frac{0.8}{1.3} \approx 0.615. $$最接近的备选项是 0.62,故选 B。
T13
答案:B. 52
解析:
- 事件 A(红球):编号 {1,2,3}
- 事件 B(奇数):编号 {1,3,5}
交集 A∩B={1,3},共有 2 个球。
总共有 5 个球,因此
T14
答案:B. 该层的梯度消失
解析:
在反向传播中,每一层参数的更新幅度主要由该层的梯度大小决定。若某一特定层“学习速度明显慢于其他层”,说明该层参数更新很小,最典型的原因就是梯度在传播到这一层时几乎为 0,即梯度消失。
- A:参数数量多少影响模型容量,但不会直接导致“该层更新特别慢”;
- C:数据标准化不充分通常影响整体训练稳定性,而不是只让某一层明显变慢;
- D:学习率过低会使所有层更新都慢,而非只影响某一特定层。
因此最可能的原因是该层发生梯度消失,选 B。
T15
答案:B. 激活检查点 (Activation Checkpointing)
解析:
激活检查点的做法是:
- 正向传播时不保存所有中间激活,只在若干“检查点”保存;
- 反向传播时再从这些检查点重新计算中间激活,用计算换内存;
这样既能在显存受限的条件下训练超大模型,又能保证梯度计算是正确的。
其他选项(梯度裁剪、Dropout、权重衰减)主要是优化稳定性和正则化,不是显存优化手段。
T16
答案:B、C. 使用残差连接;采用层归一化
解析:
在 Transformer 中,常用的缓解梯度消失的方法主要有:
- 残差连接(B):在每个子层外加上 x+SubLayer(x) 的跳跃连接,使梯度可以直接跨层传播,显著减轻梯度消失问题。
- 层归一化(C):对每一层的输入进行归一化,在前向和反向传播中都能稳定数值范围,从而使梯度更稳定、训练更容易收敛。
其它选项: - A 使用门控机制更常用于 RNN(如 LSTM/GRU),不是 Transformer 体系中缓解梯度消失的典型手段。
- D 增加层数会让网络更深,一般会加重而不是缓解梯度消失问题。
因此正确选择为 B、C。
T17
答案:B、C、D
- B. EM算法用于含隐变量的MLE ✅
EM 本质上就是在存在隐变量或缺失数据时,用来求最大似然估计的迭代算法。 - C. MLE计算时常求其对数似然函数 ✅
对数似然把乘积变和,便于求导和数值计算,因此实际求 MLE 时几乎都是最大化 log-likelihood。 - D. 当样本量 n 趋于无穷,MLE 服从正态分布 ✅
在常见的正则条件下,MLE 是渐近正态的:
- A. MLE估计量总是无偏的 ❌
MLE 一般只是渐近无偏,有限样本下可以是有偏的。
T18
答案:A、D. 该数据集的众数一定严格大于 1;该数据集的中位数一定严格大于 1
解析:
数据集中有 100 个数,最小值为 1、最大值为 100,只能推出所有数据都在 [1,100] 内,并且至少各有一个 1 和一个 100。
- A 众数一定 >1:错误。
可以构造数据:99 个数为 1,1 个数为 100,则众数为 1,并不大于 1。 - B 标准差一定 >1:正确。
至少有一个 1 和一个 100,设数据均值为 μ。因为 μ 介于 1 和 100 之间,则
∣1−μ∣2+∣100−μ∣2 在 μ=50.5 时最小,此时两项都为 49.52。
故总平方离差至少为 2×49.52,
其他元素即使都等于均值也无法把标准差降到 1 以下。
- C 均值一定 >1:正确。
因为最大值为 100>1,说明存在至少一个数据 >1,且所有数 ≥1,
只要不是“全部都等于最小值”,均值就会严格大于最小值 1。 - D 中位数一定 >1:错误。
同样用数据:99 个 1、1 个 100。排序后第 50 和 51 个数都为 1,中位数为 1,不大于 1。
因此错误的选项是 A、D。
T19
答案:C、D
简要解析:
初始按字符分词:
- low → l o w (5次)
- lower → l o w e r (2次)
- newest → n e w e s t (6次)
- widest → w i d e s t (3次)
统计相邻符号对的频次,可得最高频的有三个: - e s:9 次
- s t:9 次
- t :9 次
第一轮 BPE 要从最高频的符号对中任选一个进行合并,因此: - 选 e s → 得到类似 C 选项:n e w es t 、w i d es t
- 选 s t → 得到类似 D 选项:n e w e st 、w i d e st
而 B 对应的是合并 w e(频次 8,小于 9),A 则没有进行这种单一高频对的合并,因此不是“第一轮合并后可能的词表”。
T20
答案:C、D、E
解析:
深度学习中常见几种优化器的典型特点如下:
- A 错误:Adam 虽然常用,但并不能保证找到全局最优解;在非凸问题(如深度网络)里仍可能停在局部最优或鞍点,而且也不是“所有架构里的首选”,仍需调参和比较。
- B 错误:SGD(含带动量的 SGD)依然是实际中非常常用、重要的优化器,并不能说“很少使用”;而且它在大规模训练和泛化性能上往往表现很好,不能简单说在非凸问题中就一定比 Adam 更差。
- C 正确:RMSProp 通过对平方梯度做指数加权平均来平滑梯度,从而避免 AdaGrad 中学习率随时间单调快速衰减的问题,适合处理非平稳目标函数(如序列任务中的参数分布不断变化)。
- D 正确:Adam 结合了动量(Momentum)和 RMSProp 的思想,一方面利用一阶动量累积方向,另一方面用二阶动量调整每个参数的有效学习率,从而自适应地为不同参数分配步长,加快收敛且对学习率不那么敏感。
- E 正确:AdaGrad 会为每个参数分配不同的学习率,并根据历史梯度平方和不断累积使学习率逐渐减小,对稀疏特征尤为适合,但后期学习率过小可能导致训练停滞,这也是其典型优缺点描述。
一、单选题
1、根据2020年 Kaplan 等人的 Tranformer “Scaling Laws”,若在给定计算预算下想最小化语言模型的训练损失,应当 {{ select(1) }}
- 同时按近似幂律比例增大模型参数数,训练token数和训练步数
- 增大词向量维度(Embedding Dimension)
- 增大模型参数数量(Model Size)
- 增大批大小(Batch Size)
2、设 S=R 为实对称矩阵,下列每项说法与“S正交对角化”等价? {{ select(2) }}
- S 满足 S=1
- S 的特征向量可以组成一组正交基
- S 不可约
- S 的所有特征值都是正数
3、假设输入图片的维度是 224×224×3,卷积神经网络的第一层中有5个卷积核,每个卷积核尺寸为7×7,具有 {{ select(3) }}
- 218×218×5
- 218×218×3
- 220×220×5
- 220×220×3
4、已知函数 f(x)=x2 ,用中心差分公式 ,取步长 h=0.1 ,计算 f‘(1) 数值结果为 {{ select(4) }}
- 1.8
- 2.0
- 2.4
- 2.2
5、给定数据:x=[1,2,3],y=[1,4,9]。用最小二乘法拟合直线 y=a+bx,则系数b为? {{ select(5) }}
- 2.5
- 3.5
- 4.0
- 3.0
6、某购物APP推荐算法团队希望通过线性回归模型分析用户上个月平均每日在线时间x(单位:小时)对上个月
| x(小时) | Y(美元) |
|---|---|
| 1.0 | 65 |
| 2.0 | 70 |
| 3.0 | 75 |
| 4.0 | 80 |
| 5。0 | 85 |
假设采用简单线性回归模型: y=w0+w1x ,使用最小二乘法求解模型最优参数,下列哪一组参数是正确的
{{ select(6) }}
- w0=55.0,w1=6.0
- w0=58.0,w1=5.5
- w0=62.0,w1=4.5
- w0=60.0,w1=5.0
7、如果随机变量X和Y的期望满足E(XY)=E(X)E(Y),则下列哪项成立 {{ select(7) }}
- Var(X−Y)=Var(X)−Var(Y)
- Var(XY)=Var(X)Var(Y)
- Var(X2−Y2)=Var(X2)+Var(Y2)
- Var(X+Y)=Var(X)+Var(Y)
8、已知随机变量X和Y的协方差Cov(X,Y)=s,且 Var(X)=16,Var(Y)=25,则他们的相关系数 PX,Y 为 0 {{ select(8) }}
- 0.4
- 0.2
- 0.8
- 0.6
9、在Transformer模型中,自注意力机制(Self-Attention)的核心作用是 {{ select(9) }}
- 替代卷积操作提取局部特征
- 减少参数数量
- 降低模型的计算复杂度
- 捕捉序列中不同位置元素之间的依赖关系
10、在推荐系统中,用户-物品评分矩阵 A∈R^{m×n} 通过SVD压缩为 A=UV(保留k个奇异值,k 远小于m和n的条件)后最小存储空间是? {{ select(10) }}
- O(k iog nm)
- O(knm)
- O((k+m+n)2)
- O(k(m+n))
11、在回归问题中,以下哪种损失函数对异常值(outiers)最敏感? {{ select(11) }}
- 平均绝对误差(MAE)
- Huber损失
- 均方误差(MSE)
- 对数损失(Log Loss)
12、在一个二分类问题中,精确率(Precision)为0.8,召回率(Recall)为0.5,F1分数最接近如下哪个选项
{{ select(12) }}
- 0.4
- 0.62
- 0.7
- 0.31
13、、从一个盒子中随机抽取一个球,球有编号 1-5,其中编号1、2、3 是红球,编号4、5是蓝球、设事件 A 为 “抽到红球”,事件 B 为 “” {{ select(13) }}
- 54
- 51
- 52
- 53
14、在反向传播过程中,如果发现某个特定层的学习速度显善慢于其他层,以下选项中,最可能的原因是? {{ select(14) }}
- 该层的参数数量较少
- 该层的梯度消失
- 数据标准化不充分
- 学习率设置过低
15、在训练超大规模语言模型时,为了在显存受限的情况下仍能使用较深的网络并保持梯度正确,常用的内存优化技术是 {{ select(15) }}
- 权重衰减(Weifht Decay)
- 梯度裁剪(Gradient Clipping)
- 随机失活(Dropout)
- 激活检查点(Activation Checkpointing)
二、多选题
16、以下哪些方法可以用于缓解Transformer模型中的规度消失问题? {{ multiselect(16) }}
- 使用门控机制(Mamba,类似GRU、LSTM)控制信息流动失
- 使用残差连接(Residual Connection),通过跳跃连接缓解梯度消失
- 采用层归一化(Layer Normalization)稳定训练过程
- 增加模型的层数,以增强模型的可表达性
17、关于 MLE(Maximum Likelihood Estimation,最大似然估计)的说法,正确的是 {{ multiselect(17) }}
- MLE 估计量总是无偏的
- EM 算法用于含隐变量的 MLE
- MLE 计算时常求其对数似然函数
- 当样本量 n 趋于无穷,MLE 服从正态分布
18、假设某数据集中包括 100 个数据其最大值为 100 ,最小值为 1、那么,以下有关数据集基本统计量的定义中,错误的有 {{ multiselect(18) }}
- 该数据集的众数一定严格大于1
- 该数据集的标准差一定严格大于1
- 该数据集的均值一定严格大于1
- 该数据集的中位数一定严格大于1
19、利用 BPE算法在字节级语料上训练子词词表。给定如下 初始字符级切分与词频,请计算第一轮合并后可能的词表。
语料如下 (为结束符):
| 单词(字符序列) | 频次 |
|---|---|
| l o w | 5 |
| l o w e r | 2 |
| n e w e s t | 6 |
| w i d e s t | 3 |
{{ multiselect(19) }}
-
l o w
l o w e r
n e w e s t
w i d e s t
-
l ow
l ow e r
n e w e s t
w i d e s t
-
l o w
l o we r
n e we s t
w i d e s t
-
l o w
l o w e r
n e we s t
w i d es t
20、在深度学习模型训练过程中,选择合适的优化器对于加速收敛和提高模型性能至关重要。以下关于几种常见优化及其特性的描述 {{ multiselect(20) }}
- 在大多数情况下,使用Adam优化器可以保证找到全局最优解,因为它能够动态调整学习率并结合了二阶矩估计、因此在所有类型的
- SGD(随机梯度下降)优化器虽然简单,但在处理非凸优化问题时比Adam更容易陷入局部最优解,因此在实际运用中很少使用SGD作为优化器
- RMSProp优化器通过指数加权平均的方式平滑梯度,从而解决了AdaGrd中学习率单调递减的问题,适用于处理非平稳目标函数
- Adam优化器结合了动量(Momentum)和RMSProp的优点,通过自适应地调整每个参数的学习率来加速收敛,并且通常不需要手动调节学习率
- AdaGrad优化器为每个参数分配不同的学习率,并随着参数更新次数的增加逐渐减小学习率,这使得它特别适合于稀疏数据场景下的训练,但可能