#P4480. 第1题-选择题

第1题-选择题

一、单选题

1、根据2020年 Kaplan 等人的 Tranformer “Scaling Laws”,若在给定计算预算下想最小化语言模型的训练损失,应当 {{ select(1) }}

  • 同时按近似幂律比例增大模型参数数,训练token数和训练步数
  • 增大词向量维度(Embedding Dimension)
  • 增大模型参数数量(Model Size)
  • 增大批大小(Batch Size)

2、设 S=R 为实对称矩阵,下列每项说法与“S正交对角化”等价? {{ select(2) }}

  • S 满足 S=1
  • S 的特征向量可以组成一组正交基
  • S 不可约
  • S 的所有特征值都是正数

3、假设输入图片的维度是 224×224×3,卷积神经网络的第一层中有5个卷积核,每个卷积核尺寸为7×7,具有 {{ select(3) }}

  • 218×218×5
  • 218×218×3
  • 220×220×5
  • 220×220×3

4、已知函数 f(x)=x2f(x)=x^2 ,用中心差分公式 ,取步长 h=0.1 ,计算 f‘(1) 数值结果为 {{ select(4) }}

  • 1.8
  • 2.0
  • 2.4
  • 2.2

5、给定数据:x=[1,2,3],y=[1,4,9]。用最小二乘法拟合直线 y=a+bx,则系数b为? {{ select(5) }}

  • 2.5
  • 3.5
  • 4.0
  • 3.0

6、某购物APP推荐算法团队希望通过线性回归模型分析用户上个月平均每日在线时间x(单位:小时)对上个月

x(小时) Y(美元)
1.0 65
2.0 70
3.0 75
4.0 80
5。0 85

假设采用简单线性回归模型: y=w0+w1xy=w_0+w_1x ,使用最小二乘法求解模型最优参数,下列哪一组参数是正确的

{{ select(6) }}

  • w0=55.0,w1=6.0
  • w0=58.0,w1=5.5
  • w0=62.0,w1=4.5
  • w0=60.0,w1=5.0

7、如果随机变量X和Y的期望满足E(XY)=E(X)E(Y),则下列哪项成立 {{ select(7) }}

  • Var(XY)=Var(X)Var(Y)Var(X-Y)=Var(X)-Var(Y)
  • Var(XY)=Var(X)Var(Y)Var(XY)=Var(X)Var(Y)
  • Var(X2Y2)=Var(X2)+Var(Y2)Var(X^2-Y^2)=Var(X^2)+Var(Y^2)
  • Var(X+Y)=Var(X)+Var(Y)Var(X+Y)=Var(X)+Var(Y)

8、已知随机变量X和Y的协方差Cov(X,Y)=s,且 Var(X)=16,Var(Y)=25,则他们的相关系数 PX,YP_{X,Y} 为 0 {{ select(8) }}

  • 0.4
  • 0.2
  • 0.8
  • 0.6

9、在Transformer模型中,自注意力机制(Self-Attention)的核心作用是 {{ select(9) }}

  • 替代卷积操作提取局部特征
  • 减少参数数量
  • 降低模型的计算复杂度
  • 捕捉序列中不同位置元素之间的依赖关系

10、在推荐系统中,用户-物品评分矩阵 A∈R^{m×n} 通过SVD压缩为 A=UV(保留k个奇异值,k 远小于m和n的条件)后最小存储空间是? {{ select(10) }}

  • O(kO(k iogiog nm)nm)
  • O(knm)O(knm)
  • O((k+m+n)2)O((k+m+n)^2)
  • O(k(m+n))O(k(m+n))

11、在回归问题中,以下哪种损失函数对异常值(outiers)最敏感? {{ select(11) }}

  • 平均绝对误差(MAE)
  • Huber损失
  • 均方误差(MSE)
  • 对数损失(Log Loss)

12、在一个二分类问题中,精确率(Precision)为0.8,召回率(Recall)为0.5,F1分数最接近如下哪个选项

{{ select(12) }}

  • 0.4
  • 0.62
  • 0.7
  • 0.31

13、、从一个盒子中随机抽取一个球,球有编号 1-5,其中编号1、2、3 是红球,编号4、5是蓝球、设事件 A 为 “抽到红球”,事件 B 为 “” {{ select(13) }}

  • 45\frac{4}{5}
  • 15\frac{1}{5}
  • 25\frac{2}{5}
  • 35\frac{3}{5}

14、在反向传播过程中,如果发现某个特定层的学习速度显善慢于其他层,以下选项中,最可能的原因是? {{ select(14) }}

  • 该层的参数数量较少
  • 该层的梯度消失
  • 数据标准化不充分
  • 学习率设置过低

15、在训练超大规模语言模型时,为了在显存受限的情况下仍能使用较深的网络并保持梯度正确,常用的内存优化技术是 {{ select(15) }}

  • 权重衰减(Weifht Decay)
  • 梯度裁剪(Gradient Clipping)
  • 随机失活(Dropout)
  • 激活检查点(Activation Checkpointing)

二、多选题

16、以下哪些方法可以用于缓解Transformer模型中的规度消失问题? {{ multiselect(16) }}

  • 使用门控机制(Mamba,类似GRU、LSTM)控制信息流动失
  • 使用残差连接(Residual Connection),通过跳跃连接缓解梯度消失
  • 采用层归一化(Layer Normalization)稳定训练过程
  • 增加模型的层数,以增强模型的可表达性

17、关于 MLE(Maximum Likelihood Estimation,最大似然估计)的说法,正确的是 {{ multiselect(17) }}

  • MLE 估计量总是无偏的
  • EM 算法用于含隐变量的 MLE
  • MLE 计算时常求其对数似然函数
  • 当样本量 n 趋于无穷,MLE 服从正态分布

18、假设某数据集中包括 100 个数据其最大值为 100 ,最小值为 1、那么,以下有关数据集基本统计量的定义中,错误的有 {{ multiselect(18) }}

  • 该数据集的众数一定严格大于1
  • 该数据集的标准差一定严格大于1
  • 该数据集的均值一定严格大于1
  • 该数据集的中位数一定严格大于1

19、利用 BPE算法在字节级语料上训练子词词表。给定如下 初始字符级切分与词频,请计算第一轮合并后可能的词表。

语料如下 (为结束符):

单词(字符序列) 频次
l o w 5
l o w e r 2
n e w e s t 6
w i d e s t 3

{{ multiselect(19) }}

  • l o w

    l o w e r

    n e w e s t

    w i d e s t

  • l ow

    l ow e r

    n e w e s t

    w i d e s t

  • l o w

    l o we r

    n e we s t

    w i d e s t

  • l o w

    l o w e r

    n e we s t

    w i d es t

20、在深度学习模型训练过程中,选择合适的优化器对于加速收敛和提高模型性能至关重要。以下关于几种常见优化及其特性的描述 {{ multiselect(20) }}

  • 在大多数情况下,使用Adam优化器可以保证找到全局最优解,因为它能够动态调整学习率并结合了二阶矩估计、因此在所有类型的
  • SGD(随机梯度下降)优化器虽然简单,但在处理非凸优化问题时比Adam更容易陷入局部最优解,因此在实际运用中很少使用SGD作为优化器
  • RMSProp优化器通过指数加权平均的方式平滑梯度,从而解决了AdaGrd中学习率单调递减的问题,适用于处理非平稳目标函数
  • Adam优化器结合了动量(Momentum)和RMSProp的优点,通过自适应地调整每个参数的学习率来加速收敛,并且通常不需要手动调节学习率
  • AdaGrad优化器为每个参数分配不同的学习率,并随着参数更新次数的增加逐渐减小学习率,这使得它特别适合于稀疏数据场景下的训练,但可能