#P3717. 第1题-选择题

第1题-选择题

一、单选题

1、关于 GPT 系列模型在微调时的使用方式,哪项最常见? {{ select(1) }}

  • 采用文本生成式微调,通过给定前缀 (prompt)(prompt) 进行自回归生成
  • 添加分类头井只保留 encoderencoder
  • 在输入句子中随机掩码若干词进行填空
  • 在句对中加入 segmentsegment embeddingembedding

2、用迭代法解方程 x=2x3x=2x-3 。构造选代公式:xk+1=2xk3x_{k+1}=2x_k-3 。若初值 x0=1x_0 =1 ,则下一步迭代值 x1x_1 ;和再下一步 x2x_2 分别是? {{ select(2) }}

  • x1=1x2=1x_1=-1,x_2=1
  • x1=1x2=5x_1=-1,x_2=-5
  • x1=1x2=1x_1=1,x_2=-1
  • x1=3x2=9x_1=-3,x_2=-9

3、在用高斯消元法解线性方程组 Ax=bAx=b 时,若不使用主元选择,算法可能不稳定的原因是? {{ select(3) }}

  • 出现除数接近零的情况
  • 输入向量 bb 有扰动
  • 矩阵 AA 的元素过大
  • 矩阵 AA 的维度过高

4、下列方法中没有考虑先验分布的是() {{ select(4) }}

  • 最大似然估计
  • 最大后验估计
  • 贝叶斯分类器
  • 贝叶斯学习

5、、对于二元逐辑回归模型,已训练得到的参数为 w=[0.5,1.0]b=1.0w=[0.5,-1.0],b=-1.0 。现给定输入样本 x=[2,1]x=[2,1] ,使用 SigmoldSigmold 系数计算预测概率 P(y=1x)P(y=1∣x) 。结果保留两位小数,最接近以下哪个值? {{ select(5) }}

  • 0.270.27
  • 0.550.55
  • 0.600.60
  • 0.430.43

6、设二阶张量 $A=\left[\begin{array}{ll}1 & 2 \\3 & 4\end{array}\right]$ ,向量 x=[56]x=\left[\begin{array}{ll}5 \\6 \end{array}\right]。则张量缩幷运算 AxA·x 的结果是? {{ select(6) }}

  • [2334]\left[\begin{array}{ll}23 \\3 4\end{array}\right]
  • [1739]\left[\begin{array}{ll}17 \\39\end{array}\right]
  • $\left[\begin{array}{ll}5 & 6 \\15 & 24\end{array}\right]$
  • $\left[\begin{array}{ll}17 & 23 \\39 & 53\end{array}\right]$

7、假设我们部署一个 LIamaLIama 70B70B 模型,模型有 8080 层,最大支持 32k32k 的上下文,并且每个参数占用 22 个字节。keykeyvaluevalue 都具有 40964096 维,假设我们需要支持 1010 个用户同时进行推理,且每个用户的请求都独立。计算所需 GPUGPU 显存时,以下哪个选项最接近计算出的总显存需求? {{ select(7) }}

  • 10G10G
  • 2000G2000G
  • 1000G1000G
  • 100G100G

8、在深度学习中,ReLUReLU 激活函数的优势包括? {{ select(8) }}

  • 输出值范围为 [1,1][-1,1]
  • 对输入数据的敏感度低
  • 避免梯度消失问题
  • 计算复杂度高,可以增强模型的表达能力

9、、LSTMLSTM 中,细胞状态 ctc_t 的正确更新公式是?(σσsigmoidsigmoid 为逐元素乘) {{ select(9) }}

  • ct=itgt+ect1c_t=i_t⊙g_t+e^{c_{t-1}}
  • ct=ottanh(ct1)c_t=o_t⊙tanh(c_{t-1})
  • ct=ftct1+itgtc_t=f_t⊙c_{t-1}+i_t⊙g_t
  • ct=tanh(ct1)+itgtc_t=tanh(c_{t-1})+i_t⊙g_t

10、假设随机变量 XX 服从均值为 11 的泊松分布,那么以下说法不正确的有 {{ select(10) }}

  • XX 的方差也为 11
  • 存在另一个服从泊松分布的随机变量 ZZ 使得 P(Z>X)=1P(Z>X)=1
  • 泊松分布适合于描述单位时间内随机事件发生的次数
  • 如果随机变量 YYXX 独立同分布,那么 X+YX+Y 服从均值为 22 的泊松分布

11、在卷积神经网络中,一般而言,池化层(如 MaxMax PoolingPooling) 的主要作用是? {{ select(11) }}

  • 增加模型参数数量,提升模型泛化性
  • 增强模型对输入数据的敏感度
  • 提取局部特征并降低空间维度
  • 提高计算精度

12、某班级 6060% 的学生喜欢打篮球,4040% 的学生喜欢踢足球,2020% 的学生两者都喜欢。随机选一名学生,若已知他喜欢打篮球,他同时喜欢足球的摄率是

{{ select(12) }}

  • 5050%
  • 2020%
  • 66.766.7%
  • 33.333.3%

13、在深度学习中,BatchBatch NormalizationNormalization (批归一化)的主要作用是? {{ select(13) }}

  • 直接提高模型在测试集上的准确率
  • 通过引入随机噪声增强模型泛化能力
  • 增加模型参数数量以提升表达能力
  • 加速训练过程并减少对初始化的敏感度

14、、已知三维向量 A=[1,2,3]B=[3,4,5]C=[2,5,7]D=[4,3,2]A=[1,2,3]、B=[3,4,5]、C=[2,5,7]、D=[4,3,2],对于以下三个任务场景,考虑采用曼哈顿距离、皮尔逊相关系数和余弦相似度进行相似性度量,下列判断错误的是()

场景 11:分析两个城市“每日气温变化曲线"的相似性(关注数值波动幅度的整体接近程度)

场景 22:判断两个用户“商品评分趋势"的一致性(关注评分随商品类别的变化方向是否同步,不受评分绝对值高低影响);

场景 33:比较两个文档“主题分布向量”的匹配度(关注主题占比的方向一致性,忽略文档总长度差异)。

{{ select(14) }}

  • 场景 22 中,采用皮尔逊相关系数时,AACC 的相似性高于 AADD
  • 场景 33 中,采用余弦相似度时,AABB 的相似性高于 AADD
  • 场景 11 中,采用曼哈顿距离时,AABB 的相似性高于 AACC
  • 若将所有向量均标准化(均值为 00,方差为 11 )后,采用皮尔逊相关系数和采用余弦相似度的相似性排序结果不一致。

15、如果矩阵是正交矩阵(OrthogonalOrthogonal MatrixMatrix),则其特征值的模() {{ select(15) }}

  • 都是整数
  • 都是正实数
  • 都是实数
  • 都是 11

二、多选题

16、设 T:R3R2T: \mathbb{R}^{3} \rightarrow \mathbb{R}^{2} 是线性变换,且 $T\left(\left[\begin{array}{l}1 \\0 \\0\end{array}\right]\right)=\left[\begin{array}{l}2 \\1\end{array}\right], T\left(\left[\begin{array}{l}0 \\1 \\0\end{array}\right]\right)=\left[\begin{array}{c}-1 \\3\end{array}\right]$。以下结论正确的是? {{ multiselect(16) }}

  • 变换的核空间至少包含一条过原点的直线
  • 变换的像空间维度 2≤2
  • $T\left(\left[\begin{array}{l}0 \\0 \\1\end{array}\right]\right)$ 可唯一确定
  • $T\left(\left[\begin{array}{l}3 \\-2 \\0\end{array}\right]\right)=\left[\begin{array}{l}8 \\-3\end{array}\right]$

17、你正在分析一家银行的信用卡交易数据,其中盗刷交易占总交易的 0.10.1%。现有一个检测模型对交易进行分类。在这种高度不平衡的概率分布下,以下哪些关于统计评估的说法是正确的 {{ multiselect(17) }}

  • 准确率 (Accuracy)(Accuracy) 不适合作为核心评估指标,因为即使模型将所有交易都预测为正常,准确率仍能达到 99.999.9%
  • 对于一个有实际应用价值的模型,如果一笔交易被模型标记为"盗刷",那么根据贝叶斯定理,这笔交易实际为盗刚的后验概率,将高于其 0.10.1% 的先验概率
  • 在计算模型性能时,应该对“盗剧"和"正常"这两个类别上的准确率指标取加权平均的方式来处理两类样本,给盗刷交易和正常交易相等的权重。
  • 假设模型的真正例率 (TPR)(TPR)9090%,假正例率 (FPR)(FPR)11%,那么在随机选择的 10001000 个正常交易中,预期会有约 1010 个被错误标记为盗刷

18、以下关于独立性与相关性的描述,哪些项是正确的? {{ multiselect(18) }}

  • 若两个随机变量独立,则它们一定不相关
  • 不相关意味着两个变量之间没有线性关系,但可能存在非线性关系
  • 若两个随机变量相关系数为 00 ,则它们一定独立
  • 若两个随机变量不相关,则它们一定独立

19、深入分析 TransformerTransformer 架构的内部组件,会发现其设计充满了精妙的权衡。以下关于其核心组件的描述,哪些是准确的? {{ multiselect(19) }}

  • RMSNormRMSNorm 作为一种比 LayerNormLayerNorm 更简洁的归一化技术,其关键改进在于省略了对输入向量减去均值的中心化步骤,只进行缩放操作。
  • 前馈网络 (FFN)(FFN) 子层通过为序列中的每一个位置学习一套独立的权重参数,来增强模型对位置特定信息的建模能力。
  • 多头注意力机制的核心思想是将 QueryKeyQuery、KeyValueValue 投影到多个不同的低维表示子空间中,让每个"头"有机会学习到不同类型的依赖关系。
  • 标准的正弦/余弦位置编码 (Sinusoidal(Sinusoidal PositionalPositional Encoding)Encoding) 是专门为相对位置设计的编码。

20、在以下场景中,哪些情况下数据可视化需要特别注意以避免误导性结论? {{ multiselect(20) }}

  • 使用饼图展示超过 1010 个类别的比例分布
  • 在箱线图中忽略异常值的标注
  • 在折线图中使用不均匀的时间问隔但未明确标注
  • 使用散点图展示强相关变量且标明因果关系