#P3560. 第1题-选择题

第1题-选择题

一、单选题

1、数值稳定性是指? {{ select(1) }}

  • 算法能够在有限时间内完成计算
  • 算法对输入数据微小扰动不敏感,保持可靠结果
  • 算法总是能得到精确的解
  • 算法对所有输入数据都能快速收敛

2、某银行使用分类决策树模型审批贷款,基于两个特征:年收入 ≥$50,000、信用评分 ≥650,

决策树结构如下

根节点:信用评分 650≥650 ?

是→进入"年收入判断节点";否→叶节点( 3030 个样本:1111 人按时还款,1919 人违约)

年收入判断节点:年收入≥50,000?50,000?

是→批准贷款;否→叶节点( 8080 个样本:4646 人按时还款,3434 人违约)

模型的决策规则为:若叶节点中的违约概率 30≤30 %,则批准贷款;否则拒绝。

对于信用评分>650>650但年收入<50,00050,000 的申请人,模型的预测结果是? {{ select(2) }}

  • 拒绝贷款,因为违约概率超过50%。
  • 批准贷款,因为按时还款人数多于信用评分不足650的群体。
  • 拒绝贷款,因为违约概率为42.5%。
  • 批准贷款,因为多数样本按时还款。

3、设向量组 α1=(2,1,7)T,α2=(1,4,11)T,α3=(3,6,t)Tα_1=(2,-1,7)^T,α_2=(1,4,11)^T,α_3=(3,-6,t)^T,则当 t=()t=( ) 时,α1,α2,α3α_1,α_2,α_3 是线性相关的 {{ select(3) }}

  • 0
  • 3
  • 9
  • -3

4、已知向量组 $α_1=(1,1,1,4)^T,α_2=(2,1,3,5)^T,α_3=(1,-1,3,-2)^T,α_4=(3,1,5,6)^T$ 的极大无关组为() {{ select(4) }}

  • α1,α2,α3,α4α_1,α_2,α_3,α_4
  • α1,α2α_1,α_2
  • α2,α3,α4α_2,α_3,α_4
  • α1,α2,α3α_1,α_2,α_3

5、在机器学习的特征工程中,关于特征缩放 (Feature scaling)的说法,以下哪一项是正确的? {{ select(5) }}

  • 最小 最大缩放 (Min-Max Scaling) 会改变特征的分布形状,并将其转换为标准正态分布。
  • 标准化 (Standardization) 适用特征近似服从正态分布的场景,使特征具有零均值和单位方差。
  • 特征缩放的主要目的是增强模型对异常值的鲁棒性,确保极端值不影响整体预测结果。
  • 特征缩放能显著提升决策树类模型 (如随机森林、梯度提升树) 的训练速度和预测性能。

6、设 ARn×nA ∈ ℝ^{n×n} 为实对称矩阵,其特征值为 λ1λ2...λnλ_1≥λ_2≥...≥λ_n 。若 ν1ν_1 为最大特征值对应的单位特征向量,则以下结论正确的是: {{ select(6) }}

  • ν1ν_1AA 的最小范数特征向量
  • ν1ν_1是模长最小的特征向量
  • ν1ν_1是使二次型 xTAxx^TAx 取最大值的方向(在 x=1‖x‖ =1 约束下)
  • ν1ν_1 是使二次型 xTAxx^TAx 取最小值的方向(在 x=1‖x‖=1 约束下)

7、、评估某二分类模型的准确率时,可以通过计算其 ROC曲线 的 AUC值 来进行判断。以下说法中错误的是: {{ select(7) }}

  • AUCAUC 可以综合反映不同阈值下的分类效果
  • AUCAUC 越接近 11 模型性能越好
  • AUC=0.5AUC=0.5 表示模型无判别能力
  • AUCAUC 对类别不平衡不敏感

8、设四阶矩阵 AAA=22A+E=3|A|=2,|2A+E|=3 ,则 4A2+2A=()|4A^2+2A|=( )

注:EE 为单位矩阵 {{ select(8) }}

  • 96
  • 48
  • 24
  • 6

9、在使用线性回归模型对某数据集进行拟合时,我们希望找到一条直线 y=ax+by=ax+b ,使得该直线能够最小化预测值与实际值之间的误差,为了实现目标方法是 {{ select(9) }}

  • 交叉验证法
  • 最大似然估计
  • 梯度上升法
  • 最小二乘法

10、设 A/BA/B 为任意两个随机事件,则以下一定成立的是() {{ select(10) }}

  • P(AB)P(A)+P(B)2P(AB)≤\frac{P(A)+P(B)}{2}
  • P(AB)P(A)P(B)P(AB)≥P(A)P(B)
  • P(AB)P(A)+P(B)2P(AB)≥\frac{P(A)+P(B)}{2}
  • P(AB)P(A)P(B)P(AB)≤P(A)P(B)

11、设 $A=\begin{pmatrix}{-1}&{4}&{5}\\{0}&{1}&{4}\\{0}&{0}&{2}\end{pmatrix}$ ,则 A+(A1∣A+(A^*)^{-1}∣= ()

注:AA^* 表示矩阵 AA 的伴随矩阵 (也称为余子矩阵的转置),有 AA=AA=AIAA^* = A^*A=|A|I {{ select(11) }}

  • 12\frac{1}{2}
  • 14\frac{1}{4}
  • 12-\frac{1}{2}
  • 14-\frac{1}{4}

12、设 XXYY 相互独立,且分别服从均值为 111/41/4 的指数分布 (f(x)=1θexθ,x0(f(x)=\frac{1}{θ}e^{-\frac{x}{θ}},x>0 ,则 P(XY)=P(X<Y)= {{ select(12) }}

  • 15\frac{1}{5}
  • 12\frac{1}{2}
  • 14\frac{1}{4}
  • 13\frac{1}{3}

13、假设有随机变量 XXYY,均服从标准正态分布,则以下说法正确的是 {{ select(13) }}

  • X2+Y2X^2+Y^2 服从卡方 (χ2)(χ^2) 分布
  • X2Y2\frac{X^2}{Y^2} 服从 FF 分布
  • X+YX+Y 服从正态分布
  • X2X^2Y2Y^2 都服从卡方 (χ2)(χ^2) 分布

14、若采用不选主元的高斯消元完成 LULU 分解,所得 LUL、UA=(3214)A=\begin{pmatrix}{3}&{2}\\{1}&{4}\end{pmatrix} ,$L=\begin{pmatrix}{1}&{0}\\{l_{21}}&{1}\end{pmatrix}$ ,$U=\begin{pmatrix}{u_{11}}&{u_{12}}\\{0}&{u_{22}}\end{pmatrix}$ ,则 l21l_{21} 等于下列哪个值? {{ select(14) }}

  • 12\frac{1}{2}
  • 13\frac{1}{3}
  • 34\frac{3}{4}
  • 25\frac{2}{5}

15、若一组数据点 (x,y)(x,y)(1,4)(2,3)(1,4)、(2,3)(3,6)(3,6) ,用简单的线性回归模型 y=2x+1y=2x+1 拟合,请计算 yy 的均方误差 (MSEMSE) 。 {{ select(15) }}

  • 1
  • 3
  • 2
  • 0

二、多选题

16、、Vision Transformer(ViT) 模型常用在图像处理任务中,其核心技术方案包括哪些? {{ multiselect(16) }}

  • 传图像分割成 patchpatch 序列
  • 使用 transformertransformer 提取局部特征
  • 引入 3030 位置编码
  • 使用 CNNCNN 提取局部特征

17、以下叙述中正确的有 {{ multiselect(17) }}

  • 迭代法初始值越接近真实解,收敛速度越快
  • 线性插值使用线段近似函数在两个点间的值
  • 分段线性插值可以避免高次多项式的龙格现象
  • 牛顿迭代公式为 xk+1=xkf(xk)f(xk)x_{k+1}=x_k-\frac{f(x_k)}{f'(x_k)}

18、对于随机森林,下列说法正确的是 {{ multiselect(18) }}

  • OOBOOB 误差可用于模型选择
  • 每棵树使用全部特征
  • 每棵树使用全部样本
  • 可以估计特征重要性

19、在求解线性方程组时,迭代方法的收敛性主要受到哪些因素的影响? {{ multiselect(19) }}

  • 矩阵的条件数
  • 方程组的真解
  • 系统短阵的特征值分布
  • 迭代方法的选择
  • 迭代步长
  • 计算机核心数
  • 迭代初始值

20、以下关于 Transformer 中多头注意力机制 (Multi-Head Attention) 的说法,哪些是正确的? {{ multiselect(20) }}

  • 多头注意力的总复杂度是单头注意力的 hh 倍,其中 hh 为头数,整体时间复杂度从单头的 O(n2d)O(n^2d) 增加为 O(hn2d)O(hn^2d)
  • 多头注意力可以被看作是一种集成方法,其输出相当于并行训练多个低维注意力模型并将它们的结果拼接后再投影
  • 多头注意力减少了序列中位置关系的表示需求,因此可用来替代位置编码
  • 多头注意力有助于缓解单头注意力可能出现的注意力分布过度集中问题,促进了关注分布的多样性
  • 对于每个注意力头,Transformer 使用独立的线性变换矩阵生成 Q,K,VQ,K,V ,从而使不同头能更多关注输入的不同特征子空间