#P3790. 第1题-选择题

第1题-选择题

1、在一个 8×A100-80 GB 构成的 GPU 集群上,要上线一个双塔检索模型,要求如下: 文档塔最后一层输出是 d = 1024 维 float32 Embedding; 文档库大小是 2 亿条平均 256 token 的文档; 查询塔与文档塔共享权重; 全部文档 Embedding 需常驻显存以实现毫秒级向量 ANN 检索,且不能使用 CPU 内存或磁盘缓存单卡最大可用显存约 75 GB(框架、缓存、通信占用约5GB);

问:在不压缩、不量化、不断层拆分的前提下,该集群理论上最多能支撑的d维 fioat32 Embedding 的上限是多少?(四舍五入到整数)。 {{ select(1) }}

  • 805
  • 384
  • 1024
  • 512

2、在智能交通系统中,车辆通过某个交通交叉口的时间可以视为泊松过程。 如果平均每小时有 120 辆车通过,那么任意连续两辆车之间的时间间隔大于 1 分钟的概率是多少? {{ select(2) }}

  • e3e^{-3}
  • e1e^{-1}
  • e4e^{-4}
  • e2e^{-2}

3、聚类算法通常包含层次、密度、以及划分式等类别,不同类别的紧类算法适应不同的数据特征和场景,请问一下哪个是基于密度的聚类算法? {{ select(3) }}

  • DBSCAN
  • K-Means++
  • K-Means
  • Divisive

4、随机变量 XX 服从参数为 λ=0.1\lambda = 0.1 的指数分布 (Exponential Distribution),其概率密度函数为 f(x)=0.1e0.1xf(x) = 0.1 e^{-0.1x}, 其中 x0x \ge 0

现定义一个新的随机变量 Y=2X+3Y=2X+3

问:YY 的方差 Var(Y)\mathrm{Var}(Y)是多少?(结果需精确到整数后的选项值)

{{ select(4) }}

  • 400
  • 200
  • 103
  • 300

5、用浮点数计算 S=k=11061k2S = \sum_{k=1}^{10^{6}} \frac{1}{k^2} 时,从 k=1k=1k=106k=10^6 顺序累加(方法1)与从 k=106 k=10^6 k=1k=1 逆序累加(方法2),哪种方法精度更高? {{ select(5) }}

  • 取决于硬件架构
  • 方法2精度更高
  • 方法1精度更高
  • 两者精度相同

6、设 AA 为 n 阶非零矩阵,则( )一定是某个二次型对应的矩阵。

注:ATA^T 表示矩阵 AA 的转置矩阵 {{ select(6) }}

  • ATA^T
  • (AT)2(A^T)^2
  • ATAA^T - A
  • ATAA^T A

7、某班的下雨的概率是 1/31/3,如果下雨,上述迟到的概率是 1/21/2;如果不下雨,上述迟到的概率是 1/41/4。某天你上班迟到了,问这天是下雨的概率是多少? {{ select(7) }}

  • 1/31/3
  • 3/43/4
  • 2/32/3
  • 1/21/2

8、若输入张量形状为 (batch=4,seq_len=16,hidden_dim=1024)(batch=4, seq\_len=16, hidden\_dim=1024),LayerNorm 的计算量主要来自 {{ select(8) }}

  • 沿batch维度求全局统计量
  • 与 Attention 的 QKV 投影
  • 与 FFN 层的矩阵乘法
  • 沿 hidden_dim 求均值和方差

9、用线性回归在 5050 个样本上得到 残差平方和 SSE(SumofSquaredErrors)=18SSE (Sum of Squared Errors) = 18,总平方和 SST=50SST = 50,求 R2R^2 {{ select(9) }}

  • 0.640.64
  • 0.680.68
  • 0.660.66
  • 0.620.62

10、关于激活函数的选择,下列说法正确的是 {{ select(10) }}

  • Tanh 激活函数的输出均值为 0,比 Sigmoid 更适合作为隐藏层激活函数
  • Softmax 函数只能用于二分类问题的输出层
  • Sigmoid 激活函数适合作为深层网络的中间激活函数
  • ReLU 激活函数在负区间存在梯度爆炸问题

11、关于RAG中语料切分的描述,错误的是: {{ select(11) }}

  • 切分后的文本块之间可以有重叠的部分
  • 需要确保每个chunk经过编码后的token数均匀分布
  • 需要避免语义单位(如句子)被截断
  • 文本切分需要平衡语义完整性与检索效率

12、对于函数 ff,我们定义其 Fourier 变换为

$f(\omega) = \int_{-\infty}^{\infty} f(t)e^{-i\omega t} dt$,

$U_T := \{ f : \text{supp} \hat{f} \subset [-\pi/T, \pi/T] \}$,

且定义 hT(t)=sin(πt/T)πt/Th_T(t) = \dfrac{\sin(\pi t / T)}{\pi t / T}

如果 fUTf \in U_T,那么 f(t)f(t) 可以表示为:

{{ select(12) }}

  • f(t)=n=f(nT)hT(tnT)f(t) = \sum_{n=-\infty}^{\infty} f(nT)h_T(t - nT)
  • f(t)=n=f(nT)hT(t+nT)f(t) = \sum_{n=-\infty}^{\infty} f(nT)h_T(t + nT)
  • f(t)=n=f(2nT)hT(tnT)f(t) = \sum_{n=-\infty}^{\infty} f(2nT)h_T(t - nT)
  • f(t)=n=f(2nT)hT(t+nT)f(t) = \sum_{n=-\infty}^{\infty} f(2nT)h_T(t + nT)

13、神经网络训练中常用的优化器,如SGD、Adam等,理论上能够使网络模型在迭代后收敛到: {{ select(13) }}

  • 梯度衰减幅度处
  • 局部极小/极大值点
  • 鞍点
  • 全局极小/极大值点

14、某机器学习数据集包含房屋面积特征值:[1200,1800,900,2100][1200, 1800, 900, 2100] 平方米。若使用最小-最大归一化将特征缩放到 [0,1][0,1] 范围,则第三个房屋面积(12001200 平方米)归一化后的值是多少? {{ select(14) }}

  • 0.000.00
  • 0.250.25
  • 0.500.50
  • 0.750.75

15、某系统记录了两个指标在5个小时内数值如下:

A:10,12,14,16,1810, 12, 14, 16, 18 B:8,11,14,16,198, 11, 14, 16, 19

根据上述数据,计算皮尔逊相关系数(Pearson Correlation Coefficient)最接近于:

{{ select(15) }}

  • 0.850.85

  • 0.650.65

  • 0.450.45

  • 0.950.95

16、关于Batch Normalization的正则化效果,正确的说法有: {{ multiselect(16) }}

  • 允许使用更大的学习率,间接提升模型泛化能力
  • 增加了模型复杂度,容易导致过拟合
  • 动机是通过减少内部协变量偏移(Internal Covariate Shift)降低过拟合风险
  • 完全替代L2正则化,无需额外正则项

17、以下哪些方法适用于关键词提取任务 {{ multiselect(17) }}

  • TextRank
  • 最大熵模型
  • TF-IDF
  • LDA(隐狄利克雷分布)

18、已知人群中X疾病的患病率(检查结果阳性为患病,阴性为不患病)为 0.1%0.1\% (即1000人中1人患病)。张某做X疾病检查:先进行血液检查,灵敏度与特异性(假阳性率 1%1\%,假阴性率 1%1\%),之后尿液检查结果也为阳性(假阳性率 5%5\%,假阴性率 5%5\%)。随后,张某得知他有家族病史信息,他患X病的概率是前分之一。请选择下述正确选项: {{ multiselect(18) }}

  • 考虑家族患病率,张某在血液和尿液检查之后的患病率约为 95%95\%
  • 考虑人群患病率,张某在血液和尿液检查之后的患病率约为 65%65\%
  • 考虑家族患病率,张某在血液检查之后的患病率约为 50%50\%
  • 考虑人群患病率,张某在血液检查之后的患病率约为 9%9\%

19、任可实 m×n  (mn)m \times n \;(m \geq n) 矩阵 AA 的奇异值分解 A=UΣVTA = U \Sigma V^T 中,下列论述正确的是(多选): {{ multiselect(19) }}

  • Σ\Sigma 中奇异值按升序排列
  • VTV=InV^T V = I_n
  • UU 的列向量构成 AATAA^T 的特征向量
  • 非零奇异值个数等于 rank(A)\text{rank}(A)

20、在一个A/B测试中,新算法A的点击率是 5%5\%,旧算法B的点击率是 4%4\%,样本量都很大。为了判断这个差异是否显著,而不仅仅是随机波动的结果,你可以采取哪些概率和统计学的方法? {{ multiselect(20) }}

  • 计算两个数据集的方差,方差大的那个算法更不稳定,应该被淘汰
  • 直接判定新算法A更好,因为 $
  • 计算两个比例之差的置信区间,看是否包含 00
  • 进行假设检验(如Z检验),计算p-value,并与显著性水平(如 0.050.05)比较