第1题-选择题

Difficulty: 5

所属公司 : 华为

时间 :2025年9月24日-AI岗

算法标签>

数学

T1

选A：805。因为总显存可用约 $8×75 GiB=644,245,094,400$ 字节， $2$ 亿条文档的 $d$ 维 float32 向量需内存 $2\times10^8\times d\times 4$ 字节，故 $$d_{\max}=\left\lfloor \frac{644{,}245{,}094{,}400}{2\times10^8\times4} \right\rfloor \approx 805$$。

T2

选D： $e^{-2}$ 。因为泊松过程的相邻到达间隔 $T\sim\text{Exp}(\lambda)$ 且 $\lambda=120/\text{h}$ ，1 分钟为 $t=1/60$ 小时， $P(T>t)=e^{-\lambda t}=e^{-120\times(1/60)}=e^{-2}$ 。

T3

选A：DBSCAN。因为 DBSCAN 是基于密度可达/密度连接的密度聚类算法，而 K-Means/ K-Means++ 属于划分式，Divisive 属于层次式。

T4

选A：400。因为 $X\sim\text{Exp}(0.1)$ 有 $\mathrm{Var}(X)=1/\lambda^2=100$ ，且 $Y=2X+3$ 满足 $\mathrm{Var}(Y)=2^2\mathrm{Var}(X)=4\times100=400$ 。

T5

选B：方法2精度更高。因为逆序累加（先加较小项）可减少将极小数直接加到已很大的部分和时的舍入损失，因而总体舍入误差更小。

T6

解答：选D： $A^T A$ 。因为二次型对应的矩阵需为对称矩阵， $A^T A$ 始终对称且半正定，必对应某个二次型；其余选项一般不对称或为反对称矩阵。

T7

解答：选D： $1/2$ 。因为由贝叶斯公式 $P(\text{雨}\mid\text{迟到})=\frac{(1/3)(1/2)}{(1/3)(1/2)+(2/3)(1/4)}=\frac{1/6}{1/6+1/6}=1/2$ 。

T8

解答：选D：沿 hidden_dim 求均值和方差。因为 LayerNorm 的主要计算量来自按特征维计算每个样本的均值与方差及归一化，QKV 投影与 FFN 属于注意力/前馈层的计算。

T9

解答：选A： $0.64$ 。因为 $R^2=1-\text{SSE}/\text{SST}=1-18/50=1-0.36=0.64$ 。

T10

解答：选A：Tanh 激活函数的输出均值为 0，比 Sigmoid 更适合作为隐藏层激活函数。因为 Tanh 零均值、梯度范围更大，减轻梯度消失；Softmax用于多分类而非仅二分类，Sigmoid作深层中间激活易梯度消失，ReLU在负半轴梯度为0而非爆炸。

T11

答案：

B. 需要确保每个chunk经过编码后的token数均匀分布

解析： RAG 切分常允许重叠，并尽量不打断句子，同时在语义完整性与检索效率间取舍；无需保证每个 chunk 的 token 数“均匀分布”，只需不超过模型/索引的上限即可。

T12

答案：

A. $f(t) = \sum_{n=-\infty}^{\infty} f(nT)h_T(t - nT)$

解析：

带限到 $[-\pi/T,\pi/T]$ 时，香农采样定理给出 $f(t)=\sum_{n\in\mathbb{Z}} f(nT)\,\mathrm{sinc}\!\big((t-nT)/T\big)=\sum f(nT)h_T(t-nT)$ 。B 的移位方向与采样点不匹配，C、D 以 $2T$ 采样属欠采样，无法一般性重构。

T13

答案：

B. 局部极小/极大值点

解析：非凸优化的一般结论是收敛到一阶驻点（∇≈0），通常表现为局部极值；不保证全局最优，虽然也可能落到鞍点，但更常用的表述是“收敛到局部最优”。

T14

答案：

B. 0.25

解析：

最小值 900、最大值 2100，按 min-max 归一化： $(1200-900)/(2100-900)=300/1200=0.25$ 。

T15

答案：

D. 0.95

解析：

计算得到皮尔逊相关系数约为 $r\approx 0.998$ ，最接近选项为 0.95；两序列基本呈强线性正相关。

T16

答案：

A. 允许使用更大的学习率，间接提升模型泛化能力

C. 动机是通过减少内部协变量偏移（Internal Covariate Shift）降低过拟合风险

解析：
BN 稳定激活分布、支持更大学习率，从而带来一定的正则化收益；其提出动机是减少内部协变量偏移。它并不会因此更易过拟合，且不能替代 L2/weight decay。

T17

答案：

A. TextRank

C. TF-IDF

解析： TF-IDF 与 TextRank 是常见的关键词提取方法；最大熵模型更偏向监督分类/序列标注；LDA主要用于主题建模，产出的是“主题词”而非针对单篇文档的关键词。

T18

答案：

A. 考虑家族患病率，张某在血液和尿液检查之后的患病率约为 95%。

B. 考虑人群患病率，张某在血液和尿液检查之后的患病率约为 65%。

C. 考虑家族患病率，张某在血液检查之后的患病率约为 50%。

D. 考虑人群患病率，张某在血液检查之后的患病率约为 9%。

解析：

取血检 Se/Sp=99%/99% ⇒ LR⁺=99；尿检 Se/Sp=95%/95% ⇒ LR⁺=19。人群先验 0.1%：一次阳性后 $P\approx\frac{0.99\cdot0.001}{0.99\cdot0.001+0.01\cdot0.999}\approx9\%$ （D）；两次阳性合并 LR=99×19=1881，后验 $\approx \frac{0.001\times1881}{0.001\times1881+0.999}\approx65\%$ （B）。家族先验 1%：一次阳性后后验约 50%（C），两次阳性后约 95%（A）。

T19

答案：

B. $V^T V = I_n$

C. $U$ 的列向量构成 $AA^T$ 的特征向量

D. 非零奇异值个数等于 $\text{rank}(A)$

解析：

SVD中通常将奇异值按降序排列，故A错； $V$ 为正交矩阵， $V^T V=I_n$ ； $U$ 的列向量是 $AA^T$ 的特征向量；非零奇异值的个数等于 $\mathrm{rank}(A)$ 。

T20

答案：

C. 计算两个比例之差的置信区间，看是否包含 $0$

D. 进行假设检验（如Z检验），计算p-value，并与显著性水平（如 $0.05$ ）比较

解析：

样本量很大时可用正态近似：对两比例之差构造置信区间（不含0则显著），或做两样本比例的Z检验计算p-value与显著性水平比较。A不能判断显著性，B仅比较点估计不具统计依据。

1、在一个 8×A100-80 GB 构成的 GPU 集群上，要上线一个双塔检索模型，要求如下： 文档塔最后一层输出是 d = 1024 维 float32 Embedding； 文档库大小是 2 亿条平均 256 token 的文档；查询塔与文档塔共享权重； 全部文档 Embedding 需常驻显存以实现毫秒级向量 ANN 检索，且不能使用 CPU 内存或磁盘缓存单卡最大可用显存约 75 GB(框架、缓存、通信占用约5GB)；

问:在不压缩、不量化、不断层拆分的前提下，该集群理论上最多能支撑的d维 fioat32 Embedding 的上限是多少?(四舍五入到整数)。 {{ select(1) }}

805
384
1024
512

2、在智能交通系统中，车辆通过某个交通交叉口的时间可以视为泊松过程。如果平均每小时有 120 辆车通过，那么任意连续两辆车之间的时间间隔大于 1 分钟的概率是多少？ {{ select(2) }}

$e^{-3}$
$e^{-1}$
$e^{-4}$
$e^{-2}$

3、聚类算法通常包含层次、密度、以及划分式等类别，不同类别的紧类算法适应不同的数据特征和场景，请问一下哪个是基于密度的聚类算法? {{ select(3) }}

DBSCAN
K-Means++
K-Means
Divisive

4、随机变量 $X$ 服从参数为 $\lambda = 0.1$ 的指数分布 (Exponential Distribution)，其概率密度函数为 $f(x) = 0.1 e^{-0.1x}$ , 其中 $x \ge 0$ 。

现定义一个新的随机变量 $Y=2X+3$ 。

问： $Y$ 的方差 $\mathrm{Var}(Y)$ 是多少？（结果需精确到整数后的选项值）

5、用浮点数计算 $S = \sum_{k=1}^{10^{6}} \frac{1}{k^2}$ 时，从 $k=1$ 到 $k=10^6$ 顺序累加（方法1）与从 $k=10^6$ 到 $k=1$ 逆序累加（方法2），哪种方法精度更高？ {{ select(5) }}

取决于硬件架构
方法2精度更高
方法1精度更高
两者精度相同

6、设 $A$ 为 n 阶非零矩阵，则（）一定是某个二次型对应的矩阵。

注： $A^T$ 表示矩阵 $A$ 的转置矩阵 {{ select(6) }}

$A^T$
$(A^T)^2$
$A^T - A$
$A^T A$

7、某班的下雨的概率是 $1/3$ ，如果下雨，上述迟到的概率是 $1/2$ ；如果不下雨，上述迟到的概率是 $1/4$ 。某天你上班迟到了，问这天是下雨的概率是多少？ {{ select(7) }}

$1/3$
$3/4$
$2/3$
$1/2$

8、若输入张量形状为 $(batch=4, seq\_len=16, hidden\_dim=1024)$ ，LayerNorm 的计算量主要来自 {{ select(8) }}

沿batch维度求全局统计量
与 Attention 的 QKV 投影
与 FFN 层的矩阵乘法
沿 hidden_dim 求均值和方差

9、用线性回归在 $50$ 个样本上得到残差平方和 $SSE (Sum of Squared Errors) = 18$ ，总平方和 $SST = 50$ ，求 $R^2$ 。 {{ select(9) }}

$0.64$
$0.68$
$0.66$
$0.62$

10、关于激活函数的选择，下列说法正确的是 {{ select(10) }}

Tanh 激活函数的输出均值为 0，比 Sigmoid 更适合作为隐藏层激活函数
Softmax 函数只能用于二分类问题的输出层
Sigmoid 激活函数适合作为深层网络的中间激活函数
ReLU 激活函数在负区间存在梯度爆炸问题

11、关于RAG中语料切分的描述，错误的是： {{ select(11) }}

切分后的文本块之间可以有重叠的部分
需要确保每个chunk经过编码后的token数均匀分布
需要避免语义单位（如句子）被截断
文本切分需要平衡语义完整性与检索效率

12、对于函数 $f$ ，我们定义其 Fourier 变换为

$f(\omega) = \int_{-\infty}^{\infty} f(t)e^{-i\omega t} dt$ ，

令 $U_T := \{ f : \text{supp} \hat{f} \subset [-\pi/T, \pi/T] \}$ ，

且定义 $h_T(t) = \dfrac{\sin(\pi t / T)}{\pi t / T}$ ，

如果 $f \in U_T$ ，那么 $f(t)$ 可以表示为：

$f(t) = \sum_{n=-\infty}^{\infty} f(nT)h_T(t - nT)$
$f(t) = \sum_{n=-\infty}^{\infty} f(nT)h_T(t + nT)$
$f(t) = \sum_{n=-\infty}^{\infty} f(2nT)h_T(t - nT)$
$f(t) = \sum_{n=-\infty}^{\infty} f(2nT)h_T(t + nT)$

13、神经网络训练中常用的优化器，如SGD、Adam等，理论上能够使网络模型在迭代后收敛到： {{ select(13) }}

梯度衰减幅度处
局部极小/极大值点
鞍点
全局极小/极大值点

14、某机器学习数据集包含房屋面积特征值： $[1200, 1800, 900, 2100]$ 平方米。若使用最小-最大归一化将特征缩放到 $[0,1]$ 范围，则第三个房屋面积（ $1200$ 平方米）归一化后的值是多少？ {{ select(14) }}

$0.00$
$0.25$
$0.50$
$0.75$

15、某系统记录了两个指标在5个小时内数值如下：

A： $10, 12, 14, 16, 18$ B： $8, 11, 14, 16, 19$

根据上述数据，计算皮尔逊相关系数（Pearson Correlation Coefficient）最接近于：

$0.85$
$0.65$
$0.45$
$0.95$

16、关于Batch Normalization的正则化效果，正确的说法有： {{ multiselect(16) }}

允许使用更大的学习率，间接提升模型泛化能力
增加了模型复杂度，容易导致过拟合
动机是通过减少内部协变量偏移（Internal Covariate Shift）降低过拟合风险
完全替代L2正则化，无需额外正则项

17、以下哪些方法适用于关键词提取任务 {{ multiselect(17) }}

TextRank
最大熵模型
TF-IDF
LDA（隐狄利克雷分布）

18、已知人群中X疾病的患病率（检查结果阳性为患病，阴性为不患病）为 $0.1\%$ （即1000人中1人患病）。张某做X疾病检查：先进行血液检查，灵敏度与特异性（假阳性率 $1\%$ ，假阴性率 $1\%$ ），之后尿液检查结果也为阳性（假阳性率 $5\%$ ，假阴性率 $5\%$ ）。随后，张某得知他有家族病史信息，他患X病的概率是前分之一。请选择下述正确选项： {{ multiselect(18) }}

考虑家族患病率，张某在血液和尿液检查之后的患病率约为 $95\%$
考虑人群患病率，张某在血液和尿液检查之后的患病率约为 $65\%$ 。
考虑家族患病率，张某在血液检查之后的患病率约为 $50\%$ 。
考虑人群患病率，张某在血液检查之后的患病率约为 $9\%$ 。

19、任可实 $m \times n \;(m \geq n)$ 矩阵 $A$ 的奇异值分解 $A = U \Sigma V^T$ 中，下列论述正确的是（多选）： {{ multiselect(19) }}

$\Sigma$ 中奇异值按升序排列
$V^T V = I_n$
$U$ 的列向量构成 $AA^T$ 的特征向量
非零奇异值个数等于 $\text{rank}(A)$

20、在一个A/B测试中，新算法A的点击率是 $5\%$ ，旧算法B的点击率是 $4\%$ ，样本量都很大。为了判断这个差异是否显著，而不仅仅是随机波动的结果，你可以采取哪些概率和统计学的方法？ {{ multiselect(20) }}

计算两个数据集的方差，方差大的那个算法更不稳定，应该被淘汰
直接判定新算法A更好，因为 $
计算两个比例之差的置信区间，看是否包含 $0$
进行假设检验（如Z检验），计算p-value，并与显著性水平（如 $0.05$ ）比较

#P3790. 第1题-选择题

T1

T2

T3

T4

T5

T6

T7

T8

T9

T10

T11

T12

T13

T14

T15

T16

T17

T18

T19

T20

Status

Development

Support

About