#P3790. 第1题-选择题
-
ID: 3136
Tried: 295
Accepted: 40
Difficulty: 5
所属公司 :
华为
时间 :2025年9月24日-AI岗
-
算法标签>选择题
第1题-选择题
T1
选A:805。因为总显存可用约 8×75 GiB=644,245,094,400 字节,2 亿条文档的 d 维 float32 向量需内存 2×108×d×4 字节,故 $$d_{\max}=\left\lfloor \frac{644{,}245{,}094{,}400}{2\times10^8\times4} \right\rfloor \approx 805$$。
T2
选D:e−2。因为泊松过程的相邻到达间隔 T∼Exp(λ) 且 λ=120/h,1 分钟为 t=1/60 小时,P(T>t)=e−λt=e−120×(1/60)=e−2。
1、在一个 8×A100-80 GB 构成的 GPU 集群上,要上线一个双塔检索模型,要求如下: 文档塔最后一层输出是 d = 1024 维 float32 Embedding; 文档库大小是 2 亿条平均 256 token 的文档; 查询塔与文档塔共享权重; 全部文档 Embedding 需常驻显存以实现毫秒级向量 ANN 检索,且不能使用 CPU 内存或磁盘缓存单卡最大可用显存约 75 GB(框架、缓存、通信占用约5GB);
问:在不压缩、不量化、不断层拆分的前提下,该集群理论上最多能支撑的d维 fioat32 Embedding 的上限是多少?(四舍五入到整数)。 {{ select(1) }}
- 805
- 384
- 1024
- 512
2、在智能交通系统中,车辆通过某个交通交叉口的时间可以视为泊松过程。 如果平均每小时有 120 辆车通过,那么任意连续两辆车之间的时间间隔大于 1 分钟的概率是多少? {{ select(2) }}
- e−3
- e−1
- e−4
- e−2
3、聚类算法通常包含层次、密度、以及划分式等类别,不同类别的紧类算法适应不同的数据特征和场景,请问一下哪个是基于密度的聚类算法? {{ select(3) }}
- DBSCAN
- K-Means++
- K-Means
- Divisive
4、随机变量 X 服从参数为 λ=0.1 的指数分布 (Exponential Distribution),其概率密度函数为 f(x)=0.1e−0.1x, 其中 x≥0 。
现定义一个新的随机变量 Y=2X+3。
问:Y 的方差 Var(Y)是多少?(结果需精确到整数后的选项值)
{{ select(4) }}
- 400
- 200
- 103
- 300
5、用浮点数计算 S=∑k=1106k21时,从 k=1 到 k=106 顺序累加(方法1)与从 k=106 到 k=1 逆序累加(方法2),哪种方法精度更高? {{ select(5) }}
- 取决于硬件架构
- 方法2精度更高
- 方法1精度更高
- 两者精度相同
6、设 A 为 n 阶非零矩阵,则( )一定是某个二次型对应的矩阵。
注:AT 表示矩阵 A 的转置矩阵 {{ select(6) }}
- AT
- (AT)2
- AT−A
- ATA
7、某班的下雨的概率是 1/3,如果下雨,上述迟到的概率是 1/2;如果不下雨,上述迟到的概率是 1/4。某天你上班迟到了,问这天是下雨的概率是多少? {{ select(7) }}
- 1/3
- 3/4
- 2/3
- 1/2
8、若输入张量形状为 (batch=4,seq_len=16,hidden_dim=1024),LayerNorm 的计算量主要来自 {{ select(8) }}
- 沿batch维度求全局统计量
- 与 Attention 的 QKV 投影
- 与 FFN 层的矩阵乘法
- 沿 hidden_dim 求均值和方差
9、用线性回归在 50 个样本上得到 残差平方和 SSE(SumofSquaredErrors)=18,总平方和 SST=50,求 R2。 {{ select(9) }}
- 0.64
- 0.68
- 0.66
- 0.62
10、关于激活函数的选择,下列说法正确的是 {{ select(10) }}
- Tanh 激活函数的输出均值为 0,比 Sigmoid 更适合作为隐藏层激活函数
- Softmax 函数只能用于二分类问题的输出层
- Sigmoid 激活函数适合作为深层网络的中间激活函数
- ReLU 激活函数在负区间存在梯度爆炸问题
11、关于RAG中语料切分的描述,错误的是: {{ select(11) }}
- 切分后的文本块之间可以有重叠的部分
- 需要确保每个chunk经过编码后的token数均匀分布
- 需要避免语义单位(如句子)被截断
- 文本切分需要平衡语义完整性与检索效率
12、对于函数 f,我们定义其 Fourier 变换为
$f(\omega) = \int_{-\infty}^{\infty} f(t)e^{-i\omega t} dt$,
令 $U_T := \{ f : \text{supp} \hat{f} \subset [-\pi/T, \pi/T] \}$,
且定义 hT(t)=πt/Tsin(πt/T),
如果 f∈UT,那么 f(t) 可以表示为:
{{ select(12) }}
- f(t)=∑n=−∞∞f(nT)hT(t−nT)
- f(t)=∑n=−∞∞f(nT)hT(t+nT)
- f(t)=∑n=−∞∞f(2nT)hT(t−nT)
- f(t)=∑n=−∞∞f(2nT)hT(t+nT)
13、神经网络训练中常用的优化器,如SGD、Adam等,理论上能够使网络模型在迭代后收敛到: {{ select(13) }}
- 梯度衰减幅度处
- 局部极小/极大值点
- 鞍点
- 全局极小/极大值点
14、某机器学习数据集包含房屋面积特征值:[1200,1800,900,2100] 平方米。若使用最小-最大归一化将特征缩放到 [0,1] 范围,则第三个房屋面积(1200 平方米)归一化后的值是多少? {{ select(14) }}
- 0.00
- 0.25
- 0.50
- 0.75
15、某系统记录了两个指标在5个小时内数值如下:
A:10,12,14,16,18 B:8,11,14,16,19
根据上述数据,计算皮尔逊相关系数(Pearson Correlation Coefficient)最接近于:
{{ select(15) }}
-
0.85
-
0.65
-
0.45
-
0.95
16、关于Batch Normalization的正则化效果,正确的说法有: {{ multiselect(16) }}
- 允许使用更大的学习率,间接提升模型泛化能力
- 增加了模型复杂度,容易导致过拟合
- 动机是通过减少内部协变量偏移(Internal Covariate Shift)降低过拟合风险
- 完全替代L2正则化,无需额外正则项
17、以下哪些方法适用于关键词提取任务 {{ multiselect(17) }}
- TextRank
- 最大熵模型
- TF-IDF
- LDA(隐狄利克雷分布)
18、已知人群中X疾病的患病率(检查结果阳性为患病,阴性为不患病)为 0.1% (即1000人中1人患病)。张某做X疾病检查:先进行血液检查,灵敏度与特异性(假阳性率 1%,假阴性率 1%),之后尿液检查结果也为阳性(假阳性率 5%,假阴性率 5%)。随后,张某得知他有家族病史信息,他患X病的概率是前分之一。请选择下述正确选项: {{ multiselect(18) }}
- 考虑家族患病率,张某在血液和尿液检查之后的患病率约为 95%
- 考虑人群患病率,张某在血液和尿液检查之后的患病率约为 65%。
- 考虑家族患病率,张某在血液检查之后的患病率约为 50%。
- 考虑人群患病率,张某在血液检查之后的患病率约为 9%。
19、任可实 m×n(m≥n) 矩阵 A 的奇异值分解 A=UΣVT 中,下列论述正确的是(多选): {{ multiselect(19) }}
- Σ 中奇异值按升序排列
- VTV=In
- U 的列向量构成 AAT 的特征向量
- 非零奇异值个数等于 rank(A)
20、在一个A/B测试中,新算法A的点击率是 5%,旧算法B的点击率是 4%,样本量都很大。为了判断这个差异是否显著,而不仅仅是随机波动的结果,你可以采取哪些概率和统计学的方法? {{ multiselect(20) }}
- 计算两个数据集的方差,方差大的那个算法更不稳定,应该被淘汰
- 直接判定新算法A更好,因为 $
- 计算两个比例之差的置信区间,看是否包含 0
- 进行假设检验(如Z检验),计算p-value,并与显著性水平(如 0.05)比较