Difficulty: 5

所属公司 : 华为

时间 :2026年7月1日-AI方向

会员专享

请先登录，登录后可使用今日免费解锁；开通会员，或购买该题目所属题库（华为校招机考题库），可解锁完整内容。

购买题库开通会员

选择题答案与完整解析

T1

答案：B.KL 散度

解析：KL 散度用于衡量两个概率分布之间的差异，数值越小表示分布越接近。

T2

答案：C.误差项的条件期望满足 $E[e \mid X]=0$

1、用于衡量两个概率分布向量相似度的是？

{{ select(1) }}

欧氏距离
KL 散度
余弦相似度
曼哈顿距离

2、下列哪一项最接近经典线性回归中的外生性要求（误差项与解释变量不存在系统性相关）？

{{ select(2) }}

所有特征都必须服从标准正态分布
样本数必须等于特征数
误差项的条件期望满足 $E[e \mid X]=0$
特征必须两两独立

3、采用滑动窗口注意力部署一个支持128K上下文的文本分析模型时，其关键逻辑是？

{{ select(3) }}

将历史Token的KV压缩到一个向量
对每个KV进行INT4量化，减少显存占用
使用稀疏注意力，随机丢弃N%的KV
保留最近N个Token的KV，丢弃老的KV

4、给定三个向量： $A=[1,0]$ ， $B=[0,100]$ ， $C=[1,1]$ 。分别计算它们之间的余弦相似度和内积。关于排序，以下哪项正确？

{{ select(4) }}

余弦相似度： $A-C > B-C > A-B$ ；内积： $B-C > A-C > A-B$
余弦相似度： $A-C = B-C > A-B$ ；内积： $A-C > B-C > A-B$
余弦相似度： $A-C = B-C > A-B$ ；内积： $B-C > A-C > A-B$
余弦相似度： $A-C > B-C > A-B$ ；内积： $A-C > B-C > A-B$

5、为了检验并尽量避免“近似泄露”（例如训练集中存在同义改写、轻微编辑的题目），下列方法最有效的是：

{{ select(5) }}

看模型答对率是否异常高
用语义向量检索/MinHash等近似重复检测
检查训练集是否出现过评测集的文件名
纯完全字符串匹配（exact match）去重

6、若随机变量 $X$ 在区间 $[2,10]$ 上服从均匀分布，则 $X$ 落在区间 $[3,6]$ 内的概率以及 $X$ 的期望分别为：

{{ select(6) }}

$3/8$ ， $6$
$1/4$ ， $6$
$1/3$ ， $6$
$3/8$ ， $4$

7、BERT 属于以下哪种主架构？

{{ select(7) }}

Encoder-Decoder
Decoder-only
Prefix Decoder
Encoder-only

8、在样本严重不均衡（正类1%，负类99%）的场景下，以下哪种处理最有效？

{{ select(8) }}

只保留正类样本训练
对正类过采样（如 SMOTE）或对负类欠采样，配合 F1 或 AUC-PR 评估
直接训练，以准确率（Accuracy）为优化目标
将学习率调大以让模型更快收敛到正类

9、已知某数据集服从正态分布，均值 $\mu=50$ ，标准差 $\sigma=10$ 。若某数据的 Z-score（标准分数）为 2.5，则该数据对应的原始值是？

{{ select(9) }}

70
75
80
65

10、逻辑回归为什么通常不使用 $MSE$ 作为损失函数？

{{ select(10) }}

会导致梯度消失且函数是非凸的
不支持梯度下降
无法处理 0-1 标签
计算量太大

11、线性变换是向量空间中的重要概念，在计算机图形学、机器学习等领域广泛应用。下列哪个性质是线性变换必须满足的基本条件？

{{ select(11) }}

$T(0)=1$
$T(u)=u^2$
$T(u+v)=T(u)+T(v)$
$T(uv)=T(u)T(v)$

12、数据来自正态分布 $N(\mu,\sigma^2)$ 且 $\mu$ 已知，MLE估计 $\mu^2$ 时使用

{{ select(12) }}

样本极差
分母为 $n-1$ 的样本方差
样本中位数
分母为 $n$ 的样本方差

13、测量误差服从均匀分布 $U[-a,a]$ ，观测样本： $\{-0.5, 1.2, -0.8\}$ 。则 $a$ 的 MLE 估计是？

{{ select(13) }}

1.5
0.5
1.2
0.8

14、在将文本特征转换为向量时，Word2Vec 相比于 One-hot 编码的主要优势是？

{{ select(14) }}

能够处理 OOV（未登录词）
能够捕捉词语间的语义相似度
计算速度更快
向量维度更高

15、PCA 对特征的尺度（量纲）非常敏感。在使用 PCA 进行降维之前，通常需要对数据进行什么预处理？

{{ select(15) }}

标准化（均值为 $0$ ，方差为 $1$ ）
对数变换（处理偏态分布）
二值化（转换为 $0/1$ ）
归一化（缩放到 $[0,1]$ 区间）

16、以下哪些是贝叶斯定理在 AI 与机器学习中的直接应用？

{{ multiselect(16) }}

$L_2$ 正则化等价于高斯先验的 MAP 估计
贝叶斯优化用于超参数搜索
支持向量机的间隔最大化
朴素贝叶斯分类器

17、关于向量检索中的近似最近邻（ANN）算法，以下哪些描述是正确的？

{{ multiselect(17) }}

IVF算法需要先对数据集进行聚类，然后每个向量被分配到最近的聚类中心，搜索时只查找查询向量所在聚类，因此召回率与聚类数量成反比。
HNSW算法基于可导航小世界图，通过多层级结构实现快速搜索，构建时参数ef_construction越大，索引质量越高但构建越慢。
使用HNSW时，搜索参数ef（即动态候选集大小）越大，召回率越高，但查询延迟也越高。
乘积量化（PQ）将向量分解为多个子空间，每个子空间独立量化，可以大幅降低内存，但会引入量化误差，且搜索需要计算非对称距离。

18、在构建可重复、可审计的训练流水线时，下列哪些做法应当作为工程规范强制纳入，以保证训练结果可复现并可追溯？

{{ multiselect(18) }}

对训练数据做分区并记录每个样本的全局唯一 ID 与版本号，训练时使用样本 ID 作为索引并把数据切分/抽样策略写入元数据以保证数据可追溯。
只记录最终模型权重与超参数，为节省存储对中间 checkpoint 仅保留摘要（哈希、时间戳、训练步数）而不保留完整 checkpoint 二进制。
固定所有随机源（Python、NumPy、CUDA 等）并记录 seed，但允许在生产训练中启用 cuDNN 的非确定性算法以换提升性能。
在每次训练开始时记录完整的环境快照并把二进制依赖的哈希存入元数据以便精确重建运行环境

19、假设 $A$ 是一个 $n \times n$ 的实对称矩阵， $I$ 为单位矩阵。下列关于矩阵 $A$ 及其相关性质的描述中，必定正确的有：

{{ multiselect(19) }}

存在一个正交矩阵 $P$ ，使得 $P^TAP$ 为对角矩阵。
若 $A^k=O$ （零矩阵）对于某个正整数 $k$ 成立，则 $A$ 必然是零矩阵。
矩阵 $A$ 的秩（Rank）等于其非零特征值的个数（重根按重数计算）。
矩阵 $e^A$ （矩阵指数）总是正定矩阵，无论 $A$ 的特征值是正、是负还是零。

20、关于学习率调度，以下策略合理的有？

{{ multiselect(20) }}

预热：在训练初期使用较小的学习率，逐渐增加到设定值
Step Decay：每隔几个Epoch将学习率乘以一个衰减因子（如0.1）
余弦退火：学习率按照余弦曲线周期性变化
指数衰减：随着迭代次数指数级降低学习率