第1题-选择题

会员专享

请先登录，登录后可使用今日免费解锁；开通会员，或购买该题目所属题库（华为校招机考题库），可解锁完整内容。

购买题库开通会员

T1

答案：A. 对命令行、IP、MAC、端口等增加专用词表

解析：结构化网络字段需保真。专用词表、按语义块切分与领域 Embedding 效果最佳。

T2

答案：A. 分组柱状图

1、某运营商构建网络配置命令、设备运行日志、故障案例一体化检索系统，文本中包含大量命令行（如display interface、ip route）、MAC/IP地址、端口编号、VLAN ID、OID等结构化内容。

对命令行、IP、MAC、端口等增加专用词表，按命令块/日志条目切分，使用通信领域微调 Embedding
全部文本统一小写并去除符号，避免分词异常
直接按固定长度切分，使用通用分词与通用 Embedding
只使用关键词 BM25 检索，不使用 Embedding

2、在大模型指令微调实验中，研究人员对比了3种训练数据配比（纯指令、指令+多轮对话、指令+知识）下的模型响应准确率，需直观展示不同配比的准确率差异并便于组间对比，最适合的可视化图表是（） {{ select(2) }}

分组柱状图
雷达图
饼图
直方图

3、牛顿迭代法的迭代公式为

$x_{n+1}=x_n - f(x_n)/f'(x_n)$
$x_{n+1}=x_n - f(x_n)$
$x_{n+1}=x_n + f(x_n)/f'(x_n)$
$x_{n+1}=x_n - f'(x_n)/f(x_n)$

4、张量并行（TP）主要用于解决单卡显存无法容纳单个模型层权重的问题，其切分逻辑是？

按优化器状态切分，不同GPU维护不同的优化器状态
按网络层深度切分，不同层放在不同GPU上
按批次大小切分，不同样本放在不同GPU上
按矩阵运算的维度切分，同一层内的权重被拆分到不同GPU上

5、下列哪个矩阵一定是可逆的？

对称矩阵
行列式为零的矩阵
单位矩阵
所有元素都为零的矩阵

6、在多轮对话推理系统中，如果GPU/NPU显存已满但仍有新的token需要生成，系统通常采用什么策略？

将部分KV Cache swap到CPU或进行recomputation
自动降低模型精度
重启服务器
直接杀掉进程

7、在部署阶段（Inference），将卷积层（Convolution）与批归一化层（Batch Normalization, BN）进行融合（Folding）是各大编译器的标配操作。以下关于 Conv+BN 融合的描述中，最准确的是 {{ select(7) }}

融合是为了让 BN 的梯度能更快反向传播到 Conv 层，从而加速推理。
融合是一种纯代数等价变换，在模型编译期（Offline）就将 BN 的缩放和偏移参数直接吸收到 Conv 的权重和偏置中，运行时完全没有 BN 的开销。
融合是在运行时（Runtime）将 BN 的均值和方差传入 Conv 的底层算子中并行计算。
Conv+BN 融合会轻微改变模型的输出精度，因为融合后的算子无法使用 Tensor Core 加速。

8、在流水线并行（Pipeline Parallel）中，一个模型被切分为多个 Stage，分布在不同 GPU 上。当某些 GPU 在等待上游 Stage 的计算结果时出现空闲，这种现象被称为？

Pipeline Bubble
显存碎片
GPU Context Switch
网络拥塞

9、在层次聚类分析（HAC）中，以下哪一种方法是用于定义簇间距离的常见方式？ {{ select(9) }}

Expectation-Maximization
K-means
DBSCAN
Complete Linkage

10、某多分类任务中，类别A有1000个样本，类别B有10个样本。若使用Micro - F1计算，主要反映的是哪个类别的性能？

两者权重相同
取决于具体的F1计算公式
类别B
类别A

11、在PyTorch 中，以下哪个函数用于执行优化器的一步更新

optimizer.zero_grad()
optimizer.backward()
optimizer.step()
optimizer.update()

12、工程师需要计算一个复杂函数( f(x) )在区间([0,1])上的定积分(\int_{0}^{1} f(x) , dx)。以下关于蒙特卡洛积分与黎曼积分的对比，说法正确的是？

蒙特卡洛积分仅适用于低维积分问题，高维时应使用黎曼积分
蒙特卡洛积分的收敛速度为( $O(N^{-2})$ )，黎曼积分（等距划分）为( $O(N^{-1})$ )
蒙特卡洛积分的计算复杂度远低于黎曼积分，因此总是首选
蒙特卡洛积分的收敛速度为( $O(N^{-1/2})$ )，黎曼积分（等距划分）为( $O(N^{-2}$ ) )

13、适合高维稀疏向量相似度计算的是？

余弦相似度
切比雪夫距离
欧氏距离
曼哈顿距离

14、Transformer的编码器-解码器注意力（Encoder-Decoder Attention）中，查询（Query）来自哪里？

输入序列
解码器的上一层的输出
位置编码
编码器的输出

15、给定两个向量 $\mathbf{a}=[1,2,3]$ 和 $\mathbf{b}=[4,5,6]$ ，他们余弦相似度为

1.0
0.87
0.97
0.67

16、多模态大模型中，常见的视觉-语言连接器（Connector）包括？ {{ multiselect(16) }}

MLP（多层感知机）
线性投影层（Linear Projection）
卷积池化层
Q-Former

17、适用于机器学习中度量两个特征向量的相似度的有?

欧氏距离
余弦相似度
汉明距离
KL散度

18、设 $X_{1},\ldots,X_{n}\sim N(\mu,\sigma^{2})$ ，下面正确的有

$\mu$ 的MLE是样本均值 $\bar{X}$
$\mu$ 的MLE是无偏的
$\sigma^{2}$ 的MLE是 $(1/n)\sum(X_{i}-\bar{X})^{2}$
$\sigma^{2}$ 的MLE是无偏的

19、以下关于反向传播计算效率的说法正确的是?

反向传播的计算量大约是前向传播的2倍
符号微分跟数值微分是两种计算体系，在一个模型训练时只能使用其中一种
反向传播需要存储所有中间层的激活值，因此显存消耗大
相比于数值微分，符号微分计算梯度的速度快

20、你维护的在线问答服务（vLLM）在晚高峰出现：

TTFT: 0.9s → 2.4s
decode tokens/s基本不变
平均输入长度：700 → 2200
GPU利用率接近满载

你本班次可立即执行哪些动作？

对超长输入先走“摘要压缩链路”，再送主模型
增大temperature到1.2
把max_new_tokens从512调到1024
开启/优化prefix cache（固定system prompt场景）

请从“运行结果”或“历史提交”选择一条记录

选择提交后开始分析

#P4820. 第1题-选择题

T1

T2

Status

Development

Support

About