#P4820. 第1题-选择题
-
Tried: 203
Accepted: 20
Difficulty: 5
所属公司 :
华为
时间 :2026年4月22日-AI方向
第1题-选择题
T1
答案:A. 对命令行、IP、MAC、端口等增加专用词表
解析:结构化网络字段需保真。专用词表、按语义块切分与领域 Embedding 效果最佳。
T2
答案:A. 分组柱状图
1、某运营商构建网络配置命令、设备运行日志、故障案例一体化检索系统,文本中包含大量命令行(如display interface、ip route)、MAC/IP地址、端口编号、VLAN ID、OID等结构化内容。
{{ select(1) }}
- 对命令行、IP、MAC、端口等增加专用词表,按命令块/日志条目切分,使用通信领域微调 Embedding
- 全部文本统一小写并去除符号,避免分词异常
- 直接按固定长度切分,使用通用分词与通用 Embedding
- 只使用关键词 BM25 检索,不使用 Embedding
2、在大模型指令微调实验中,研究人员对比了3种训练数据配比(纯指令、指令+多轮对话、指令+知识)下的模型响应准确率,需直观展示不同配比的准确率差异并便于组间对比,最适合的可视化图表是( ) {{ select(2) }}
- 分组柱状图
- 雷达图
- 饼图
- 直方图
3、牛顿迭代法的迭代公式为
{{ select(3) }}
- xn+1=xn−f(xn)/f′(xn)
- xn+1=xn−f(xn)
- xn+1=xn+f(xn)/f′(xn)
- xn+1=xn−f′(xn)/f(xn)
4、张量并行(TP)主要用于解决单卡显存无法容纳单个模型层权重的问题,其切分逻辑是?
{{ select(4) }}
- 按优化器状态切分,不同GPU维护不同的优化器状态
- 按网络层深度切分,不同层放在不同GPU上
- 按批次大小切分,不同样本放在不同GPU上
- 按矩阵运算的维度切分,同一层内的权重被拆分到不同GPU上
5、下列哪个矩阵一定是可逆的?
{{ select(5) }}
- 对称矩阵
- 行列式为零的矩阵
- 单位矩阵
- 所有元素都为零的矩阵
6、在多轮对话推理系统中,如果GPU/NPU显存已满但仍有新的token需要生成,系统通常采用什么策略?
{{ select(6) }}
- 将部分KV Cache swap到CPU或进行recomputation
- 自动降低模型精度
- 重启服务器
- 直接杀掉进程
7、在部署阶段(Inference),将卷积层(Convolution)与批归一化层(Batch Normalization, BN)进行融合(Folding)是各大编译器的标配操作。以下关于 Conv+BN 融合的描述中,最准确的是 {{ select(7) }}
- 融合是为了让 BN 的梯度能更快反向传播到 Conv 层,从而加速推理。
- 融合是一种纯代数等价变换,在模型编译期(Offline)就将 BN 的缩放和偏移参数直接吸收到 Conv 的权重和偏置中,运行时完全没有 BN 的开销。
- 融合是在运行时(Runtime)将 BN 的均值和方差传入 Conv 的底层算子中并行计算。
- Conv+BN 融合会轻微改变模型的输出精度,因为融合后的算子无法使用 Tensor Core 加速。
8、在流水线并行(Pipeline Parallel)中,一个模型被切分为多个 Stage,分布在不同 GPU 上。当某些 GPU 在等待上游 Stage 的计算结果时出现空闲,这种现象被称为?
{{ select(8) }}
- Pipeline Bubble
- 显存碎片
- GPU Context Switch
- 网络拥塞
9、在层次聚类分析(HAC)中,以下哪一种方法是用于定义簇间距离的常见方式? {{ select(9) }}
- Expectation-Maximization
- K-means
- DBSCAN
- Complete Linkage
10、某多分类任务中,类别A有1000个样本,类别B有10个样本。若使用Micro - F1计算,主要反映的是哪个类别的性能?
{{ select(10) }}
-
两者权重相同
-
取决于具体的F1计算公式
-
类别B
-
类别A
11、在PyTorch 中,以下哪个函数用于执行优化器的一步更新
{{ select(11) }}
-
optimizer.zero_grad()
-
optimizer.backward()
-
optimizer.step()
-
optimizer.update()
12、工程师需要计算一个复杂函数( f(x) )在区间([0,1])上的定积分(\int_{0}^{1} f(x) , dx)。以下关于蒙特卡洛积分与黎曼积分的对比,说法正确的是?
{{ select(12) }}
- 蒙特卡洛积分仅适用于低维积分问题,高维时应使用黎曼积分
- 蒙特卡洛积分的收敛速度为( O(N−2) ),黎曼积分(等距划分)为( O(N−1) )
- 蒙特卡洛积分的计算复杂度远低于黎曼积分,因此总是首选
- 蒙特卡洛积分的收敛速度为( O(N−1/2) ),黎曼积分(等距划分)为( O(N−2) )
13、适合高维稀疏向量相似度计算的是?
{{ select(13) }}
-
余弦相似度
-
切比雪夫距离
-
欧氏距离
-
曼哈顿距离
14、Transformer的编码器-解码器注意力(Encoder-Decoder Attention)中,查询(Query)来自哪里?
{{ select(14) }}
- 输入序列
- 解码器的上一层的输出
- 位置编码
- 编码器的输出
15、给定两个向量a=[1,2,3]和b=[4,5,6],他们余弦相似度为
{{ select(15) }}
-
1.0
-
0.87
-
0.97
-
0.67
16、多模态大模型中,常见的视觉-语言连接器(Connector)包括? {{ multiselect(16) }}
- MLP(多层感知机)
- 线性投影层(Linear Projection)
- 卷积池化层
- Q-Former
17、适用于机器学习中度量两个特征向量的相似度的有?
{{ multiselect(17) }}
-
欧氏距离
-
余弦相似度
-
汉明距离
-
KL散度
18、设X1,…,Xn∼N(μ,σ2),下面正确的有
{{ multiselect(18) }}
-
μ的MLE是样本均值Xˉ
-
μ的MLE是无偏的
-
σ2的MLE是(1/n)∑(Xi−Xˉ)2
-
σ2的MLE是无偏的
19、以下关于反向传播计算效率的说法正确的是?
{{ multiselect(19) }}
-
反向传播的计算量大约是前向传播的2倍
-
符号微分跟数值微分是两种计算体系,在一个模型训练时只能使用其中一种
-
反向传播需要存储所有中间层的激活值,因此显存消耗大
-
相比于数值微分,符号微分计算梯度的速度快
20、你维护的在线问答服务(vLLM)在晚高峰出现:
- TTFT: 0.9s → 2.4s
- decode tokens/s基本不变
- 平均输入长度:700 → 2200
- GPU利用率接近满载
你本班次可立即执行哪些动作?
{{ multiselect(20) }}
- 对超长输入先走“摘要压缩链路”,再送主模型
- 增大temperature到1.2
- 把max_new_tokens从512调到1024
- 开启/优化prefix cache(固定system prompt场景)