#P4981. 第1题-选择题
-
Tried: 75
Accepted: 4
Difficulty: 5
所属公司 :
华为
时间 :2026年5月27日-AI方向
第1题-选择题
T1
答案:D.它在负区间有平滑的曲线,可能保留更多信息
解析:Swish 在负区间具备平滑的非单调曲线,可保留更多负值信息,这是相较于 ReLU 的核心优势。
T2
1、Swish激活函数定义为f(x)=x·sigmoid(x)。相比于ReLU,Swish的主要特点是? {{ select(1) }}
- 它是非单调的
- 它是完全非负的
- 它的计算成本比ReLU低得多
- 它在负区间有平滑的曲线,可能保留更多信息
2、在使用 ZeRO1 (Zero Redundancy Optimizer) 优化的数据并行中,每个GPU计算完局部梯度后,通过哪两个基础通信算子以实现梯度的聚合和分片? {{ select(2) }}
- All-Gather和Broadcast
- Broadcast和Reduce
- Scatter和All-Reduce
- Reduce-Scatter和All-Gather
3、在表格数据处理中,若某列包含连续数值,另一列包含类别标签(如"男/女"),为了输入神经网络,通常的做法是? {{ select(3) }}
- 全部归一化为0-1之间
- 连续数值归一化,类别标签 One-Hot 编码
- 全部转换为字符串
- 连续数值 One-Hot 编码,类别标签归一化
4、在对大模型(LLM)的权重或激活值进行INT8或FP8量化时,通常假设数据在经过Batch Normalization或大量累加后近似服从正态分布N(0,σ2)。为了减少量化后的平均偏差,我们需要选择一个截断阈值T,将范围∣−T,T∣之外的离群值(Outliers)强制映射为−T或T。若我们设定T=3σ,基于高斯分布的性质,这种"3σ截断法则"会导致大约多少比例的原始数据信息产生截断失真(Clipping Error)? {{ select(4) }}
- 约0.01%
- 约4.5%
- 约31.7%
- 约0.27%
5、在构建线性回归模型时,发现训练误差很小,但测试误差很大,最可能的原因是 {{ select(5) }}
- 欠拟合
- 过拟合
- 数据量不足
- 特征太少
6、在分析多维数据特征分布时,需要准确理解特征间的相关性。对于任意两个随机变量X和Y,下列关于协方差与独立性的命题中,正确的一项是: {{ select(6) }}
- 若存在等式D(X+Y)=D(X)+D(Y)成立,则X和Y一定不相关。
- 若X和Y的协方差为0(即不相关),则它们一定相互独立。
- 若X和Y相互独立,则它们的协方差Cov(X,Y)可能不为0。
- 若X和Y服从二维正态分布且不相关,则它们不一定相互独立。
7、在自然语言处理中,嵌入向量的线性运算常被用来表达语义关系。假设在一个简化的二维嵌入空间中,已知三个概念的列向量分别为:vcat=[1,2]T,vanimal=[2,3]T,vdog=[3,1]T。若我们希望通过计算vtarget=vcat−vanimal+vdog来寻找对应的概念向量,则vtarget的值为: {{ select(7) }}
- [2,0]T
- [0,2]T
- [4,6]T
- [2,1]T
8、已知对称矩阵A=[[2,1],[1,2]],求解该矩阵的特征值和对应的特征向量。特征值和特征向量是矩阵分析的核心概念。 {{ select(8) }}
- λ1=1,ν1=[[1,1]]; λ2=3,ν2=[[1,−1]]
- λ1=2,ν1=[[1,0]]; λ2=1,ν2=[[0,1]]
- λ1=3,ν1=[[1,1]]; λ2=1,ν2=[[1,−1]]
- λ1=4,ν1=[[1,1]]; λ2=0,ν2=[[1,−1]]
9、循环神经网络(RNN)适合处理哪种类型的数据? {{ select(9) }}
- 图数据
- 图像
- 表格数据
- 序列数据
10、在机器学习的特征工程阶段,我们需要对数值型特征进行缩放处理。假设你正在处理一个包含异常值(Outliers)较多的数据集,且你准备使用对距离敏感的算法(如SVM或KNN)。为了尽可能降低异常值对模型训练的影响,下列哪种特征缩放方法最具有鲁棒性(Robustness)? {{ select(10) }}
- Standardization(标准化):将数据转化为均值为0、方差为1的分布。
- RobustScaler:使用中位数(Median)和四分位数间距(IQR)进行缩放。
- Min-MaxScaling(归一化):将数据线性映射到[0,1]区间。
- Log Transformation(对数变换):对所有数值取自然对数。
11.模型用FP8训练,工程上常见的数值稳定化操作是:
{{ select(11) }}
- 梯度缩放
- 去掉 dropout
- 使用更小的 batch size,避免过度平滑
- 增大学习率并减少权重衰减
12.空洞卷积(Dilated Convolution)的作用是
{{ select(12) }}
- 增加感受野而不增加参数
- 提高特征图分辨率
- 以上都不对
- 减少计算量
13.假设你拥有一个包含多台服务器的集群,每台服务器内有 8 张 GPU(通过高带宽 NVLink 互联),服务器之间通过延迟较高、带宽较低的 InfiniBand(IB)网络互联。在配置并行策略时,为了最小化通信瓶颈,最合理的物理拓扑映射策略是?
{{ select(13) }}
- 将所有并行策略随机分配,依赖底层的 NCCL 通信库在运行时自动路由。
- 将流水线并行(PP)放置在单机 8 卡内,张量并行(TP)跨节点分布。
- 将数据并行(DP)放在单机 8 卡内,张量并行(TP)和流水线并行(PP)跨节点分布。
- 将张量并行(TP)放置在单机 8 卡内,流水线并行(PP)和数据并行(DP)跨节点分布。
14.如果 Cov(X,Y)=10,Var(X)=4,Var(Y)=25,则 X 和 Y 的相关系数是?
{{ select(14) }}
- 0.5
- 0.8
- 1.0
- 0.1
15.对于函数 f(x)=1+25x21,在区间 [−1,1] 上取等距节点进行高次插值,当 n 增大时,插值多项式在区间两端会出现什么现象?
{{ select(15) }}
- 插值多项式趋于直线
- 收敛到 f(x)
- 振荡加剧,误差变大
- 插值多项式趋于零
16.设某线性层输入为 X∈RN×Cin(N 为token数,Cin 为输入通道),权重为 W∈RCin×Cout,输出为:Y=XW。SmoothQuant引入逐通道缩放向量 s∈RCin(si>0),进行如下数学变换:
Y=XW=(X⋅diag(s)−1)⋅(diag(s)⋅W)=X~⋅W~
其中 X~ij=Xij/sj,W~jk=sj⋅Wjk。
下列哪些说法正确:
{{ multiselect(16) }}
- 若原始 X 的某通道 j 存在幅值远大于其他通道的离群值(outliers),选择 sj 为该通道的 l∞ 范数或最大幅值,可将该通道数值范围压缩至 [−1,1] 附近,显著降低该通道激活的量化难度
- 变换后 W~ 的某行范数会随 sj 同比增大,若 sj 选择过大可能导致权重需要更高位宽表示,因此实际实现中需在“激活易量化”与“权重量化”之间寻找平衡
- 该变换要求 X 和 W 必须具有相同的通道维度 Cin,因此只能用于全连接层和卷积层,无法应用于注意力机制中的 Q/K/V 投影
- 该变换在数学上是严格等价的,即对任意 si>0,浮点精度下 X~W~ 与 XW 的数值结果完全一致,不存在任何近似误差
17.某电商平台收集了用户的多种行为特征,包括:月均登录次数、月均浏览商品数、月均购买金额、购买商品价格波动性等。希望通过聚类分析发现正常的用户群体,同时识别出异常用户(如刷单、机器人)。数据维度较高,且不同特征的量纲差异大。研发考虑使用DBSCAN进行聚类,使用DBSCAN的原因包括()
{{ multiselect(17) }}
- DBSCAN能够自动将异常用户标记为噪声点,有助于后续的欺诈检测
- 由于不需要预先指定簇的数量,DBSCAN适合探索未知的用户分群结构
- DBSCAN在高维数据中表现优异,因为密度概念在高维空间仍然清晰,不会受“维度灾难”影响
- DBSCAN能够发现任意形状的簇,可以捕捉到那些在特征空间中呈现非球形分布的特殊用户群体
18.ReAct架构在现代AI Agent系统中被广泛应用。以下关于ReAct架构特点和优势的说法中,正确的有:
{{ multiselect(18) }}
- ReAct循环可能陷入思考-行动的死循环,需要设计终止条件
- ReAct通过显式的Thought步骤增强了模型的可解释性
- ReAct中的Observation可以来自外部工具调用结果、搜索引擎返回、API响应等多种来源
- ReAct架构下,Agent的行动选择完全依赖预训练的模式,不需要工具调用
19.在混合检索(关键词 BM25(Best Matching 25)+ 向量相似度)的高级 RAG 系统中,关于 Embedding、分词、召回、重排的联合优化,下列说法正确的有()
{{ multiselect(19) }}
- Embedding归一化会影响余弦相似度与点积的等价性,混合检索需统一
- Tokenizer 若兼容向量模型与 BM25 的分词规则,可以减少词频统计错位,从而提升检索效果
- 对专业术语,若 BM25 权重过高,会压制向量的语义匹配能力
- 混合检索中的重排模型若与 Embedding 模型共享特征空间与参数,更有利于整体检索链路的端到端优化
- 文档切分策略只影响向量检索,不影响 BM25 效果
20.下列哪些损失函数常用于分类问题?
{{ multiselect(20) }}
- 交叉熵损失
- 均方误差
- 平均绝对误差
- 焦点损失