第1题-选择题

会员专享

请先登录，登录后可使用今日免费解锁；开通会员，或购买该题目所属题库（华为校招机考题库），可解锁完整内容。

购买题库开通会员

T1

答案：D.它在负区间有平滑的曲线，可能保留更多信息

解析：Swish 在负区间具备平滑的非单调曲线，可保留更多负值信息，这是相较于 ReLU 的核心优势。

T2

1、Swish激活函数定义为f(x)=x·sigmoid(x)。相比于ReLU，Swish的主要特点是？ {{ select(1) }}

它是非单调的
它是完全非负的
它的计算成本比ReLU低得多
它在负区间有平滑的曲线，可能保留更多信息

2、在使用 ZeRO1 (Zero Redundancy Optimizer) 优化的数据并行中，每个GPU计算完局部梯度后，通过哪两个基础通信算子以实现梯度的聚合和分片？ {{ select(2) }}

All-Gather和Broadcast
Broadcast和Reduce
Scatter和All-Reduce
Reduce-Scatter和All-Gather

3、在表格数据处理中，若某列包含连续数值，另一列包含类别标签（如"男/女"），为了输入神经网络，通常的做法是? {{ select(3) }}

全部归一化为0-1之间
连续数值归一化，类别标签 One-Hot 编码
全部转换为字符串
连续数值 One-Hot 编码，类别标签归一化

4、在对大模型（LLM）的权重或激活值进行INT8或FP8量化时，通常假设数据在经过Batch Normalization或大量累加后近似服从正态分布 $N(0,\sigma^{2})$ 。为了减少量化后的平均偏差，我们需要选择一个截断阈值T，将范围 $\vert-T,T\vert$ 之外的离群值（Outliers）强制映射为 $-T$ 或T。若我们设定 $T=3\sigma$ ，基于高斯分布的性质，这种"3 $\sigma$ 截断法则"会导致大约多少比例的原始数据信息产生截断失真（Clipping Error）？ {{ select(4) }}

约0.01%
约4.5%
约31.7%
约0.27%

5、在构建线性回归模型时，发现训练误差很小，但测试误差很大，最可能的原因是 {{ select(5) }}

欠拟合
过拟合
数据量不足
特征太少

6、在分析多维数据特征分布时，需要准确理解特征间的相关性。对于任意两个随机变量X和Y，下列关于协方差与独立性的命题中，正确的一项是： {{ select(6) }}

若存在等式 $D(X+Y)=D(X)+D(Y)$ 成立，则X和Y一定不相关。
若X和Y的协方差为0（即不相关），则它们一定相互独立。
若X和Y相互独立，则它们的协方差 $Cov(X,Y)$ 可能不为0。
若X和Y服从二维正态分布且不相关，则它们不一定相互独立。

7、在自然语言处理中，嵌入向量的线性运算常被用来表达语义关系。假设在一个简化的二维嵌入空间中，已知三个概念的列向量分别为： $v_{cat} = [1,2]^{T}$ ， $v_{animal} = [2,3]^{T}$ ， $v_{dog} = [3,1]^{T}$ 。若我们希望通过计算 $v_{target} = v_{cat} - v_{animal} + v_{dog}$ 来寻找对应的概念向量，则 $v_{target}$ 的值为： {{ select(7) }}

$[2,0]^{T}$
$[0,2]^{T}$
$[4,6]^{T}$
$[2,1]^{T}$

8、已知对称矩阵 $A=[[2,1],[1,2]]$ ，求解该矩阵的特征值和对应的特征向量。特征值和特征向量是矩阵分析的核心概念。 {{ select(8) }}

$\lambda_{1}=1$ , $\nu_{1}=[[1,1]]$ ; $\lambda_{2}=3$ , $\nu_{2}=[[1,-1]]$
$\lambda_{1}=2$ , $\nu_{1}=[[1,0]]$ ; $\lambda_{2}=1$ , $\nu_{2}=[[0,1]]$
$\lambda_{1}=3$ , $\nu_{1}=[[1,1]]$ ; $\lambda_{2}=1$ , $\nu_{2}=[[1,-1]]$
$\lambda_{1}=4$ , $\nu_{1}=[[1,1]]$ ; $\lambda_{2}=0$ , $\nu_{2}=[[1,-1]]$

9、循环神经网络（RNN）适合处理哪种类型的数据？ {{ select(9) }}

图数据
图像
表格数据
序列数据

10、在机器学习的特征工程阶段，我们需要对数值型特征进行缩放处理。假设你正在处理一个包含异常值（Outliers）较多的数据集，且你准备使用对距离敏感的算法（如SVM或KNN）。为了尽可能降低异常值对模型训练的影响，下列哪种特征缩放方法最具有鲁棒性（Robustness）？ {{ select(10) }}

Standardization（标准化）：将数据转化为均值为0、方差为1的分布。
RobustScaler：使用中位数（Median）和四分位数间距（IQR）进行缩放。
Min-MaxScaling（归一化）：将数据线性映射到[0,1]区间。
Log Transformation（对数变换）：对所有数值取自然对数。

11.模型用FP8训练，工程上常见的数值稳定化操作是：

梯度缩放
去掉 dropout
使用更小的 batch size，避免过度平滑
增大学习率并减少权重衰减

12.空洞卷积（Dilated Convolution）的作用是

增加感受野而不增加参数
提高特征图分辨率
以上都不对
减少计算量

13.假设你拥有一个包含多台服务器的集群，每台服务器内有 $8$ 张 GPU（通过高带宽 NVLink 互联），服务器之间通过延迟较高、带宽较低的 InfiniBand（IB）网络互联。在配置并行策略时，为了最小化通信瓶颈，最合理的物理拓扑映射策略是？

将所有并行策略随机分配，依赖底层的 NCCL 通信库在运行时自动路由。
将流水线并行（PP）放置在单机 $8$ 卡内，张量并行（TP）跨节点分布。
将数据并行（DP）放在单机 $8$ 卡内，张量并行（TP）和流水线并行（PP）跨节点分布。
将张量并行（TP）放置在单机 $8$ 卡内，流水线并行（PP）和数据并行（DP）跨节点分布。

14.如果 $Cov(X,Y)=10$ ， $Var(X)=4$ ， $Var(Y)=25$ ，则 $X$ 和 $Y$ 的相关系数是？

$0.5$
$0.8$
$1.0$
$0.1$

15.对于函数 $f(x)=\frac{1}{1+25x^2}$ ，在区间 $[-1,1]$ 上取等距节点进行高次插值，当 $n$ 增大时，插值多项式在区间两端会出现什么现象？

插值多项式趋于直线
收敛到 $f(x)$
振荡加剧，误差变大
插值多项式趋于零

16.设某线性层输入为 $X\in\mathbb{R}^{N\times C_{in}}$ （ $N$ 为token数， $C_{in}$ 为输入通道），权重为 $W\in\mathbb{R}^{C_{in}\times C_{out}}$ ，输出为： $Y=XW$ 。SmoothQuant引入逐通道缩放向量 $s\in\mathbb{R}^{C_{in}}$ （ $s_i>0$ ），进行如下数学变换：

$Y=XW=(X\cdot diag(s)^{-1})\cdot(diag(s)\cdot W)=\tilde{X}\cdot\tilde{W}$

其中 $\tilde{X}_{ij}=X_{ij}/s_j$ ， $\tilde{W}_{jk}=s_j\cdot W_{jk}$ 。

下列哪些说法正确：

若原始 $X$ 的某通道 $j$ 存在幅值远大于其他通道的离群值（outliers），选择 $s_j$ 为该通道的 $l_{\infty}$ 范数或最大幅值，可将该通道数值范围压缩至 $[-1,1]$ 附近，显著降低该通道激活的量化难度
变换后 $\tilde{W}$ 的某行范数会随 $s_j$ 同比增大，若 $s_j$ 选择过大可能导致权重需要更高位宽表示，因此实际实现中需在“激活易量化”与“权重量化”之间寻找平衡
该变换要求 $X$ 和 $W$ 必须具有相同的通道维度 $C_{in}$ ，因此只能用于全连接层和卷积层，无法应用于注意力机制中的 $Q/K/V$ 投影
该变换在数学上是严格等价的，即对任意 $s_i>0$ ，浮点精度下 $\tilde{X}\tilde{W}$ 与 $XW$ 的数值结果完全一致，不存在任何近似误差

17.某电商平台收集了用户的多种行为特征，包括：月均登录次数、月均浏览商品数、月均购买金额、购买商品价格波动性等。希望通过聚类分析发现正常的用户群体，同时识别出异常用户（如刷单、机器人）。数据维度较高，且不同特征的量纲差异大。研发考虑使用DBSCAN进行聚类，使用DBSCAN的原因包括（）

DBSCAN能够自动将异常用户标记为噪声点，有助于后续的欺诈检测
由于不需要预先指定簇的数量，DBSCAN适合探索未知的用户分群结构
DBSCAN在高维数据中表现优异，因为密度概念在高维空间仍然清晰，不会受“维度灾难”影响
DBSCAN能够发现任意形状的簇，可以捕捉到那些在特征空间中呈现非球形分布的特殊用户群体

18.ReAct架构在现代AI Agent系统中被广泛应用。以下关于ReAct架构特点和优势的说法中，正确的有：

ReAct循环可能陷入思考-行动的死循环，需要设计终止条件
ReAct通过显式的Thought步骤增强了模型的可解释性
ReAct中的Observation可以来自外部工具调用结果、搜索引擎返回、API响应等多种来源
ReAct架构下，Agent的行动选择完全依赖预训练的模式，不需要工具调用

19.在混合检索（关键词 BM25（Best Matching 25）+ 向量相似度）的高级 RAG 系统中，关于 Embedding、分词、召回、重排的联合优化，下列说法正确的有（）

Embedding归一化会影响余弦相似度与点积的等价性，混合检索需统一
Tokenizer 若兼容向量模型与 BM25 的分词规则，可以减少词频统计错位，从而提升检索效果
对专业术语，若 BM25 权重过高，会压制向量的语义匹配能力
混合检索中的重排模型若与 Embedding 模型共享特征空间与参数，更有利于整体检索链路的端到端优化
文档切分策略只影响向量检索，不影响 BM25 效果

20.下列哪些损失函数常用于分类问题？

交叉熵损失
均方误差
平均绝对误差
焦点损失

请从“运行结果”或“历史提交”选择一条记录

选择提交后开始分析

#P4981. 第1题-选择题

T1

T2

11.模型用FP8训练，工程上常见的数值稳定化操作是：

12.空洞卷积（Dilated Convolution）的作用是

14.如果 $Cov(X,Y)=10$ ， $Var(X)=4$ ， $Var(Y)=25$ ，则 $X$ 和 $Y$ 的相关系数是？

15.对于函数 $f(x)=\frac{1}{1+25x^2}$ ，在区间 $[-1,1]$ 上取等距节点进行高次插值，当 $n$ 增大时，插值多项式在区间两端会出现什么现象？

18.ReAct架构在现代AI Agent系统中被广泛应用。以下关于ReAct架构特点和优势的说法中，正确的有：

19.在混合检索（关键词 BM25（Best Matching 25）+ 向量相似度）的高级 RAG 系统中，关于 Embedding、分词、召回、重排的联合优化，下列说法正确的有（）

20.下列哪些损失函数常用于分类问题？

Status

Development

Support

About

#P4981. 第1题-选择题

第1题-选择题

T1

T2

11.模型用FP8训练，工程上常见的数值稳定化操作是：

12.空洞卷积（Dilated Convolution）的作用是

14.如果 Cov(X,Y)=10Cov(X,Y)=10Cov(X,Y)=10，Var(X)=4Var(X)=4Var(X)=4，Var(Y)=25Var(Y)=25Var(Y)=25，则 XXX 和 YYY 的相关系数是？

15.对于函数 f(x)=11+25x2f(x)=\frac{1}{1+25x^2}f(x)=1+25x21​，在区间 [−1,1][-1,1][−1,1] 上取等距节点进行高次插值，当 nnn 增大时，插值多项式在区间两端会出现什么现象？

18.ReAct架构在现代AI Agent系统中被广泛应用。以下关于ReAct架构特点和优势的说法中，正确的有：

19.在混合检索（关键词 BM25（Best Matching 25）+ 向量相似度）的高级 RAG 系统中，关于 Embedding、分词、召回、重排的联合优化，下列说法正确的有（）

20.下列哪些损失函数常用于分类问题？

Status

Development

Support

About

Login

14.如果 $Cov(X,Y)=10$ ， $Var(X)=4$ ， $Var(Y)=25$ ，则 $X$ 和 $Y$ 的相关系数是？

15.对于函数 $f(x)=\frac{1}{1+25x^2}$ ，在区间 $[-1,1]$ 上取等距节点进行高次插值，当 $n$ 增大时，插值多项式在区间两端会出现什么现象？