#P4962. 第1题-选择题
-
Tried: 29
Accepted: 0
Difficulty: 5
所属公司 :
华为
时间 :2026年5月20日-AI方向
第1题-选择题
选择题答案与解析汇总
T1
答案:B. 1
解析:数据满足 y=x+1,因此一次项系数为 1。
T2
1、用二次多项式拟合下列数据点:(0,1),(1,2),(2,3),(3,4)。则拟合多项式的一次项系数最接近?
{{ select(1) }}
- 2
- 1
- 4
- 3
2、在计算机渲染3D模型时通常会使用双线性插值处理纹理映射,与最近邻插值相比,双线性插值主要可以减少?
{{ select(2) }}
- 计算时间
- 精度损失
- 视觉锯齿
- 数据存储
3、在多智能体强化学习中,智能体的联合状态向量组 s1=(1,3,5)T,s2=(2,4,6)T,s3=(3,5,7)T 构成矩阵 S,则矩阵 S 的零空间维度为()
{{ select(3) }}
- 3
- 0
- 1
- 2
4、预条件共轭梯度法(PCG)中,预条件矩阵M的选取目标是使得M−1A 的条件数:
{{ select(4) }}
- 无所谓
- 尽可能接近1
- 等于A的条件数
- 尽可能大
5、在训练神经网络时,使用带L2正则化的损失函数 L=Ldata+λ∑iwi2。关于正则化系数 λ,下列说法正确的是:
{{ select(5) }}
- λ=0 时,正则化效果最强,模型最简
- λ 的选择与模型过拟合或欠拟合无关,只需固定为常用值如0.01
- λ 越大,模型越倾向于拟合训练数据,泛化能力越强
- λ 越大,对权重参数的惩罚越重,模型复杂度越低
6、PagedAttention的核心设计目标是解决AI模型推理中的()
{{ select(6) }}
- 重计算导致的推理延迟过高问题
- 显存碎片化,导致显存利用率低下问题
- 模型量化后精度损失问题
- KV Cache占用显存过大问题
7、在大语言模型的安全对齐(Alignment)过程中,主要目标是确保模型输出符合人类价值观且无害。以下关于“对齐失效”的描述中,哪一项是最常见的风险场景?
{{ select(7) }}
- 模型推理速度过慢,导致用户等待时间过长从而放弃使用
- 模型词汇表过小,无法理解生僻的专业术语
- 模型在训练过程中损失函数无法收敛,导致无法生成任何文本
- 模型在面对恶意诱导 prompt 时,绕过安全限制生成有害内容(如制造武器教程)
8、弦截法(割线法,用两点连线的斜率代替导数来求根)的收敛阶约为:
{{ select(8) }}
- 2阶
- 3阶
- 1阶
- 1.618阶
9、关于KV Cache在自回归推理中的作用,最准确的是:
{{ select(9) }}
- 减少参数量,从而降低模型存储体积
- 提升训练收敛速度
- 缓存历史token的K/V,避免每步重复计算
- 让模型在推理时不再需要注意力机制
10、在 LLM 推理中,prefill 阶段和 decoding 阶段的计算瓶颈不同。以下分析正确的是:
{{ select(10) }}
- 两个阶段都是 compute-bound,区别仅在于序列长度不同
- prefill 阶段是 memory-bound,decoding 阶段是 compute-bound
- prefill 阶段并行处理整个输入序列,矩阵乘法密集,是 compute-bound;decoding 阶段每步生成一个 token,需反复加载全部权重,是 memory-bound
- KV Cache 使 decoding 阶段变为 compute-bound,因为节省了大量访存
11、如果数据集存在明显的噪声点和离群值,哪种聚类算法表现最稳健?
{{ select(11) }}
- GMM(高斯混合模型)
- DBSCAN
- 谱聚类
- K-Means
12、在图像处理中,将一张 224×224 的 RGB 图像展平为一维向量,其维度是?
{{ select(12) }}
- 150528
- 448
- 50176
- 224
13、某大模型团队正在优化推理服务的显存占用。已知模型配置如下:隐藏层维度(hidden size)为4096,Transformer层数为32层,注意力头数为32。在推理过程中,系统采用FP16(2字节)精度存储KV Cache。假设系统支持的最大序列长度为2048,Batch Size设置为1。请计算:在最大上下文长度下,存储KV Cache所需的显存开销最接近以下哪个数值?
{{ select(13) }}
- 4.0GB
- 0.5GB
- 2.0GB
- 1.0GB
14、在某应用的商品推荐系统中,用户行为包括停留时长、是否收藏等,这些数据通过向量来表示。如果要计算两个用户向量相似度,最常用的度量是:
{{ select(14) }}
- 皮尔逊相关系数
- 余弦相似度
- 曼哈顿距离
- 欧氏距离
15、Scaled Dot-Product Attention 中除以 dk 的原因是:
{{ select(15) }}
- 保证 Q 和 K 的内积严格服从标准正态分布
- 让注意力权重之和归一化为1
- 减少矩阵乘法的计算量
- 防止点积结果过大使 Softmax 进入梯度极小的饱和区,导致训练困难
16、针对Prefill和Decode阶段的性能差异,现代推理引擎通常会采用哪些策略来优化整体吞吐量?
{{ multiselect(16) }}
- 在Decode阶段强制使用GEMM代替GEMV进行计算
- 将Prefill和Decode阶段在不同的GPU节点上进行分离部署(PD分离)
- Continuous Batching(连续批处理)以提升Decode阶段的并发度
- Chunked Prefill(分块预填充)以避免长Prompt阻塞Decode进程
17、在矩阵运算中,下列哪些情况可能导致矩阵的行列式为零?
{{ multiselect(17) }}
- 矩阵是可逆矩阵
- 矩阵的秩小于其阶数
- 矩阵是奇异矩阵
- 两个非零矩阵相乘的结果可能是零矩阵
18、以下关于直接法和迭代法求解线性方程组的比较,正确的有:
{{ multiselect(18) }}
- 迭代法适合求解大型稀疏方程组
- 高斯消元法属于直接法
- Jacobi和Gauss-Seidel方法属于迭代法
- 直接法经过有限步运算可得到精确解(理论上)
19、下列哪些算子通常不建议进行低比特量化?
{{ multiselect(19) }}
- LayerNorm
- Softmax
- RoPE(旋转位置编码)
- MatMul(矩阵乘法)
20、在构建高维机器学习模型时,关于特征工程中的转换与评估,下列说法中正确的有:
{{ multiselect(20) }}
- 在使用目标编码(Target Encoding)时,即使采用了平滑技术,若类别的样本量极小,该特征在验证集上的表现仍可能因为“条件概率估计不准”而导致严重的过拟合(Overfitting)。
- 对于具有**偏态分布(Skewed Distribution)**的数值特征,使用 Box-Cox 变换不仅能使数据更接近正态分布,还能在一定程度上起到稳定方差(Homoscedasticity)的作用。
- Weight of Evidence (WoE) 编码主要用于逻辑回归(Logistic Regression),它的数学本质是将非线性特征转换为线性空间,且能够处理缺失值并具有较好的解释性。
- 在特征选择中,**过滤式(Filter)方法比包裹式(Wrapper)**方法更倾向于选出对模型最终性能最优的特征子集,因为过滤式方法不依赖于具体的算法偏差。
请从“运行结果”或“历史提交”选择一条记录
选择提交后开始分析