Tried: 953

Accepted: 114

Difficulty: 5

所属公司 : 华为

时间 :2025年8月27日-国内-AI

算法标签>

数学

代码先做 $Wx+b$ 的全连接线性变换，再做 $\exp$ 并按和归一化，即 Softmax。 ⇒ C 全连接层 + Softmax。
自注意力不含位置信息，位置编码用于给模型注入序列顺序。 ⇒ B 引入序列顺序信息。
Jacobi： $x_{k+1}=(6-y_k)/4,\ y_{k+1}=(3-x_k)/3$ ，由 $(0,0)$ 得 $(1.5,1)$ 。 ⇒ D (1.5,1)。
训练多样性只能降低但不能“完全消除”幻觉；其余说法均对。 ⇒ 错误项 C。
$\alpha_{1},\alpha_{2}\in\ker A$ （ $\lambda=0$ ）， $\alpha_3$ 为 $\lambda=2$ 的特征向量；不同特征值向量的线性组合一般不是特征向量。 ⇒ D 不是特征向量。
计算到各中心的欧氏（平方）距离：C2 为 2，最小。 ⇒ 选 C2。
$\text{rank}(A)=2$ （第三行与前两行相关），零空间维数= $3-2=1$ 。 ⇒ 答案 1,故选A。
实对称矩阵特征值全为实数；其余选项均不必然成立。 ⇒ A 正确。
左奇异向量（即 $U$ 的列向量）是 $AA^T$ 的特征向量。SVD 的奇异值唯一且非负、左右奇异向量来自 $AA^T$ / $A^TA$ 的特征向量，但 $U,V$ 不唯一（可变号/重根旋转）。 ⇒ 错误项 C,D。
$1<=ans<=n-1$ ,BCD均不满足条件,选 A。
概率密度函数要求非负且积分为 1，选 D。
⇒ A,C 正确。
Tokenizer 作用是将文本转为整数 ID 序列，选 D。
$P(B\cup A)$ $=P(A)+P(B)-P(B|A)P(A)=0.5+0.6-0.8\cdot0.5=0.7$ 。 ⇒ A 0.7。
样本中X=1出现3次，X=2和3各出现3次和2次；构建似然函数并求导得θ的极大似然估计为1/4；因此选 C。
Gauss–Seidel： $(x_1,y_1)=(0.4,1.2)$ ， $(x_2,y_2)=(0.16,1.28)$ ；系数矩阵严格对角占优，GS 收敛。 ⇒ 选 B、D。
朴素贝叶斯需要估计类别的先验概率P(类别)和特征的条件概率P(单词|类别)；由于特征条件独立，无需联合概率或边缘概率；故正确选项为A和B。
卷积与全连接是线性映射；ReLU、池化为非线性。 ⇒ 选 A、C。
XGBoost每轮对损失作二阶泰勒展开，用梯度与Hessian建树；分类树常用基尼不纯度衡量混杂度。 ⇒ 选 C、D。
A正确：RAG流程为查询向量化检索文本后送LLM；C正确：通用tokenizer切分专业术语会稀释语义；B错误：块过小破坏上下文；D错误：离线在线模型需一致确保向量空间对齐；因此选A和C。

单选题

$1.$ 下面这段代码执行的功能是什么?

1. function forward(x, W,b):
2.   logits = Wx+b
3.   exp_values = exp(logits)
4. return exp_values / sum(exp_values)

全连接层+ $Sigmoid$ 激活
全连接层+全局池化操作
全连接层+ $Softmax$ 激活
全连接层+均值池化操作

2. $Transformer$ 中位置编码的主要作用是? {{ select(2) }}

归一化输入
引入序列顺序信息
增加非线性
减少计算量

3、线性方程组: $\left\{\begin{matrix} 4x+y=6 \\ x+3y=3 \end{matrix}\right.$

初始解 $(x_0,y_0) = (0,0)$ ，进行一次 $Jacobi$ 迭代后， $(x_1,y_1)$ 是: {{ select(3) }}

$(0,0)$
$(2,0.5)$
$(1,1)$
$(1.5,1)$

4、关于大模型的"幻觉”( $Hallucination$ )现象，下列说法错误的是 {{ select(4) }}

模糊或复杂的提示词输入可能导致幻觉
指模型生成看似合理但与事实不符的内容
增加训练数据的多样性可以完全消除幻觉
$D$ .检索增强生成 $(RAG)$ 技术可缓解幻觉问题

5、已知矩阵 $A$ 是 $3$ 阶不可逆矩阵， $\alpha_1,\alpha_2$ 是齐次线性方程 $组Ax=0$ 的基础解系， $\alpha_3$ 是矩阵 $A$ 属于特征值入 $\lambda=2$ 的特征向量，则不是矩阵特征向量的是() {{ select(5) }}

$\alpha_1+2\alpha_2$
$-5\alpha3$
$3\alpha_1-4\alpha_2$
$2\alpha_1+\alpha_3$

6、在 $Kmeans$ 算法(采用欧式距离)中，存在 $4$ 个簇，簇 $C1$ 的中心为 $[1,1]$ ，簇 $C2$ 的中心为 $[1,-1]$ ，簇 $C3$ 的中心为 $[-1,-1]$ ，簇 $C4$ 的中心为 $[-1,1]$ ，则样本 $[2,-2]$ 属于 {{ select(6) }}

$簇C3$
簇 $C1$
簇 $C2$
簇 $C4$

7、矩阵 $A= \begin{bmatrix} {1} & {2}&{3} \\ {4} & {5} &{6}\\{7}& {8}& {9} \end{bmatrix}$的零空间维度是? {{ select(7) }}

8、对于一个 $n×n$ 的实对称矩阵 $A$ ，以下哪个说法是正确的? {{ select(8) }}

$A$ 的特征值一定都是实数
$A$ 的奇异值一定都是复数
$A$ 不能进行 $QR$ 分解
$A$ 一定可以进行 $LU$ 分解

9、关于奇异值分解 $(SVD)$ ，以下说法错误的是 {{ multiselect(9) }}

奇异值矩阵 $\sum$ 的对角元素非负且按降序排列。
$SVD$ 适用于任意 $m×n$ 矩阵。
左奇异向量是 $A^{T}A$ 的特征向量。
$SVD$ 唯一确定，即分解结果 $U,\sum,V$ 唯一。

$10、$ 若某项目有 $n$ 位选手，每两人之间都进行一次对战(即总共进行 $\binom{n}{2}$ 场比赛)，最终按胜场数排名，胜场数最高的前 $m$ 人晋级决赛，第 $m$ 名若出现胜场数并列，则需进行加赛，因此不能保证晋级。请问，一个选手最少需要赢几场才能确保晋级？ $\left \lceil * \right \rceil$ 表示向上取整。 {{ select(10) }}

$\left \lceil \frac{(2n-m-1)}{2} \right \rceil$
$\left \lceil \frac{(m-1)}{2} \right \rceil$
$\left \lceil \frac{(m-1)+(n-1)+1}{m-n+1} \right \rceil$
$\left \lceil \frac{(m-1)(n)}{m} \right \rceil$

$11、$ 任何一个连续型随机变量的概率密度中 $\phi(x)$ 一定满足() {{ select(11) }}

$在定义域内单调不减$
$\phi(x)>1$
$0≤\phi(x)≤ 1$
$\int_{-\infty}^{+\infty} \phi(x)dx=1$

12、在支持向量机 $(SVM)$ 中，假设你正在处理一个非线性可分的数据集，并选择了径向基函数 $(RBF)$ 作为核函数。如果调整参数 $C$ (正则化参数)和 $\gamma$ (核系数)的值，以下哪一项最准确地描述了这两个参数对模型复杂度和泛化能力的影响? {{ multiselect(12) }}

减小 $C$ 增加正则化强度，使模型更简单;减小 $\gamma$ 使决策边界更加平滑，但可能导致欠拟合
减小 $C$ 减少正则化强度，使模型更复杂;减小 $\gamma$ 使决策边界更加灵活，但可能导致过拟合
增大 $C$ 减少正则化强度，使模型更复杂;增大 $\gamma$ 使决策边界更加灵活，但可能导致过拟合
增大 $C$ 增加正则化强度，使模型更简单;增大 $\gamma$ 使决策边界更加平滑，但可能导致欠拟合

13、 $Tokenizer$ 的核心作用是什么? {{ select(13) }}

把文本翻译成中文
把文本变成浮点向量
把文本翻译成英文
把文本变成整数 $ID$ 序列

14、设 $A、B$ 为随机事件，且 $P(A)=0.5，P(B)=0.6，P(B|A)=0.8$ ，则 $P(B \cup A)=()$ {{ select(14) }}

$0.7$
$1.1$
$0.3$
$0.8$

15、设总体 $X$ 的概率分布为 $P(X =1) =\frac{1-\theta}{2}$ , $P(X =2) = P(X =3) =\frac{1+\theta}{4}$ ，利用来自总体的样本值￥ $2,2,1,3,1,3,1,2$ ，可得的 $\theta$ 最大似然估计值为() {{ select(15) }}

$1/2$
$3/5$
$1/4$
$2/5$

多选题

16、对线性方程组:$\left\{\begin{matrix} 5x+y=2 & \\ x+3y=4& \end{matrix}\right.$使用高斯-赛德尔迭代法，初始值 $(x^{(0)},y^{(0)}) =(0, 0)$ 。下列结果正确的是？ {{ multiselect(16) }}

经过两步迭代: $x^{(2)} = 0.08, y^{(2)} = 1.28$
$x^{(1)}=0.4$
迭代矩阵的谱半径 $\rho(B_{Gs})> 1$ ，方法发散
$y^{(1)}=1.2$

17、你想使用朴素贝叶斯分类器来过滤垃圾邮件。该模型的核心是贝叶斯公式 $P$ (类别|特征) $\propto P$ (特征|类别) $*P$ (类别)。为了让这个模型有效工作，你需要从训练数据中估计哪些概率值? {{ multiselect(17) }}

在给定类别下，每个特征(例如，每个单词)出现的条件概率 $P$ (单词|类别)。
每个类别的先验概率 $P$ (类别)，例如 $P$ (垃圾邮件)和 $P$ (正常邮件)。
特征之间的联合概率P(单词 $1$ ,单词 $2$ |类别)。
每个特征的边缘概率 $P$ (单词)。

18、在卷积神经网络(CNN)中，以下操作属于线性变换的是: {{ multiselect(18) }}

卷积操作
激活函数 $ReLU$
全连接层
池化操作

19、下面关于决策树、 $XGBoost$ 算法的说法，正确的有? {{ multiselect(19) }}

$XGBoost$ 不支持正则化机制，无法控制树的复杂度，因此在高维稀疏数据上容易过拟合。
决策树通过最小化节点不纯度进行分裂，因此深度越大，训练误差越小，模型泛化性能也越好。
$XGBoost$ 在每轮迭代中对损失函数进行二阶泰勒展开，利用梯度和 $Hessian$ 信息构建新弱学习器,提升收敛速度与预测精度。
基尼不纯度用于衡量节点中样本的类别纯度，其值越大表示样本类别越混杂，常用于分类树的分裂标准。

20、一位工程师正在为一个包含大量专业术语(如医疗、法律文书)的知识库构建一个 $RAG$ (检索增强生成)系统。在设计和调试文本处理与检索流程时，他得出了一系列结论。请判断下列结论中，哪些是准确的? {{ multiselect(20) }}

一个标准的 $RAG$ 系统在处理用户请求时，其信息流是:先将用户的文本查询转换为一个查询向量，用此向量在数据库中检索出最相似的若干个文档块的向量，然后将这些文档块的原始文本(而非它们的向量)与原始查询一同作为上下文，提供给大语言模型 $(LLM)$ 生成最终答案。
在进行文档切分 $(Chunking)$ 时，选择一个极小的、固定的切分尺寸(如 $32$ 个 $token$ )是最佳策略，因为它能最大化每个文本块 $(chunk)$ 的语义集中度，从而确保向量检索的精准性。
使用一个在通用网络文本上预训练的 $Tokenizer$ 处理这些专业文档时，许多专业术语会被切分成多个通用子词 $(sub-word)$ 。这种切分会“稀释"原术语的特定义，可能导致其生成的 $Embedding$ 向量质量下降。
为了优化线上服务的推理速度和成本，可以采用一个强大的重量级模型来离线处理所有文档并生 $Embedding$ ，同时在线上使用一个轻量级模型来实时编码,户的查询 $(Query)$ ，只要这两个模型都属于同一系列(如都是 $BERT$ 的变体)即可。

#P3478. 第1题-选择题

第1题-选择题

单选题

多选题

Status

Development

Support

About