#P3478. 第1题-选择题
          
                        
                                    
                      
        
              - 
          
          
          
                      Tried: 897
            Accepted: 104
            Difficulty: 5
            
          
          
          
                       所属公司 : 
                              华为
                                
            
                        
              时间 :2025年8月27日-国内-AI
                              
                      
          
 
- 
                        算法标签>数学          
 
第1题-选择题
- 
代码先做 Wx+b 的全连接线性变换,再做 exp 并按和归一化,即 Softmax。 ⇒ C 全连接层 + Softmax。
 - 
自注意力不含位置信息,位置编码用于给模型注入序列顺序。 ⇒ B 引入序列顺序信息。
 - 
Jacobi:xk+1=(6−yk)/4, yk+1=(3−xk)/3,由 (0,0) 得 (1.5,1)。 ⇒ D (1.5,1)。
 - 
训练多样性只能降低但不能“完全消除”幻觉;其余说法均对。 ⇒ 错误项 C。
 - 
α1,α2∈kerA(λ=0),α3 为 λ=2 的特征向量;不同特征值向量的线性组合一般不是特征向量。 ⇒ D 不是特征向量。
 - 
计算到各中心的欧氏(平方)距离:C2 为 2,最小。 ⇒ 选 C2。
 - 
rank(A)=2(第三行与前两行相关),零空间维数= 3−2=1。 ⇒ 答案 1,故选A。
 - 
实对称矩阵特征值全为实数;其余选项均不必然成立。 ⇒ A 正确。
 - 
左奇异向量(即U的列向量)是AAT的特征向量。SVD 的奇异值唯一且非负、左右奇异向量来自 AAT/ATA 的特征向量,但 U,V 不唯一(可变号/重根旋转)。 ⇒ 错误项 C,D。
 - 
1<=ans<=n−1,BCD均不满足条件,选 A。
 - 
概率密度函数要求非负且积分为 1,选 D。
 - 
⇒ A,C 正确。
 - 
Tokenizer 作用是将文本转为整数 ID 序列,选 D。
 - 
P(B∪A)=P(A)+P(B)−P(B∣A)P(A)=0.5+0.6−0.8⋅0.5=0.7。 ⇒ A 0.7。
 - 
样本中X=1出现3次,X=2和3各出现3次和2次;构建似然函数并求导得θ的极大似然估计为1/4;因此选 C。
 - 
Gauss–Seidel:(x1,y1)=(0.4,1.2),(x2,y2)=(0.16,1.28);系数矩阵严格对角占优,GS 收敛。 ⇒ 选 B、D。
 - 
朴素贝叶斯需要估计类别的先验概率P(类别)和特征的条件概率P(单词|类别);由于特征条件独立,无需联合概率或边缘概率;故正确选项为A和B。
 - 
卷积与全连接是线性映射;ReLU、池化为非线性。 ⇒ 选 A、C。
 - 
XGBoost每轮对损失作二阶泰勒展开,用梯度与Hessian建树;分类树常用基尼不纯度衡量混杂度。 ⇒ 选 C、D。
 - 
A正确:RAG流程为查询向量化检索文本后送LLM;C正确:通用tokenizer切分专业术语会稀释语义;B错误:块过小破坏上下文;D错误:离线在线模型需一致确保向量空间对齐;因此选A和C。
 
单选题
1.下面这段代码执行的功能是什么?
1. function forward(x, W,b):
2.   logits = Wx+b
3.   exp_values = exp(logits)
4. return exp_values / sum(exp_values)
{{ select(1) }}
- 全连接层+Sigmoid激活
 - 全连接层+全局池化操作
 - 全连接层+Softmax激活
 - 全连接层+均值池化操作
 
2.Transformer中位置编码的主要作用是? {{ select(2) }}
- 归一化输入
 - 引入序列顺序信息
 - 增加非线性
 - 减少计算量
 
3、线性方程组: $\left\{\begin{matrix} 4x+y=6 \\ x+3y=3 \end{matrix}\right. $
初始解(x0,y0)=(0,0),进行一次 Jacobi迭代后,(x1,y1)是: {{ select(3) }}
- (0,0)
 - (2,0.5)
 - (1,1)
 - (1.5,1)
 
4、关于大模型的"幻觉”(Hallucination)现象,下列说法错误的是 {{ select(4) }}
- 模糊或复杂的提示词输入可能导致幻觉
 - 指模型生成看似合理但与事实不符的内容
 - 增加训练数据的多样性可以完全消除幻觉
 - D.检索增强生成(RAG)技术可缓解幻觉问题
 
5、已知矩阵A是3阶不可逆矩阵,α1,α2是齐次线性方程组Ax=0的基础解系,α3是矩阵A属于特征值入λ=2的特征向量,则不是矩阵特征向量的是() {{ select(5) }}
- α1+2α2
 - −5α3
 - 3α1−4α2
 - 2α1+α3
 
6、在Kmeans算法(采用欧式距离)中,存在4个簇,簇C1的中心为[1,1],簇C2的中心为[1,−1],簇C3的中心为[−1,−1],簇C4的中心为[−1,1],则样本[2,−2]属于 {{ select(6) }}
- 簇C3
 - 簇C1
 - 簇C2
 - 簇C4
 
7、矩阵 $A= \begin{bmatrix} {1} & {2}&{3} \\ {4} & {5} &{6}\\{7}& {8}& {9} \end{bmatrix}$的零空间维度是? {{ select(7) }}
- 1
 - 2
 - 0
 - 3
 
8、对于一个n×n的实对称矩阵A,以下哪个说法是正确的? {{ select(8) }}
- A 的特征值一定都是实数
 - A的奇异值一定都是复数
 - A 不能进行 QR分解
 - A 一定可以进行LU分解
 
9、关于奇异值分解(SVD),以下说法错误的是 {{ multiselect(9) }}
- 奇异值矩阵∑的对角元素非负且按降序排列。
 - SVD适用于任意m×n矩阵。
 - 左奇异向量是ATA的特征向量。
 - SVD唯一确定,即分解结果U,∑,V唯一。
 
10、若某项目有n位选手,每两人之间都进行一次对战(即总共进行(2n)场比赛),最终按胜场数排名,胜场数最高的前m人晋级决赛,第m名若出现胜场数并列,则需进行加赛,因此不能保证晋级。请问,一个选手最少需要赢几场才能确保晋级?⌈∗⌉表示向上取整。 {{ select(10) }}
- ⌈2(2n−m−1)⌉
 - ⌈2(m−1)⌉
 - $\left \lceil \frac{(m-1)+(n-1)+1}{m-n+1} \right \rceil $
 - ⌈m(m−1)(n)⌉
 
11、任何一个连续型随机变量的概率密度中ϕ(x)一定满足() {{ select(11) }}
- 在定义域内单调不减
 - ϕ(x)>1
 - 0≤ϕ(x)≤1
 - ∫−∞+∞ϕ(x)dx=1
 
12、在支持向量机(SVM)中,假设你正在处理一个非线性可分的数据集,并选择了径向基函数(RBF)作为核函数。如果调整参数C(正则化参数)和γ(核系数)的值,以下哪一项最准确地描述了这两个参数对模型复杂度和泛化能力的影响? {{ multiselect(12) }}
- 减小C增加正则化强度,使模型更简单;减小γ使决策边界更加平滑,但可能导致欠拟合
 - 减小C减少正则化强度,使模型更复杂;减小γ使决策边界更加灵活,但可能导致过拟合
 - 增大C减少正则化强度,使模型更复杂;增大γ使决策边界更加灵活,但可能导致过拟合
 - 增大C增加正则化强度,使模型更简单;增大γ使决策边界更加平滑,但可能导致欠拟合
 
13、Tokenizer的核心作用是什么? {{ select(13) }}
- 把文本翻译成中文
 - 把文本变成浮点向量
 - 把文本翻译成英文
 - 把文本变成整数ID序列
 
14、设A、B为随机事件,且P(A)=0.5,P(B)=0.6,P(B∣A)=0.8,则 P(B∪A)=() {{ select(14) }}
- 0.7
 - 1.1
 - 0.3
 - 0.8
 
15、设总体X的概率分布为P(X=1)=21−θ, P(X=2)=P(X=3)=41+θ,利用来自总体的样本值¥2,2,1,3,1,3,1,2,可得的θ最大似然估计值为() {{ select(15) }}
- 1/2
 - 3/5
 - 1/4
 - 2/5
 
多选题
16、对线性方程组:$\left\{\begin{matrix} 5x+y=2 & \\ x+3y=4& \end{matrix}\right.$使用高斯-赛德尔迭代法,初始值(x(0),y(0))=(0,0) 。下列结果正确的是? {{ multiselect(16) }}
- 经过两步迭代:x(2)=0.08,y(2)=1.28
 - x(1)=0.4
 - 迭代矩阵的谱半径ρ(BGs)>1,方法发散
 - y(1)=1.2
 
17、你想使用朴素贝叶斯分类器来过滤垃圾邮件。该模型的核心是贝叶斯公式P(类别|特征)∝P(特征|类别)∗P(类别)。为了让这个模型有效工作,你需要从训练数据中估计哪些概率值? {{ multiselect(17) }}
- 在给定类别下,每个特征(例如,每个单词)出现的条件概率P(单词|类别)。
 - 每个类别的先验概率P(类别),例如P(垃圾邮件)和 P(正常邮件)。
 - 特征之间的联合概率P(单词1,单词2|类别)。
 - 每个特征的边缘概率P(单词)。
 
18、在卷积神经网络(CNN)中,以下操作属于线性变换的是: {{ multiselect(18) }}
- 卷积操作
 - 激活函数ReLU
 - 全连接层
 - 池化操作
 
19、下面关于决策树、XGBoost算法的说法,正确的有? {{ multiselect(19) }}
- XGBoost不支持正则化机制,无法控制树的复杂度,因此在高维稀疏数据上容易过拟合。
 - 决策树通过最小化节点不纯度进行分裂,因此深度越大,训练误差越小,模型泛化性能也越好。
 - XGBoost在每轮迭代中对损失函数进行二阶泰勒展开,利用梯度和Hessian信息构建新弱学习器,提升收敛速度与预测精度。
 - 基尼不纯度用于衡量节点中样本的类别纯度,其值越大表示样本类别越混杂,常用于分类树的分裂标准。
 
20、一位工程师正在为一个包含大量专业术语(如医疗、法律文书)的知识库构建一个RAG(检索增强生成)系统。在设计和调试文本处理与检索流程时,他得出了一系列结论。请判断下列结论中,哪些是准确的? {{ multiselect(20) }}
- 一个标准的RAG系统在处理用户请求时,其信息流是:先将用户的文本查询转换为一个查询向量,用此向量在数据库中检索出最相似的若干个文档块的向量,然后将这些文档块的原始文本(而非它们的向量)与原始查询一同作为上下文,提供给大语言模型(LLM)生成最终答案。
 - 在进行文档切分(Chunking)时,选择一个极小的、固定的切分尺寸(如32个token)是最佳策略,因为它能最大化每个文本块(chunk)的语义集中度,从而确保向量检索的精准性。
 - 使用一个在通用网络文本上预训练的Tokenizer处理这些专业文档时,许多专业术语会被切分成多个通用子词(sub−word)。这种切分会“稀释"原术语的特定义,可能导致其生成的Embedding向量质量下降。
 - 为了优化线上服务的推理速度和成本,可以采用一个强大的重量级模型来离线处理所有文档并生Embedding,同时在线上使用一个轻量级模型来实时编码,户的查询(Query),只要这两个模型都属于同一系列(如都是BERT的变体)即可。