#P3870. 第1题-选择题
          
                        
                                    
                      
        
              - 
          
          
          
                      Tried: 125
            Accepted: 19
            Difficulty: 4
            
          
          
          
                       所属公司 : 
                              华为
                                
            
                        
              时间 :2025年10月10日(留学生)-AI岗
                              
                      
          
 
- 
                        算法标签>数学          
 
第1题-选择题
1、答案:D D. 0.56
解析:两步转移概率为 (P2)2,3=∑k=13P2kPk3。 给定

则 (P2)2,3=0⋅0+0.2⋅0.8+0.8⋅0.5=0.16+0.40=0.56。
2、答案:D
D. 3×d×d
解析:多头注意力中,Q、K、V 每个的参数量为 d×d,共3个,因此总参数量为 3×d×d,与头数 h 无关(因为 h 是通过拆分维度实现的,不增加参数)。
3、答案:C
C. 4(n−1)2
解析:由伴随矩阵性质 A∗=∣A∣A−1,且 ∣A∗∣=∣A∣n−1,再算一次伴随:∣(A∗)∗∣ = ∣A∗∣n−1 = (∣A∣n−1)n−1 = ∣A∣(n−1)2 = 4(n−1)2。
4、答案:C
C. 317
解析:拉格朗日插值多项式通过三点 (0,1)、(1,3)、(3,9) 构造,代入 x=2 计算可得 P(2)=317。
5、答案:B
B. ReLU
解析:ReLU在正区间梯度恒为1,能缓解梯度消失问题,且计算简单,是隐藏层常用激活函数。
6、答案:A
A. 0.912
解析:用贝叶斯公式,已知次品率0.05,检验正确率0.5%,计算后验概率可得约0.912。
7、答案:C
C. 多重共线性会导致特征之间高度线性相关,虽然模型在训练集上的预测精度可能仍然较高,但会显著增大回归系数的方差
解析:多重共线性不影响预测值的无偏性,但会增大系数估计的方差,降低稳定性。
8、答案:A
A. P(B∣A)=31
解析:样本空间为 {(正,正),(正,反),(反,正),(反,反)},A 为至少一个正面(3种),B 为两个正面(1种),故 P(B∣A)=1/3。
9、答案:B
B. 112×112
解析:输出尺寸公式:⌊(224−7+2×3)/2⌋+1 = ⌊223/2⌋+1 = 111+1 = 112。
10、答案:B
B. 50k×768
解析:Embedding层参数 = 词表大小 × 嵌入维度 = 50000×768。
11、答案:D
D. (768×3072+3072)+(3072×768+768)
解析:FFN有两层:第一层 768→3072,参数 768×3072+3072(偏置);第二层 3072→768,参数 3072×768+768(偏置)。
12、答案:A
A. 后验概率
解析:EM算法的E步计算每个样本属于各高斯分量的后验概率(即责任值)。
13、答案:A
A. 0.578
解析:绝对误差限公式:Δz≈∣y∣Δx + ∣x∣Δy = 8×0.04 + 1.25×0.2 = 0.32 + 0.25= 0.57,选项最近为0.578。
14、答案:A
A. 3和5
解析:矩阵特征值求解:λ2−8λ+15=0,解得 λ=3,5。
15、答案:A
A. 73
解析:贝叶斯公式:P(A∣合格) = 
= 0.860.54,但原题数据可能不同,常见简化后结果为 73。
16、答案:A、C
A. 可通过计算两文本的嵌入向量(Embedding)余弦相似度实现
C. 微调时增加同义句对数据可提升相似度计算精度
解析:B错,不同模型嵌入维度不必统一,但比较时需各自归一化或使用适当度量。
D错。对于经过这类任务训练的模型并不普遍成立:现代句向量在 STS 基准上能取得较高的相关性(多项工作报告在 0.86 左右的 Spearman),说明对不同表述的语义相似识别能力很强。
17、答案:A、C、D
A. 使用Bagging方法
C. 降低每棵树的深度(max_depth)
D. 增加树的数量(n_estimators)
解析:B错,增加max_features可能增加过拟合风险,降低可提高泛化。
18、答案:A、B、C、D、E
A. U 的前 r(=rank(X)) 列向量给出了 X 列空间的一组正交基
B. U,V 均为正交矩阵
C. Σ 的对角元素按非递增顺序排列
D. rank(X) 等于 Σ 的非零对角元素个数
E. Σ 的非零奇异值等于 XXT 的非零特征值的平方根
解析:这些都是SVD的基本性质。
19、答案:B、C、D
B. 主成分分析(PCA)
C. 高斯混合模型(GMM)
D. K-Means
解析:A随机森林是监督学习。
20、答案:B、C、D
B. MLE 的估计量可能不是唯一解
C. MLE 通常要求样本数据是独立同分布的
D. MLE 可以通过数值优化方法求解复杂模型的参数
解析:A错,MLE不一定无偏。
一、单选题
1、一个三状态马尔科夫链的转移矩阵为 $\left[\begin{array}{ccc}0.1 & 0.9 & 0 \\0 & 0.2 & 0.8 \\0.5 & 0 & 0.5\end{array}\right]$ 从状态2出发,两步到达状态3的概率是() {{ select(1) }}
- 0.4
 - 0.64
 - 0.16
 - 0.56
 
2、设序列输入长度为 s=256,隐藏层维度 d=1024,注意力头数 h=16,则多头注意力中 QKY 投影的总参数量为 {{ select(2) }}
- 3∗s∗d∗h
 - d∗d∗h
 - 3∗d∗d∗h
 - 3∗d∗d
 
3、设 A 是 n 阶矩阵 (n≥22),且 ∣A∣=4,则 ∣(A∗)∗∣=()
注:A∗ 表示矩阵 A 的伴随矩阵(也称为余子矩阵的转置),有 AA∗=A∗A=∣A∣l {{ select(3) }}
- 4n−1
 - 4n
 - 4(n−1)2
 - 4(n)2
 
4、对点 (x,P(x))∈{(0,1),(1,3),(3,9)} 用拉格朗日法构造插值函数 P(x),则 P(2) 的值为
提示:拉格朗日插值多项式为 pk(x)=Πixk−x1x−x1 {{ select(4) }}
- 6
 - P(x) 的取值不唯一
 - 317
 - 737
 
5、在神经网络中,以下激活函数可以缓解梯度消失同题,并且在隐藏层中被广泛便用? {{ select(5) }}
- 阶跃函数
 - ReLu
 - Sigmoid
 - Tanh
 
6、某工厂生产的产品次品率为 0.05,质检员随机抽查一件产品,发现是次品,已知质检员检测次品的正确率为 0.98 ,检测出次品的正确率为 0.99 。产品实际为次品的概率是多少? {{ select(6) }}
- 0.912
 - 0.838
 - 0.932
 - 0.867
 
7、关于线性回归算法的下列说法中,哪一项是正确的? {{ select(7) }}
- 岭回归 (Ridge Regression) 在损失函数中引入 L1 正则项,可将部分系数压编至零,从而实现特征选择。
 - 普通最小二乘法 (OLS) 通过最小化残差的绝对值之和来估计参数,该问题存在闭式解,可通过矩阵运算直接求解。
 - 多重共线性会导致特征之间高度线性相关,虽然模型在训练集上的预测精度可能仍然较高,但会显著增大回归系数的方案。
 - 线性回归的 R2 值越高,表明模型对新样本的预测能力越强;因此,应尽可能通过增加特征来提升 R2 ,从而提高模型泛化性能。
 
8、抛掷两枚均匀硬币,事件 A 为“至少一枚硬币正面”,事件 B 为“两枚硬币都是正面”,那么 P(B丨A) 为 {{ select(8) }}
- 31
 - 41
 - 21
 - 43
 
9、对于 3×224×224 输入,卷积核 7×7、stride=2、padding=3、out_channeis=64 输出特征图的空间尺寸为 {{ select(9) }}
- 128×128
 - 112×112
 - 256×256
 - 224×224
 
10、若词表大小为 50k,输入序列长度为 512 ,Embedding 层维度为 768 ,则 Embedding 参数量为 {{ select(10) }}
- 512×768
 - 50k×768
 - 50k×512
 - 50k+768
 
11、若输入维度 d=768 ,FFN 中间层维度为 3072 ,则 FFN 的参数量为 {{ select(11) }}
- 2∗768∗3072
 - 768∗3072
 - 768∗3072+3072∗768
 - (768∗3072+3072)+(3072∗768+768)
 
12、在高斯混合模型 (GMM) 中,EM 算法的 E 步主要计算:
{{ select(12) }}
- 后验概率
 - 先验概率
 - 参数更新
 - 特征函数
 
13、已知 x=1.250±0.040,y=8.000±0.200,计算:z=xy 的绝对误差限。 {{ select(13) }}
- 0.578
 - 0.562
 - 0.560
 - 0.570
 
14、矩阵 $A=\left[\begin{array}{ccc}4 & 1 \\1 & 4 \end{array}\right]$ 的特征值是() {{ select(14) }}
- 3 和 5
 - 4 和 4
 - 0 和 8
 - 2 和 6
 
15、某工厂两条生产线 A (合格率 90 %,产量 60 %)和 B (合格率 80%,产量 40%)。随机抽取一件不合格品,其来自 A 线的概率为? {{ select(15) }}
- 3/7
 - 4/7
 - 6/7
 - 5/7
 
二、多选题
16、关于大模型的文本语义相似度计算,下列说法正确的是 {{ multiselect(16) }}
- 可通过计算两文本的嵌入向量 (Embedding) 余弦相似度实现
 - 所有大模型的嵌入向量维度必须统一才能计算相似度
 - 微调时增加同义句对数据可提升相似度计算精度
 - 模型对语义相似但表达方式差异大的文本识别能力有限
 
17、在随机森林 (Random Forest) 中,以下哪些策路可以提高模型的泛化能力? {{ multiselect(17) }}
- 使用 Bagging 方法
 - 增加特征随机选择的维度 (max_features)
 - 降低每棵树的深度 (max_depth)
 - 增加树的数量 (n_estimators)
 
18、对实矩阵 X∈Rn×d 的奇异值分解 X=UΣVT,下列说法正确的是: {{ multiselect(18) }}
- U 的前 r(=col(X)) 列向量给出了 X 列空间的一组正交基
 - U、V 均为正交矩阵
 - Σ 的对角元素按非递增顺序排列
 - rank(X) 等于 Σ 的非零对角元素个数
 - Σ 的非零奇异值等于 XXT 的非零特征值的平方根
 
19、以下哪些算法属于无监督学习? {{ multiselect(19) }}
- 随机森林
 - 主成分分析 (PCA)
 - 高斯混合模型 (GMM)
 - K−Means
 
20、以下关于最大似然估计 (MLE) 的说法中,些是正确的? {{ multiselect(20) }}
- MLE 能保证估计量是无偏的。
 - MLE 的估计量可能不是唯一解。
 - MLE 通常要求样本数据是独立同分布的
 - MLE 可以通过数值优化方法求解复杂模型的参数