#P3717. 第1题-选择题
          
                        
                                    
                      
        
              - 
          
          
          
                      Tried: 331
            Accepted: 66
            Difficulty: 5
            
          
          
          
                       所属公司 : 
                              华为
                                
            
                        
              时间 :2025年9月18日(留学生)-AI岗
                              
                      
          
 
- 
                        算法标签>数学          
 
第1题-选择题
1. A 采用文本生成式微调,通过给定前缀(prompt)进行自回归生成 解析:GPT为decoder-only结构,常见微调是因果语言建模/指令微调,通过提示触发自回归生成;B/C/D分别对应分类头、MLM掩码、segment embedding,均非GPT微调常态。
2. B x1 = -1,x2 = -5 解析:迭代式 xk+1=2xk−3,x0=1⇒x1=2⋅1−3=−1,x2=2⋅(−1)−3=−5。
3. A 出现除数接近零的情况 解析:高斯消元不做主元选取会在接近零的枢轴上相除,舍入误差被放大导致不稳定;b的扰动、元素“过大”、高维并非根因。
4. A 最大似然估计 解析:MLE只最大化似然,不引入先验;MAP与贝叶斯方法均显式使用先验分布。
5. A 0.27 解析:逻辑回归 z=w⊤x+b=0.5×2+(−1)×1−1=−1,σ(z)=1/(1+e1)≈0.2689≈0.27。
6. B [17, 39]
解析:矩阵向量乘
7. C 1000G 解析:参数显存≈70B×2B=140GB。KV缓存:每层每token需(4096+4096)×2B=16KB;32k上下文→每层≈512MB,80层≈40.96GB用户;10并发≈409.6GB。总≈550GB,四个选项中取最接近者为约1000G。
8. C 避免梯度消失问题 解析:ReLU在正区间梯度为1,缓解梯度消失且计算开销小;A错(输出范围[0,∞),B不成立,D错(并不提高复杂度)。
9. C ct=ft⊙ct−1+it⊙gt 解析:LSTM细胞状态由遗忘门保留旧状态并由输入门写入候选状态,按逐元素加法更新。
10. B 存在另一个服从泊松分布的随机变量Z使得 P(Z>X)=1 解析:Poisson(1)方差等于均值(A对);适合计数过程(C对);独立和为Poisson(2)(D对)。而任意泊松Z与X均取非负整数,无法保证几乎处处 Z>X,故B不正确。
11. C 提取局部特征并降低空间维度 解析:池化层进行下采样,保留显著局部响应并减少计算与过拟合;并不会增加参数或“提升计算精度”。
12. D 33.3% 解析:P(足∣篮)=P(足且篮)/P(篮)=0.2/0.6=1/3≈33.3%。
13. D 加速训练过程并减少对初始化的敏感度 解析:BatchNorm规范化激活,缓解内部协变量偏移,加快收敛并降低对初始化依赖;不是直接“增加参数”或“必然提高测试准确率”。
14. D 若将所有向量标准化(均值为0,方差为1)后,采用皮尔逊相关系数和采用余弦相似度的相似性排序结果不一致 解析:标准化后余弦相似度与皮尔逊相关系数等价,排序应一致,因此该说法错误。其余:场景1用曼哈顿距离A更像B;场景2用皮尔逊相关A与C相似性高于A与D;场景3用余弦相似A与B高于A与D,均正确。
15. D 都是1 解析:正交矩阵 Q⊤Q=I,其特征值位于单位圆上,故模均为1(可为±1或成共轭复对)。
16. A、B、D
- A 变换的核空间至少包含一条过原点的直线
 - B 变换的像空间维度 ≤ 2
 - D T([3,−2,0]⊤)=[8,−3]⊤ 解析:T:R3→R2 的秩≤2,按秩—零度定理零空间维数≥1(A对);像空间维度当然≤2(B对);线性性:3T(e1)−2T(e2)=[8,−3]⊤(D对);而 T([0,0,1]⊤) 未给,无法唯一确定(C错)。
 
17. A、B、C、D
- A 准确率(Accuracy)不适合作为核心评估指标,因为即使模型把所有交易都预测为正常,准确率仍可达99.9%
 - B 若模型把一笔交易标记为“盗刷”,其后验为盗刷的概率应高于0.1%的先验概率
 - C 评估应对“盗刷/正常”两类的指标做加权(如Balanced Accuracy/PR-AUC等),给予两类相当权重
 - D 若TPR=90%、FPR=1%,在1000笔正常交易中期望约有10笔被误判为盗刷 解析:高度不平衡下应避免单看Accuracy(A),阳性预测应提高后验(B),加权评估更合理(C),FPR计算直接得出(D)。
 
18. A、B
- A 若两个随机变量独立,则它们一定不相关
 - B 不相关意味着无线性关系,但可能存在非线性关系 解析:独立⇒零相关(有二阶矩时);零相关≠独立,除非在高斯等特殊分布下,因此C/D均不成立。
 
19. A、C
- A RMSNorm比LayerNorm更简洁,省去减均值的中心化,仅按均方根缩放
 - C 多头注意力将Q/K/V投影到多个低维子空间,让不同“头”学习不同依赖 解析:FFN在各位置共享同一组参数(B错);标准正弦/余弦位置编码是绝对位置编码,并非专为相对位置设计(D错)。
 
20. A、B、C、D
- A 使用饼图展示超过10个类别的比例分布
 - B 在箱线图中忽略异常值的标注
 - C 在折线图中使用不均匀的时间间隔但未明确标注
 - D 使用散点图展示强相关变量且标明因果关系 解析:以上情形均易误导读者(可读性差、漏报异常、时间轴误导、把相关当因果),都需特别注意与改进。
 
一、单选题
1、关于 GPT 系列模型在微调时的使用方式,哪项最常见? {{ select(1) }}
- 采用文本生成式微调,通过给定前缀 (prompt) 进行自回归生成
 - 添加分类头井只保留 encoder 层
 - 在输入句子中随机掩码若干词进行填空
 - 在句对中加入 segment embedding
 
2、用迭代法解方程 x=2x−3 。构造选代公式:xk+1=2xk−3 。若初值 x0=1 ,则下一步迭代值 x1 ;和再下一步 x2 分别是? {{ select(2) }}
- x1=−1,x2=1
 - x1=−1,x2=−5
 - x1=1,x2=−1
 - x1=−3,x2=−9
 
3、在用高斯消元法解线性方程组 Ax=b 时,若不使用主元选择,算法可能不稳定的原因是? {{ select(3) }}
- 出现除数接近零的情况
 - 输入向量 b 有扰动
 - 矩阵 A 的元素过大
 - 矩阵 A 的维度过高
 
4、下列方法中没有考虑先验分布的是() {{ select(4) }}
- 最大似然估计
 - 最大后验估计
 - 贝叶斯分类器
 - 贝叶斯学习
 
5、、对于二元逐辑回归模型,已训练得到的参数为 w=[0.5,−1.0],b=−1.0 。现给定输入样本 x=[2,1] ,使用 Sigmold 系数计算预测概率 P(y=1∣x) 。结果保留两位小数,最接近以下哪个值? {{ select(5) }}
- 0.27
 - 0.55
 - 0.60
 - 0.43
 
6、设二阶张量 $A=\left[\begin{array}{ll}1 & 2 \\3 & 4\end{array}\right]$ ,向量 x=[56]。则张量缩幷运算 A⋅x 的结果是? {{ select(6) }}
- [2334]
 - [1739]
 - $\left[\begin{array}{ll}5 & 6 \\15 & 24\end{array}\right]$
 - $\left[\begin{array}{ll}17 & 23 \\39 & 53\end{array}\right]$
 
7、假设我们部署一个 LIama 70B 模型,模型有 80 层,最大支持 32k 的上下文,并且每个参数占用 2 个字节。key 和 value 都具有 4096 维,假设我们需要支持 10 个用户同时进行推理,且每个用户的请求都独立。计算所需 GPU 显存时,以下哪个选项最接近计算出的总显存需求? {{ select(7) }}
- 10G
 - 2000G
 - 1000G
 - 100G
 
8、在深度学习中,ReLU 激活函数的优势包括? {{ select(8) }}
- 输出值范围为 [−1,1]
 - 对输入数据的敏感度低
 - 避免梯度消失问题
 - 计算复杂度高,可以增强模型的表达能力
 
9、、LSTM 中,细胞状态 ct 的正确更新公式是?(σ为 sigmoid,⊙ 为逐元素乘) {{ select(9) }}
- ct=it⊙gt+ect−1
 - ct=ot⊙tanh(ct−1)
 - ct=ft⊙ct−1+it⊙gt
 - ct=tanh(ct−1)+it⊙gt
 
10、假设随机变量 X 服从均值为 1 的泊松分布,那么以下说法不正确的有 {{ select(10) }}
- X 的方差也为 1
 - 存在另一个服从泊松分布的随机变量 Z 使得 P(Z>X)=1
 - 泊松分布适合于描述单位时间内随机事件发生的次数
 - 如果随机变量 Y 与 X 独立同分布,那么 X+Y 服从均值为 2 的泊松分布
 
11、在卷积神经网络中,一般而言,池化层(如 Max Pooling) 的主要作用是? {{ select(11) }}
- 增加模型参数数量,提升模型泛化性
 - 增强模型对输入数据的敏感度
 - 提取局部特征并降低空间维度
 - 提高计算精度
 
12、某班级 60% 的学生喜欢打篮球,40% 的学生喜欢踢足球,20% 的学生两者都喜欢。随机选一名学生,若已知他喜欢打篮球,他同时喜欢足球的摄率是
{{ select(12) }}
- 50%
 - 20%
 - 66.7%
 - 33.3%
 
13、在深度学习中,Batch Normalization (批归一化)的主要作用是? {{ select(13) }}
- 直接提高模型在测试集上的准确率
 - 通过引入随机噪声增强模型泛化能力
 - 增加模型参数数量以提升表达能力
 - 加速训练过程并减少对初始化的敏感度
 
14、、已知三维向量 A=[1,2,3]、B=[3,4,5]、C=[2,5,7]、D=[4,3,2],对于以下三个任务场景,考虑采用曼哈顿距离、皮尔逊相关系数和余弦相似度进行相似性度量,下列判断错误的是()
场景 1:分析两个城市“每日气温变化曲线"的相似性(关注数值波动幅度的整体接近程度)
场景 2:判断两个用户“商品评分趋势"的一致性(关注评分随商品类别的变化方向是否同步,不受评分绝对值高低影响);
场景 3:比较两个文档“主题分布向量”的匹配度(关注主题占比的方向一致性,忽略文档总长度差异)。
{{ select(14) }}
- 场景 2 中,采用皮尔逊相关系数时,A 与 C 的相似性高于 A 与 D
 - 场景 3 中,采用余弦相似度时,A 与 B 的相似性高于 A 与 D
 - 场景 1 中,采用曼哈顿距离时,A 与 B 的相似性高于 A 与 C
 - 若将所有向量均标准化(均值为 0,方差为 1 )后,采用皮尔逊相关系数和采用余弦相似度的相似性排序结果不一致。
 
15、如果矩阵是正交矩阵(Orthogonal Matrix),则其特征值的模() {{ select(15) }}
- 都是整数
 - 都是正实数
 - 都是实数
 - 都是 1
 
二、多选题
16、设 T:R3→R2 是线性变换,且 $T\left(\left[\begin{array}{l}1 \\0 \\0\end{array}\right]\right)=\left[\begin{array}{l}2 \\1\end{array}\right], T\left(\left[\begin{array}{l}0 \\1 \\0\end{array}\right]\right)=\left[\begin{array}{c}-1 \\3\end{array}\right]$。以下结论正确的是? {{ multiselect(16) }}
- 变换的核空间至少包含一条过原点的直线
 - 变换的像空间维度 ≤2
 - $T\left(\left[\begin{array}{l}0 \\0 \\1\end{array}\right]\right)$ 可唯一确定
 - $T\left(\left[\begin{array}{l}3 \\-2 \\0\end{array}\right]\right)=\left[\begin{array}{l}8 \\-3\end{array}\right]$
 
17、你正在分析一家银行的信用卡交易数据,其中盗刷交易占总交易的 0.1%。现有一个检测模型对交易进行分类。在这种高度不平衡的概率分布下,以下哪些关于统计评估的说法是正确的 {{ multiselect(17) }}
- 准确率 (Accuracy) 不适合作为核心评估指标,因为即使模型将所有交易都预测为正常,准确率仍能达到 99.9%
 - 对于一个有实际应用价值的模型,如果一笔交易被模型标记为"盗刷",那么根据贝叶斯定理,这笔交易实际为盗刚的后验概率,将高于其 0.1% 的先验概率
 - 在计算模型性能时,应该对“盗剧"和"正常"这两个类别上的准确率指标取加权平均的方式来处理两类样本,给盗刷交易和正常交易相等的权重。
 - 假设模型的真正例率 (TPR) 为 90%,假正例率 (FPR) 为 1%,那么在随机选择的 1000 个正常交易中,预期会有约 10 个被错误标记为盗刷
 
18、以下关于独立性与相关性的描述,哪些项是正确的? {{ multiselect(18) }}
- 若两个随机变量独立,则它们一定不相关
 - 不相关意味着两个变量之间没有线性关系,但可能存在非线性关系
 - 若两个随机变量相关系数为 0 ,则它们一定独立
 - 若两个随机变量不相关,则它们一定独立
 
19、深入分析 Transformer 架构的内部组件,会发现其设计充满了精妙的权衡。以下关于其核心组件的描述,哪些是准确的? {{ multiselect(19) }}
- RMSNorm 作为一种比 LayerNorm 更简洁的归一化技术,其关键改进在于省略了对输入向量减去均值的中心化步骤,只进行缩放操作。
 - 前馈网络 (FFN) 子层通过为序列中的每一个位置学习一套独立的权重参数,来增强模型对位置特定信息的建模能力。
 - 多头注意力机制的核心思想是将 Query、Key 和 Value 投影到多个不同的低维表示子空间中,让每个"头"有机会学习到不同类型的依赖关系。
 - 标准的正弦/余弦位置编码 (Sinusoidal Positional Encoding) 是专门为相对位置设计的编码。
 
20、在以下场景中,哪些情况下数据可视化需要特别注意以避免误导性结论? {{ multiselect(20) }}
- 使用饼图展示超过 10 个类别的比例分布
 - 在箱线图中忽略异常值的标注
 - 在折线图中使用不均匀的时间问隔但未明确标注
 - 使用散点图展示强相关变量且标明因果关系