#P3717. 第1题-选择题
-
ID: 3059
Tried: 161
Accepted: 23
Difficulty: 5
所属公司 :
华为
时间 :2025年9月18日(留学生)-AI岗
-
算法标签>选择题
第1题-选择题
1. A 采用文本生成式微调,通过给定前缀(prompt)进行自回归生成 解析:GPT为decoder-only结构,常见微调是因果语言建模/指令微调,通过提示触发自回归生成;B/C/D分别对应分类头、MLM掩码、segment embedding,均非GPT微调常态。
2. B x1 = -1,x2 = -5 解析:迭代式 xk+1=2xk−3,x0=1⇒x1=2⋅1−3=−1,x2=2⋅(−1)−3=−5。
3. A 出现除数接近零的情况 解析:高斯消元不做主元选取会在接近零的枢轴上相除,舍入误差被放大导致不稳定;b的扰动、元素“过大”、高维并非根因。
一、单选题
1、关于 GPT 系列模型在微调时的使用方式,哪项最常见? {{ select(1) }}
- 采用文本生成式微调,通过给定前缀 (prompt) 进行自回归生成
- 添加分类头井只保留 encoder 层
- 在输入句子中随机掩码若干词进行填空
- 在句对中加入 segment embedding
2、用迭代法解方程 x=2x−3 。构造选代公式:xk+1=2xk−3 。若初值 x0=1 ,则下一步迭代值 x1 ;和再下一步 x2 分别是? {{ select(2) }}
- x1=−1,x2=1
- x1=−1,x2=−5
- x1=1,x2=−1
- x1=−3,x2=−9
3、在用高斯消元法解线性方程组 Ax=b 时,若不使用主元选择,算法可能不稳定的原因是? {{ select(3) }}
- 出现除数接近零的情况
- 输入向量 b 有扰动
- 矩阵 A 的元素过大
- 矩阵 A 的维度过高
4、下列方法中没有考虑先验分布的是() {{ select(4) }}
- 最大似然估计
- 最大后验估计
- 贝叶斯分类器
- 贝叶斯学习
5、、对于二元逐辑回归模型,已训练得到的参数为 w=[0.5,−1.0],b=−1.0 。现给定输入样本 x=[2,1] ,使用 Sigmold 系数计算预测概率 P(y=1∣x) 。结果保留两位小数,最接近以下哪个值? {{ select(5) }}
- 0.27
- 0.55
- 0.60
- 0.43
6、设二阶张量 $A=\left[\begin{array}{ll}1 & 2 \\3 & 4\end{array}\right]$ ,向量 x=[56]。则张量缩幷运算 A⋅x 的结果是? {{ select(6) }}
- [2334]
- [1739]
- $\left[\begin{array}{ll}5 & 6 \\15 & 24\end{array}\right]$
- $\left[\begin{array}{ll}17 & 23 \\39 & 53\end{array}\right]$
7、假设我们部署一个 LIama 70B 模型,模型有 80 层,最大支持 32k 的上下文,并且每个参数占用 2 个字节。key 和 value 都具有 4096 维,假设我们需要支持 10 个用户同时进行推理,且每个用户的请求都独立。计算所需 GPU 显存时,以下哪个选项最接近计算出的总显存需求? {{ select(7) }}
- 10G
- 2000G
- 1000G
- 100G
8、在深度学习中,ReLU 激活函数的优势包括? {{ select(8) }}
- 输出值范围为 [−1,1]
- 对输入数据的敏感度低
- 避免梯度消失问题
- 计算复杂度高,可以增强模型的表达能力
9、、LSTM 中,细胞状态 ct 的正确更新公式是?(σ为 sigmoid,⊙ 为逐元素乘) {{ select(9) }}
- ct=it⊙gt+ect−1
- ct=ot⊙tanh(ct−1)
- ct=ft⊙ct−1+it⊙gt
- ct=tanh(ct−1)+it⊙gt
10、假设随机变量 X 服从均值为 1 的泊松分布,那么以下说法不正确的有 {{ select(10) }}
- X 的方差也为 1
- 存在另一个服从泊松分布的随机变量 Z 使得 P(Z>X)=1
- 泊松分布适合于描述单位时间内随机事件发生的次数
- 如果随机变量 Y 与 X 独立同分布,那么 X+Y 服从均值为 2 的泊松分布
11、在卷积神经网络中,一般而言,池化层(如 Max Pooling) 的主要作用是? {{ select(11) }}
- 增加模型参数数量,提升模型泛化性
- 增强模型对输入数据的敏感度
- 提取局部特征并降低空间维度
- 提高计算精度
12、某班级 60% 的学生喜欢打篮球,40% 的学生喜欢踢足球,20% 的学生两者都喜欢。随机选一名学生,若已知他喜欢打篮球,他同时喜欢足球的摄率是
{{ select(12) }}
- 50%
- 20%
- 66.7%
- 33.3%
13、在深度学习中,Batch Normalization (批归一化)的主要作用是? {{ select(13) }}
- 直接提高模型在测试集上的准确率
- 通过引入随机噪声增强模型泛化能力
- 增加模型参数数量以提升表达能力
- 加速训练过程并减少对初始化的敏感度
14、、已知三维向量 A=[1,2,3]、B=[3,4,5]、C=[2,5,7]、D=[4,3,2],对于以下三个任务场景,考虑采用曼哈顿距离、皮尔逊相关系数和余弦相似度进行相似性度量,下列判断错误的是()
场景 1:分析两个城市“每日气温变化曲线"的相似性(关注数值波动幅度的整体接近程度)
场景 2:判断两个用户“商品评分趋势"的一致性(关注评分随商品类别的变化方向是否同步,不受评分绝对值高低影响);
场景 3:比较两个文档“主题分布向量”的匹配度(关注主题占比的方向一致性,忽略文档总长度差异)。
{{ select(14) }}
- 场景 2 中,采用皮尔逊相关系数时,A 与 C 的相似性高于 A 与 D
- 场景 3 中,采用余弦相似度时,A 与 B 的相似性高于 A 与 D
- 场景 1 中,采用曼哈顿距离时,A 与 B 的相似性高于 A 与 C
- 若将所有向量均标准化(均值为 0,方差为 1 )后,采用皮尔逊相关系数和采用余弦相似度的相似性排序结果不一致。
15、如果矩阵是正交矩阵(Orthogonal Matrix),则其特征值的模() {{ select(15) }}
- 都是整数
- 都是正实数
- 都是实数
- 都是 1
二、多选题
16、设 T:R3→R2 是线性变换,且 $T\left(\left[\begin{array}{l}1 \\0 \\0\end{array}\right]\right)=\left[\begin{array}{l}2 \\1\end{array}\right], T\left(\left[\begin{array}{l}0 \\1 \\0\end{array}\right]\right)=\left[\begin{array}{c}-1 \\3\end{array}\right]$。以下结论正确的是? {{ multiselect(16) }}
- 变换的核空间至少包含一条过原点的直线
- 变换的像空间维度 ≤2
- $T\left(\left[\begin{array}{l}0 \\0 \\1\end{array}\right]\right)$ 可唯一确定
- $T\left(\left[\begin{array}{l}3 \\-2 \\0\end{array}\right]\right)=\left[\begin{array}{l}8 \\-3\end{array}\right]$
17、你正在分析一家银行的信用卡交易数据,其中盗刷交易占总交易的 0.1%。现有一个检测模型对交易进行分类。在这种高度不平衡的概率分布下,以下哪些关于统计评估的说法是正确的 {{ multiselect(17) }}
- 准确率 (Accuracy) 不适合作为核心评估指标,因为即使模型将所有交易都预测为正常,准确率仍能达到 99.9%
- 对于一个有实际应用价值的模型,如果一笔交易被模型标记为"盗刷",那么根据贝叶斯定理,这笔交易实际为盗刚的后验概率,将高于其 0.1% 的先验概率
- 在计算模型性能时,应该对“盗剧"和"正常"这两个类别上的准确率指标取加权平均的方式来处理两类样本,给盗刷交易和正常交易相等的权重。
- 假设模型的真正例率 (TPR) 为 90%,假正例率 (FPR) 为 1%,那么在随机选择的 1000 个正常交易中,预期会有约 10 个被错误标记为盗刷
18、以下关于独立性与相关性的描述,哪些项是正确的? {{ multiselect(18) }}
- 若两个随机变量独立,则它们一定不相关
- 不相关意味着两个变量之间没有线性关系,但可能存在非线性关系
- 若两个随机变量相关系数为 0 ,则它们一定独立
- 若两个随机变量不相关,则它们一定独立
19、深入分析 Transformer 架构的内部组件,会发现其设计充满了精妙的权衡。以下关于其核心组件的描述,哪些是准确的? {{ multiselect(19) }}
- RMSNorm 作为一种比 LayerNorm 更简洁的归一化技术,其关键改进在于省略了对输入向量减去均值的中心化步骤,只进行缩放操作。
- 前馈网络 (FFN) 子层通过为序列中的每一个位置学习一套独立的权重参数,来增强模型对位置特定信息的建模能力。
- 多头注意力机制的核心思想是将 Query、Key 和 Value 投影到多个不同的低维表示子空间中,让每个"头"有机会学习到不同类型的依赖关系。
- 标准的正弦/余弦位置编码 (Sinusoidal Positional Encoding) 是专门为相对位置设计的编码。
20、在以下场景中,哪些情况下数据可视化需要特别注意以避免误导性结论? {{ multiselect(20) }}
- 使用饼图展示超过 10 个类别的比例分布
- 在箱线图中忽略异常值的标注
- 在折线图中使用不均匀的时间问隔但未明确标注
- 使用散点图展示强相关变量且标明因果关系