#P4446. 第1题-选择题
-
Tried: 155
Accepted: 32
Difficulty: 5
所属公司 :
华为
时间 :2025年11月6日-留学生AI方向
-
算法标签>机器学习算法
第1题-选择题
T1
答案:B. 该层的梯度消失
解析: 反向传播中参数更新量约为 Δw=−η∂L∂w\Delta w = -\eta \frac{\partial L}{\partial w}。若某层的梯度趋近于 0,则该层权重更新极小,表现为“学习速度很慢”,这正是梯度消失的问题,常见于深层网络或饱和激活函数、欠佳初始化等情形。 A 数据标准化不足会影响整体训练稳定性,但不太会只拖慢某一层;C 参数多少决定容量,不直接决定每步更新幅度;D 全局学习率过低会让所有层都慢,而非仅某一层。
T2
答案:A. 序列越短,候选序列累计得分越不容易被稀释
一、单选题
1、在反向传播过程中,如果发现某个特定层的学习速度显看慢于其他层,以下选项中,最可能的原因是? {{ select(1) }}
- 数据标准化不充分
- 该层的梯度消失
- 该层的参致数量较少
- 学习率设置过低
2、在经典的束搜索(beam searh)中,生成的结果往往偏向于短序列,这种长度偏差的根本原因是 {{ select(2) }}
- 序列越短,候选序列累计得分越不容易被稀释
- Beam width较小时生成的序列偏向于短序列
- 在解码前对所有序列长度做了统一的长度惩罚
- Transformer类的模型本身更偏好短序列
3、训练集1000 000条样本,使用mini-batch SGD,batch_size=100,epochs=50,每个 epoch 内迭代次数为 {{ select(3) }}
- 50000
- 5000000
- 1000000
- 10000
4、幂法(Power Method) 主要用于求解 {{ select(4) }}
- 矩阵的奇异值分解
- 矩阵的最小特征值
- 矩阵的主特征值(模最大的特征值)
- 矩阵的行列式
5、假设一个大模型Agent在解决数学推理任务时采用"反思-修正"机制,其核心流程为:
1.生成初步答案 A1;
2.通过独立模块生成反思信号 R ;
3.根据修正答案 A1→A2 。
若训练时采用强化学习(RL)框架,则以下哪项最可能是奖励函数的设计目标?
{{ select(5) }}
- 最大化 R 与 A1的语义相似度
- 最大化 A2 与真实答案 G 的匹配度,同时最小化 ∣A1−A2∣
- 最大化 A1 与真实答案 G 的匹配度
- 最小化 A1 与 A2 的计算开销差异
6、若attention计算中 QKT 的分数矩阵为 [2143] ,应用causal mask和softmax后的结果为哪一个(忽略缩放)?
注:causal mask矩阵为 [00−inf0] ,注意力得分叠加 '0' 表示有效,叠加 '-inf' 经 softmax 后表示无效
{{ select(6) }}
- [1/312/30]
- [1e1+e3e10e1+e3e3]
- [10.2500.75]
- [e2+e4e21e2+e4e40]
7、在 集成学习的 Bagging 方法 中,以下哪一项最准确地描述了随机森林(Random Forest)的"特征随机选择"机制? {{ select(7) }}
- 每棵树在分裂时仅使用单个特征进行分裂
- 每棵树在分裂时随机选择一部分特征进行分裂
- 每棵树在分裂时固定选择前几个特征进行分裂
- 每棵树在分裂时随机选择所有特征进行分裂
8、在多层感知器(MLP)中,隐藏层通过一系列非线性变换(由激活函数实现)对输入数据进行变化操作,这样的主要作用是什么? {{ select(8) }}
- 确保模型的预测结果为线性可分
- 用于减少模型的训练时间
- 学习输入特征之间的复杂关系,并进行非线性变换
- 直接映射输入到输出,无需中间处理
9、设 A,P 均为 3 阶矩阵,PT 为 P 的转置矩阵,且 PTAP=100010002,若 P=(α1,α2,α3),Q=(α1+α2,α2,α3),则 QTAQ 为 () {{ select(9) }}
- 110120002
- 200010002
- 210110002
- 100020002
10、对于可逆马氏链,下列描述正确的是 {{ select(10) }}
- 转移矩阵所有特征值为非负实数
- 满足细致平衡方程 πiPij=πjPji
- 必为非周期链
- 转移矩阵 P 必对称
11、在训练一个多分类的深度学习模型时(例如图像识别),我们通常使用Softmax作为输出层的激活函数,并选择交叉(Cr0ss-Entropy)作为损失函数。从概率论和论的角度看,最小化交叉熵损失函数在本质上等价于什么? {{ select(11) }}
- 确保模型每一层的输出都服从标准正态分布。
- 最小化模型参数的L2范数,以达到正则化效果。
- 最大化模型预测分布与均匀分布之间的KL散度。
- 执行最大似然估计(MLE),即最大化在给定输入下,观测到真实标签的条件概率。
12、如果随机变量 X 和 Y 的期望满足 E(XY)=E(X)E(Y) ,则下式哪项成立
{{ select(12) }}
- Var(X+Y)=Var(X)+Var(Y)
- Var(X-Y)=Var(X)-Var(Y)
- Var(XY)=Var(X)Var(Y)
- Var(X²+Y²)=Var(X²)+Var(Y²)
13、、从一个盒子中随机抽取一个球,球有编号 1~5,其中编号 1、2、3 是红球,编号 4、5 是蓝球。设事件 为"抽到红球",事件 B 为"抽到奇数编号”,那么 P(A∩B)为? {{ select(13) }}
- 53
- 54
- 52
- 51
14、函数 f(x)=sin(x) 在点 x0=0 处二阶泰勒展开式为: {{ select(14) }}
- f(x)=x
- f(x)=cos(x)
- f(x)=1+x
- f(x)=x²
15、设线性变换 T:Rn→Rm 在标准基下的矩阵为 A。若将 Rn 的基换成可逆矩阵 P 的列向量,将 Rm 的基换成可逆矩阵 Q 的列向量,则 T 在新基下的矩阵表示为 {{ select(15) }}
- Q−1AP
- QAP
- QAP−1
- Q−1AP−1
二、多选题
16、在机器学习中,以下哪些方法可以用于处理类别不平衡问题? {{ multiselect(16) }}
- 对少数类样本进行过采样(Oversampling)
- 使用F1分数作为评价指标
- 使用AUC-ROC曲线作为评价指标
- 对多数类样本进行欠采样(Undersampling)
17、在构建一个基于Transformer的大语言模型时,会涉及到多种概率和统计相关的技术。以下哪些选项是正确的应用? {{ multiselect(17) }}
- 词嵌入 (Word Embeddings) 的过程,可以看作是将一个服从离散分布的词汇表,映射到一个高维连续向量空间中。
- Layer Normalization 通过计算一个层内所有神经元输出的均值和方差来进行归一化,目的是稳定训练过程中的数据分布。
- Softmax函数被用在注意力机制和最后的输出层,将原始分数 (logits) 转换为一个合法的概率分布。
- 在训练初期,模型权重通常从一个特定的概率分布 (如 Xavier 或 He 初始化,它们均基于均匀或正态分布)中进行采样,以帮助缓解梯度消失或梯度爆炸问题
18、在深度学习领域,softmax函数的作用有哪些 {{ multiselect(18) }}
- 通常用于多分类模型中
- 用于损失函数的计算,特别是在交叉熵损失函数中
- 标准化模型输出,使其成为概率分布
- 作为激活函数,一般用于分类网络最后一层
19、关于 RLHE(Reinforcement Learning from Human Feedback)及其常见替代技术,下列说法正确的是(可多选) {{ multiselect(19) }}
- RLHF 中常用 PPO 对策略进行强化学习更新,最大化奖励模型给出的标量奖励的期望,并通过KL正则约束策略与参考模型的偏差
- DPO(Direct Preference Optimization)跳过显式训练奖励模型,直接最小化人类偏好对比损失
- 自回归语言模型在进行RLHF 更新后,必须重新进行教师强迫(teacher forcing)微调,才能保证采样稳定
- RLAIF(RL from AI Feedback)用另一个冻结大模型产生偏好数据,可减少人工标注成本
20、在大型语言模型(LLM)的文本处理流程中,有关词嵌入(Embedding)和分词器(Tokenizer)的描述,下列哪些选项是正确的? {{ multiselect(20) }}
- 在 Transformer 架构中、位置编码 (Positional Encoding) 被添加到词嵌入向量中,以使模型能够学习到输入序列中词语的位置信息,这对于理解句子结构至关重要。
- 在预训练阶段,BERT 使用的 Wordpiece 分词器能够将输入文本切分成子词单元 (subwordtokens),以解决未登录词 (OOV,Out-Of-Vyocabulary) 问题。
- 无论是基于 Transformer 架构的编码器还是解码器模型,在进行文本处理时,首先需要通过一个特定的分词器将输入文本转换为对应的 token ID 序列,然后再传递给模型进行后续处理。