#P4342. 第1题-选择题
-
Tried: 18
Accepted: 2
Difficulty: 4
所属公司 :
华为
时间 :2025年10月29日-AI方向
-
算法标签>数学
第1题-选择题
T1
答案: B. (1.75, 1.25)^T
解析:
Jacobi 迭代公式:
x=47+y,y=45+x
代入 x(0)=(0,0)T 得 x(1)=(1.75,1.25)T。
T2
答案: B. 当 |A|=0 时,|B|=0
解析:
若 A 与 B 等价,则 B=PAQ(P, Q 可逆),故 ∣B∣=∣P∣∣A∣∣Q∣。
因此当 ∣A∣=0 时必有 ∣B∣=0;当 ∣A∣=0 时只知 ∣B∣=0,其值不必等于 a 或 -a。
T3
答案: B. 白噪声序列
解析:
白噪声的自相关函数除 k=0 外近似为 0,且快速衰减。
T4
答案: A. 指数分布
解析:
指数分布是唯一同时具备连续性与无记忆性的分布,即满足 P(X>s+t∣X>s)=P(X>t);泊松为离散型,正态与均匀分布均无此性质。
T5
答案: B. 11.8%
解析:
$P(+)=0.6(0.95\cdot0.01+0.05\cdot0.99)+0.4(0.90\cdot0.01+0.10\cdot0.99)=0.0786$
$P(D,+)=0.6\cdot0.95\cdot0.01+0.4\cdot0.90\cdot0.01=0.0093$
P(D∣+)=0.0093/0.0786≈11.8%
T6
答案: A. 奖励模型是一个可微分的“人类偏好代理(proxy)”,它将人类对答案好坏的、主观的、不可导的判断,转化为了一个可用于优化语言模型的、连续的、可导的奖励信号。
解析:
奖励模型将人类偏好转化为可微的连续奖励信号,供 RL 阶段(如 PPO)优化语言模型使用;它本身不直接修改权重,也不是智能体,亦非为模仿写作风格而训练。
T7
答案: D. 相比于协方差,相关系数更能体现变量之间线性关系的强弱,因为它经过了标准化。
解析:
相关系数取值 [−1,1],经标准化能反映线性强弱;零协方差不必然独立,线性变换相关系数不会超 1。
T8
答案: D. attention score [L, L],输出为 [L, D]
解析:
$Q\in\mathbb{R}^{L\times D},\,K\in\mathbb{R}^{L\times D} \Rightarrow QK^\top\in\mathbb{R}^{L\times L}$ 为注意力分数矩阵;再与 V∈RL×D 相乘得到输出 ∈RL×D。
T9
答案: B. 控制上一时刻隐藏状态有多少保留到当前状态
解析:
遗忘门控制上一时刻信息(记忆/状态)在当前保留的比例。
T10
答案: D. 将 KV-Cache 组织成固定大小的“页”(paged attention)
解析:
Paged Attention 将 KV-Cache 分块为固定大小“页”,便于内存复用与高效调度,显著降低碎片化并提升长上下文吞吐。其他选项要么不直接减少 KV 显存(A/B),要么在推理中代价过高(C)。
T11
答案: D. 中心化样本的协方差矩阵的最大特征值对应的特征向量
解析:
PCA 选取中心化样本协方差矩阵最大特征值对应的特征向量作为主成分方向。
T12
答案: C. 2138
解析:
$u\times v=\begin{vmatrix}\mathbf{i}&\mathbf{j}&\mathbf{k}\\1&-2&3\\4&0&-1\end{vmatrix}=(2,13,8)$(按公式 (a2b3−a3b2,−(a1b3−a3b1),a1b2−a2b1) 计算)。
T13
答案: B. $\nabla W^{(3)} = \frac{1}{n}X^T(y - \hat{y}) + \lambda W^{(3)}$
解析:
数据项梯度为 n1H⊤(y^−y);L2 正则 2λ∥W(3)∥2 的梯度为 +λW(3)。故应为“数据项 + λW(3)”,对应 B(选项中 X 代指前一层激活、符号写作 y−y^ 仅为等价写法)。
T14
答案: B. T=DRz
解析:
先旋转后平移对应齐次矩阵 T=DRz。Rz(90∘) 作用于 P(1,2,3) 得 (−2,1,3),再平移 d=(4,5,6) 得 P′=(2,6,9,1)T。
T15
答案: A. L1 正则化策略是在训练过程中使部分特征权重趋近于零,从而实现特征选择。
解析:
L1 正则会使部分权重收缩为 0,实现特征选择;RFE 依赖模型,方差阈值与模型无关,卡方检验不需训练模型。
T16
答案:
- A. 1×1 卷积层可以在不改变特征图空间(高分辨率)情况下,对通道维度进行线性组合与非线性变换,常用于实现跨通道的信息交互和维度调整。
- B. 相较于使用最大池化层(Max Pooling)进行下采样,采用步长(Stride)大于 1 的卷积层可以使下采样过程本身成为一个可学习的参数化操作。
- C. 连续堆叠两个步长为 1 的 3×3 卷积层(含激活函数),可以达到与单个 5×5 卷积层相同的感受野大小,但前者的参数量更少且引入了更多的非线性。
T17
答案:
- A. Sparse Attention(如 Longformer, Sparse Transformer)
- B. Performer(Random Feature Attention)
- C. Linformer
解析:
Sparse/Performer/Linformer 通过稀疏或近似将注意力从 O(n2) 降至更低;RoPE 仅为位置编码,不降复杂度。
T18
答案:
- B. 线性回归模型假设自变量和因变量之间存在线性关系
- C. 线性回归模型可以通过最小二乘法进行参数估计
T19
答案:
- A. 在 X=1 的条件下,Y=0 的条件概率 P(Y=0∣X=1)=0.6
- B. Y=1 的概率 P(Y=1)=0.6
- D. X 的期望值 E[X]=0.5
解析:
P(Y=0∣X=1)=0.3/0.5=0.6;P(Y=1)=0.4+0.2=0.6;
独立性不成立(如 0.3=0.5⋅0.4);E[X]=0⋅0.5+1⋅0.5=0.5。
T20
答案:
- B. 从基 B 到标准基的过渡矩阵 P 的第三列为 110
注:过渡矩阵是将一个基下的坐标转化为另一个基下的坐标的矩阵,即 vE=P⋅[v]B - C. 向量 v 在标准基下的表示为 521
一、单选题
1、用雅可比迭代法求解方程组
$\begin{cases} 4x - y = 7 \\ -x + 4y = 5 \end{cases}$
取初值 x(0)=(0,0)T,求第一次迭代结果 x(1)。
{{ select(1) }}
- (1.75,1.5)T
- (1.75,1.25)T
- (1.5,1.5)T
- (1.5,1.25)T
2、设n阶矩阵A和B等价,则必有 {{ select(2) }}
- 当∣A∣=a(a=0)时,∣B∣=−a
- 当∣A∣=0时,∣B∣=0
- 当∣A∣=0时,∣B∣=0
- 当∣A∣=a(a=0)时,∣B∣=a
3、对于平稳时间序列,若自相关函数在滞后阶 k=0 处为 1,而在其他滞后阶上快速衰减,则该序列最可能是: {{ select(3) }}
- 周期信号
- 白噪声序列
- 存在强烈趋势的非平稳序列
- 阶跃趋势序列
4、以下哪种分布是连续型分布且具有无记忆性 {{ select(4) }}
- 指数分布
- 泊松分布
- 正态分布
- 均匀分布
5、 某研发中心有甲、乙两组团队负责一款芯片的缺陷检测,甲团队检测过的芯片占总量 60%,乙团队检测过的芯片占总量 40%。已知甲团队的检测准确率为95%(即缺陷芯片被检出的概率为95%,非缺陷芯片被误判为缺陷的概率为 5%),乙团队的检测准确率为 90%(即缺陷芯片被检出的概率为 90%,非缺陷芯片被误判为缺陷的概率为 10%)。现随机抽取一片被判定为 “缺陷” 的芯片,该芯片实际确实为缺陷芯片的概率为()。
(注:该芯片的缺陷率为 1%,即随机抽取一片芯片,其本身为缺陷的概率为 0.01)
{{ select(5) }}
- 68.3%
- 11.8%
- 5.7%
- 92.5%
6、在RLHF(基于人类反馈的强化学习)流程中,奖励模型(Reward Model,RM)扮演了至关重要的角色。关于奖励模型的作用,以下描述最准确的是? {{ select(6) }}
- 奖励模型是一个可微分的“人类偏好代理(proxy)”,它将人类对答案好坏的、主观的、不可导的判断,转化为了一个可用于优化语言模型的、连续的、可导的奖励信号。
- 奖励模型直接修改基座模型的权重,使其生成更高质量的文本。
- 奖励模型的目标是学习模仿人类的写作风格,以便在后续的PPO阶段指导语言模型生成更像人话的文本。
- 奖励模型本身就是一个强化学习智能体(Agent),它通过与语言模型互动来学习如何给出最佳回答。
7、关于协方差和相关系数,以下哪个说法是正确的? {{ select(7) }}
- 如果变量 Y 是变量 X 的线性函数 Y=aX+b(其中 a>0),那么它们的相关系数会大于 1。
- 两个随机变量的协方差为 0,意味着这两个变量相互独立。
- 相关系数的取值范围是 [0,1]。
- 相比于协方差,相关系数更能体现变量之间线性关系的强弱,因为它经过了标准化。
8、在注意力机制中,假设为单头注意力,QKV的矩阵维度均为[L,D],其中L是序列长度,D是每个向量的维度。请问通过QK点积计算出的Attention Score和输出的矩阵维度分别是? {{ select(8) }}
- attention score [L,L],输出为[L,L]
- attention score [L,D],输出为[L,L]
- attention score [D,L],输出为[L,D]
- attention score [L,L],输出为[L,D]
9、LSTM(长短期记忆网络)引入 “遗忘门” 的主要作用是: {{ select(9) }}
- 决定当前输入信息是否写入记忆单元
- 控制上一时刻隐藏状态有多少保留到当前状态
- 过滤当前输入的噪声
- 删除无关历史信息,避免梯度爆炸
10、在基于Transformer的大语言模型推理中,为了减少KV-Cache的显存占用并提升长文本生成吞吐,一种被广泛采用的策略是 {{ select(10) }}
- 使用FlashAttention重新计算部分注意力
- 按token粒度对KV-Cache进行LRU淘汰
- 在每一步解码后对KV向量做PCA降维
- 将KV-Cache组织成固定大小的“页”(paged attention)
11、PCA(主成分分析)在做降维处理时,优先选取哪些特征() {{ select(11) }}
- 最大的特征根
- 最大的梯度方向
- 最强梯度方向
- 中心化样本的协方差矩阵的最大特征值对应的特征向量
12、已知三维向量u=1−23和v=40−1,则u×v(叉积)结果是?
{{ select(12) }}
- −813−2
- 6120
- 2138
- 213−8
13、假设有一个三层全连接神经网络,输入维度为 d,隐藏层维度为 h,输出层维度为 k。若使用 L2 正则化(权重衰减系数为 λ),并采用均方误差损失函数(MSE),则反向传播中输出的权重W(3)的梯度更新公式为?
{{ select(13) }}
- $\nabla W^{(3)} = \frac{1}{n}X^T(y - \hat{y}) - \lambda W^{(3)}$
- $\nabla W^{(3)} = \frac{1}{n}X^T(y - \hat{y}) + \lambda W^{(3)}$
- $\nabla W^{(3)} = \frac{1}{n}X^T(y - \hat{y}) + \frac{\lambda}{2}W^{(3)}$
- $\nabla W^{(3)} = \frac{1}{n}X^T(y - \hat{y}) \cdot \text{diag}(W^{(3)})$
14、在三维图形变换中,点P(1,2,3)先绕Z轴旋转θ=90°,再平移d=(4,5,6)。用齐次坐标表示,最终变换矩阵T与点坐标P′分别为:
(旋转变换矩阵:$R_z(\theta)= \begin{bmatrix} \cos\theta & -\sin\theta & 0 & 0\\ \sin\theta & \cos\theta & 0 & 0\\ 0 & 0 & 1 & 0\\ 0 & 0 & 0 & 1 \end{bmatrix}$
平移矩阵:$D(d)= \begin{bmatrix} 1 & 0 & 0 & d_x\\ 0 & 1 & 0 & d_y\\ 0 & 0 & 1 & d_z\\ 0 & 0 & 0 & 1 \end{bmatrix}$)
{{ select(14) }}
- T=DRz,P′=(3,7,9,1)T
- T=DRz,P′=(2,6,9,1)T
- T=RzD,P′=(5,3,9,1)T
- T=DRz,P′=(6,−1,9,1)T
15、关于常见特征选择策略,下列哪项说法最为准确? {{ select(15) }}
- L1 正则化策略是在训练过程中使部分特征权重趋近于零,从而实现特征选择。
- 递归特征消除(RFE)通过分析特征与目标的统计相关性进行筛选,其过程独立于具体模型。
- 方差阈值法通过设定一个方差阈值,剔除那些在样本间变化很小的特征,但该方法依赖于模型训练后得到的特征重要性权重。
- 卡方检验需要训练模型来评估不同特征组合的预测性能。
二、多选题
16、在设计先进的卷积神经网络(CNN)架构时,对每个组件的深层特性和相互作用的理解至关重要。以下关于CNN设计原则的陈述中,哪些是准确的? {{ multiselect(16) }}
- 1×1卷积层可以在不改变特征图空间(高分辨率)情况下,对通道维度进行线性组合与非线性变换,常用于实现跨通道的信息交互和维度调整。
- 相较于使用最大池化层(Max Pooling)进行下采样,采用步长(Stride)大于1的卷积层可以使下采样过程本身成为一个可学习的参数化操作。
- 连续堆叠两个步长为1的3×3卷积层(含激活函数),可以达到与单个5×5卷积层相同的感受野大小,但前者的参数量更少且引入了更多的非线性。
- 为了迅速增加模型的感受野(Receptive Field)并捕获更全局的上下文信息,设计时应优先采用单个较大的卷积核(如7×7或9×9),而不是堆叠多个小卷积核(如3×3),因为前者在参数数量和计算效率上更具优势。
17、下列哪几种 Transformer 变体 / 技术旨在降低长序列自注意力的计算或显存复杂度?(可多选) {{ multiselect(17) }}
- Sparse Attention(如 Longformer, Sparse Transformer)
- Performer(Random Feature Attention)
- Linformer
- Rotary Position Embedding (RoPE)
18、数据之间的关系以及数据服从的分布形态影响了模型建模的效果,下列关于线性回归的描述中,哪些是正确的? {{ multiselect(18) }}
- 线性回归模型的目标是最大化预测值与真实值之间的误差
- 线性回归模型假设自变量和因变量之间存在线性关系
- 线性回归模型可以通过最小二乘法进行参数估计
- 线性回归模型中,误差项(残差)必须服从正态分布
19、假设有两个离散随机变量 X 和 Y 的联合概率质量函数 (PMF) 用下表给出:
| Y=0 | Y=1 | |
|---|---|---|
| X=0 | 0.1 | 0.4 |
| X=1 | 0.3 | 0.2 |
根据上表,以下哪些计算或推断是正确的?
{{ multiselect(19) }}
- 在 X=1 的条件下,Y=0 的条件概率 P(Y=0∣X=1)=0.6
- Y=1 的概率 P(Y=1)=0.6
- 随机变量 X 和 Y 是相互独立的
- X 的期望值 E[X]=0.5%
20、设B={b1,b2,b3} 是 R3 的一个组基,其中:b1=101 ,b2=011 ,b3=110 。向量v在基 B 下的坐标表示为[v]B=2−13 ,则以下说法正确的是( ) {{ multiselect(20) }}
- 基B为一组正交基
- 从基B到标准基的过渡矩阵P的第三列为110;注:过渡矩阵是将一个基下的坐标转化为另一个基下的坐标的矩阵,即vE=P⋅[v]B
- 向量v在标准基下的表示为521
- 若[w]B=111,则v与w的内积为6