#P4342. 第1题-选择题
-
Tried: 196
Accepted: 35
Difficulty: 4
所属公司 :
华为
时间 :2025年10月29日-AI方向
-
算法标签>数学
第1题-选择题
T1
答案: B. (1.75, 1.25)^T
解析:
Jacobi 迭代公式:
x=47+y,y=45+x
代入 x(0)=(0,0)T 得 x(1)=(1.75,1.25)T。
一、单选题
1、用雅可比迭代法求解方程组
{4x−y=7−x+4y=5
取初值 x(0)=(0,0)T,求第一次迭代结果 x(1)。
{{ select(1) }}
- (1.75,1.5)T
- (1.75,1.25)T
- (1.5,1.5)T
- (1.5,1.25)T
2、设n阶矩阵A和B等价,则必有 {{ select(2) }}
- 当∣A∣=a(a=0)时,∣B∣=−a
- 当∣A∣=0时,∣B∣=0
- 当∣A∣=0时,∣B∣=0
- 当∣A∣=a(a=0)时,∣B∣=a
3、对于平稳时间序列,若自相关函数在滞后阶 k=0 处为 1,而在其他滞后阶上快速衰减,则该序列最可能是: {{ select(3) }}
- 周期信号
- 白噪声序列
- 存在强烈趋势的非平稳序列
- 阶跃趋势序列
4、以下哪种分布是连续型分布且具有无记忆性 {{ select(4) }}
- 指数分布
- 泊松分布
- 正态分布
- 均匀分布
5、 某研发中心有甲、乙两组团队负责一款芯片的缺陷检测,甲团队检测过的芯片占总量 60%,乙团队检测过的芯片占总量 40%。已知甲团队的检测准确率为95%(即缺陷芯片被检出的概率为95%,非缺陷芯片被误判为缺陷的概率为 5%),乙团队的检测准确率为 90%(即缺陷芯片被检出的概率为 90%,非缺陷芯片被误判为缺陷的概率为 10%)。现随机抽取一片被判定为 “缺陷” 的芯片,该芯片实际确实为缺陷芯片的概率为()。
(注:该芯片的缺陷率为 1%,即随机抽取一片芯片,其本身为缺陷的概率为 0.01)
{{ select(5) }}
- 68.3%
- 11.8%
- 5.7%
- 92.5%
6、在RLHF(基于人类反馈的强化学习)流程中,奖励模型(Reward Model,RM)扮演了至关重要的角色。关于奖励模型的作用,以下描述最准确的是? {{ select(6) }}
- 奖励模型是一个可微分的“人类偏好代理(proxy)”,它将人类对答案好坏的、主观的、不可导的判断,转化为了一个可用于优化语言模型的、连续的、可导的奖励信号。
- 奖励模型直接修改基座模型的权重,使其生成更高质量的文本。
- 奖励模型的目标是学习模仿人类的写作风格,以便在后续的PPO阶段指导语言模型生成更像人话的文本。
- 奖励模型本身就是一个强化学习智能体(Agent),它通过与语言模型互动来学习如何给出最佳回答。
7、关于协方差和相关系数,以下哪个说法是正确的? {{ select(7) }}
- 如果变量 Y 是变量 X 的线性函数 Y=aX+b(其中 a>0),那么它们的相关系数会大于 1。
- 两个随机变量的协方差为 0,意味着这两个变量相互独立。
- 相关系数的取值范围是 [0,1]。
- 相比于协方差,相关系数更能体现变量之间线性关系的强弱,因为它经过了标准化。
8、在注意力机制中,假设为单头注意力,QKV的矩阵维度均为[L,D],其中L是序列长度,D是每个向量的维度。请问通过QK点积计算出的Attention Score和输出的矩阵维度分别是? {{ select(8) }}
- attention score [L,L],输出为[L,L]
- attention score [L,D],输出为[L,L]
- attention score [D,L],输出为[L,D]
- attention score [L,L],输出为[L,D]
9、LSTM(长短期记忆网络)引入 “遗忘门” 的主要作用是: {{ select(9) }}
- 决定当前输入信息是否写入记忆单元
- 控制上一时刻隐藏状态有多少保留到当前状态
- 过滤当前输入的噪声
- 删除无关历史信息,避免梯度爆炸
10、在基于Transformer的大语言模型推理中,为了减少KV-Cache的显存占用并提升长文本生成吞吐,一种被广泛采用的策略是 {{ select(10) }}
- 使用FlashAttention重新计算部分注意力
- 按token粒度对KV-Cache进行LRU淘汰
- 在每一步解码后对KV向量做PCA降维
- 将KV-Cache组织成固定大小的“页”(paged attention)
11、PCA(主成分分析)在做降维处理时,优先选取哪些特征() {{ select(11) }}
- 最大的特征根
- 最大的梯度方向
- 最强梯度方向
- 中心化样本的协方差矩阵的最大特征值对应的特征向量
12、已知三维向量u=1−23和v=40−1,则u×v(叉积)结果是?
{{ select(12) }}
- −813−2
- 6120
- 2138
- 213−8
13、假设有一个三层全连接神经网络,输入维度为 d,隐藏层维度为 h,输出层维度为 k。若使用 L2 正则化(权重衰减系数为 λ),并采用均方误差损失函数(MSE),则反向传播中输出的权重W(3)的梯度更新公式为?
{{ select(13) }}
- ∇W(3)=n1XT(y−y^)−λW(3)
- ∇W(3)=n1XT(y−y^)+λW(3)
- ∇W(3)=n1XT(y−y^)+2λW(3)
- ∇W(3)=n1XT(y−y^)⋅diag(W(3))
14、在三维图形变换中,点P(1,2,3)先绕Z轴旋转θ=90°,再平移d=(4,5,6)。用齐次坐标表示,最终变换矩阵T与点坐标P′分别为:
(旋转变换矩阵:Rz(θ)=cosθsinθ00−sinθcosθ0000100001
平移矩阵:D(d)=100001000010dxdydz1)
{{ select(14) }}
- T=DRz,P′=(3,7,9,1)T
- T=DRz,P′=(2,6,9,1)T
- T=RzD,P′=(5,3,9,1)T
- T=DRz,P′=(6,−1,9,1)T
15、关于常见特征选择策略,下列哪项说法最为准确? {{ select(15) }}
- L1 正则化策略是在训练过程中使部分特征权重趋近于零,从而实现特征选择。
- 递归特征消除(RFE)通过分析特征与目标的统计相关性进行筛选,其过程独立于具体模型。
- 方差阈值法通过设定一个方差阈值,剔除那些在样本间变化很小的特征,但该方法依赖于模型训练后得到的特征重要性权重。
- 卡方检验需要训练模型来评估不同特征组合的预测性能。
二、多选题
16、在设计先进的卷积神经网络(CNN)架构时,对每个组件的深层特性和相互作用的理解至关重要。以下关于CNN设计原则的陈述中,哪些是准确的? {{ multiselect(16) }}
- 1×1卷积层可以在不改变特征图空间(高分辨率)情况下,对通道维度进行线性组合与非线性变换,常用于实现跨通道的信息交互和维度调整。
- 相较于使用最大池化层(Max Pooling)进行下采样,采用步长(Stride)大于1的卷积层可以使下采样过程本身成为一个可学习的参数化操作。
- 连续堆叠两个步长为1的3×3卷积层(含激活函数),可以达到与单个5×5卷积层相同的感受野大小,但前者的参数量更少且引入了更多的非线性。
- 为了迅速增加模型的感受野(Receptive Field)并捕获更全局的上下文信息,设计时应优先采用单个较大的卷积核(如7×7或9×9),而不是堆叠多个小卷积核(如3×3),因为前者在参数数量和计算效率上更具优势。
17、下列哪几种 Transformer 变体 / 技术旨在降低长序列自注意力的计算或显存复杂度?(可多选) {{ multiselect(17) }}
- Sparse Attention(如 Longformer, Sparse Transformer)
- Performer(Random Feature Attention)
- Linformer
- Rotary Position Embedding (RoPE)
18、数据之间的关系以及数据服从的分布形态影响了模型建模的效果,下列关于线性回归的描述中,哪些是正确的? {{ multiselect(18) }}
- 线性回归模型的目标是最大化预测值与真实值之间的误差
- 线性回归模型假设自变量和因变量之间存在线性关系
- 线性回归模型可以通过最小二乘法进行参数估计
- 线性回归模型中,误差项(残差)必须服从正态分布
19、假设有两个离散随机变量 X 和 Y 的联合概率质量函数 (PMF) 用下表给出:
| Y=0 | Y=1 | |
|---|---|---|
| X=0 | 0.1 | 0.4 |
| X=1 | 0.3 | 0.2 |
根据上表,以下哪些计算或推断是正确的?
{{ multiselect(19) }}
- 在 X=1 的条件下,Y=0 的条件概率 P(Y=0∣X=1)=0.6
- Y=1 的概率 P(Y=1)=0.6
- 随机变量 X 和 Y 是相互独立的
- X 的期望值 E[X]=0.5%
20、设B={b1,b2,b3} 是 R3 的一个组基,其中:b1=101 ,b2=011 ,b3=110 。向量v在基 B 下的坐标表示为[v]B=2−13 ,则以下说法正确的是( ) {{ multiselect(20) }}
- 基B为一组正交基
- 从基B到标准基的过渡矩阵P的第三列为110;注:过渡矩阵是将一个基下的坐标转化为另一个基下的坐标的矩阵,即vE=P⋅[v]B
- 向量v在标准基下的表示为521
- 若[w]B=111,则v与w的内积为6