#P4237. 第1题-选择题
-
ID: 3313
Tried: 110
Accepted: 0
Difficulty: 5
所属公司 :
华为
时间 :2025年10月17日-AI方向
第1题-选择题
T1
答案: B. λ2=0
解析:
$A(\alpha_1 + \alpha_2) = \lambda_1 \alpha_1 + \lambda_2 \alpha_2$。
与 α1 线性相关当且仅当 λ2=0;
故线性无关当且仅当 λ2=0。
T2
答案: D. C102×0.32×0.78
解析:
二项分布概率公式:P(X=k)=Cnkpk(1−p)n−k。
代入 n=10, p=0.3, k=2 得:
P(X=2)=C102(0.3)2(0.7)8。
T3
答案: C. 仅使用解码器(Decoder-only)架构的模型(如 GPT 系列)在自回归语言建模任务上表现出色,其自注意力机制通常需要掩码(Masked)以防止信息泄露。
解析:
Decoder-only(如 GPT)做自回归建模并用因果掩码防信息泄露;
A、B、D 表述均不符。
T4
答案: D. 42
解析:
求“连续 2 次掷出 6”的期望轮数,套用“连续 r 次成功”公式:
E=pr(1−p)1−pr。
取 p=61, r=2 得:
E=(1/6)2(1−1/6)1−(1/6)2=42。
T5
答案: B. 34
解析:
牛顿迭代:
$x_1 = x_0 - \dfrac{f(x_0)}{f'(x_0)} = 1 - \dfrac{-1}{3} = \dfrac{4}{3}$。
T6
答案: A. 0.578
解析:
乘积的绝对误差限取上界:
$\Delta z \le |y|\Delta x + |x|\Delta y + \Delta x \Delta y$
$= 8 \times 0.04 + 1.25 \times 0.2 + 0.04 \times 0.2 = 0.578$。
T7
答案: C. 随机梯度下降(SGD)
解析:
SGD 为一阶随机优化,步长噪声大,更易停在较差点;
二阶/拟牛顿通常更稳定。
T8
答案: C
解析:
切分把实体与答案拆到不同 chunk,破坏了查询所需的最小语义单元,导致检索既匹配不到同时含“B-21/诺格”的片段,也难以将“2027 年”与查询强关联。其他选项非此次失败的直接主因。
T9
答案: B. 多重共线性会导致特征之间高度线性相关,虽然模型在训练集上的预测精度可能仍然较高,但会显著增大回归系数的方差。
解析:
多重共线性使系数方差膨胀、模型不稳定;
A(L2 误写 L1)、C(高 R2 不等于好泛化)、D(OLS 最小化平方和)均不对。
T10
答案: D. 31
解析:
在“至少有一个男孩”的条件下,样本空间为 {BB,BG,GB}(等概率),其中两男孩仅占 1 个情形,因此概率为 31。
T11
答案:ReLU
解析:
- Sigmoid 和 Tanh 在输入较大或较小时梯度接近 0,容易导致 梯度消失;
- 阶跃函数不可导,无法用于反向传播;
- ReLU 的正区间梯度为常数 1,不会出现梯度消失问题,因此非常适合在深层网络中使用。
T12
答案: C. 行秩 = 列秩
解析:
任何矩阵的行秩恒等于列秩,二者共同等于矩阵的秩;这由秩的基本定理(如经初等变换化到行最简形)可得。
T13
答案: B. LayerNorm 在计算归一化统计量(均值和方差)时,独立于批次中的其他样本,因此对不同长度的输入序列和变化的批次大小(Batch Size)具有更好的鲁棒性。
解析:
LayerNorm 对每个样本做归一化,不依赖批大小与序列长度,适合 NLP 可变长/小批量场景。
T14
答案: B. 0.25
解析:
用贝叶斯:
$P(\text{30–40} \mid \text{男}) = \dfrac{0.4 \times 0.25}{0.4 \times 0.25 + 0.4 \times 0.75} = 0.25$。
因两年龄组的男性比例同为 0.4,条件在“男”上不改变年龄分布,后验等于先验。
T15
答案: B. 显著降低查询延迟,同时仅轻微牺牲召回率,实现效率与效果的平衡。
解析:
HNSW 属 ANN 检索,查询低延迟且只轻微牺牲召回率,实现效率/效果平衡。
T16
答案: A、B、C、D
解析:
L2 正则化、减少模型复杂度与提前停止都能限制模型对训练数据的过拟合;扩充与多样化训练样本可提升泛化能力,从数据层面缓解过拟合。
T17
答案: B、C
解析:
相似度常用嵌入余弦相似度;增加同义句对可提升度量质量;A、D 不当。
T18
答案: A、B、C、D
解析:
基必须线性无关且张成空间,零向量会导致线性相关;
Rn 的维度为 n;
任意矩阵的行秩等于列秩,行/列向量张成空间的维度相等。
T19
答案: B、C、D
解析:
反向传播需先前向、用链式法则算梯度并自输出层向前逐层传递;A 错误。
T20
答案: B、C
解析:
线性回归模型可通过最小二乘法进行参数估计,并假设自变量和因变量之间存在线性关系。
一、单选题
1、设 λ1,λ2 是矩阵 A 的两个不同的特征值,对应的特征向量分别为 α1,α2,则 α1,A(α1+α2) 线性无关的充分必要条件是 {{ select(1) }}
- λ1=0
- λ2=0
- λ1=0
- λ2=0
2、设 X∼B(n=10,p=0.3),则 P(X=2) 的值为 {{ select(2) }}
- C102×0.72×0.38
- e−3×2!32
- 0.3×0.7
- C102×0.32×0.78
3、在现代大语言模型(LLM)的架构设计中,关于编码器(Encoder)和解码器(Decoder)的使用,以下哪项描述是最准确的? {{ select(3) }}
- 所有大型语言模型,如 BERT、GPT 系列和 T5,都采用标准的编码器 - 解码器(Encoder-Decoder)架构。
- 仅使用编码器(Encoder-only)架构的模型(如 BERT)能够进行高效的自回归文本生成,因为它可以并行处理整个输入序列。
- 仅使用解码器(Decoder-only)架构的模型(如 GPT 系列)在自回归语言建模任务上表现出色,其自注意力机制通常需要掩码(Masked)以防止信息泄露。
- 编码器 - 解码器(Encoder-Decoder)架构(如 T5)中的解码器,在训练和推理时都只关注编码器的输出,并不需要关注已经生成的前文。
4、一个均匀6面骰子,平均投掷多少次能投出连续的两个6点 {{ select(4) }}
- 48
- 37
- 36
- 42
5、用牛顿迭代法求 f(x)=x3−2 的根,如果初始值为 x0=1,一步迭代值 x1 应为: {{ select(5) }}
- 32
- 34
- 23
- 32
6、已知 x=1.250±0.040, y=8.000±0.200,计算 z=xy 的绝对误差限。 {{ select(6) }}
- 0.578
- 0.562
- 0.560
- 0.570
7、在逻辑回归中,若目标函数为 $J(\theta) = -\frac{1}{m}\sum_{i=1}^m \left[y^{(i)}\log(h_\theta(x^{(i)})) + (1 - y^{(i)})\log(1 - h_\theta(x^{(i)}))\right]$,以下哪种优化方法最可能陷入局部最优? {{ select(7) }}
- 拟牛顿法(BFGS)
- 高斯 - 牛顿法
- 随机梯度下降(SGD)
- 牛顿法
8、一个团队构建的RAG问答系统在测试中表现不佳。用户提问:“在B-21轰炸机的研发合同中,诺斯罗普·格鲁曼公司承接的初始作战能力(IOC)目标年份是哪一年?” 系统未能找到答案,尽管知识库中的一份文档里明确写着:“……该项目的主要承包商是诺斯罗普·格鲁曼公司。根据合同条款,B-21轰炸机的初始作战能力目标设定在2027年。” 工程师排查后发现,文档切分时,恰好将这两句话分在了两个相邻但独立的文本块(chunk)中:
• Chunk A: “……该项目的主要承包商是诺斯罗普·格鲁曼公司。” • Chunk B: “根据合同条款,B-21轰炸机的初始作战能力目标设定在2027年。”
基于以上信息,请判断导致这次检索失败的最直接、最根本的技术原因是什么?
{{ select(8) }}
- Tokenizer的词汇表不包含“诺斯罗普·格鲁曼”,导致该专有名词被错误地分割,影响了查询向量的生成。
- 使用的Embedding模型质量太差,无法理解“诺斯罗普·格鲁曼”和“B-21轰炸机”之间的关联。
- 文档切分策略不当,破坏了关键信息的上下文完整性。Chunk A虽然包含了关键实体,但与“年份”无关;Chunk B虽然含答案,但其自身文本不足以和包含“B-21”及“诺斯罗普·格鲁曼”的查询建立强语义关联。
- 向量搜索中的近似最近邻(ANN)算法精度过低,没能从海量向量中找到正确的Chunk B。
9、关于线性回归算法的下列说法中,哪一项是正确的? {{ select(9) }}
- 岭回归(Ridge Regression)在损失函数中引入 L1 正则项,可将部分系数压缩至零,从而实现特征选择。
- 多重共线性会导致特征之间高度线性相关,虽然模型在训练集上的预测精度可能仍然较高,但会显著增大回归系数的方差。
- 线性回归的R2值越高,表明模型对新样本的预测能力越强;因此,应尽可能通过增加特征来提升R2,从而提高模型泛化性能。
- 普通最小二乘法(OLS)通过最小化残差的绝对值之和来估计参数,该问题存在闭式解,可通过矩阵运算直接求解。
10、已知隔壁老王夫妇生了两个孩子,且这两个孩子不是同时双胞胎。 有一天,邻居听到隔壁老王夸一个男孩活泼可爱,确认了隔壁老王夫妇至少有一个男孩。请问,老王两个孩子都是男孩的概率是多少? {{ select(10) }}
- 2/5
- 7/12
- 1/2
- 1/3
11、在神经网络中,以下哪种激活函数可以缓解梯度消失问题,并且在隐藏层中被广泛使用? {{ select(11) }}
- Sigmoid
- Tanh
- ReLU
- 阶跃函数
12、矩阵的秩是描述矩阵非常关键的性质,其描述的是一组向量中线性无关基的个数的最大值。 把矩阵的行或列看成一个向量,可以定义行秩和列秩。行秩和列秩的大小关系正确的是:
{{ select(12) }}
- 行秩 < 列秩
- 其他三种都有可能
- 行秩 = 列秩
- 行秩 > 列秩
13、在 Transformer 的架构中,几乎每个子层(如自注意力层、前馈网络层)的输出都会经过一个 Layer Normalization(层归一化)操作,在自然语言处理任务中,相比于在计算机视觉中常用的 Batch Normalization(批归一化),选择 LayerNorm 最关键的原因是? {{ select(13) }}
- LayerNorm 能够更好地处理词汇表外的(Out-of-Vocabulary)单词。
- LayerNorm 在计算归一化统计量(均值和方差)时,独立于批次中的其他样本,因此对不同长度的输入序列和变化的批次大小(Batch Size)具有更好的鲁棒性。
- LayerNorm 的计算量远小于 Batch Normalization,可以显著提升模型的训练速度。
- Batch Normalization 只能用于卷积层,而 LayerNorm 可以用于全连接层。
14、已知从人群中随机抽取一名男性,该男性年龄在30-40岁之间的概率为0.25,在其他年龄段的概率为0.75,且人群中30-40岁年龄段和其他年龄段中男性的比例都为0.4。若用贝叶斯定理估计该男性属于30-40岁年龄段的后验概率,结果为: {{ select(14) }}
- 0.4
- 0.25
- 0.1
- 0.5
15、关于检索增强生成技术(Retrieval-Augmented Generation, RAG)中,将 HNSW(Hierarchical Navigable Small World)等近似最近邻(ANN)向量索引用于查询阶段的主要优势是什么? {{ select(15) }}
- 在检索过程中自动优化嵌入表示,增强查询与文档的语义对齐能力。
- 显著降低查询延迟,同时仅轻微牺牲召回率,实现效率与效果的平衡
- 利用分层图结构加速搜索路径收敛,提升高维空间中相似性排序的稳定性。
- 结合向量二值化技术,将存储开销压缩至 1-bit,极大节省内存占用。
二、多选题
16、下列哪些方法可用于解决过拟合 {{ multiselect(16) }}
- L2正则化
- 增加训练样本多样性
- 减少模型复杂度
- 提前停止
17、关于大模型的文本语义相似度计算,下列说法正确的是 {{ multiselect(17) }}
- 所有大模型的嵌入向量维度必须统一才能计算相似度
- 可通过计算两文本的嵌入向量(Embedding)余弦相似度实现
- 微调时增加同义句对数据可提升相似度计算精度
- 模型对语义相似但表达方式差异大的文本识别能力有限
18、关于向量空间的基和维度,以下哪些说法正确? {{ multiselect(18) }}
- 零向量不能包含在任何基中
- Rn空间的维度为 n
- 矩阵列向量张成空间的维度等于其行向量张成空间的维度
- 一组向量是基当且仅当其线性无关且张成整个空间
19、在神经网络的反向传播过程中,以下哪些描述是正确的? {{ multiselect(19) }}
- 反向传播直接修改网络的参数,无需梯度下降等优化算法
- 反向传播需要先进行一次完整的前向传播以得到输出结果
- 反向传播通过链式法则计算损失函数对各层参数的梯度
- 在反向传播中,梯度会逐层从输出层向输入层传播
20、数据之间的关系以及数据服从的分布形态影响了模型建模的效果,下列关于线性回归的描述中,哪些是正确的? {{ multiselect(20) }}
- 线性回归模型中,误差项(残差)必须服从正态分布
- 线性回归模型可以通过最小二乘法进行参数估计
- 线性回归模型假设自变量和因变量之间存在线性关系
- 线性回归模型的目标是最大化预测值与真实值之间的误差