#P4237. 第1题-选择题
-
Tried: 298
Accepted: 0
Difficulty: 5
所属公司 :
华为
时间 :2025年10月17日-AI方向
-
算法标签>数学
第1题-选择题
T1
答案: B. λ2=0
解析:
$A(\alpha_1 + \alpha_2) = \lambda_1 \alpha_1 + \lambda_2 \alpha_2$。
与 α1 线性相关当且仅当 λ2=0;
故线性无关当且仅当 λ2=0。
一、单选题
1、设 λ1,λ2 是矩阵 A 的两个不同的特征值,对应的特征向量分别为 α1,α2,则 α1,A(α1+α2) 线性无关的充分必要条件是 {{ select(1) }}
- λ1=0
- λ2=0
- λ1=0
- λ2=0
2、设 X∼B(n=10,p=0.3),则 P(X=2) 的值为 {{ select(2) }}
- C102×0.72×0.38
- e−3×2!32
- 0.3×0.7
- C102×0.32×0.78
3、在现代大语言模型(LLM)的架构设计中,关于编码器(Encoder)和解码器(Decoder)的使用,以下哪项描述是最准确的? {{ select(3) }}
- 所有大型语言模型,如 BERT、GPT 系列和 T5,都采用标准的编码器 - 解码器(Encoder-Decoder)架构。
- 仅使用编码器(Encoder-only)架构的模型(如 BERT)能够进行高效的自回归文本生成,因为它可以并行处理整个输入序列。
- 仅使用解码器(Decoder-only)架构的模型(如 GPT 系列)在自回归语言建模任务上表现出色,其自注意力机制通常需要掩码(Masked)以防止信息泄露。
- 编码器 - 解码器(Encoder-Decoder)架构(如 T5)中的解码器,在训练和推理时都只关注编码器的输出,并不需要关注已经生成的前文。
4、一个均匀6面骰子,平均投掷多少次能投出连续的两个6点 {{ select(4) }}
- 48
- 37
- 36
- 42
5、用牛顿迭代法求 f(x)=x3−2 的根,如果初始值为 x0=1,一步迭代值 x1 应为: {{ select(5) }}
- 32
- 34
- 23
- 32
6、已知 x=1.250±0.040, y=8.000±0.200,计算 z=xy 的绝对误差限。 {{ select(6) }}
- 0.578
- 0.562
- 0.560
- 0.570
7、在逻辑回归中,若目标函数为 J(θ)=−m1∑i=1m[y(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))],以下哪种优化方法最可能陷入局部最优? {{ select(7) }}
- 拟牛顿法(BFGS)
- 高斯 - 牛顿法
- 随机梯度下降(SGD)
- 牛顿法
8、一个团队构建的RAG问答系统在测试中表现不佳。用户提问:“在B-21轰炸机的研发合同中,诺斯罗普·格鲁曼公司承接的初始作战能力(IOC)目标年份是哪一年?” 系统未能找到答案,尽管知识库中的一份文档里明确写着:“……该项目的主要承包商是诺斯罗普·格鲁曼公司。根据合同条款,B-21轰炸机的初始作战能力目标设定在2027年。” 工程师排查后发现,文档切分时,恰好将这两句话分在了两个相邻但独立的文本块(chunk)中:
• Chunk A: “……该项目的主要承包商是诺斯罗普·格鲁曼公司。” • Chunk B: “根据合同条款,B-21轰炸机的初始作战能力目标设定在2027年。”
基于以上信息,请判断导致这次检索失败的最直接、最根本的技术原因是什么?
{{ select(8) }}
- Tokenizer的词汇表不包含“诺斯罗普·格鲁曼”,导致该专有名词被错误地分割,影响了查询向量的生成。
- 使用的Embedding模型质量太差,无法理解“诺斯罗普·格鲁曼”和“B-21轰炸机”之间的关联。
- 文档切分策略不当,破坏了关键信息的上下文完整性。Chunk A虽然包含了关键实体,但与“年份”无关;Chunk B虽然含答案,但其自身文本不足以和包含“B-21”及“诺斯罗普·格鲁曼”的查询建立强语义关联。
- 向量搜索中的近似最近邻(ANN)算法精度过低,没能从海量向量中找到正确的Chunk B。
9、关于线性回归算法的下列说法中,哪一项是正确的? {{ select(9) }}
- 岭回归(Ridge Regression)在损失函数中引入 L1 正则项,可将部分系数压缩至零,从而实现特征选择。
- 多重共线性会导致特征之间高度线性相关,虽然模型在训练集上的预测精度可能仍然较高,但会显著增大回归系数的方差。
- 线性回归的R2值越高,表明模型对新样本的预测能力越强;因此,应尽可能通过增加特征来提升R2,从而提高模型泛化性能。
- 普通最小二乘法(OLS)通过最小化残差的绝对值之和来估计参数,该问题存在闭式解,可通过矩阵运算直接求解。
10、已知隔壁老王夫妇生了两个孩子,且这两个孩子不是同时双胞胎。 有一天,邻居听到隔壁老王夸一个男孩活泼可爱,确认了隔壁老王夫妇至少有一个男孩。请问,老王两个孩子都是男孩的概率是多少? {{ select(10) }}
- 2/5
- 7/12
- 1/2
- 1/3
11、在神经网络中,以下哪种激活函数可以缓解梯度消失问题,并且在隐藏层中被广泛使用? {{ select(11) }}
- Sigmoid
- Tanh
- ReLU
- 阶跃函数
12、矩阵的秩是描述矩阵非常关键的性质,其描述的是一组向量中线性无关基的个数的最大值。 把矩阵的行或列看成一个向量,可以定义行秩和列秩。行秩和列秩的大小关系正确的是:
{{ select(12) }}
- 行秩 < 列秩
- 其他三种都有可能
- 行秩 = 列秩
- 行秩 > 列秩
13、在 Transformer 的架构中,几乎每个子层(如自注意力层、前馈网络层)的输出都会经过一个 Layer Normalization(层归一化)操作,在自然语言处理任务中,相比于在计算机视觉中常用的 Batch Normalization(批归一化),选择 LayerNorm 最关键的原因是? {{ select(13) }}
- LayerNorm 能够更好地处理词汇表外的(Out-of-Vocabulary)单词。
- LayerNorm 在计算归一化统计量(均值和方差)时,独立于批次中的其他样本,因此对不同长度的输入序列和变化的批次大小(Batch Size)具有更好的鲁棒性。
- LayerNorm 的计算量远小于 Batch Normalization,可以显著提升模型的训练速度。
- Batch Normalization 只能用于卷积层,而 LayerNorm 可以用于全连接层。
14、已知从人群中随机抽取一名男性,该男性年龄在30-40岁之间的概率为0.25,在其他年龄段的概率为0.75,且人群中30-40岁年龄段和其他年龄段中男性的比例都为0.4。若用贝叶斯定理估计该男性属于30-40岁年龄段的后验概率,结果为: {{ select(14) }}
- 0.4
- 0.25
- 0.1
- 0.5
15、关于检索增强生成技术(Retrieval-Augmented Generation, RAG)中,将 HNSW(Hierarchical Navigable Small World)等近似最近邻(ANN)向量索引用于查询阶段的主要优势是什么? {{ select(15) }}
- 在检索过程中自动优化嵌入表示,增强查询与文档的语义对齐能力。
- 显著降低查询延迟,同时仅轻微牺牲召回率,实现效率与效果的平衡
- 利用分层图结构加速搜索路径收敛,提升高维空间中相似性排序的稳定性。
- 结合向量二值化技术,将存储开销压缩至 1-bit,极大节省内存占用。
二、多选题
16、下列哪些方法可用于解决过拟合 {{ multiselect(16) }}
- L2正则化
- 增加训练样本多样性
- 减少模型复杂度
- 提前停止
17、关于大模型的文本语义相似度计算,下列说法正确的是 {{ multiselect(17) }}
- 所有大模型的嵌入向量维度必须统一才能计算相似度
- 可通过计算两文本的嵌入向量(Embedding)余弦相似度实现
- 微调时增加同义句对数据可提升相似度计算精度
- 模型对语义相似但表达方式差异大的文本识别能力有限
18、关于向量空间的基和维度,以下哪些说法正确? {{ multiselect(18) }}
- 零向量不能包含在任何基中
- Rn空间的维度为 n
- 矩阵列向量张成空间的维度等于其行向量张成空间的维度
- 一组向量是基当且仅当其线性无关且张成整个空间
19、在神经网络的反向传播过程中,以下哪些描述是正确的? {{ multiselect(19) }}
- 反向传播直接修改网络的参数,无需梯度下降等优化算法
- 反向传播需要先进行一次完整的前向传播以得到输出结果
- 反向传播通过链式法则计算损失函数对各层参数的梯度
- 在反向传播中,梯度会逐层从输出层向输入层传播
20、数据之间的关系以及数据服从的分布形态影响了模型建模的效果,下列关于线性回归的描述中,哪些是正确的? {{ multiselect(20) }}
- 线性回归模型中,误差项(残差)必须服从正态分布
- 线性回归模型可以通过最小二乘法进行参数估计
- 线性回归模型假设自变量和因变量之间存在线性关系
- 线性回归模型的目标是最大化预测值与真实值之间的误差