#P4273. 第1题-选择题
-
Tried: 90
Accepted: 0
Difficulty: 4
所属公司 :
华为
时间 :2025年10月22日-AI方向
第1题-选择题
题目与答案整理
T1
答案: B. 参数估计误差大
解析:
数值不稳定(如 (XTX)−1 条件数很大)会放大微小扰动,导致参数估计方差和误差增大。它不直接导致"过拟合/欠拟合"或"训练加速"。
T2
答案: A. RFE 通过反复训练模型,每次移除当前模型中系数绝对值最小的特征,逐步缩小特征集,最终得到一个包含 5 个特征的子集。
解析:
RFE 每轮用当前评估器的重要性/系数绝对值最小的特征作为剔除对象,迭代直至保留指定数量的特征。B/C/D 分别对应方差阈值、p 值筛选、相关系数法,均非 RFE。
T3
答案: B. 点积结果受向量模影响,余弦相似度更可靠
解析:
点积受向量模长影响,而余弦相似度通过归一化消除了模长影响,能更好地反映向量方向相似性,因此在文本相似度计算中更可靠。
T4
答案: D. 显著减小
解析:
GELU 的导数在大多数输入范围内小于或接近 1,负半轴仍有小梯度;相较 ReLU(导数为 0 或 1),其梯度平方期望更低,初期梯度 L2 范数通常更小。
T5
答案: D. 11.1
解析:
由 $E[X^2] = \text{Var}(X) + [E(X)]^2 = np(1-p) + (np)^2 = 10(0.3)(0.7) + (3)^2 = 2.1 + 9 = 11.1$。
T6
答案: C. 引入外部知识库(如检索增强生成,RAG)
解析:
引入外部知识库(RAG)能在生成时检索事实依据,最直接缓解幻觉;调温度/增数据/换结构并不能从根本上提供可验证的外部知识。
T7
答案: D. ReLU
解析:
当 β→∞ 时,σ(βx) 趋近于阶跃函数,f(x)=xσ(βx) 逼近 max(0,x),即 ReLU 函数。
T8
答案: D. 随机梯度下降(SGD)
解析:
逻辑回归的对数似然是凸的,理论上不存在局部最优;在给定选项中,SGD 受噪声与学习率影响更可能停在次优点/震荡,故相对"最可能"选 D。
T9
答案: C. 当 m>n 时必有非零解
解析: 设 A∈Rm×n,B∈Rn×m,则 AB∈Rm×m。齐次方程 (AB)x=0 只有零解当且仅当 rank(AB)=m。而
,rank(B))≤n。若 m>n,则 rank(AB)≤n<m,不可能满秩,故必有非零解;其余情形并不能保证唯一零解或必有非零解。
T10
答案: C. 显著降低查询延迟,同时仅轻微牺牲召回率,实现效率与效果的平衡。
解析:
HNSW 等 ANN 在检索阶段以轻微召回损失换取显著的低延迟与高吞吐,实现效果与效率的平衡。
T11
答案: C. 每个头独立生成 Q/K/V
解析:
标准多头注意力为每个头分别使用独立的线性投影 WQ(h),WK(h),WV(h) 生成 Q/K/V,从而让各头学习不同子空间信息。A/D 均与独立投影相悖,B 非常规实现。
T12
答案: D. -1
解析:
设 X∼Bin(n,p),则 E[Xˉ]=np、E[S2]=np(1−p)。
令 E[Xˉ+kS2] = np2⇒np + knp(1−p) = np2,解得 k=−1。
T13
答案: C. T=RzD,P′=(2,6,9,1)T
解析:
先旋转后平移应有 T=DRz(90∘);Rz 使 P(1,2,3)→(−2,1,3),再加 d=(4,5,6) 得 P′=(2,6,9,1)T(选项 C 的 P′ 正确)。
T14
答案: D. ∑i=1nxin
解析:
指数分布 f(x;λ)=λe−λx 的 MLE 为 λ^=n/∑i=1nxi。
T15
答案: D. 42
解析:
连续 r 次成功的期望次数 E=(1−p)pr1−pr。取 p=61,r=2 得 E=(1−1/6)(1/6)21−(1/6)2=42。
T16
答案: A、C
解析:
- A. 如果 A⊆B,则 P(A∩B)=P(A) ✓
- C. 如果 A 与 B 独立,则 A 与 B 的补事件也独立 ✓
T17
答案: A、B、C
解析:
点积分布方差随维度 dk 增大而变大,除以 dk 可:
- A. 补偿 query 和 key 向量维度的影响 ✓
- B. 防止点积数值过大导致梯度消失 ✓
- C. 使 Softmax 输出更均匀 ✓
T18
答案: C、D
解析:
- C. 使用目标编码(Target Encoding),将每个类别映射为其在训练集中对应目标变量的均值(或正类比例),并辅以平滑或交叉验证策略防止过拟合 ✓
- D. 引入可学习的嵌入层(Embedding Layer),将每个类别映射到低维稠密空间,在模型训练中联合学习优化嵌入表示 ✓
T19
答案: B、D
解析:
- B. 若事件发生次数服从均值为 λ 的泊松分布,则两次事件间时间间隔服从均值为 λ 的指数分布 ✓
- D. 泊松分布描述单位时间内事件发生次数,指数分布描述两次事件间的时间间隔 ✓
注: 泊松分布描述单位时间内事件发生次数,指数分布描述事件间时间间隔,两者在泊松过程中相关。选项 A 错误,因为泊松分布期望和方差都等于 λ;选项 C 错误,因为泊松分布是离散型分布。
T20
答案: A、C
解析:
- A. 知识库包含分散的人物关系描述(如"B 的父亲是 C"、"B 的母亲是 A"),用户提问"A 的女儿是谁",需结合指代消解与多跳逻辑推理得出答案 ✓
- D. 用户希望从多篇娱乐报道中找出被高频提及的核心人物,系统需跨文档识别并归一化人物名称,统计共现频率以生成聚合性结论 ✓
一、单选题
1、在深度学习中,若模型参数的更新依赖数值不稳定的矩阵求逆操作(如(XTX)−1),则可能导致: {{ select(1) }}
- 模型过拟合
- 参数估计误差大
- 模型欠拟合
- 训练加速过快
2、在构建一个用于预测用户是否流失的机器学习模型时,某数据科学家从原始数据中提取了 15 个特征,包括年龄、月消费金额、登录频率、服务投诉次数等。为了提升模型性能并减少过拟合,他决定使用递归特征消除(Recursive Feature Elimination, RFE)方法进行特征选择。已知他使用了一个训练好的逻辑回归模型作为评估器,并设定最终保留 5 个特征。
以下关于 RFE 过程的描述中,哪一项是正确的?
{{ select(2) }}
- A. RFE 通过反复训练模型,每次移除当前模型中系数绝对值最小的特征,逐步缩小特征集,最终得到一个包含 5 个特征的子集。
- B. RFE 基于特征的方差阈值逐步剔除低方差特征,直到保留指定数量为止。
- C. RFE 根据各特征在逻辑回归中的 p 值显著性进行排序,每次移除最不显著的特征,直到保留 5 个具有统计显著性的特征。
- D. RFE 计算每个特征与目标变量之间的皮尔逊相关系数,保留相关性最高的 5 个特征。
3、在自然语言处理中,比较两个词嵌入向量 u=[0.80.6] 、v=[0.50.866] 的语义相似性。以下结论正确的是? {{ select(3) }}
- 点积=0.8,表明语义高度相似
- 点积结果受向量模影响,余弦相似度更可靠
- 余弦相似度≈0.99,表明语义几乎相同
- 向量v的模更大,因此更重要
4、当把 ReLU 换成 GELU 后,在相同初始化下,训练初期梯度 L2 范数通常会 {{ select(4) }}
- 不可预测
- 几乎不变
- 显著增大
- 显著减小
5、设 X∼Binomial(n=10,p=0.3),则 E[X2] 为: {{ select(5) }}
- 5.2
- 4.2
- 3.9
- 11.1
6、在大模型训练中,以下哪项技术最能有效缓解 “幻觉”(Hallucination)问题? {{ select(6) }}
- 降低模型的温度参数(Temperature)
- 增加训练数据量
- 引入外部知识库(如检索增强生成,RAG)
- 使用更复杂的模型结构
7、Swish激活函数 f(x)=x⋅σ(βx),当 β→∞ 时逼近以下哪个函数 {{ select(7) }}
- tanh
- sigmoid
- 线性
- ReLU
8、在逻辑回归中,若目标函数为 $J(\theta) = -\frac{1}{m} \sum_{i=1}^m [y^{(i)} \log(h_\theta(x^{(i)})) + (1 - y^{(i)}) \log(1 - h_\theta(x^{(i)}))]$,以下哪种优化方法最可能陷入局部最优? {{ select(8) }}
- 牛顿法
- 拟牛顿法(BFGS)
- 高斯 - 牛顿法
- 随机梯度下降(SGD)
9、设 A 为 m×n 矩阵,B 为 n×m 矩阵,则线性方程组 (AB)x=0 {{ select(9) }}
- 当 n>m 时仅有零解
- 当 n>m 时必有非零解
- 当 m>n 时必有非零解
- 当 m>n 时仅有零解
10、关于检索增强生成技术(Retrieval-Augmented Generation, RAG)中,将 HNSW(Hierarchical Navigable Small World)等近似最近邻(ANN)向量索引用于查询阶段的主要优势是什么? {{ select(10) }}
- 结合向量二值化技术,将存储开销压缩至 1-bit,极大节省内存占用。
- 在检索过程中自动优化嵌入表示,增强查询与文档的语义对齐能力。
- 显著降低查询延迟,同时仅轻微牺牲召回率,实现效率与效果的平衡。
- 利用分层图结构加速搜索路径收敛,提升高维空间中相似性排序的稳定性。
11、在标准的多头注意力(MHA)中,Q/K/V矩阵的生成方式是 {{ select(11) }}
- 共享同一组线性变换权重
- 通过卷积生成
- 每个头独立生成Q/K/V
- 仅Q矩阵需要多头拆分,K/V共享
12、设 X1,X2,...,Xn 为来自二项分布总体 B(n,p) 的一组简单随机样本,且记 Xˉ 和 S2 为样本均值和样本方差,若 Xˉ+kS2 为 np2 的一个无偏估计,则常数 k=
{{ select(12) }}
- -2
- 2
- 1
- -1
13、在三维图形变换中,点P(1,2,3)先绕Z轴旋转θ=90∘,再平移d=(4,5,6)。用齐次坐标表示,最终变换矩阵T与点坐标P′分别为?
(旋转变换矩阵:$R_z(\theta)= \begin{bmatrix} \cos\theta & -\sin\theta & 0 & 0\\ \sin\theta & \cos\theta & 0 & 0\\ 0 & 0 & 1 & 0\\ 0 & 0 & 0 & 1 \end{bmatrix}$, 平移矩阵:$D(d)= \begin{bmatrix} 1 & 0 & 0 & d_x\\ 0 & 1 & 0 & d_y\\ 0 & 0 & 1 & d_z\\ 0 & 0 & 0 & 1 \end{bmatrix}$)
{{ select(13) }}
- T=DRz, P′=(6,−1,9,1)T
- T=DRz, P′=(3,7,9,1)T
- T=RzD, P′=(2,6,9,1)T
- T=RzD, P′=(5,3,9,1)T
14、假设样本数据 x1,x2,...,xn 来自指数分布 f(x;λ)=λe−λx,x≥0。最大似然估计得到的 λ 的估计量是多少? {{ select(14) }}
- n∑i=1nxi
- n1∑i=1nxi
- ∑i=1nxi
- ∑i=1nxin
15、一个均匀6面骰子,平均投掷多少次能投出连续的两个6点 {{ select(15) }}
- 37
- 36
- 48
- 42
二、多选题
16、设事件 A 和 B 是两个随机事件,下列结论哪些总是成立? {{ multiselect(16) }}
- 如果 A⊆B,则 P(A∩B)=P(A)
- 若 A 与 B 互斥,则 A 与B 不独立
- 如果 A 与 B 独立,则 A 与 B 的补事件也独立
- 如果 P(A)=1,则 A 为样本空间
17、Scaled Dot-Product Attention中缩放因子dk的作用是 {{ multiselect(17) }}
- 补偿query和key向量维度的影响
- 防止点积数值过大导致梯度消失
- 使Softmax输出更均匀
- 减少计算量
18、对于拥有数千唯一取值的高基数分类特征,若希望在不显著增加特征维度的前提下,充分利用类别与监督目标之间的统计关系,以下处理方式中,哪些做法合适? {{ multiselect(18) }}
- 将类别直接编码为连续整数标签(如 0, 1, 2, ...),并作为数值型特征输入模型。
- 对所有类别执行独热编码(One-Hot Encoding),并用全零向量表示训练中未出现的未知类别。
- 使用目标编码(Target Encoding),将每个类别映射为其在训练集中对应目标变量的均值(或正类比例),并辅以平滑或交叉验证策略防止过拟合。
- 引入可学习的嵌入层(Embedding Layer),将每个类别映射到低维稠密空间,在模型训练中联合学习优化嵌入表示。
19、关于泊松分布和指数分布的关系,以下哪些说法正确? {{ multiselect(19) }}
- 泊松分布的期望和方差不同,指数分布的期望和方差相等。
- 若事件发生次数服从均值为λ的泊松分布,则两次事件间时间间隔服从均值为λ的指数分布。
- 泊松分布和指数分布都是连续型分布。
- 泊松分布描述单位时间内事件发生次数,指数分布描述两次事件间的时间间隔。
20、在以下问答场景中,哪些是普通 RAG 难以处理、需要借助领域知识图谱实现 GraphRAG 的? {{ multiselect(20) }}
-
知识库包含分散的人物关系描述(如 “B 的父亲是 C”、“B 的母亲是 A”),用户提问 “A 的女儿是谁”,需结合指代消解与多跳逻辑推理得出答案。
-
用户查询与知识库中预定义的 FAQ 问题语义高度相似,系统通过向量检索匹配最接近的问答对,并直接返回对应答案。
-
系统存储大量领域论文及其引用网络,用户基于语义查询某研究方向的代表性文献。
-
用户希望从多篇娱乐报道中找出被高频提及的核心人物,系统需跨文档识别并归一化人物名称,统计共现频率以生成聚合性结论。