T1
答案:A.余弦相似度
解析:余弦相似度衡量向量方向而非幅值,对亮度(尺度)变化不敏感,适合亮度差异大的图像相似度比较
T2
1、对比两张亮度差异较大的图片的内容相似的适合的相似度度量是?
{{ select(1) }}
2、工厂抽检5个灯泡,寿命数据:[2年,0年,3年,0年,4年]。合格品寿命服从指数分布(参数λ),不合格品寿命为0。合格率p的MLE估计是?
{{ select(2) }}
3、贝叶斯定理的正确表达式是:
{{ select(3) }}
- P(A|B) = P(B|A)·P(A) / P(B)
- P(A|B) = P(B|A) / P(B)
- P(A|B) = P(A)·P(B) / P(B|A)
- P(A|B) = P(A∩B) + P(B)
4、使用PCA降维时,需要决定保留多少个主成分。选择PCA主成分数量时,通常依据什么指标?
{{ select(4) }}
- 后续模型的准确率
- 原始特征的数量
- 累计解释方差比例(如85%-95%)
- 样本的数量
5、训练一个两层全连接神经网络做回归任务,在使用反向传播更新参数时发现:损失几乎不下降,梯度在多层传递后逐渐趋近于0。针对该现象,下列分析最合理的是()
{{ select(5) }}
- 数据集过小,与反向传播无关
- 梯度爆炸,应使用梯度裁剪
- 学习率过高,应大幅调大学习率
- 梯度消失,常见于深层网络或饱和激活函数
6、在反向传播中,如果激活函数的导数长期小于1,最可能导致的数值问题是?
{{ select(6) }}
7、在判断一个集合是否为向量空间时,以下哪一项是必须满足的条件?
{{ select(7) }}
- 集合中所有向量的长度必须相等
- 集合中任意两个向量的和仍属于该集合
- 集合中存在零向量,并且对加法和数乘封闭
- 集合中任意一个向量与任意一个标量的乘积仍属于该集合
8、与普通SGD相比,Momentum方法的主要作用是什么?
{{ select(8) }}
- 保证全局最优解
- 不再需要设置学习率
- 引入历史梯度信息,减少震荡并加快收敛
- 自动减少训练数据噪声
9、对于多头注意力(Multi-Head Attention, MHA)和分组查询注意力(Grouped-Query Attention, GQA),GQA相较于MHA的结构变化在于:
{{ select(9) }}
- 增加了Value头的维度
- 多个Query头共享一组Key和Value头
- 增加了Key和Value头的数目
- 减少了Query头的数量
10、当数据分布呈现右偏(正偏)特征时,意味着右侧有极端值拉高均值。此时均值、中位数、众数三者的关系通常是?
{{ select(10) }}
- 均值<中位数<众数
- 均值>中位数>众数
- 无法确定
- 均值=中位数=众数
11、原模型使用MHA(Multi-Head Attention)有64个注意力头,如果采用MQA(Multi-Query Attention)替代MHA,KV Cache显存可减少多少倍?
{{ select(11) }}
- 8倍
- 64倍
- 32倍
- 4倍
12、对于输入为224×224×3的图像,使用一个卷积层,包含96个11×11的卷积核,步长为4,无填充(padding = 0),那么输出特征图的大小和深度分别是?
{{ select(12) }}
- 55×55×96
- 57×57×96
- 54×54×96
- 56×56×96
13、下列关于Embeddings的核心定义,正确的是( )
{{ select(13) }}
- 将离散数据(如单词、类别)映射到连续的低维向量空间
- 将离散数据映射到离散的低维向量空间
- 将连续数据映射到离散的高维向量空间
- 将连续数据映射到连续的高维向量空间
14、关于 SGD 的说法,错误的是
{{ select(14) }}
- SGD 可能收敛速度较慢
- SGD 需要设置学习率
- SGD 使用整个数据集计算梯度
- SGD 代表随机梯度下降
15、对角矩阵的行列式计算非常简单。矩阵 A=[[3,0],[0,3]] 是对角矩阵,其行列式值为?
{{ select(15) }}
16、以下关于凸函数的性质,正确的有:
{{ multiselect(16) }}
- 两个凸函数之和仍然是凸函数
- 凸函数的非负线性组合仍然是凸函数
- 凸函数的任意局部最小值都是全局最小值
- 凸函数与凹函数之和一定是凸函数
17、若某层注意力权重接近均匀分布,可能由于:
{{ multiselect(17) }}
- 使用了因果掩码
- 输入序列所有token嵌入相同
- 查询和键的维度过高
- 注意力机制中softmax的温度参数设置过大
18、以下关于线性相关与线性无关的说法,哪些正确?
{{ multiselect(18) }}
- 包含零向量的向量组必线性相关
- n维向量空间中任意 n+1 个向量必线性相关
- 若向量组线性相关,则其中每个向量都可由其余向量线性表示
- 单个非零向量构成的向量组线性无关
19、已知 TP=50,FN=10,FP=5,TN=200,下列正确的有
{{ multiselect(19) }}
- 精确率 ≈0.91
- 召回率 ≈0.83
- TPR ≈0.83
- 准确率 ≈0.96
20、在设计大模型训练并行策略时,通常采用 3D 混合并行策略(TP + PP + DP)。这样设计的主要原因包括?
{{ multiselect(20) }}
- 提高扩展性
- 减少单一并行方式的通信瓶颈
- 充分利用多节点 GPU
- 自动减少模型参数