答案:A. 当 λ 较大时,偏差增大,方差减小 解析:岭回归中正则化参数 λ 越大,对参数惩罚越强,模型更简单,方差降低但偏差增大,体现偏差–方差权衡原则。
答案:B. 0.75 解析:伯努利分布参数 (p) 的极大似然估计等于样本均值。样本 ({1,0,1,1}) 中 1 的比例为 (3/4=0.75)。
答案:D. 为了将乘法转化为加法,简化计算 解析:在最大似然估计中,对似然函数取对数不会改变最优解,同时可以把概率连乘变为求和,计算更简单、数值更稳定。
1、使用岭回归(Ridge Regression)拟合样本数据,调试正则化参数λ来降低模型复杂度,当λ较大时、关于偏差(bias)和方差(Variance),一般情况下
{{ select(1) }}
2、对于伯努利分布X~Bernoulli(p),样本{1,0,1,1}对p的MLE(MaximumLikelihood Estimation,最大似然估计为 {{ select(2) }}
3、在最大似然估计中,为什么通常对似然函数取对数? {{ select(3) }}
4、在图像分类任务中,若模型将大量负样本误判为正样本,这表明: {{ select(4) }}
5、子空间的判断条件为存在零元,对加法和数乘计算封闭。在R2中,下列集合是子空间的有 {{ select(5) }}
6、神经网络中,反向传播用于? {{ select(6) }}
7、在深度学习中,什么是“早停法”(Early Stopping)? {{ select(7) }}
8、Scaled-Dot-Product Attention 中对QKT结果除以dk的主要目的是 {{ select(8) }}
9、对于一个满秩矩阵,以下哪项一定成立() {{ select(9) }}
10、设事件A与自身独立,则A的概率为 {{ select(10) }}
11、考察向量组{(1,0,1),(0,1,1),(1,1,2)}的线性关系,其结论是: {{ select(11) }}
12、在Transformer中,位置编码(PositionalEncoding)的作用是?
{{ select(12) }}
13、最大似然估计的核心思想是 {{ select(13) }}
14、交叉熵损失函数,主要用于哪种任务? {{ select(14) }}
15、下列哪一项不是泊松过程的特征? {{ select(15) }}
16、深入剖析自注意力机制的计算过程和其变体,以下哪些陈述是准确的? {{ multiselect(16) }}
17、下列关于多模态大模型(例如 BLIP-2、LLaVA、GPT-4V)的表述,哪些是正确的?(可多选) {{ multiselect(17) }}
18、矩阵分解方法在推荐系统中的应用正确的有? {{ multiselect(18) }}
19、下列关于单位矩阵In的性质,哪些一定成立? {{ multiselect(19) }}
20、关于连续型随机变量(Continuous Random Variable),以下说法正确的是() 注:E:表示数学期望,也称期望值,E(X)表示随机变量x的期望值 {{ multiselect(20) }}
对于连续型随机变量X.,若其概率密度函数fx(x)是偶函数,则X的分布关于0对称
连续型随机变量的累积分布函数(CDF)一定是连续函数
若X是连续型随机变量,则P(X=a)=0对任意实数a成立
连续型随机变量的概率密度函数(PDF)在任意单点的值可以大于1