会员专享

请先登录，登录后可使用今日免费解锁；开通会员，或购买该题目所属题库（华为校招机考题库），可解锁完整内容。

购买题库开通会员

解题思路

本题要求完成一次三层 $MLP$ 的前向传播、反向传播和梯度下降更新。网络结构为：

d_{in}\rightarrow d_{hidden}\rightarrow d_{out}

隐藏层使用 $ReLU$ 激活函数，输出层为线性输出。

题目内容

在深度学习的训练过程中，反向传播（Backpropagation）是计算梯度并更新网络参数的核心算法。本题要求实现一个用于回归任务的三层 $MLP$ （多层感知机）的单次前向传播与反向传播，给定网络参数、一个输入样本及其目标值，计算梯度下降更新后的新参数。

网络架构与参数

网络为三层全连接结构：

输入层 $(d_{in}) \rightarrow$ 隐藏层 $(d_{hidden},\mathrm{ReLU}) \rightarrow$ 输出层 $(d_{out},$ 线性 $)$

其中 $d_{in}$ 、 $d_{hidden}$ 、 $d_{out}$ 分别为各层的维度（神经元个数），网络中所有向量和矩阵的形状均由此三个维度唯一确定。各参数和中间变量定义如下：

符号	形状	说明
$\boldsymbol x$	$(d_{in})$	输入特征向量
$W_1$	$(d_{hidden} \times d_{in})$	输入层到隐藏层的权重矩阵，第 $i$ 行对应隐藏层第 $i$ 个神经元
$\boldsymbol b_1$	$(d_{hidden})$	隐藏层偏置向量
$\boldsymbol z_1$		隐藏层预激活值， $\boldsymbol z_1 = W_1\boldsymbol x + \boldsymbol b_1$
$\boldsymbol a_1$		隐藏层激活值， $\boldsymbol a_1=\mathrm{ReLU}(\boldsymbol z_1)$
$W_2$	$(d_{out} \times d_{hidden})$	隐藏层到输出层的权重矩阵，第 $i$ 行对应输出层第 $i$ 个神经元
$\boldsymbol b_2$	$(d_{out})$	输出层偏置向量
$\boldsymbol z_2/\boldsymbol y_{pred}$		输出层预激活值即为预测值（线性激活）， $\boldsymbol z_2 = W_2\boldsymbol a_1+\boldsymbol b_2$
$\boldsymbol y_{true}$		目标真实值
$\eta$	标量	学习率

计算流程

1.前向传播

\begin{align*} \boldsymbol z_1 &= W_1\boldsymbol x+\boldsymbol b_1 \\ \boldsymbol a_1 &= \mathrm{ReLU}(\boldsymbol z_1) \\ \boldsymbol y_{pred} &= W_2\boldsymbol a_1+\boldsymbol b_2 \end{align*}

2.损失函数

L=\frac12\sum_{i=0}^{d_{out}-1}(y_{pred,i}-y_{true,i})^2

3.反向传播

输出层梯度：

\begin{align*} \boldsymbol \delta_2 &= \boldsymbol y_{pred}-\boldsymbol y_{true} \\ \nabla W_2 &= \boldsymbol \delta_2 \otimes \boldsymbol a_1 \quad(\text{外积，结果形状}d_{out}\times d_{hidden}) \\ \nabla \boldsymbol b_2 &= \boldsymbol \delta_2 \end{align*}

隐藏层梯度：

\begin{align*} \boldsymbol \delta_1 &= (W_2^\top \boldsymbol \delta_2)\odot \mathrm{ReLU}'(\boldsymbol z_1) \\ \nabla W_1 &= \boldsymbol \delta_1 \otimes \boldsymbol x \quad(\text{外积，结果形状}d_{hidden}\times d_{in}) \\ \nabla \boldsymbol b_1 &= \boldsymbol \delta_1 \end{align*}

其中 $\otimes$ 为向量外积， $\odot$ 为逐元素乘法， $\mathrm{ReLU}'(z)$ 在 $z=0$ 时为 $0$ 。

4.权重更新（梯度下降）

W_{new}=W-\eta\cdot\nabla W,\quad \boldsymbol b_{new}=\boldsymbol b-\eta\cdot\nabla \boldsymbol b

对 $W_1,\boldsymbol b_1,W_2,\boldsymbol b_2$ 分别执行上述更新。

数据约束

$1 \le d_{in},d_{hidden},d_{out} \le 10$
权重和偏置的初始值绝对值不超过 $5$
输入特征和目标值绝对值不超过 $10$
$0.001 \le \eta \le 1.0$

输入描述

一行： $d_{in}\ d_{hidden}\ d_{out}$
$W_1$ ：共 $d_{hidden}$ 行，每行 $d_{in}$ 个浮点数
$\boldsymbol b_1$ ：一行， $d_{hidden}$ 个浮点数
$W_2$ ：共 $d_{out}$ 行，每行 $d_{hidden}$ 个浮点数
$\boldsymbol b_2$ ：一行， $d_{out}$ 个浮点数
$\boldsymbol x$ ：一行， $d_{in}$ 个浮点数
$\boldsymbol y_{true}$ ：一行， $d_{out}$ 个浮点数
$\eta$ ：一个浮点数

输出描述

$W_{1new}$ ：共 $d_{hidden}$ 行，每行 $d_{in}$ 个浮点数

$\boldsymbol b_{1new}$ ：一行， $d_{hidden}$ 个浮点数

$W_{2new}$ ：共 $d_{out}$ 行，每行 $d_{hidden}$ 个浮点数

$\boldsymbol b_{2new}$ ：一行， $d_{out}$ 个浮点数

$\boldsymbol y_{pred}$ ：一行， $d_{out}$ 个浮点数

所有浮点数保留 $6$ 位小数，同一行以内以空格分隔。

样例1

输入

2 2 2
0.4 0.3
-0.5 0.6
0.1 -0.2
0.5 -0.3
0.2 0.4
0.0 0.1
1.0 0.5
0.5 0.3
0.2

输出

0.420300 0.310150
-0.500000 0.600000
0.120300 -0.200000
0.522750 -0.300000
0.209100 0.400000
0.035000 0.114000
0.325000 0.230000

说明

本例网络为 $2\rightarrow2\rightarrow2$ 的多输出结构。

前向传播时， $\boldsymbol z_1=[0.65,-0.4]$ ，第 $2$ 个神经元被 $ReLU$ 关闭， $\boldsymbol a_1=[0.65,0]$ 。

预测值 $\boldsymbol y_{pred}=[0.325,0.23]$ 。

反向传播时， $\boldsymbol \delta_2=[-0.175,-0.07]$ 是二维向量，两个输出分量的误差通过 $W_2^\top\boldsymbol \delta_2$ 叠加后传回隐藏层；

但第 $2$ 个神经元被 $ReLU$ 阻断，因此只有第 $1$ 个神经元对应的 $W_1$ 第 $1$ 行和 $\boldsymbol b_1$ 第 $1$ 个分量发生更新，第 $2$ 行保持不变。

样例2

输入

2 2 1
-1.0 -1.0
-0.5 -0.8
-0.5 -0.3
0.5 0.3
0.1
1.0 1.0
0.5
0.1

输出

-1.000000 -1.000000
-0.500000 -0.800000
-0.500000 -0.300000
0.500000 0.300000
0.140000
0.100000

说明

本例网络为 $2\rightarrow2\rightarrow1$ 结构。

前向传播时， $\boldsymbol z_1=[-2.5,-1.6]$ 的两个分量均为负值， $ReLU$ 将它们全部置零（ $\boldsymbol a_1=[0,0]$ ），预测值完全由输出层偏置决定： $\boldsymbol y_{pred}=\boldsymbol b_2=0.1$ 。

反向传播时，由于 $\boldsymbol a_1$ 全为零且 $\mathrm{ReLU}'(\boldsymbol z_1)=[0,0]$ ，所有流回隐藏层的梯度均被完全阻断，导致 $W_1$ 、 $\boldsymbol b_1$ 、 $W_2$ 均未更新，只有 $\boldsymbol b_2$ 因直接连接输出层而从 $0.1$ 更新为 $0.14$ 。

请从“运行结果”或“历史提交”选择一条记录

选择提交后开始分析

#P4998. 第3题-回归任务反向传播机理

第3题-回归任务反向传播机理

解题思路

题目内容

网络架构与参数

计算流程

1.前向传播

2.损失函数

3.反向传播

4.权重更新（梯度下降）

数据约束

输入描述

输出描述

样例1

样例2

Status

Development

Support

About

#P4998. 第3题-回归任务反向传播机理

第3题-回归任务反向传播机理

解题思路

题目内容

网络架构与参数

计算流程

1.前向传播

2.损失函数

3.反向传播

4.权重更新（梯度下降）

数据约束

输入描述

输出描述

样例1

样例2

Status

Development

Support

About

Login