-
代码先做 Wx+b 的全连接线性变换,再做 exp 并按和归一化,即 Softmax。
⇒ C 全连接层 + Softmax。
-
自注意力不含位置信息,位置编码用于给模型注入序列顺序。
⇒ B 引入序列顺序信息。
单选题
1.下面这段代码执行的功能是什么?
1. function forward(x, W,b):
2. logits = Wx+b
3. exp_values = exp(logits)
4. return exp_values / sum(exp_values)
{{ select(1) }}