Scaled Dot-Product Self-Attention
对输入 X (L×D)
:
Q=XWq, K=XWk, V=XWv
(均为 L×D
)。S = QK^T / sqrt(D)
(L×L
)。S
每行做 softmax 得到注意力矩阵 A
。某工业制造企业在其生产线上部署了多台传感器以监控关键设备(如电机、泵、压缩机等)的运行状态。这些传感器周期性地采集设备的多维度运行数据(如温度、振动、压力、电流、转速等),每隔固定时间窗口会生成一组时序特征数据。为了实现设备早期故障预警,需要对每一组采集到时序数据进行异常检测和评分。工程师们通过人工标记历史数据集,训练出一套多层自注意力(Self−Attention)+多层全连接层(FC)结构的神经网管模型。现在,为了模型的快速部罢与测试,需要根据题目中给定的网络权重参数,编写代码完成端到端推理,输出每一组传感器时序数据的最终导常分数。结构如下图所示:
具体说明如下:
每一组采集数据为一个二维矩阵,尺寸为L,L采样时序长度,D为每次采样包含的特征数(如:10个时间点、每点5个特征)。
网络结构为:两层Self−Attention,每层后接全连接层FC,最终输出异常分数。为简化起见,网络中无非线性激活函数。