Scaled Dot-Product Self-Attention
对输入 X (L×D):
Q=XWq, K=XWk, V=XWv(均为 L×D)。S = QK^T / sqrt(D)(L×L)。某工业制造企业在其生产线上部署了多台传感器以监控关键设备(如电机、泵、压缩机等)的运行状态。这些传感器周期性地采集设备的多维度运行数据(如温度、振动、压力、电流、转速等),每隔固定时间窗口会生成一组时序特征数据。为了实现设备早期故障预警,需要对每一组采集到时序数据进行异常检测和评分。工程师们通过人工标记历史数据集,训练出一套多层自注意力(Self−Attention)+多层全连接层(FC)结构的神经网管模型。现在,为了模型的快速部罢与测试,需要根据题目中给定的网络权重参数,编写代码完成端到端推理,输出每一组传感器时序数据的最终导常分数。结构如下图所示:

具体说明如下:
每一组采集数据为一个二维矩阵,尺寸为L,L采样时序长度,D为每次采样包含的特征数(如:10个时间点、每点5个特征)。
网络结构为:两层Self−Attention,每层后接全连接层FC,最终输出异常分数。为简化起见,网络中无非线性激活函数。