y∈{0,1}
;中间前 5 列依次为特征:
写入次数、读取次数、平均写入延迟(ms)、平均读取延迟(ms)、设备使用年限(年)。
(若行里意外多出字段,取前 5 个数值作特征、最后一个作标签,兼容样例1)"NaN"
,视为缺失,用该列有效值的均值填充(仅用训练集估计)。在云存储系统中,需要预测存储设备故障以提前迁移数据。每条设备日志包含:
设备 ID ,写入次数,读取次数,平均写入延迟 (ms) ,平均读取延迟 (ms) ,设备使用年限(年),设备状态(0正常/1故障)
你需要实现一个设备故障预测系统。包含以下功能:
1、数据清洗:
缺失值标记为"NaN",用该字段有效值的均值填充
异常值范围:
写入/读取次数:<0
平均写入/读取延迟:<0或>1000
使用年限:<0或>20
异常值用该字段有效值的中位数替换
2、逻辑回归模型:
使用批量梯度下降法 (Batch GD) 训练,每次迭代使用全部样本
特征:[写入次数,读取次数,平均写入延迟,平均读取延迟,设备使用年限]
标签:设备状态
参数:迭代 100 次,学习率 α=0.01,初始权重全 0
3、预测输出:
预测结果: 0 (正常)或 1 (故障)
第一行为训练总个数 N,(2<=N<=100)
第二行起连续 N 行训练数据,每个训练数据包含:设备ID,写入次数,读取次数,平均写入延迟,平均读取延迟,设备使用年限,状态
第 N+2 行为预测数据总个数 M,(1<=M<=10)
第 N+3 行起连续 M 行预测数据,每个预测数据包含:设备 ID ,写入次数,读取次数,平均写入延迟,平均读取延迟,设备使用年限,状态
M 行预测结果
输入
5
dev1,NaN,-50,NaN,-2.0,25,0
dev2,180,90,18.0,9.0,4,0
dev3,NaN,80,1500.0,800.0,NaN,0
dev4,-100,-50,-5.0,-2.0,-1,0
dev5,200,NaN,20.0,NaN,5,1
2
dev_predict1,80,40,NaN,2.0,2,0
dev_predict2,210,105,18.0,9.8,4,0
输出
0
0
说明
1、预测数据包含缺失值"NaN",需要数据清洗
2、M 值为 2 ,输出分为 2 行,第一行表示“dev_predict1"设备的预测结果为 0 ,第二行表示 “dev_predict2” 设备的预期结果为 0
输入
3
dev1,100,50,20.1,10.2,2,0
dev2,150,80,25.3,NaN,3,1
dev3,120,60,22.4,15.0,1,0
1
dev_predict1,130,70,21.0,12.0,2,0
输出
1
说明
输出"dev_predict1“设备的预测结果为 1
提示
线性组合 z:
z=w0+∑i=15wixi
概率函数 P(y=1) :
P(y=1)=1+e−z1
预测规则: