AI算力资源宝贵,在AI算法训练中,经验回放机制是通过存储和重用过去的经验数据来提高算法训练效率,以节省AI算力资源和提升算法训练迭代速度。为了进一步优化算法,我们使用优先级经验回放,根据每个经验的TD误差(TemporalDifferenceError)动态调整其采样优先级。你需要设计一个高效的数据结构和算法来支持以下操作:
插入经验:将新经验加入经验池子,并赋予初始优先级。
提取TopK经验:取出优先级最高的K个经验用于算法训练。提取经验操作后,经验池子中就少了已经提取出去的经验。若经验池中剩余的经验个数小于K,则返回−1。
更新优先级:根据训练后的TD误差,更新指定经验的优先级。每次更新优先级操作后,之前提取出来的经验又都回到经验池子中,即经验池子包含了所有插入过的经验,且优先级为最新更新后的优先级。
有一个经验池,需要支持三种操作,共有 N 次操作:
+ id score