#P2957. 第1题-AI算法训练中的动态优先级经验回放

第1题-AI算法训练中的动态优先级经验回放

题目内容

AIAI算力资源宝贵,在AIAI算法训练中,经验回放机制是通过存储和重用过去的经验数据来提高算法训练效率,以节省AIAI算力资源和提升算法训练迭代速度。为了进一步优化算法,我们使用优先级经验回放,根据每个经验的TDTD误差(TemporalDifferenceError)(Temporal Difference Error)动态调整其采样优先级。你需要设计一个高效的数据结构和算法来支持以下操作:

插入经验:将新经验加入经验池子,并赋予初始优先级。

提取TopKTopK经验:取出优先级最高的KK个经验用于算法训练。提取经验操作后,经验池子中就少了已经提取出去的经验。若经验池中剩余的经验个数小于KK,则返回1-1

更新优先级:根据训练后的TDTD误差,更新指定经验的优先级。每次更新优先级操作后,之前提取出来的经验又都回到经验池子中,即经验池子包含了所有插入过的经验,且优先级为最新更新后的优先级。