深度学习算法由一个个计算单元组成,我们称这些计算单元为算子。
对于完成矢量运的算子我们称为矢量算子,在 NPU 中矩阵计算单元和向量计算单元都可以执行矢量算子,他们是独立可并行执行的,但他们的计算效率是6:1,即假设某个失量算子在矩阵计算单元上执行的时间为 N ,则在向量计算单元上执行的时间为 6N 。
给定一组矢量算子,假设他们都可以部署在矩阵计算单元和向量计算单元。为了充分利用计算资源,我们可以合理部署算子的执行单元,让总体的执行时间最短,总的执行时间为 MAX (矩阵计算单元总的执行时间,向量计算单元总的执行时间)。
为了简化计算模型,我们约定:
给定一组矢量算子,要求合理部署这些算子到矩阵计算单元和向量计算单元上,以充分利用计算资源,使得整体执行时间最短。整体执行时间定义为矩阵计算单元总执行时间和向量计算单元总执行时间的最大值。
数据范围n<=1e4考虑暴力,因为向量单元必须连续,所以考虑直接枚举区间,将(i,j)这一段区间纳入向量单元其他的纳入矩阵区间,取二者的最大值再与ans取min即可
题目要求我们合理分配一组矢量算子,使其分别在矩阵计算单元和向量计算单元上执行,并且使整体的执行时间最短。由于向量计算单元的执行效率较低(矩阵计算单元的六分之一),我们需要找到一种分配方式,使得两个单元中较大的执行时间尽可能小。