深度学习算法由一个个计算单元组成,我们称这些计算单元为算子。
对于完成矢量运的算子我们称为矢量算子,在 NPU 中矩阵计算单元和向量计算单元都可以执行矢量算子,他们是独立可并行执行的,但他们的计算效率是6:1,即假设某个失量算子在矩阵计算单元上执行的时间为 N ,则在向量计算单元上执行的时间为 6N 。
给定一组矢量算子,假设他们都可以部署在矩阵计算单元和向量计算单元。为了充分利用计算资源,我们可以合理部署算子的执行单元,让总体的执行时间最短,总的执行时间为 MAX (矩阵计算单元总的执行时间,向量计算单元总的执行时间)。
为了简化计算模型,我们约定:
扫码备注加群即可,期待您的到来~