解题思路

题目内容

大模型训练通常采用数据并行的训练方式，处理大规模数据集(样本)，加速训练过程，具休的:

假设有 $n$ 个 $NPU$ ， $m$ 个样本，把 $m$ 个样本分给 $n$ 个 $NPU$ ，每个 $NPU$ 上有一份完整模型，各自计算自己的样本数据，其中 $m>=n$ ，保证每个 $NPU$ 至少分到一个样本，且样本不能切分，一个样本必须完整的被分到个 $NPU$ 上

每个 $NPU$ 的运行时间跟所分到的样本的长度和呈正相关。如果每个 $NPU$ 上的样本长度和相差较大，会形成木桶效应，执行快的 $NPU$ 等待执行慢的 $NPU$ ，最终执行时间由最大样本和长度的 $NPU$ 决定。

试着编号一段程序对样本进行均衡分配，设 $n$ 个 $NPU$ 上分得的最大的样本和为 $l_{max}$ ，使 $l_{max}$ 最小，即求 $min(l_{max})$

开通会员即可查看完整视频题解： 1.题目讲解 2.思路分析 3.逐行代码手写

请从“运行结果”或“历史提交”选择一条记录

选择提交后开始分析