第2题-大模型训练流水线并行(PP)最优估计计算 - problem_ide - CodeFun2000

登录查看题面

登录后即可查看完整题面内容。

会员专享

请先登录，登录后可使用今日免费解锁；开通会员，或购买该题目所属题库（华为校招机考题库），可解锁完整内容。

购买题库开通会员

解题思路

设模型总层数为 $n$ ，单卡最大承载层数为 $c$ ， $micro\ batch$ 数为 $m$ ，硬件总卡数为 $h$ 。

可行的 $PP$ 需要满足：

$PP \le h$
$n % PP = 0$
$\frac{n}{PP} \le c$

编辑器加载中…

输入

预期输出（选填）