DeepSpeed の記事 | lilting channel

技術2026年4月9日(木)約16分

MegaTrainはシングルGPUで120BパラメータLLMをフル精度訓練する

CPUメモリを主記憶、GPUを一時的な計算装置として扱う逆転の発想で、100B超のLLMをシングルGPUでフル精度訓練するシステムMegaTrain。DeepSpeed ZeRO-3比で最大12.2倍のスループットを達成した。