Activation offloading to CPU's for the Linear, Layernorm Linear and the Layernorm MLP modules #571

sanandaraj5597 · 2023-12-18T05:52:17Z

This PR adds support for offloading all the tensors saved for backward pass by the Linear, Layernorm Linear and the Layernorm MLP modules except the weight tensors.

The cpu_offloading switch will be sent from the M-LM module construction which will enable calling the PyTorch hooks during tensor saving and retrieval. When these PyT hooks are called, the weight.main_grad isn't saved, so we save them separately on a need basis when we need to fuse gradients. All these layer executions will be done under a context which is placed at M-LM repo.

Please review and let me know if you have any questions.

Signed-off-by: Selvaraj Anandaraj <selvaraja@login-eos01.eos.clusters.nvidia.com>

transformer_engine/pytorch/cpu_offload.py

transformer_engine/pytorch/module/layernorm_linear.py

…ffloading Signed-off-by: Selvaraj Anandaraj <selvaraja@login-eos01.eos.clusters.nvidia.com>

ptrendx · 2024-01-11T22:11:54Z

/te-ci pytorch

transformer_engine/pytorch/module/linear.py

ptrendx · 2024-01-11T22:27:29Z

Could you add some unit test for the functionality?

transformer_engine/pytorch/cpu_offload.py

Signed-off-by: Selvaraj Anandaraj <selvaraja@login-eos01.eos.clusters.nvidia.com>

Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

ptrendx · 2024-01-12T18:08:28Z

/te-ci pytorch

ptrendx

Waiting for unit test and then lgtm.

transformer_engine/pytorch/cpu_offload.py

Signed-off-by: Selvaraj Anandaraj <selvaraja@login-eos01.eos.clusters.nvidia.com>

ksivaman · 2024-01-19T17:09:08Z

/te-ci pytorch

Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

ksivaman · 2024-01-20T09:16:39Z

I've fixed most of the functional and lint errors and added some new tests as well as opposed to the singular test file that wasn't being used. The offloading for the TransformerLayer is failing with the following error due to the LayerNormMLP block, specifically during the offloading of weights.

RuntimeError: Attempting to use FunctionalTensor on its own. Instead, please use it with a corresponding FunctionalTensorMode()

ksivaman · 2024-01-20T09:26:19Z

@sanandaraj5597 The above bug is a result of an attempted offload of a [4, 4] tensor, which seems unusual.
Additionally, the Linear and LayerNormLinear modules are not setting the weight_offloading attribute for the weight itself.

Signed-off-by: Selvaraj Anandaraj <selvaraja@login-eos01.eos.clusters.nvidia.com>

sanandaraj5597 · 2024-01-21T02:10:46Z

Fixed the issue you were seeing Kirthi. Please review. Thank you.

Signed-off-by: Selvaraj Anandaraj <selvaraja@login-eos01.eos.clusters.nvidia.com>

Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

ksivaman

FP8 cases were failing since the intermediate buffers for offloading and copying to the CPU were not Float8Tensor compatible.
The inputs saved could be null tensors, thus assigning the activation_offloading attribute directly caused some issues.
LayerNorm and RMSNorm should also both work now.

LGTM, CI pending.

ksivaman · 2024-01-21T09:04:31Z

/te-ci pytorch

…he Layernorm MLP modules (#571) * Added support activation offloading to CPU's Signed-off-by: Selvaraj Anandaraj <selvaraja@login-eos01.eos.clusters.nvidia.com> * Moving CPU offloading library to TE Signed-off-by: Selvaraj Anandaraj <selvaraja@login-eos01.eos.clusters.nvidia.com> * Restructured code, added switch to choose between weight/activation offloading Signed-off-by: Selvaraj Anandaraj <selvaraja@login-eos01.eos.clusters.nvidia.com> * Removed arg during constructor Signed-off-by: Selvaraj Anandaraj <selvaraja@login-eos01.eos.clusters.nvidia.com> * Fix nit-pick errors Signed-off-by: Selvaraj Anandaraj <selvaraja@login-eos01.eos.clusters.nvidia.com> * Documentation fixes Signed-off-by: Przemek Tredak <ptredak@nvidia.com> * Fix to the code block in docs Signed-off-by: Przemek Tredak <ptredak@nvidia.com> * Added offloading unit test Signed-off-by: Selvaraj Anandaraj <selvaraja@login-eos01.eos.clusters.nvidia.com> * Fixed formatting Signed-off-by: Selvaraj Anandaraj <selvaraja@login-eos01.eos.clusters.nvidia.com> * wgrad fusion fix, minor errors and lint Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Errors, test, lint Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * RM test file Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Fixed stray PyT tensors in LayernormMLP getting offloaded Signed-off-by: Selvaraj Anandaraj <selvaraja@login-eos01.eos.clusters.nvidia.com> * Fixed typi Signed-off-by: Selvaraj Anandaraj <selvaraja@login-eos01.eos.clusters.nvidia.com> * Fix offloading for rmsnorm, rm test Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Fix errors Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Float8Tensor compatible offloading Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * Cleanup Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> --------- Signed-off-by: Selvaraj Anandaraj <selvaraja@login-eos01.eos.clusters.nvidia.com> Signed-off-by: Przemek Tredak <ptredak@nvidia.com> Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> Co-authored-by: Selvaraj Anandaraj <selvaraja@login-eos01.eos.clusters.nvidia.com> Co-authored-by: Przemyslaw Tredak <ptredak@nvidia.com> Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

Selvaraj Anandaraj and others added 3 commits December 17, 2023 20:50

Added support activation offloading to CPU's

7cbc9c6

Signed-off-by: Selvaraj Anandaraj <selvaraja@login-eos01.eos.clusters.nvidia.com>

Merge branch 'NVIDIA:main' into main

991d54a

Moving CPU offloading library to TE

54e0206

Signed-off-by: Selvaraj Anandaraj <selvaraja@login-eos01.eos.clusters.nvidia.com>

ptrendx reviewed Jan 4, 2024

View reviewed changes

transformer_engine/pytorch/cpu_offload.py Outdated Show resolved Hide resolved

ptrendx reviewed Jan 4, 2024

View reviewed changes

transformer_engine/pytorch/module/layernorm_linear.py Show resolved Hide resolved

ptrendx requested a review from ksivaman January 4, 2024 19:03

ksivaman self-assigned this Jan 10, 2024

sanandaraj5597 and others added 4 commits January 10, 2024 15:41

Merge branch 'NVIDIA:main' into main

3210f84

Restructured code, added switch to choose between weight/activation o…

cb831f5

…ffloading Signed-off-by: Selvaraj Anandaraj <selvaraja@login-eos01.eos.clusters.nvidia.com>

Merge remote-tracking branch 'refs/remotes/origin/main'

ca1808c

Merge branch 'main' into main

c8ad95b