[Paddle] Optimize memory usage when training in pipeline parallel #580

Tom-Zheng · 2023-12-27T09:50:55Z

Note: Merge #561 before this one.

This PR adds the following optimization:

Actively delete tensor to free memory in FP8 linear backward
Support FP8 weight caching in pipeline parallel

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

- Allow skipping weight update in fp8 meta update Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

zlsh80826 · 2024-01-11T06:04:38Z

/te-ci paddle

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

zlsh80826 · 2024-01-12T01:56:35Z

/te-ci paddle

Tom-Zheng · 2024-01-12T02:03:32Z

@jeng1220 Ready for review.

jeng1220 · 2024-01-12T14:46:57Z

@timmoon10 and @ksivaman ,
All tests were passed. Could you please merge this PR?
Thanks

timmoon10

LGTM, thanks!

Tom-Zheng marked this pull request as draft December 27, 2023 09:51

Wong4j mentioned this pull request Jan 7, 2024

[Paddle] Support GQA #595

Merged

Tom-Zheng added 7 commits January 11, 2024 05:29

Actively free tensor in bwd

03d0a9c

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

- Add inplace support for fp8 casting

b39cc07

- Allow skipping weight update in fp8 meta update Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

Support weight caching for Linear

3fcd863

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

Add weight caching for LayernormLinear

d8cd0fc

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

Add weight caching for LayerNormMLP

b80a08f

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

Add weight caching for Transformer layer

ceb0eac

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

Add PP unittests

9e54901

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

Tom-Zheng force-pushed the tizheng/optimize_memory branch from f071572 to 9e54901 Compare January 11, 2024 05:31

Tom-Zheng marked this pull request as ready for review January 11, 2024 05:32

Fix CI

7246800

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

timmoon10 approved these changes Jan 12, 2024

View reviewed changes

timmoon10 merged commit daad219 into NVIDIA:main Jan 12, 2024
15 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Paddle] Optimize memory usage when training in pipeline parallel #580

[Paddle] Optimize memory usage when training in pipeline parallel #580

Tom-Zheng commented Dec 27, 2023

zlsh80826 commented Jan 11, 2024

zlsh80826 commented Jan 12, 2024

Tom-Zheng commented Jan 12, 2024 •

edited

Loading

jeng1220 commented Jan 12, 2024

timmoon10 left a comment

[Paddle] Optimize memory usage when training in pipeline parallel #580

[Paddle] Optimize memory usage when training in pipeline parallel #580

Conversation

Tom-Zheng commented Dec 27, 2023

zlsh80826 commented Jan 11, 2024

zlsh80826 commented Jan 12, 2024

Tom-Zheng commented Jan 12, 2024 • edited Loading

jeng1220 commented Jan 12, 2024

timmoon10 left a comment

Choose a reason for hiding this comment

Tom-Zheng commented Jan 12, 2024 •

edited

Loading