[JAX][Common] Support GQA #578

zlsh80826 · 2023-12-26T15:35:22Z

Support GQA/MQA (num_gqa_groups) for both fused attention and unfused attention implementation.
Fix the kv_stride of the flash attention
Refactor fused attention test and add GQA tests
Calculate the seqlen before the primitive for the better perf (avoid to recompute it again in bwd)

zlsh80826 · 2023-12-26T15:36:47Z

/te-ci

zlsh80826 · 2023-12-27T04:50:35Z

/te-ci jax

cyanguwa

Please fix CI. Looks good to me. Thanks!

transformer_engine/common/fused_attn/fused_attn_f16_arbitrary_seqlen.cu

transformer_engine/jax/flax/transformer.py

tests/jax/utils.py

zlsh80826 · 2024-01-08T07:15:11Z

/te-ci

zlsh80826 · 2024-01-08T09:08:08Z

/te-ci

zlsh80826 · 2024-01-10T13:50:04Z

/te-ci

zlsh80826 · 2024-01-11T07:41:57Z

/te-ci

Signed-off-by: Reese Wang <rewang@nvidia.com>

zlsh80826 · 2024-01-14T07:37:43Z

/te-ci

Signed-off-by: Reese Wang <rewang@nvidia.com>

zlsh80826 · 2024-01-14T15:01:06Z

/te-ci

zlsh80826 · 2024-01-15T16:39:11Z

@cyanguwa @denera @mingxu1067, all unit tests passed. Could you help review again? Thanks

mingxu1067

LGTM

cyanguwa

LGTM

* Support num_gqa_groups arguments Signed-off-by: Reese Wang <rewang@nvidia.com> * Add GQA support on the JAX bridge code Signed-off-by: Reese Wang <rewang@nvidia.com> * Fix the kv stride of the arbitrary backend Signed-off-by: Reese Wang <rewang@nvidia.com> * Complete rewrite fused attention tests and add GQA coverage Signed-off-by: Reese Wang <rewang@nvidia.com> * Support unfused GQA Signed-off-by: Reese Wang <rewang@nvidia.com> * Calculate seqlen before the primitive for the better perf Signed-off-by: Reese Wang <rewang@nvidia.com> * Add GQA layer tests Signed-off-by: Reese Wang <rewang@nvidia.com> * Apply code style checks for te_jax Signed-off-by: Reese Wang <rewang@nvidia.com> * Apply code style checks for tests Signed-off-by: Reese Wang <rewang@nvidia.com> * Add num_gqa_groups doc Signed-off-by: Reese Wang <rewang@nvidia.com> * Refine the qkv_type Signed-off-by: Reese Wang <rewang@nvidia.com> * Correct the variable naming Signed-off-by: Reese Wang <rewang@nvidia.com> * Handle Max512 CAUSAL Signed-off-by: Reese Wang <rewang@nvidia.com> * Add WAR for the latest jax image Signed-off-by: Reese Wang <rewang@nvidia.com> --------- Signed-off-by: Reese Wang <rewang@nvidia.com>

zlsh80826 force-pushed the rewang/gqa-clean branch 2 times, most recently from 0f641e6 to 000548c Compare December 27, 2023 04:24

zlsh80826 marked this pull request as ready for review December 27, 2023 04:50

zlsh80826 requested review from mingxu1067, cyanguwa and denera December 27, 2023 04:50

cyanguwa reviewed Jan 5, 2024

View reviewed changes

transformer_engine/common/fused_attn/fused_attn_f16_arbitrary_seqlen.cu Outdated Show resolved Hide resolved

transformer_engine/jax/flax/transformer.py Outdated Show resolved Hide resolved

tests/jax/utils.py Show resolved Hide resolved

zlsh80826 force-pushed the rewang/gqa-clean branch from 000548c to 5372c5c Compare January 8, 2024 07:14

zlsh80826 force-pushed the rewang/gqa-clean branch from 26fa707 to 13b4cc0 Compare January 8, 2024 09:07

zlsh80826 force-pushed the rewang/gqa-clean branch from b538b4a to 13b4cc0 Compare January 11, 2024 03:24

zlsh80826 added 13 commits January 14, 2024 06:07

Support num_gqa_groups arguments

2cb5a08

Signed-off-by: Reese Wang <rewang@nvidia.com>

Add GQA support on the JAX bridge code

9adee47

Signed-off-by: Reese Wang <rewang@nvidia.com>

Fix the kv stride of the arbitrary backend

2e0bc84

Signed-off-by: Reese Wang <rewang@nvidia.com>

Complete rewrite fused attention tests and add GQA coverage

53e7b65

Signed-off-by: Reese Wang <rewang@nvidia.com>

Support unfused GQA

5b76943

Signed-off-by: Reese Wang <rewang@nvidia.com>

Calculate seqlen before the primitive for the better perf

ae6d209

Signed-off-by: Reese Wang <rewang@nvidia.com>

Add GQA layer tests

8d5d407

Signed-off-by: Reese Wang <rewang@nvidia.com>

Apply code style checks for te_jax

3d0c38e

Signed-off-by: Reese Wang <rewang@nvidia.com>

Apply code style checks for tests

db2cc1f

Signed-off-by: Reese Wang <rewang@nvidia.com>

Add num_gqa_groups doc

21ed876

Signed-off-by: Reese Wang <rewang@nvidia.com>

Refine the qkv_type

844eb42

Signed-off-by: Reese Wang <rewang@nvidia.com>

Correct the variable naming

65df768

Signed-off-by: Reese Wang <rewang@nvidia.com>

Handle Max512 CAUSAL

bbe7066

Signed-off-by: Reese Wang <rewang@nvidia.com>

zlsh80826 force-pushed the rewang/gqa-clean branch from acc308a to bbe7066 Compare January 14, 2024 07:36

Add WAR for the latest jax image

edb474f

Signed-off-by: Reese Wang <rewang@nvidia.com>

zlsh80826 requested a review from cyanguwa January 15, 2024 16:38

mingxu1067 approved these changes Jan 16, 2024

View reviewed changes

cyanguwa approved these changes Jan 16, 2024

View reviewed changes

cyanguwa merged commit 8f6c524 into NVIDIA:main Jan 16, 2024
28 checks passed

zlsh80826 mentioned this pull request Jan 30, 2024

[JAX] Fix unfused GQA performance #643

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[JAX][Common] Support GQA #578

[JAX][Common] Support GQA #578

zlsh80826 commented Dec 26, 2023 •

edited

Loading

zlsh80826 commented Dec 26, 2023

zlsh80826 commented Dec 27, 2023

cyanguwa left a comment

zlsh80826 commented Jan 8, 2024

zlsh80826 commented Jan 8, 2024

zlsh80826 commented Jan 10, 2024

zlsh80826 commented Jan 11, 2024

zlsh80826 commented Jan 14, 2024

zlsh80826 commented Jan 14, 2024

zlsh80826 commented Jan 15, 2024

mingxu1067 left a comment

cyanguwa left a comment

[JAX][Common] Support GQA #578

[JAX][Common] Support GQA #578

Conversation

zlsh80826 commented Dec 26, 2023 • edited Loading

zlsh80826 commented Dec 26, 2023

zlsh80826 commented Dec 27, 2023

cyanguwa left a comment

Choose a reason for hiding this comment

zlsh80826 commented Jan 8, 2024

zlsh80826 commented Jan 8, 2024

zlsh80826 commented Jan 10, 2024

zlsh80826 commented Jan 11, 2024

zlsh80826 commented Jan 14, 2024

zlsh80826 commented Jan 14, 2024

zlsh80826 commented Jan 15, 2024

mingxu1067 left a comment

Choose a reason for hiding this comment

cyanguwa left a comment

Choose a reason for hiding this comment

zlsh80826 commented Dec 26, 2023 •

edited

Loading