[Question] Why Tensor parallel communication/GEMM overlap can happen only when sequence parallelism is enabled? #746

hxdtest · 2024-04-03T09:24:53Z

In Megatron, I find that the check for tp_comm_overlap and sequence_parallel。

if args.tp_comm_overlap:         
        assert args.sequence_parallel == True, 'Tensor parallel communication/GEMM overlap can happen only when sequence parallelism is enabled'

But why?

The text was updated successfully, but these errors were encountered:

ptrendx · 2024-04-09T20:48:43Z

That is because we currently only support AllGather/ReduceScatter overlapping with GEMM (and those communication types are used when sequence parallelism is enabled, as opposed to AllReduce which is being used in the other cases).

ptrendx added enhancement New feature or request labels May 16, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Question] Why Tensor parallel communication/GEMM overlap can happen only when sequence parallelism is enabled? #746

[Question] Why Tensor parallel communication/GEMM overlap can happen only when sequence parallelism is enabled? #746

hxdtest commented Apr 3, 2024

ptrendx commented Apr 9, 2024

[Question] Why Tensor parallel communication/GEMM overlap can happen only when sequence parallelism is enabled? #746

[Question] Why Tensor parallel communication/GEMM overlap can happen only when sequence parallelism is enabled? #746

Comments

hxdtest commented Apr 3, 2024

ptrendx commented Apr 9, 2024