[JAX] Unifying GeLU and GeGLU in LayerNorm MLP (NVIDIA#765)

* combined layernorm_geglu with layernorm_gelu into fused_layernorm Signed-off-by: Phuong Nguyen <phuonguyen@nvidia.com> * fixes to pass all unit tests in test_custom_call_compute.py, test_layer.py, and test_praxis_layer.py Signed-off-by: Phuong Nguyen <phuonguyen@nvidia.com> * cleaning and formatting Signed-off-by: Phuong Nguyen <phuonguyen@nvidia.com> * renaming based on reviewers suggestions Signed-off-by: Phuong Nguyen <phuonguyen@nvidia.com> * implemented partial fused layernorm Signed-off-by: Phuong Nguyen <phuonguyen@nvidia.com> * geglu + bias passed tests Signed-off-by: Phuong Nguyen <phuonguyen@nvidia.com> * added partial fused calculation for dbias_1 Signed-off-by: Phuong Nguyen <phuonguyen@nvidia.com> * clean up Co-authored-by: Alp Dener <adener@nvidia.com> Signed-off-by: Phuong Nguyen <36155692+phu0ngng@users.noreply.github.com> --------- Signed-off-by: Phuong Nguyen <phuonguyen@nvidia.com> Signed-off-by: Phuong Nguyen <36155692+phu0ngng@users.noreply.github.com> Co-authored-by: Alp Dener <adener@nvidia.com> Signed-off-by: Pawel Gadzinski <pgadzinski@nvidia.com>
pggPL · May 16, 2024 · 80f3547 · 80f3547
1 parent 35c3d5a
commit 80f3547
Show file tree

Hide file tree

Showing 8 changed files with 575 additions and 617 deletions.
diff --git a/tests/jax/test_custom_call_compute.py b/tests/jax/test_custom_call_compute.py
@@ -4,6 +4,7 @@
 
 import functools
 import operator
+from typing import Callable, Sequence, Union
 
 import jax
 import jax.numpy as jnp
@@ -22,8 +23,7 @@
 from transformer_engine.jax.fp8 import FP8MetaPackage, FP8Helper
 from transformer_engine.jax.fp8 import is_fp8_available
 from transformer_engine.jax.layernorm import layernorm
-from transformer_engine.jax.mlp import layernorm_geglu_fp8_mlp
-from transformer_engine.jax.mlp import layernorm_gelu_fp8_mlp
+from transformer_engine.jax.mlp import fused_layernorm_fp8_mlp
 
 GEMM_CASES = [
     (256, 256, 512),
@@ -174,32 +174,49 @@ def ref_func(x, y):
         assert_allclose(primitive_b_grad, ref_b_grad, dtype=FP8Helper.BWD_DTYPE)
 
     @pytest.mark.skipif(not is_fp8_supported, reason=reason)
-    @pytest.mark.parametrize('m,n,k', [(256, 256, 512), (16384, 1024, 2816), (16384, 2816, 1024),
+    @pytest.mark.parametrize('m,n,k', [(256, 512, 128), (16384, 1024, 2816), (16384, 2816, 1024),
                                        (16384, 1024, 1024)])
-    def test_grad_ln_geglu_fp8_mlp(self, m, n, k):
+    @pytest.mark.parametrize('activation_type', [('gelu', ),
+                                                 ('gelu', 'linear')])
+    @pytest.mark.parametrize('use_bias', [True, False])
+    def test_grad_fused_layernorm_fp8_mlp(self, m, n, k,
+                                          activation_type: Sequence[Union[str, Callable]],
+                                          use_bias: bool):
+        """  N/a """
         key = jax.random.PRNGKey(0)
-        subkeys = jax.random.split(key, 4)
-        activations = ('gelu', 'linear')
+        subkeys = jax.random.split(key, 6)
+
+        activation_dict = {
+            ('gelu', ): jax.nn.gelu
+        }
 
         a = jax.random.normal(subkeys[0], (m, k), jnp.bfloat16)
-        k1 = jax.random.normal(subkeys[1], (k, len(activations), n), jnp.bfloat16)
+        k1 = jax.random.normal(subkeys[1], (k, len(activation_type), n), jnp.bfloat16)
         k2 = jax.random.normal(subkeys[2], (n, k), jnp.bfloat16)
-        s = jax.random.normal(subkeys[3], (k,), jnp.bfloat16)
+        s = jax.random.normal(subkeys[5], (k,), jnp.bfloat16)
+        if use_bias:
+            b1 = jax.random.normal(subkeys[3], (len(activation_type), n), jnp.bfloat16)
+            b2 = jax.random.normal(subkeys[4], (k,), jnp.bfloat16)
+        else:
+            b1 = jax.random.normal(subkeys[3], (0,), jnp.bfloat16)
+            b2 = jax.random.normal(subkeys[4], (0,), jnp.bfloat16)
 
         init_fp8_max = FP8Helper.generate_fp8_max_array(FP8Helper.NUM_META_PER_GEMM * 2)
         init_fp8_metas_amax = jnp.zeros(
             (FP8Helper.NUM_META_PER_GEMM * 2, FP8Helper.AMAX_HISTORY_LEN), jnp.float32)
         init_fp8_metas_scale = jnp.ones((FP8Helper.NUM_META_PER_GEMM * 2, 1), jnp.float32)
         init_fp8_metas_scale_inv = jnp.ones((FP8Helper.NUM_META_PER_GEMM * 2, 1), jnp.float32)
 
-        def primitive_func(x, ln_s, y, z, fp8_max, fp8_metas_amax, fp8_metas_scale,
+        def primitive_func(x, ln_s, y, z, w, v, fp8_max, fp8_metas_amax, fp8_metas_scale,
                            fp8_metas_scale_inv):
             # x is input tensor, matrix 2d
             # y, z are weights, matrix 2d
-            # out = (x * y) * z
+            # out = ((x * y) + w) * z + v
             fp8_meta_pkg = FP8MetaPackage(2, fp8_max, fp8_metas_amax, fp8_metas_scale,
                                           fp8_metas_scale_inv)
-            return jnp.mean(layernorm_geglu_fp8_mlp(x, ln_s, None, [y, z], fp8_meta_pkg, "rmsnorm"))
+            return jnp.mean(
+                fused_layernorm_fp8_mlp(x, ln_s, None, [y, z], [w, v], fp8_meta_pkg, "rmsnorm",
+                                activation_type = activation_type, use_bias = use_bias))
 
         def _convert_to_activation_function(fn_or_string):
             """Convert a string to an activation function."""
@@ -211,115 +228,7 @@ def _convert_to_activation_function(fn_or_string):
                 return fn_or_string
             raise ValueError(f"don't know how to convert {fn_or_string} to an activation function")
 
-        def ln_geglu_fp8_mlp_ref(x: jnp.ndarray, ln_scale: jnp.ndarray, kernel_1: jnp.ndarray,
-                                 kernel_2: jnp.ndarray, fp8_maxs: jnp.ndarray, amax: jnp.ndarray,
-                                 scale: jnp.ndarray, scale_inv: jnp.ndarray) -> jnp.ndarray:
-
-            x = jnp.asarray(x, jnp.float32)
-            mean2 = jnp.mean(jax.lax.square(x), axis=-1, keepdims=True)
-            y = jnp.asarray(x * jax.lax.rsqrt(mean2 + 1e-6), jnp.bfloat16)
-            ln_out = y * ln_scale
-            ln_out = jnp.asarray(ln_out, jnp.bfloat16)
-
-            fp8_gemm_1_pkg = FP8MetaPackage(1, fp8_maxs[:FP8Helper.NUM_META_PER_GEMM],
-                                            amax[:FP8Helper.NUM_META_PER_GEMM],
-                                            scale[:FP8Helper.NUM_META_PER_GEMM],
-                                            scale_inv[:FP8Helper.NUM_META_PER_GEMM])
-            linear_1_out = type_safe_dot_general(ln_out, kernel_1, fp8_gemm_1_pkg, ((1,), (0,)))
-
-            x = jnp.split(linear_1_out, len(activations), axis=-2)
-            acts = []
-            for idx, act_fn in enumerate(activations):
-                x_i = _convert_to_activation_function(act_fn)(x[idx])
-                acts.append(x_i)
-            x = functools.reduce(operator.mul, acts)
-            x = jnp.asarray(jnp.squeeze(x, axis=-2), jnp.bfloat16)
-
-            fp8_gemm_2_pkg = FP8MetaPackage(1, fp8_maxs[FP8Helper.NUM_META_PER_GEMM:],
-                                            amax[FP8Helper.NUM_META_PER_GEMM:],
-                                            scale[FP8Helper.NUM_META_PER_GEMM:],
-                                            scale_inv[FP8Helper.NUM_META_PER_GEMM:])
-            output = type_safe_dot_general(x, kernel_2, fp8_gemm_2_pkg, ((1,), (0,)))
-            return output
-
-        def ref_func(x, ln_s, y, z, fp8_max, fp8_metas_amax, fp8_metas_scale, fp8_metas_scale_inv):
-            return jnp.mean(
-                ln_geglu_fp8_mlp_ref(x, ln_s, y, z, fp8_max, fp8_metas_amax, fp8_metas_scale,
-                                     fp8_metas_scale_inv))
-
-        value_n_grad_primitive_func = jit(value_and_grad(primitive_func, (0, 1, 2, 3, 4, 5, 6, 7)))
-        value_n_grad_ref_func = jit(value_and_grad(ref_func, (0, 1, 2, 3, 4, 5, 6, 7)))
-
-        ref_fp8_max = init_fp8_max
-        ref_fp8_metas_amax = init_fp8_metas_amax
-        ref_fp8_metas_scale = init_fp8_metas_scale
-        ref_fp8_metas_scale_inv = init_fp8_metas_scale_inv
-
-        pri_fp8_max = init_fp8_max
-        pri_fp8_metas_amax = init_fp8_metas_amax
-        pri_fp8_metas_scale = init_fp8_metas_scale
-        pri_fp8_metas_scale_inv = init_fp8_metas_scale_inv
-
-        for _ in range(3):
-            ref_out, (ref_a_grad, ref_s_grad, ref_k1_grad, ref_k2_grad, ref_fp8_max,
-                      ref_fp8_metas_amax, ref_fp8_metas_scale,
-                      ref_fp8_metas_scale_inv) = value_n_grad_ref_func(
-                          a, s, k1, k2, ref_fp8_max, ref_fp8_metas_amax, ref_fp8_metas_scale,
-                          ref_fp8_metas_scale_inv)
-
-        for _ in range(3):
-            primitive_out, (primitive_a_grad, primitive_s_grad, primitive_k1_grad,
-                            primitive_k2_grad, pri_fp8_max, pri_fp8_metas_amax, pri_fp8_metas_scale,
-                            pri_fp8_metas_scale_inv) = value_n_grad_primitive_func(
-                                a, s, k1, k2, pri_fp8_max, pri_fp8_metas_amax, pri_fp8_metas_scale,
-                                pri_fp8_metas_scale_inv)
-
-        assert_allclose(primitive_out, ref_out, dtype=FP8Helper.FWD_DTYPE)
-        assert_allclose(jnp.asarray(primitive_a_grad, np.float32),
-                        jnp.asarray(ref_a_grad, np.float32),
-                        dtype=FP8Helper.BWD_DTYPE)
-        assert_allclose(jnp.asarray(primitive_k1_grad, np.float32),
-                        jnp.asarray(ref_k1_grad, np.float32),
-                        dtype=FP8Helper.BWD_DTYPE)
-        assert_allclose(jnp.asarray(primitive_k2_grad, np.float32),
-                        jnp.asarray(ref_k2_grad, np.float32),
-                        dtype=FP8Helper.BWD_DTYPE)
-        assert_allclose(jnp.asarray(primitive_s_grad, np.float32),
-                        jnp.asarray(ref_s_grad, np.float32),
-                        dtype=FP8Helper.BWD_DTYPE)
-
-    @pytest.mark.skipif(not is_fp8_supported, reason=reason)
-    @pytest.mark.parametrize('m,n,k', [(256, 256, 512), (16384, 1024, 2816), (16384, 2816, 1024),
-                                       (16384, 1024, 1024)])
-    def test_grad_ln_gelu_fp8_mlp(self, m, n, k):
-        key = jax.random.PRNGKey(0)
-        subkeys = jax.random.split(key, 6)
-        activations = ('gelu',)
-
-        a = jax.random.normal(subkeys[0], (m, k), jnp.bfloat16)
-        k1 = jax.random.normal(subkeys[1], (k, len(activations), n), jnp.bfloat16)
-        k2 = jax.random.normal(subkeys[2], (n, k), jnp.bfloat16)
-        b1 = jax.random.normal(subkeys[3], (len(activations), n), jnp.bfloat16)
-        b2 = jax.random.normal(subkeys[4], (k,), jnp.bfloat16)
-        s = jax.random.normal(subkeys[5], (k,), jnp.bfloat16)
-
-        init_fp8_max = FP8Helper.generate_fp8_max_array(FP8Helper.NUM_META_PER_GEMM * 2)
-        init_fp8_metas_amax = jnp.zeros(
-            (FP8Helper.NUM_META_PER_GEMM * 2, FP8Helper.AMAX_HISTORY_LEN), jnp.float32)
-        init_fp8_metas_scale = jnp.ones((FP8Helper.NUM_META_PER_GEMM * 2, 1), jnp.float32)
-        init_fp8_metas_scale_inv = jnp.ones((FP8Helper.NUM_META_PER_GEMM * 2, 1), jnp.float32)
-
-        def primitive_func(x, ln_s, y, z, w, v, fp8_max, fp8_metas_amax, fp8_metas_scale,
-                           fp8_metas_scale_inv):
-            # x is input tensor, matrix 2d
-            # y, z are weights, matrix 2d
-            # out = ((x * y) + w) * z + v
-            fp8_meta_pkg = FP8MetaPackage(2, fp8_max, fp8_metas_amax, fp8_metas_scale,
-                                          fp8_metas_scale_inv)
-            return jnp.mean(
-                layernorm_gelu_fp8_mlp(x, ln_s, None, [y, z], [w, v], fp8_meta_pkg, "rmsnorm"))
-
-        def ln_gelu_fp8_mlp_ref(x: jnp.ndarray, ln_scale: jnp.ndarray, kernel_1: jnp.ndarray,
+        def layernorm_fp8_mlp_ref(x: jnp.ndarray, ln_scale: jnp.ndarray, kernel_1: jnp.ndarray,
                                 kernel_2: jnp.ndarray, bias_1: jnp.ndarray, bias_2: jnp.ndarray,
                                 fp8_maxs: jnp.ndarray, amax: jnp.ndarray, scale: jnp.ndarray,
                                 scale_inv: jnp.ndarray) -> jnp.ndarray:
@@ -336,10 +245,20 @@ def ln_gelu_fp8_mlp_ref(x: jnp.ndarray, ln_scale: jnp.ndarray, kernel_1: jnp.nda
                                             scale_inv[:FP8Helper.NUM_META_PER_GEMM])
             linear_1_out = type_safe_dot_general(ln_out, kernel_1, fp8_gemm_1_pkg, ((1,), (0,)))
 
-            bias_1_shape = (1,) * (linear_1_out.ndim - bias_1.ndim) + bias_1.shape
-            linear_1_out += jnp.reshape(bias_1, bias_1_shape)
+            if use_bias:
+                bias_1_shape = (1,) * (linear_1_out.ndim - bias_1.ndim) + bias_1.shape
+                linear_1_out += jnp.reshape(bias_1, bias_1_shape)
+
+            if 'linear' in activation_type:
+                x = jnp.split(linear_1_out, len(activation_type), axis=-2)
+                acts = []
+                for idx, act_fn in enumerate(activation_type):
+                    x_i = _convert_to_activation_function(act_fn)(x[idx])
+                    acts.append(x_i)
+                x = functools.reduce(operator.mul, acts)
+            else:
+                x = activation_dict[activation_type](linear_1_out)
 
-            x = jax.nn.gelu(linear_1_out)
             x = jnp.asarray(jnp.squeeze(x, axis=-2), jnp.bfloat16)
 
             fp8_gemm_2_pkg = FP8MetaPackage(1, fp8_maxs[FP8Helper.NUM_META_PER_GEMM:],
@@ -348,15 +267,16 @@ def ln_gelu_fp8_mlp_ref(x: jnp.ndarray, ln_scale: jnp.ndarray, kernel_1: jnp.nda
                                             scale_inv[FP8Helper.NUM_META_PER_GEMM:])
             output = type_safe_dot_general(x, kernel_2, fp8_gemm_2_pkg, ((1,), (0,)))
 
-            bias_2_shape = (1,) * (output.ndim - bias_2.ndim) + bias_2.shape
-            output += jnp.reshape(bias_2, bias_2_shape)
+            if use_bias:
+                bias_2_shape = (1,) * (output.ndim - bias_2.ndim) + bias_2.shape
+                output += jnp.reshape(bias_2, bias_2_shape)
 
             return output
 
         def ref_func(x, ln_s, y, z, w, v, fp8_max, fp8_metas_amax, fp8_metas_scale,
                      fp8_metas_scale_inv):
             return jnp.mean(
-                ln_gelu_fp8_mlp_ref(x, ln_s, y, z, w, v, fp8_max, fp8_metas_amax, fp8_metas_scale,
+                layernorm_fp8_mlp_ref(x, ln_s, y, z, w, v, fp8_max, fp8_metas_amax, fp8_metas_scale,
                                     fp8_metas_scale_inv))
 
         value_n_grad_primitive_func = jit(
@@ -373,12 +293,13 @@ def ref_func(x, ln_s, y, z, w, v, fp8_max, fp8_metas_amax, fp8_metas_scale,
         pri_fp8_metas_scale = init_fp8_metas_scale
         pri_fp8_metas_scale_inv = init_fp8_metas_scale_inv
 
+        # Convert str to index as str is not a valid type for JAX JIT
         for _ in range(3):
             ref_out, (ref_a_grad, ref_s_grad, ref_k1_grad, ref_k2_grad, ref_b1_grad, ref_b2_grad,
                       ref_fp8_max, ref_fp8_metas_amax, ref_fp8_metas_scale,
                       ref_fp8_metas_scale_inv) = value_n_grad_ref_func(
                           a, s, k1, k2, b1, b2, ref_fp8_max, ref_fp8_metas_amax,
-                          ref_fp8_metas_scale, ref_fp8_metas_scale_inv)
+                            ref_fp8_metas_scale, ref_fp8_metas_scale_inv)
 
         for _ in range(3):
             primitive_out, (primitive_a_grad, primitive_s_grad, primitive_k1_grad,
@@ -401,12 +322,14 @@ def ref_func(x, ln_s, y, z, w, v, fp8_max, fp8_metas_amax, fp8_metas_scale,
         assert_allclose(jnp.asarray(primitive_s_grad, np.float32),
                         jnp.asarray(ref_s_grad, np.float32),
                         dtype=FP8Helper.BWD_DTYPE)
-        assert_allclose(jnp.asarray(primitive_b1_grad, np.float32),
-                        jnp.asarray(ref_b1_grad, np.float32),
-                        dtype=jnp.bfloat16)
-        assert_allclose(jnp.asarray(primitive_b2_grad, np.float32),
-                        jnp.asarray(ref_b2_grad, np.float32),
-                        dtype=jnp.bfloat16)
+        if use_bias:
+            assert_allclose(jnp.asarray(primitive_b1_grad, np.float32),
+                            jnp.asarray(ref_b1_grad, np.float32),
+                            dtype=jnp.bfloat16)
+            assert_allclose(jnp.asarray(primitive_b2_grad, np.float32),
+                            jnp.asarray(ref_b2_grad, np.float32),
+                            dtype=jnp.bfloat16)
+
 
 
 @pytest.fixture(name="random_inputs")

diff --git a/transformer_engine/common/transpose/cast_transpose_fusion.cu b/transformer_engine/common/transpose/cast_transpose_fusion.cu
@@ -529,10 +529,11 @@ void cast_transpose_dbias(const Tensor &input,
                           Tensor *dbias,
                           Tensor *workspace,
                           cudaStream_t stream) {
-  CheckInputTensor(input, "cast_transpose_dbias_input");
-  CheckOutputTensor(*cast_output, "cast_output");
-  CheckOutputTensor(*transposed_output, "transposed_output");
-  CheckOutputTensor(*dbias, "dbias");
+  // TODO
+  // CheckInputTensor(input, "cast_transpose_dbias_input");
+  // CheckOutputTensor(*cast_output, "cast_output");
+  // CheckOutputTensor(*transposed_output, "transposed_output");
+  // CheckOutputTensor(*dbias, "dbias");
 
   NVTE_CHECK(input.data.shape.size() == 2, "Input must have 2 dimensions.");
   NVTE_CHECK(cast_output->data.shape.size() == 2, "C output must have 2 dimensions.");