ROCm
diff --git a/‎aiter/__init__.py
+1 b/‎aiter/__init__.py
+1
diff --git a/‎aiter/configs/a8w8_untuned_gemm.csv
+1-1 b/‎aiter/configs/a8w8_untuned_gemm.csv
+1-1
diff --git a/‎aiter/configs/bf16_tuned_batched_gemm.csv
+27 b/‎aiter/configs/bf16_tuned_batched_gemm.csv
+27
diff --git a/‎aiter/configs/bf16_untuned_batched_gemm.csv
+27 b/‎aiter/configs/bf16_untuned_batched_gemm.csv
+27
diff --git a/‎aiter/configs/tuned_gemm.csv
+1-1 b/‎aiter/configs/tuned_gemm.csv
+1-1
diff --git a/‎aiter/fused_moe_bf16_asm.py
+2-2 b/‎aiter/fused_moe_bf16_asm.py
+2-2
diff --git a/‎aiter/jit/core.py
+2-2 b/‎aiter/jit/core.py
+2-2
diff --git a/‎aiter/jit/optCompilerConfig.json
+41-7 b/‎aiter/jit/optCompilerConfig.json
+41-7
diff --git a/‎aiter/ops/batched_gemm_op_bf16.py
+91 b/‎aiter/ops/batched_gemm_op_bf16.py
+91
diff --git a/‎aiter/ops/gemm_op_a8w8.py
+24 b/‎aiter/ops/gemm_op_a8w8.py
+24
@@ -16,6 +16,7 @@
 from .ops.quant import *
 from .ops.gemm_op_a8w8 import *
 from .ops.batched_gemm_op_a8w8 import *
+from .ops.batched_gemm_op_bf16 import *
 from .ops.aiter_operator import *
 from .ops.activation import *
 from .ops.attention import *
 
@@ -24,4 +24,4 @@ M,N,K
 2048, 8192, 1024
 4096, 8192, 1024
 8192, 8192, 1024
-16384, 8192, 1024
+16384, 8192, 1024
@@ -0,0 +1,27 @@
+B,M,N,K,kernelId,splitK,us,kernelName
+16,1,1280,8192,78,0,96.9067,bf16_batched_64x16x16x64_16x16_1x1_8x8x1_8x8x1_1x16x1x4_4x4x1_1x1_interwave_v2
+16,32,1280,8192,28,0,112.8655,bf16_batched_256x32x128x128_32x32_1x1_16x16x1_16x16x1_1x32x1x8_8x8x1_1x1_intrawave_v3
+16,64,1280,8192,21,0,130.2174,bf16_batched_256x64x128x128_32x32_1x2_16x16x1_16x16x1_1x32x1x8_8x8x1_1x1_intrawave_v3
+16,128,1280,8192,14,0,165.8107,bf16_batched_256x128x96x128_32x32_1x3_16x16x1_16x16x1_1x64x1x4_8x8x1_1x1_intrawave_v3
+16,192,1280,8192,21,0,245.0521,bf16_batched_256x64x128x128_32x32_1x2_16x16x1_16x16x1_1x32x1x8_8x8x1_1x1_intrawave_v3
+16,256,1280,8192,11,0,272.8916,bf16_batched_256x128x160x64_32x32_1x5_8x32x1_8x32x1_1x64x1x4_8x8x1_1x1_intrawave_v3
+16,320,1280,8192,8,0,341.1548,bf16_batched_256x128x256x64_32x32_2x4_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3
+16,512,1280,8192,14,0,486.314,bf16_batched_256x128x96x128_32x32_1x3_16x16x1_16x16x1_1x64x1x4_8x8x1_1x1_intrawave_v3
+16,1024,1280,8192,10,0,804.6945,bf16_batched_256x128x192x64_32x32_2x3_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3
+16,2048,1280,8192,41,0,1491.0997,bf16_batched_256x128x128x64_32x32_2x2_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v5
+16,4096,1280,8192,41,0,2898.0224,bf16_batched_256x128x128x64_32x32_2x2_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v5
+16,8192,1280,8192,8,0,5616.5567,bf16_batched_256x128x256x64_32x32_2x4_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3
+16,16384,1280,8192,8,0,11396.9711,bf16_batched_256x128x256x64_32x32_2x4_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3
+16,1,8192,1024,81,0,57.5454,bf16_batched_128x32x64x64_32x32_1x1_8x16x1_8x16x1_1x16x1x8_8x8x1_1x1_interwave_v2
+16,32,8192,1024,25,0,67.8632,bf16_batched_256x32x224x128_16x16_1x7_16x16x1_16x16x1_1x32x1x8_4x4x1_1x1_intrawave_v3
+16,64,8192,1024,20,0,88.4667,bf16_batched_256x64x160x128_16x16_2x5_16x16x1_16x16x1_1x64x1x4_8x8x1_2x1_intrawave_v3
+16,128,8192,1024,13,0,124.6653,bf16_batched_256x128x128x64_32x32_2x2_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3
+16,192,8192,1024,41,0,177.1559,bf16_batched_256x128x128x64_32x32_2x2_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v5
+16,256,8192,1024,13,0,192.2976,bf16_batched_256x128x128x64_32x32_2x2_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3
+16,320,8192,1024,13,0,257.184,bf16_batched_256x128x128x64_32x32_2x2_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3
+16,512,8192,1024,13,0,340.1269,bf16_batched_256x128x128x64_32x32_2x2_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3
+16,1024,8192,1024,13,0,624.9993,bf16_batched_256x128x128x64_32x32_2x2_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3
+16,2048,8192,1024,0,0,1176.1171,bf16_batched_256x256x256x32_32x32_4x4_4x64x1_4x64x1_1x32x1x8_8x8x1_1x1_intrawave_v4
+16,4096,8192,1024,0,0,2271.2554,bf16_batched_256x256x256x32_32x32_4x4_4x64x1_4x64x1_1x32x1x8_8x8x1_1x1_intrawave_v4
+16,8192,8192,1024,0,0,4531.6427,bf16_batched_256x256x256x32_32x32_4x4_4x64x1_4x64x1_1x32x1x8_8x8x1_1x1_intrawave_v4
+16,16384,8192,1024,0,0,8533.7636,bf16_batched_256x256x256x32_32x32_4x4_4x64x1_4x64x1_1x32x1x8_8x8x1_1x1_intrawave_v4
@@ -0,0 +1,27 @@
+B,M,N,K
+16, 1, 1280, 8192
+16, 32, 1280, 8192
+16, 64, 1280, 8192
+16, 128, 1280, 8192
+16, 192, 1280, 8192
+16, 256, 1280, 8192
+16, 320, 1280, 8192
+16, 512, 1280, 8192
+16, 1024, 1280, 8192
+16, 2048, 1280, 8192
+16, 4096, 1280, 8192
+16, 8192, 1280, 8192
+16, 16384, 1280, 8192
+16, 1, 8192, 1024
+16, 32, 8192, 1024
+16, 64, 8192, 1024
+16, 128, 8192, 1024
+16, 192, 8192, 1024
+16, 256, 8192, 1024
+16, 320, 8192, 1024
+16, 512, 8192, 1024
+16, 1024, 8192, 1024
+16, 2048, 8192, 1024
+16, 4096, 8192, 1024
+16, 8192, 8192, 1024
+16, 16384, 8192, 1024
@@ -1 +1 @@
-M,N,K,bias,dtype,outdtype,libtype,solidx,soltimes
+M,N,K,bias,dtype,outdtype,scaleAB,libtype,solidx,soltimes,kernelName
@@ -71,8 +71,8 @@ def asm_moe(hidden_states,
                    sorted_weights, sorted_expert_ids, num_valid_ids, topk)
     elif a16:
         # a16w8 smooth quant fmoe
-        if w1.dtype == torch.float8_e4m3fnuz and inter_dim*2 == w1.shape[1]:
-            aiter.fmoe_fp8_g1u1_a16(moe_buf, hidden_states, w1, w2, sorted_ids,
+        if w1.dtype in [torch.float8_e4m3fnuz, torch.int8] and inter_dim*2 == w1.shape[1]:
+            aiter.fmoe_g1u1_a16(moe_buf, hidden_states, w1, w2, sorted_ids,
                                     sorted_weights, sorted_expert_ids, num_valid_ids,
                                     topk,
                                     fc1_scale,
 
@@ -177,7 +177,7 @@ def build_module(md_name, srcs, flags_extra_cc, flags_extra_hip, blob_gen_cmd, e
             "-Wno-switch-bool",
             "-Wno-vla-cxx-extension",
             "-Wno-undefined-func-template",
-
+            "-Wno-macro-redefined",
             "-fgpu-flush-denormals-to-zero",
         ]
 
@@ -252,7 +252,7 @@ def exec_blob(blob_gen_cmd, op_dir, src_dir, sources):
             md_name,
             '-->'.join(traceback.format_exception(*sys.exc_info()))
         ))
-        sys.exit()
+        raise Exception(f"failed build jit [{md_name}]...")
     logger.info(
         f'finish build [{md_name}], cost {time.perf_counter()-startTS:.8f}s')
     return module
 
@@ -115,6 +115,19 @@
         "verbose": "False",
         "blob_gen_cmd": "''"
     },
+    "module_batched_gemm_bf16": {
+        "srcs": [
+            "f'{AITER_CSRC_DIR}/ck_batched_gemm_bf16/include'",
+            "f'{AITER_CSRC_DIR}/pybind/batched_gemm_bf16_pybind.cu'",
+            "f'{AITER_CSRC_DIR}/ck_batched_gemm_bf16/batched_gemm_bf16.cu'"
+        ],
+        "flags_extra_cc": [],
+        "flags_extra_hip": [],
+        "extra_ldflags": "None",
+        "extra_include": [],
+        "verbose": "False",
+        "blob_gen_cmd": "f'{AITER_CSRC_DIR}/ck_batched_gemm_bf16/gen_instances.py --working_path {{}} --tune_file {AITER_CORE_DIR}/aiter/configs/bf16_tuned_batched_gemm.csv'"
+    },
     "module_batched_gemm_a8w8": {
         "srcs": [
             "f'{AITER_CSRC_DIR}/ck_batched_gemm_a8w8/include'",
@@ -166,6 +179,18 @@
         "verbose": "False",
         "blob_gen_cmd": "''"
     },
+    "module_gemm_a8w8_blockscale_asm": {
+        "srcs": [
+            "f'{AITER_CSRC_DIR}/py_itfs_cu/asm_flatmm_a8w8_blockscale.cpp'",
+            "f'{AITER_CSRC_DIR}/pybind/flatmm_a8w8_blockscale_asm_pybind.cu'"
+        ],
+        "flags_extra_cc": [],
+        "flags_extra_hip": [],
+        "extra_ldflags": "None",
+        "extra_include": [],
+        "verbose": "False",
+        "blob_gen_cmd": "''"
+    },
     "module_moe_asm": {
         "srcs": [
             "f'{AITER_CSRC_DIR}/pybind/moe_op_pybind.cu'",
@@ -284,6 +309,19 @@
         "verbose": "False",
         "blob_gen_cmd": "''"
     },
+    "module_batched_gemm_bf16_tune": {
+        "srcs": [
+            "f'{AITER_CSRC_DIR}/pybind/batched_gemm_bf16_tune_pybind.cu'",
+            "f'{AITER_CSRC_DIR}/ck_batched_gemm_bf16/batched_gemm_bf16_tune.cu'",
+            "f'{AITER_CSRC_DIR}/ck_batched_gemm_bf16/include'"
+        ],
+        "flags_extra_cc": [],
+        "flags_extra_hip": [],
+        "extra_ldflags": "None",
+        "extra_include": [],
+        "verbose": "False",
+        "blob_gen_cmd": "f'{AITER_CSRC_DIR}/ck_batched_gemm_bf16/gen_instances.py --working_path {{}} --tune'"
+    },
     "module_batched_gemm_a8w8_tune": {
         "srcs": [
             "f'{AITER_CSRC_DIR}/pybind/batched_gemm_a8w8_tune_pybind.cu'",
@@ -480,15 +518,13 @@
             "f'{AITER_GRADLIB_DIR}/csrc/rocsolgemm.cu'"
         ],
         "flags_extra_cc": [
-            "'-O3'",
-            "'-DLEGACY_HIPBLAS_DIRECT=ON'"
+            "'-O3'"
         ],
         "flags_extra_hip": [
             "'-O3'",
             "'-U__CUDA_NO_HALF_OPERATORS__'",
             "'-U__CUDA_NO_HALF_CONVERSIONS__'",
-            "'-ftemplate-depth=1024'",
-            "'-DLEGACY_HIPBLAS_DIRECT=ON'"
+            "'-ftemplate-depth=1024'"
         ],
         "extra_ldflags": "None",
         "extra_include": [
@@ -502,15 +538,13 @@
             "f'{AITER_GRADLIB_DIR}/csrc/hipbsolgemm.cu'"
         ],
         "flags_extra_cc": [
-            "'-O3'",
-            "'-DLEGACY_HIPBLAS_DIRECT=ON'"
+            "'-O3'"
         ],
         "flags_extra_hip": [
             "'-O3'",
             "'-U__CUDA_NO_HALF_OPERATORS__'",
             "'-U__CUDA_NO_HALF_CONVERSIONS__'",
             "'-ftemplate-depth=1024'",
-            "'-DLEGACY_HIPBLAS_DIRECT=ON'",
             "'-DENABLE_TORCH_FP8' if hasattr(torch, 'float8_e4m3fnuz') else '' "
         ],
         "extra_ldflags": "None",
 
@@ -0,0 +1,91 @@
+# SPDX-License-Identifier: MIT
+# Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+
+import torch
+from torch import Tensor
+from typing import List, Optional
+import functools
+import pandas as pd
+from ..jit.core import compile_ops, CK_DIR, AITER_CSRC_DIR, AITER_ROOT_DIR, AITER_CORE_DIR
+
+
+@compile_ops("module_batched_gemm_bf16", fc_name="batched_gemm_bf16")
+def batched_gemm_bf16(
+    XQ: Tensor,
+    WQ: Tensor,
+    out: Tensor,
+    bias: Optional[Tensor] = None,
+    splitK = 0
+): ...
+
+
+@functools.lru_cache(maxsize=1024)
+def compute_batched_gemm_SplitK(
+        M: int,
+        N: int,
+        K: int,
+        tile_m: int,
+        tile_n: int,
+        tile_k: int):
+
+    device_properties = torch.cuda.get_device_properties(0)
+    cu_num = device_properties.multi_processor_count
+    tile_num = ((M + tile_m - 1) // tile_m) * ((N + tile_n - 1) // tile_n)
+    cusPerTile = cu_num / tile_num
+    splitK = 0
+    while( cusPerTile >= pow(2, splitK+1) and (pow(2, splitK+1) * tile_k) < 2 * K):
+        splitK += 1
+    return splitK
+
+
+@functools.lru_cache(maxsize=1024)
+def get_CKBatchedGEMM_config(
+    B: int,
+    M: int,
+    N: int,
+    K: int,
+):
+    if not hasattr(get_CKBatchedGEMM_config, "ck_batched_gemm_dict"):
+        ck_batched_gemm_dict = pd.read_csv(f"{AITER_CORE_DIR}/aiter/configs/bf16_tuned_batched_gemm.csv").drop_duplicates()
+        get_CKBatchedGEMM_config.ck_batched_gemm_dict = ck_batched_gemm_dict.set_index(['B','M','N','K']).to_dict('index')
+    config = get_CKBatchedGEMM_config.ck_batched_gemm_dict.get((B,M,N,K), None)
+    if config != None:
+        mnk = config['kernelName'].split('_')[2].split('x')[1:]
+        config["tile_m"] = int(mnk[0])
+        config["tile_n"] = int(mnk[1])
+        config["tile_k"] = int(mnk[2])
+    return config
+
+def batched_gemm_bf16_CK(
+    XQ: Tensor,
+    WQ: Tensor,
+    bias: Optional[Tensor] = None,
+    dtype=torch.bfloat16,
+    splitK: Optional[int] = None
+):
+    assert dtype in [
+        torch.bfloat16,
+        torch.float16,
+    ], f"Output {dtype=} is currently not supported in batched_gemm_bf16"
+
+    b = XQ.shape[0]
+    m = XQ.shape[1]
+    n = WQ.shape[1]
+    k = XQ.shape[2]
+    ck_config = get_CKBatchedGEMM_config(b, m, n, k)
+    if splitK == None:
+        if ck_config != None:
+            splitK = ck_config['splitK']
+        else:
+            splitK = 0
+    Y = torch.empty(b, m, n, dtype=dtype, device=XQ.device)
+    return batched_gemm_bf16(XQ, WQ, Y, bias, splitK)
+
+@compile_ops("module_batched_gemm_bf16_tune",fc_name="batched_gemm_bf16_tune")
+def batched_gemm_bf16_tune(
+    XQ: Tensor,
+    WQ: Tensor,
+    out: Tensor,
+    kernelId: int,
+    splitK = 0
+): ...
@@ -47,6 +47,15 @@ def gemm_a8w8_blockscale(
     out: Tensor,
 ): ...
 
+@compile_ops("module_gemm_a8w8_blockscale_asm", fc_name="flatmm_a8w8_blockscale_asm")
+def flatmm_a8w8_blockscale_asm(
+    XQ: Tensor,
+    WQ: Tensor,
+    x_scale: Tensor,
+    w_scale: Tensor,
+    out: Tensor,
+): ...
+
 @functools.lru_cache(maxsize=1024)
 def compute_gemm_SplitK(
         M: int,
@@ -176,6 +185,21 @@ def gemm_a8w8_blockscale_CK(
     Y = torch.empty(m, n, dtype=dtype, device=XQ.device)
     return gemm_a8w8_blockscale(XQ, WQ, x_scale, w_scale, Y)
 
+def flatmm_a8w8_blockscale_ASM(
+    XQ: Tensor,
+    WQ: Tensor,
+    x_scale: Tensor,
+    w_scale: Tensor,
+    dtype=torch.float16,
+):
+    assert dtype in [
+        torch.float16,
+    ], f"Output {dtype=} is currently not supported in gemm_a8w8"
+    m = XQ.shape[0]
+    n = WQ.shape[0]
+    k = XQ.shape[-1]
+    Y = torch.empty(m, n, dtype=dtype, device=XQ.device)
+    return flatmm_a8w8_blockscale_asm(XQ, WQ, x_scale, w_scale, Y)
 
 @compile_ops("module_gemm_a8w8_tune",fc_name="gemm_a8w8_tune")
 def gemm_a8w8_tune(
Original file line number	Diff line number	Diff line change
`@@ -1 +1 @@`
`1`		`-M,N,K,bias,dtype,outdtype,libtype,solidx,soltimes`
	`1`	`+M,N,K,bias,dtype,outdtype,scaleAB,libtype,solidx,soltimes,kernelName`