pytorch
diff --git a/Diff for: ‎fbgemm_gpu/codegen/genscript/generate_backward_split.py
+1-1 b/Diff for: ‎fbgemm_gpu/codegen/genscript/generate_backward_split.py
+1-1
diff --git a/Diff for: ‎fbgemm_gpu/codegen/training/backward/embedding_backward_split_template.cu
+1 b/Diff for: ‎fbgemm_gpu/codegen/training/backward/embedding_backward_split_template.cu
+1
diff --git a/Diff for: ‎fbgemm_gpu/codegen/training/python/lookup_args.template
+5-61 b/Diff for: ‎fbgemm_gpu/codegen/training/python/lookup_args.template
+5-61
@@ -447,7 +447,7 @@ def generate() -> None:
                     ssd_optimizers.append(optim)
 
             BackwardSplitGenerator.generate_backward_split(
-                ssd_tensors=ssd_tensors, **optimizer
+                ssd_tensors=ssd_tensors, aux_args=aux_args, **optimizer
             )
         BackwardSplitGenerator.generate_rocm_backward_split()
 
 
@@ -603,6 +603,7 @@ Tensor {{ embedding_cuda_op }}(
 
     {%- if "learning_rate" in args.split_kernel_arg_names %}
     // convert `learning rate` to float since `learning rate` is float in kernels
+    TORCH_CHECK(learning_rate_tensor.is_cpu(), "learning_rate_tensor tensor needs to be on CPU. Ensure learning_rate_tensor is on CPU or contact FBGEMM team if you get this error.")
     const float learning_rate = learning_rate_tensor.item<float>();
     {%- endif %}
 
 
@@ -49,74 +49,18 @@ class CommonArgs(NamedTuple):
     {%- if ssd %}
     ssd_tensors: Dict[str, torch.Tensor]
     {%- endif %}
-
-
-class OptimizerArgs(NamedTuple):
-    stochastic_rounding: bool
-    gradient_clipping: bool
-    max_gradient: float
-    max_norm: float
-    learning_rate: float
-    eps: float
-    beta1: float
-    beta2: float
-    weight_decay: float
-    weight_decay_mode: int
-    eta: float
-    momentum: float
-    counter_halflife: int
-    adjustment_iter: int
-    adjustment_ub: float
-    learning_rate_mode: int
-    grad_sum_decay: int
-    tail_id_threshold: float
-    is_tail_id_thresh_ratio: int
-    total_hash_size: int  # Required for OptimType.NONE
-    weight_norm_coefficient: float
-    lower_bound: float
-    regularization_mode: int
-    use_rowwise_bias_correction: bool # Used for OptimType.ADAM
-
-class CommonArgsPT2(NamedTuple):
-    placeholder_autograd_tensor: torch.Tensor
-    dev_weights: torch.Tensor
-    host_weights: torch.Tensor
-    uvm_weights: torch.Tensor
-    lxu_cache_weights: torch.Tensor
-    weights_placements: torch.Tensor
-    weights_offsets: torch.Tensor
-    D_offsets: torch.Tensor
-    total_D: int
-    max_D: int
-    hash_size_cumsum: torch.Tensor
-    total_hash_size_bits: int
-    indices: torch.Tensor
-    offsets: torch.Tensor
-    pooling_mode: int
-    indice_weights: Optional[torch.Tensor]
-    feature_requires_grad: Optional[torch.Tensor]
-    lxu_cache_locations: torch.Tensor
-    uvm_cache_stats: Optional[torch.Tensor]
-    output_dtype: int
-    vbe_metadata: VBEMetadata
-    is_experimental: bool
-    use_uniq_cache_locations_bwd: bool
-    use_homogeneous_placements: bool
+    learning_rate_tensor: torch.Tensor
     info_B_num_bits: int
     info_B_mask: int
-    {%- if ssd %}
-    ssd_tensors: Dict[str, torch.Tensor]
-    {%- endif %}
 
-class OptimizerArgsPT2(NamedTuple):
-    """
-    Optimizer arguments for PT2 interface
-    """
+
+# Do not add a parameter of Type tensor here. It will cause JIT script error due to a bug in PyTorch.
+# See more detail in D71010630.
+class OptimizerArgs(NamedTuple):
     stochastic_rounding: bool
     gradient_clipping: bool
     max_gradient: float
     max_norm: float
-    learning_rate_tensor: torch.Tensor
     eps: float
     beta1: float
     beta2: float
Original file line number	Diff line number	Diff line change
`@@ -447,7 +447,7 @@ def generate() -> None:`
`447`	`447`	`ssd_optimizers.append(optim)`
`448`	`448`
`449`	`449`	`BackwardSplitGenerator.generate_backward_split(`
`450`		`- ssd_tensors=ssd_tensors, **optimizer`
	`450`	`+ ssd_tensors=ssd_tensors, aux_args=aux_args, **optimizer`
`451`	`451`	`)`
`452`	`452`	`BackwardSplitGenerator.generate_rocm_backward_split()`
`453`	`453`