HabanaAI · yangw1234 · Mar 11, 2025 · Mar 11, 2025 · Mar 11, 2025 · Mar 11, 2025
@@ -40,6 +40,11 @@ def __init__(self, *args, **kwargs):
         super().__init__(*args, **kwargs)
 
         self.indices_of_seq_with_bonus_tokens = None
+        # TODO: Currently, we skip warmup for TP1DraftModelRunner
+        # because in spec_decode_worker determine_num_available_blocks()
+        # is not called, so that warmup will fail. Simply adding this call
+        # does not work since other proposers do not implement this method.
+        self.model_runner.skip_warmup = True
 
     @torch.inference_mode()
     def execute_model(

@@ -1892,10 +1892,33 @@ def warmup_scenario(self,
             profiler.start()
         for _ in range(times):
             inputs = self.prepare_model_input(seqs)
+
+            additional_inputs = {}
+            if self.model_config.hf_config.model_type in ("medusa",
+                                                          "mlp_speculator",
+                                                          "eagle",
+                                                          "deepseek_mtp"):
+                input_tokens = inputs.input_tokens
+                assert input_tokens is not None
+                bs = input_tokens.shape[0]
+                seq_len = input_tokens.shape[1]
+                hidden_size = self.model_config.get_hidden_size()
+
+                previous_hidden_states = torch.zeros(
+                    (bs, seq_len, hidden_size),
+                    device=input_tokens.device,
+                    dtype=self.model_config.dtype)
+                additional_inputs = {
+                    "previous_hidden_states": previous_hidden_states
+                }
+
             is_single_step = \
                 self.vllm_config.scheduler_config.num_scheduler_steps == 1
             if is_prompt or is_single_step:
-                self.execute_model(inputs, kv_caches, warmup_mode=True)
+                self.execute_model(inputs,
+                                   kv_caches,
+                                   warmup_mode=True,
+                                   **additional_inputs)
             else:  # decode with multi-step
                 inputs = dataclasses.replace(inputs,
                                              is_first_multi_step=True,
@@ -1904,15 +1927,17 @@ def warmup_scenario(self,
                                    kv_caches,
                                    warmup_mode=True,
                                    num_steps=2,
-                                   seqs=seqs)
+                                   seqs=seqs,
+                                   **additional_inputs)
                 inputs = dataclasses.replace(inputs,
                                              is_first_multi_step=False,
                                              is_last_step=True)
                 self.execute_model(inputs,
                                    kv_caches,
                                    warmup_mode=True,
                                    num_steps=2,
-                                   seqs=seqs)
+                                   seqs=seqs,
+                                   **additional_inputs)
             torch.hpu.synchronize()
             if profiler:
                 profiler.step()

@@ -258,3 +258,14 @@ def __init__(
 
     def __getattr__(self, attr):
         return getattr(self.model_runner, attr)
+
+    def __setattr__(self, name, value):
+        """
+        Ensure that setting the 'model_runner' attribute
+        does not delegate to model_runner
+        """
+
+        if name == "model_runner":
+            object.__setattr__(self, name, value)
+        else:
+            setattr(self.model_runner, name, value)