vllm-project · kylesayrs · Jan 14, 2025
diff --git a/src/llmcompressor/modifiers/quantization/gptq/base.py b/src/llmcompressor/modifiers/quantization/gptq/base.py
@@ -67,7 +67,8 @@ class GPTQModifier(Modifier, HooksMixin):
             - run_sequential / run_layer_sequential / run_basic
                 - make_empty_hessian
                 - accumulate_hessian
-                - quantize_weight
+        - on_sequential_batch_end
+            - quantize_weight
         - on_finalize
             - remove_hooks()
             - model.apply(freeze_module_quantization)
@@ -191,7 +192,7 @@ def on_initialize_structure(self, state: State, **kwargs):
         if self._quantization_modifier:
             self._quantization_modifier.on_initialize_structure(state, **kwargs)
 
-    def on_initialize(self, state: "State", **kwargs) -> bool:
+    def on_initialize(self, state: State, **kwargs) -> bool:
         """
         Initialize and run the GPTQ algorithm on the current state
 
@@ -271,7 +272,7 @@ def on_initialize(self, state: "State", **kwargs) -> bool:
                 run_basic(state.model, state.data.calib, self)
                 return True
 
-    def on_finalize(self, state: "State", **kwargs) -> bool:
+    def on_finalize(self, state: State, **kwargs) -> bool:
         """
         disable the quantization observers used by the OBCQ algorithm
 

diff --git a/tests/llmcompressor/pytorch/modifiers/pruning/sparsegpt/test_pytorch.py b/tests/llmcompressor/pytorch/modifiers/pruning/sparsegpt/test_pytorch.py
@@ -68,9 +68,7 @@ def setUp(self):
         setup_modifier_factory()
 
     def test_create_default_quant_modifier(self):
-        kwargs = dict(block_size=128)
-
-        modifier = GPTQModifier(**kwargs)
+        modifier = GPTQModifier(block_size=128)
         assert modifier._quantization_modifier is None
 
         testing_harness = LifecyleTestingHarness(model=LinearNet())
@@ -106,8 +104,7 @@ def test_set_quant_if_modifer_already_exists(self):
         modifier.initialize(testing_harness.get_state())
         assert qat_active(testing_harness.get_state().model)
 
-        kwargs = dict(block_size=128)
-        modifier = GPTQModifier(**kwargs)
+        modifier = GPTQModifier(block_size=128)
         assert not modifier._quantization_modifier
 
         modifier.on_initialize_structure(testing_harness.get_state())
@@ -142,9 +139,7 @@ def setUp(self):
         self.quant_config = {"QuantizationModifier": self.quant_kwargs}
 
     def test_set_quant_in_gptq(self):
-        kwargs = dict(block_size=128, quantize=self.quant_config)
-
-        modifier = GPTQModifier(**kwargs)
+        modifier = GPTQModifier(block_size=128, quantize=self.quant_config)
         assert modifier._quantization_modifier is None
 
         testing_harness = LifecyleTestingHarness(model=LinearNet())