sparseautomodel compatability

vllm-project · Aug 7, 2024 · f1e269f · f1e269f
1 parent 278fc20
commit f1e269f
Show file tree

Hide file tree

Showing 2 changed files with 9 additions and 5 deletions.
diff --git a/src/llmcompressor/transformers/compression/helpers.py b/src/llmcompressor/transformers/compression/helpers.py
@@ -1,8 +1,9 @@
 from typing import Dict, List, Optional, Union
-from accelerate.accelerator import get_state_dict_offloaded_model
+
 import psutil
 import torch
 from accelerate import infer_auto_device_map, init_empty_weights
+from accelerate.accelerator import get_state_dict_offloaded_model
 from torch.nn.modules import Linear
 from tqdm import tqdm
 from transformers import AutoModelForCausalLM

diff --git a/src/llmcompressor/transformers/sparsification/sparse_model.py b/src/llmcompressor/transformers/sparsification/sparse_model.py
@@ -123,14 +123,17 @@ def skip(*args, **kwargs):
         if compressor is not None:
             quantization_config = compressor.quantization_config
             is_compressed = (
-                quantization_config is not None and
-                quantization_config.quantization_status == QuantizationStatus.COMPRESSED
+                quantization_config is not None
+                and quantization_config.quantization_status
+                == QuantizationStatus.COMPRESSED
             )
             if run_compressed and is_compressed:
                 # initialize quantization, don't decompress
-                apply_quantization_config(model, quantization_config)
+                apply_quantization_config(
+                    model, quantization_config, run_compressed=True
+                )
                 model = load_checkpoint_and_dispatch(
-                    model, pretrained_model_name_or_path, *model_args, **kwargs
+                    model, pretrained_model_name_or_path
                 )
             else:
                 # initialize quantization and decompress weights