allenai · natolambert · Oct 23, 2024 · Oct 23, 2024 · Oct 23, 2024
diff --git a/rewardbench/models/__init__.py b/rewardbench/models/__init__.py
@@ -208,6 +208,20 @@
         "model_type": "Seq. Classifier",
         "torch_dtype": torch.bfloat16,
     },
+    "Ray2333/GRM-Gemma2-2B-sftreg": {
+        "model_builder": GRewardModel.from_pretrained,
+        "pipeline_builder": GRMPipeline,
+        "quantized": False,
+        "custom_dialogue": False,
+        "model_type": "Seq. Classifier",
+    },
+    "Ray2333/GRM-llama3.2-3B-sftreg": {
+        "model_builder": GRewardModel.from_pretrained,
+        "pipeline_builder": GRMPipeline,
+        "quantized": False,
+        "custom_dialogue": False,
+        "model_type": "Seq. Classifier",
+    },
 }
 
 DPO_MODEL_CONFIG = {

diff --git a/rewardbench/models/qrm.py b/rewardbench/models/qrm.py
@@ -5,10 +5,7 @@
 import torch.nn as nn
 import torch.nn.functional as F
 import torch.utils.checkpoint
-from transformers import (
-    LlamaModel,
-    LlamaPreTrainedModel,
-)
+from transformers import LlamaModel, LlamaPreTrainedModel
 from transformers.models.llama.modeling_llama import LLAMA_INPUTS_DOCSTRING
 from transformers.utils import ModelOutput, add_start_docstrings_to_model_forward
 

diff --git a/scripts/configs/eval_configs.yaml b/scripts/configs/eval_configs.yaml
@@ -821,3 +821,35 @@ Skywork/Skywork-Reward-Llama-3.1-8B-v0.2:
   torch_dtype: bfloat16
   trust_remote_code: False
   quantized: False
+Ray2333/GRM-Gemma2-2B-sftreg:
+  model: Ray2333/GRM-Gemma2-2B-sftreg
+  tokenizer: Ray2333/GRM-Gemma2-2B-sftreg
+  chat_template: # none for tokenizer
+  batch_size: 16
+  trust_remote_code: False
+  dpo: False
+  quantized: False
+Ray2333/GRM-llama3.2-3B-sftreg:
+  model: Ray2333/GRM-llama3.2-3B-sftreg
+  tokenizer: Ray2333/GRM-llama3.2-3B-sftreg
+  chat_template: # none for tokenizer
+  batch_size: 16
+  trust_remote_code: False
+  dpo: False
+  quantized: False
+Ray2333/GRM-gemma2-2B-rewardmodel-ft:
+  model: Ray2333/GRM-gemma2-2B-rewardmodel-ft
+  tokenizer: Ray2333/GRM-gemma2-2B-rewardmodel-ft
+  chat_template: # none for tokenizer
+  batch_size: 16
+  trust_remote_code: False
+  dpo: False
+  quantized: False
+Ray2333/GRM-llama3.2-3B-rewardmodel-ft:
+  model: Ray2333/GRM-llama3.2-3B-rewardmodel-ft
+  tokenizer: Ray2333/GRM-llama3.2-3B-rewardmodel-ft
+  chat_template: # none for tokenizer
+  batch_size: 16
+  trust_remote_code: False
+  dpo: False
+  quantized: False