guoshengCS
diff --git a/‎examples/RLHF/models/score_model.py
Lines changed: 4 additions & 0 deletions b/‎examples/RLHF/models/score_model.py
Lines changed: 4 additions & 0 deletions
diff --git a/‎examples/RLHF/models/score_model_utils.py
Lines changed: 4 additions & 3 deletions b/‎examples/RLHF/models/score_model_utils.py
Lines changed: 4 additions & 3 deletions
diff --git a/‎examples/RLHF/ppo_config.json
Lines changed: 4 additions & 2 deletions b/‎examples/RLHF/ppo_config.json
Lines changed: 4 additions & 2 deletions
diff --git a/‎examples/RLHF/ppo_main.py
Lines changed: 212 additions & 23 deletions b/‎examples/RLHF/ppo_main.py
Lines changed: 212 additions & 23 deletions
@@ -17,6 +17,7 @@
 import paddle
 from paddle import nn
 
+import paddlenlp
 from paddlenlp.transformers import (
     LlamaConfig,
     LlamaModel,
@@ -132,3 +133,6 @@ def _get_name_mappings(cls, config: LlamaConfig) -> list[StateDictNameMapping]:
 
         mappings = [StateDictNameMapping(*mapping, index=index) for index, mapping in enumerate(model_mappings)]
         return mappings
+
+
+paddlenlp.transformers.LlamaModelForScore = LlamaModelForScore
@@ -49,9 +49,10 @@ class AutoModelForScore(_BaseAutoModelClass):
     _score_module_name: str = "models.score_model"
 
     @classmethod
-    def _get_model_class_from_config(cls, pretrained_model_name_or_path, config_file_path):
-        with io.open(config_file_path, encoding="utf-8") as f:
-            config = json.load(f)
+    def _get_model_class_from_config(cls, pretrained_model_name_or_path, config_file_path, config=None):
+        if config is None:
+            with io.open(config_file_path, encoding="utf-8") as f:
+                config = json.load(f)
 
         # Get class name corresponds to this configuration
         if is_standard_config(config):
 
@@ -6,7 +6,7 @@
     "reward_model_name_or_path": "PKU-Alignment/beaver-7b-v1.0-reward",
     "_actor_model_name_or_path": "facebook/llama-7b",
     "_reward_model_name_or_path": "facebook/llama-7b",
-    "output_dir": "/root/paddlejob/workspace/guosheng/checkpoints/ppo-sd14pp2-test",
+    "output_dir": "./ppo-sd14pp2-test",
     "max_length": 512,
     "temperature": 1.0,
     "num_return_sequences":1,
@@ -52,5 +52,7 @@
     "comment-PKU_Beaver-max_grad_norm": 1.0,
     "max_grad_norm": 1.0, 
     "adam_beta1": 0.9,
-    "adam_beta2": 0.95
+    "adam_beta2": 0.95,
+    "eval_mode": "tensor_parallel",
+    "offload_level": "eval"
 }
@@ -12,17 +12,45 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
+import copy
 import os
 import sys
+
+# os.environ["http_proxy"] = "http://10.162.37.16:8128"
+# os.environ["https_proxy"] = "http://10.162.37.16:8128"
+# os.environ["no_proxy"] = "localhost,bcebos.com"
+# launch would unset http_proxy
+# export https_proxy=http://172.19.57.45:3128
+
+# os.environ["http_proxy"] = "http://172.19.56.199:3128"
+# os.environ["https_proxy"] = "http://172.19.56.199:3128"
+
+# os.environ["http_proxy"] = "http://172.19.57.45:3128"
+# os.environ["https_proxy"] = "http://172.19.57.45:3128"
+
+os.environ["http_proxy"] = "http://10.162.37.16:8128"
+os.environ["https_proxy"] = "http://10.162.37.16:8128"
+os.environ["no_proxy"] = "localhost,bcebos.com"
+
+# os.environ["http_proxy"] = "agent.baidu.com:8118"
+# os.environ["https_proxy"] = "agent.baidu.com:8118"
+
 from dataclasses import dataclass, field
 from typing import Any, Dict, Tuple
 
 import paddle
 from data import PromptOnlyDataset, SupervisedDataset, parse_dataset
-from ppo_trainer import PPOTrainer
+from models import AutoModelForScore
+from models.score_model import LlamaModelForScore  # noqa
+from ppo_trainer import PPOTrainer, cleanup_tensor_space, offload_tensor_to_cpu
 
 from paddlenlp.trainer import PdArgumentParser, TrainingArguments, get_last_checkpoint
-from paddlenlp.transformers import AutoConfig, AutoTokenizer, LlamaTokenizer
+from paddlenlp.transformers import (
+    AutoConfig,
+    AutoModelForCausalLM,
+    AutoTokenizer,
+    LlamaTokenizer,
+)
 from paddlenlp.utils.log import logger
 
 
@@ -108,6 +136,18 @@ class TrainingArguments(TrainingArguments):
         default=16,
         metadata={"help": "Batch size (per device) for the training dataloader."},
     )
+    eval_mode: str = field(
+        default=None,
+        metadata={
+            "help": "eval mode for actor model and reward_critic_model, optional for: None, single, tensor_parallel."
+        },
+    )
+
+    offload_level: str = field(
+        default=None,
+        metadata={"help": "Offload model, optional for: eval, reward, optimizer, train_model"},
+    )
+
     # save_generation_output: bool = field(
     #     default=False,
     #     metadata={"help": "Whether to save generated text to file when eval"},
@@ -179,6 +219,10 @@ def main():
         model_args, data_args, training_args = parser.parse_args_into_dataclasses()
     training_args.print_config(model_args, "Model")
     training_args.print_config(data_args, "Data")
+    if training_args.eval_mode is not None and len(training_args.eval_mode) == 0:
+        training_args.eval_mode = None
+    if training_args.eval_mode is None and training_args.offload_level is not None:
+        training_args.offload_level = training_args.offload_level.replace("eval", "")
 
     # Setup GPU & distributed training
     paddle.set_device(training_args.device)
@@ -214,21 +258,17 @@ def main():
         dtype = "float32"
     training_args.max_length = data_args.max_length
 
+    model_class_lm, model_class_score = AutoModelForCausalLM, AutoModelForScore
     if training_args.pipeline_parallel_degree > 1:
-        global AutoModelForCausalLM, AutoModelForScore
         from models.model_pp import LlamaPolicyPipe, LlamaValuePipe
 
-        AutoModelForCausalLM = LlamaPolicyPipe
-        AutoModelForScore = LlamaValuePipe
+        model_class_lm = LlamaPolicyPipe
+        model_class_score = LlamaValuePipe
         extra_args = {
             "ptx_coeff": training_args.ptx_coeff,
             "clip_range_ratio": training_args.clip_range_ratio,
         }
     else:
-        from models import AutoModelForScore
-
-        from paddlenlp.transformers import AutoModelForCausalLM
-
         extra_args = {}
 
     # actor model
@@ -241,18 +281,42 @@ def main():
     )
     if hasattr(model_config, "use_flash_attention"):
         model_config.use_flash_attention = model_args.use_flash_attention
-    actor_model = AutoModelForCausalLM.from_pretrained(
+
+    # model_config.num_hidden_layers = 2
+
+    actor_model = model_class_lm.from_pretrained(
         model_args.actor_model_name_or_path,
         config=model_config,
         **extra_args,
         # ptx_coeff=training_args.ptx_coeff,
         # clip_range_ratio=training_args.clip_range_ratio,
     )
-    # reference model
-    actor_reference_model = AutoModelForCausalLM.from_pretrained(
-        model_args.actor_model_name_or_path,
-        config=model_config,
-    )
+    if training_args.eval_mode is not None:
+        config = copy.deepcopy(actor_model.config)
+        if training_args.eval_mode == "single":
+            config.tensor_parallel_degree = -1
+            config.tensor_parallel_rank = 0
+        actor_eval_model = AutoModelForCausalLM.from_config(config)
+        # actor_eval_model = AutoModelForCausalLM.from_pretrained(model_args.actor_model_name_or_path, config=config)
+    else:
+        actor_eval_model = None
+
+    # todo reference model
+    if training_args.eval_mode is not None:
+        config = copy.deepcopy(model_config)
+        if training_args.eval_mode == "single":
+            config.tensor_parallel_degree = -1
+            config.tensor_parallel_rank = 0
+        actor_reference_model = AutoModelForCausalLM.from_pretrained(
+            model_args.actor_model_name_or_path,
+            config=config,
+        )
+    else:
+        actor_reference_model = model_class_lm.from_pretrained(
+            model_args.actor_model_name_or_path,
+            config=model_config,
+        )
+
     actor_tokenizer = AutoTokenizer.from_pretrained(
         model_args.actor_model_name_or_path, model_max_length=data_args.max_length, padding_side="left"
     )
@@ -267,19 +331,33 @@ def main():
     )
     if hasattr(model_config, "use_flash_attention"):
         model_config.use_flash_attention = model_args.use_flash_attention
-    reward_model = AutoModelForScore.from_pretrained(
-        model_args.reward_model_name_or_path,
-        config=model_config,
-        score_type="reward",
-        do_normalize=training_args.normalize_reward,
-    )
+    # model_config.num_hidden_layers = 2
+    # todo
+    if training_args.eval_mode is not None:
+        config = copy.deepcopy(model_config)
+        if training_args.eval_mode == "single":
+            config.tensor_parallel_degree = -1
+            config.tensor_parallel_rank = 0
+        reward_model = AutoModelForScore.from_pretrained(
+            model_args.reward_model_name_or_path,
+            config=config,
+            score_type="reward",
+            do_normalize=training_args.normalize_reward,
+        )
+    else:
+        reward_model = model_class_score.from_pretrained(
+            model_args.reward_model_name_or_path,
+            config=model_config,
+            score_type="reward",
+            do_normalize=training_args.normalize_reward,
+        )
     reward_tokenizer = AutoTokenizer.from_pretrained(
         model_args.reward_model_name_or_path, model_max_length=data_args.max_length, padding_side="right"
     )
     # critic model
     if model_args.reward_critic_model_name_or_path is None:
         model_args.reward_critic_model_name_or_path = model_args.reward_model_name_or_path
-    reward_critic_model = AutoModelForScore.from_pretrained(
+    reward_critic_model = model_class_score.from_pretrained(
         model_args.reward_critic_model_name_or_path,
         config=model_config,
         score_type="critic",
@@ -289,6 +367,92 @@ def main():
     reward_critic_tokenizer = AutoTokenizer.from_pretrained(
         model_args.reward_critic_model_name_or_path, model_max_length=data_args.max_length, padding_side="left"
     )
+    if training_args.eval_mode is not None:
+        config = copy.deepcopy(reward_critic_model.config)
+        if training_args.eval_mode == "single":
+            config.tensor_parallel_degree = -1
+            config.tensor_parallel_rank = 0
+        reward_critic_eval_model = AutoModelForScore.from_config(config)
+        # reward_critic_eval_model =  AutoModelForScore.from_pretrained(
+        #     model_args.reward_critic_model_name_or_path,config=model_config
+        # )
+    else:
+        reward_critic_eval_model = None
+
+    #         # actor model
+    #         model_config = AutoConfig.from_pretrained(
+    #             model_args.actor_model_name_or_path,
+    #             tensor_parallel_output=False,
+    #             tensor_parallel_degree=training_args.tensor_parallel_degree,
+    #             tensor_parallel_rank=training_args.tensor_parallel_rank,
+    #             dtype=dtype,
+    #         )
+    #         model_config.num_hidden_layers = 2
+    #         if hasattr(model_config, "use_flash_attention"):
+    #             model_config.use_flash_attention = model_args.use_flash_attention
+    #         actor_model = AutoModelForCausalLM.from_pretrained(
+    #             model_args.actor_model_name_or_path,
+    #             config=model_config,
+    #         )
+    #
+    #         if training_args.eval_mode is not None:
+    #             config = copy.deepcopy(actor_model.config)
+    #             if training_args.eval_mode == "single":
+    #                 config.tensor_parallel_degree = -1
+    #                 config.tensor_parallel_rank = 0
+    #             actor_eval_model = AutoModelForCausalLM.from_config(config)
+    #         else:
+    #             actor_eval_model = None
+    #
+    #         # reference model
+    #         actor_reference_model = AutoModelForCausalLM.from_pretrained(
+    #             model_args.actor_model_name_or_path,
+    #             config=model_config,
+    #         )
+    #         actor_tokenizer = AutoTokenizer.from_pretrained(
+    #             model_args.actor_model_name_or_path, model_max_length=data_args.max_length, padding_side="left"
+    #         )
+    #
+    #         # reward model
+    #         model_config = AutoConfig.from_pretrained(
+    #             model_args.reward_model_name_or_path,
+    #             tensor_parallel_output=False,
+    #             tensor_parallel_degree=training_args.tensor_parallel_degree,
+    #             tensor_parallel_rank=training_args.tensor_parallel_rank,
+    #             dtype=dtype,
+    #         )
+    #         model_config.num_hidden_layers = 2
+    #         if hasattr(model_config, "use_flash_attention"):
+    #             model_config.use_flash_attention = model_args.use_flash_attention
+    #         reward_model = AutoModelForScore.from_pretrained(
+    #             model_args.reward_model_name_or_path,
+    #             config=model_config,
+    #             score_type="reward",
+    #             do_normalize=training_args.normalize_reward,
+    #         )
+    #         reward_tokenizer = AutoTokenizer.from_pretrained(
+    #             model_args.reward_model_name_or_path, model_max_length=data_args.max_length, padding_side="right"
+    #         )
+    #
+    #         # critic model
+    #         if model_args.reward_critic_model_name_or_path is None:
+    #             model_args.reward_critic_model_name_or_path = model_args.reward_model_name_or_path
+    #         reward_critic_model = AutoModelForScore.from_pretrained(
+    #             model_args.reward_critic_model_name_or_path, config=model_config, score_type="critic", do_normalize=False
+    #         )
+    #         reward_critic_tokenizer = AutoTokenizer.from_pretrained(
+    #             model_args.reward_critic_model_name_or_path, model_max_length=data_args.max_length, padding_side="left"
+    #         )
+    #
+    #         if training_args.eval_mode is not None:
+    #             config = copy.deepcopy(reward_critic_model.config)
+    #             if training_args.eval_mode == "single":
+    #                 config.tensor_parallel_degree = -1
+    #                 config.tensor_parallel_rank = 0
+    #             reward_critic_eval_model = AutoModelForScore.from_config(config)
+    #         else:
+    #             reward_critic_eval_model = None
+
     for tokenizer in [actor_tokenizer, reward_tokenizer, reward_critic_tokenizer]:
         if isinstance(tokenizer, LlamaTokenizer) and tokenizer.pad_token_id is None:
             tokenizer.pad_token_id = tokenizer.eos_token_id
@@ -307,8 +471,33 @@ def main():
         else None
     )
 
+    # offload
+    # cleanup actor_eval_model, reward_critic_eval_model
+    # offload actor_reference_model reward_model
+
+    if training_args.offload_level is not None:
+        if "eval" in training_args.offload_level:
+            cleanup_tensor_space(actor_eval_model.state_dict())
+            cleanup_tensor_space(reward_critic_eval_model.state_dict())
+        if "reward" in training_args.offload_level:
+            # if pp mode, should lazy offload
+            offload_tensor_to_cpu(actor_reference_model.state_dict())
+            offload_tensor_to_cpu(reward_model.state_dict())
+
     trainer = PPOTrainer(
-        model=(actor_model, actor_reference_model, reward_model, reward_critic_model),
+        #  (policy_model, reference_model, reward_model, value_model)
+        #   policy_model, sft_model,       reward_model, value_model
+        #  (policy_model, reference_model, reward_model, value_model,
+        #  (policy_model, reference_model, reward_model, value_model, policy_eval_model, value_eval_model
+        #  (actor_model, actor_reference_model, reward_model, reward_critic_model, actor_eval_model, reward_critic_eval_model
+        model=(
+            actor_model,
+            actor_reference_model,
+            reward_model,
+            reward_critic_model,
+            actor_eval_model,
+            reward_critic_eval_model,
+        ),
         args=training_args,
         train_dataset=train_ds,
         eval_dataset=dev_ds,