modify Paddlemix qwen dytostatic (#8869)

xiaoguoguo626807 · web-flow · commit 5c5701559e99 · 2024-08-07T17:31:53.000+08:00
* modify api for pir

* modify api for pir

* pass none for while

* modify ci test
diff --git a/paddlenlp/experimental/transformers/fused_transformer_layers.py b/paddlenlp/experimental/transformers/fused_transformer_layers.py
@@ -15,7 +15,7 @@
 
 import paddle
 import paddle.distributed as dist
-from paddle.framework import LayerHelper, core, in_dynamic_mode
+from paddle.framework import LayerHelper, core, in_dynamic_mode, in_dynamic_or_pir_mode
 from paddle.incubate.nn.functional import (
     fused_layer_norm,
     fused_rms_norm,
@@ -88,7 +88,8 @@ def fused_act_bias_wrapper(
     quant_max_bound=0,
     quant_min_bound=0,
 ):
-    if in_dynamic_mode():
+    if in_dynamic_or_pir_mode():
+
         return paddle._C_ops.fused_bias_act(
             x,
             bias,
diff --git a/paddlenlp/experimental/transformers/generation_utils.py b/paddlenlp/experimental/transformers/generation_utils.py
@@ -183,6 +183,7 @@ def generate(
             inputs_embeds=inputs_embeds,
             **model_kwargs,
         )
+
         return ret
 
     def update_model_kwargs_for_generation(self, cache, just_decoder, next_tokens, eos_token_id, model_kwargs):
diff --git a/paddlenlp/generation/logits_process.py b/paddlenlp/generation/logits_process.py
@@ -291,7 +291,10 @@ def __call__(self, input_ids, scores):
 
 
 def TopKProcess(probs: paddle.Tensor, top_k: int, min_tokens_to_keep: int):
-    top_k = min(max(top_k, min_tokens_to_keep), probs.shape[-1])
+    top_k = paddle.minimum(
+        paddle.maximum(paddle.to_tensor(top_k), paddle.to_tensor(min_tokens_to_keep)),
+        paddle.to_tensor(probs.shape[-1]),
+    )
     # Remove all tokens with a probability less than the last token of the top-k
     # cast to float16 to support generation & d2s
     if probs.dtype == paddle.bfloat16:
diff --git a/tests/transformers/test_modeling_common.py b/tests/transformers/test_modeling_common.py
@@ -967,8 +967,10 @@ def test_to_static_use_top_k(self):
                         use_top_p=False,
                     ),
                 )
-
-                model_path = os.path.join(tempdir, "model.pdmodel")
+                if paddle.framework.use_pir_api():
+                    model_path = os.path.join(tempdir, "model.json")
+                else:
+                    model_path = os.path.join(tempdir, "model.pdmodel")
                 params_path = os.path.join(tempdir, "model.pdiparams")
                 config = paddle.inference.Config(model_path, params_path)
 
@@ -1036,7 +1038,10 @@ def test_to_static_use_top_p(self):
                     ),
                 )
 
-                model_path = os.path.join(tempdir, "model.pdmodel")
+                if paddle.framework.use_pir_api():
+                    model_path = os.path.join(tempdir, "model.json")
+                else:
+                    model_path = os.path.join(tempdir, "model.pdmodel")
                 params_path = os.path.join(tempdir, "model.pdiparams")
                 config = paddle.inference.Config(model_path, params_path)
 

Original file line number	Diff line number	Diff line change
`@@ -183,6 +183,7 @@ def generate(`
`183`	`183`	`inputs_embeds=inputs_embeds,`
`184`	`184`	`**model_kwargs,`
`185`	`185`	`)`
	`186`	`+`
`186`	`187`	`return ret`
`187`	`188`
`188`	`189`	`def update_model_kwargs_for_generation(self, cache, just_decoder, next_tokens, eos_token_id, model_kwargs):`