PaddlePaddle
diff --git a/‎tests/llm/test_predictor.py
Lines changed: 110 additions & 0 deletions b/‎tests/llm/test_predictor.py
Lines changed: 110 additions & 0 deletions
diff --git a/‎tests/llm/test_qwenvl.py
Lines changed: 0 additions & 130 deletions b/‎tests/llm/test_qwenvl.py
Lines changed: 0 additions & 130 deletions
@@ -20,12 +20,15 @@
 import pytest
 from parameterized import parameterized_class
 
+from paddlenlp.experimental.transformers import QWenForQWenVLInferenceModel
 from paddlenlp.transformers import (  # ChatGLMForCausalLM,
+    AutoConfig,
     AutoTokenizer,
     BloomForCausalLM,
     ChatGLMForCausalLM,
     ChatGLMv2ForCausalLM,
     LlamaForCausalLM,
+    QWenForCausalLM,
 )
 from paddlenlp.utils.downloader import (
     COMMUNITY_MODEL_PREFIX,
@@ -283,3 +286,110 @@ def test_cachekv_int8(self):
             full_match += int(inference_item[:min_length] == no_inference_item[:min_length])
 
         self.assertGreaterEqual(count / len(result_0), 0.2)
+
+
+class QWenVLTest(LLMTest, unittest.TestCase):
+    config_path: str = "./tests/fixtures/llm/predictor.yaml"
+    model_name_or_path: str = "__internal_testing__/tiny-fused-qwen"
+    model_class = QWenForCausalLM
+
+    def setUp(self) -> None:
+        super().setUp()
+        paddle.set_default_dtype("float32")
+        self.model_class.from_pretrained(self.model_name_or_path, dtype="float16").save_pretrained(self.output_dir)
+        AutoTokenizer.from_pretrained(self.model_name_or_path).save_pretrained(self.output_dir)
+
+    def test_forward(self):
+        self.disable_static()
+        config = AutoConfig.from_pretrained(self.output_dir)
+        config.quant_type = None
+        config.weight_only_quant_bits = None
+
+        print(config)
+
+        paddle.set_default_dtype("float16")
+        model = QWenForQWenVLInferenceModel.from_pretrained(self.output_dir, config=config, dtype="float16")
+
+        batch = 1
+        seq = 31
+        max_len = 50
+        dtype = "float16"
+        input_ids = paddle.randint(0, 100, [batch, seq], dtype="int64")
+        image_features = paddle.randn([batch, 16, config.hidden_size], dtype="float16")
+        tgt_generation_mask = paddle.full([batch, 1, 1, max_len], 1, dtype=dtype)
+        img_pos = paddle.to_tensor([[0, 4, 21]], dtype="int64")
+        attention_mask = paddle.full([batch, 1, max_len, max_len], 0, dtype=dtype)
+        attention_mask[:, 0, :seq, :seq] = paddle.tril(paddle.ones(shape=(seq, seq), dtype=dtype))
+        position_ids = paddle.full([batch, seq], 0, dtype="int64")
+        for i in range(batch):
+            position_ids[i, :] = paddle.to_tensor([i for i in range(seq)], dtype="int64")
+
+        inputs = [
+            input_ids,  # input_ids
+            image_features,  # image_features
+            img_pos,  # img_pos
+            attention_mask,  # attention_mask
+            position_ids,  # position_ids
+            paddle.full([batch, 1], 1.0, dtype="float32"),  # penalty_score
+            paddle.full([batch, 1], 0.0, dtype="float32"),  # frequency_score,
+            paddle.full([batch, 1], 0.0, dtype="float32"),  # presence_score,
+            paddle.full([batch, 1], 1, dtype="int64"),  # min_length,
+            paddle.full([batch, 1], max_len - seq, dtype="int64"),  # max_length,
+            paddle.full([batch, 1], 1.0, dtype="float32"),  # temperature,
+            paddle.full([batch, 1], 0.0, dtype="float32"),  # top_p,
+            paddle.full([1], 151643, dtype="int64"),  # eos_token_id,
+            paddle.full([batch, 1], seq, dtype="int32"),  # seq_len_encoder,
+            paddle.full([batch, 1], seq, dtype="int32"),  # seq_len_decoder,
+            paddle.full([batch, 1], 0, dtype="int64"),  # step_idx,
+            paddle.full([batch, 1], False, dtype="bool"),  # stop_flags,
+            paddle.full([batch, 1], -123, dtype="int64"),  # tgt_ids can be be initialized arbitrarily
+            paddle.full([batch, 1], seq - 1, dtype="int64"),  # tgt_pos,
+            tgt_generation_mask,  # tgt_generation_mask,
+            paddle.full([batch, max_len], -100, dtype="int64"),  # pre_ids, can be initialized arbitrarily
+            paddle.full([1], batch, dtype="int64"),  # stop_nums, be batch
+        ]
+        for i in range(config.num_hidden_layers):
+            tmp = paddle.rand(shape=[2, batch, 1, max_len, 64], dtype=dtype)
+            inputs.append(tmp)
+
+        model.eval()
+        model.generate_text_with_image_features(
+            input_ids=inputs[0],
+            image_features=inputs[1],
+            img_pos=inputs[2],
+            attention_mask=inputs[3],
+            position_ids=inputs[4],
+            penalty_score=inputs[5],
+            frequency_score=inputs[6],
+            presence_score=inputs[7],
+            min_length=inputs[8],
+            max_length=inputs[9],
+            temperature=inputs[10],
+            top_p=inputs[11],
+            eos_token_id=inputs[12],
+            seq_len_encoder=inputs[13],
+            seq_len_decoder=inputs[14],
+            step_idx=inputs[15],
+            stop_flags=inputs[16],
+            tgt_ids=inputs[17],
+            tgt_pos=inputs[18],
+            tgt_generation_mask=inputs[19],
+            pre_ids=inputs[20],
+            stop_nums=inputs[21],
+            cache_kvs=inputs[22:],
+        )
+
+    def test_export(self):
+        self.disable_static()
+        config = load_test_config(self.config_path, "inference-to-static")
+        config["model_name_or_path"] = self.model_name_or_path
+        config["output_path"] = self.output_dir
+        config["dtype"] = "float16"
+        config["inference_model"] = True
+        config["model_prefix"] = "qwen"
+        config["model_type"] = "qwen-img2txt"
+
+        with argv_context_guard(config):
+            from export_model import main
+
+            main()