PaddlePaddle · wj-Mcat · Oct 12, 2023 · Oct 10, 2023 · Oct 10, 2023 · Oct 10, 2023
diff --git a/paddlenlp/experimental/transformers/bloom/modeling.py b/paddlenlp/experimental/transformers/bloom/modeling.py
@@ -21,7 +21,8 @@
 from paddlenlp_ops import get_padding_offset
 
 from paddlenlp.experimental.transformers.fused_transformer_layers import (
-    FusedMultiTransformer,
+    FusedMultiTransformerBase,
+    FusedMultiTransformerConfig,
 )
 from paddlenlp.experimental.transformers.generation_utils import (
     GenerationInferenceModel,
@@ -112,7 +113,8 @@ def __init__(self, config):
         ffn1_bias_attrs = [paddle.ParamAttr(name="fusemt.{}.ffn1_bias".format(i)) for i in range(config.n_layer)]
         ffn2_weight_attrs = [paddle.ParamAttr(name="fusemt.{}.ffn2_weight".format(i)) for i in range(config.n_layer)]
         ffn2_bias_attrs = [paddle.ParamAttr(name="fusemt.{}.ffn2_bias".format(i)) for i in range(config.n_layer)]
-        self.transformer_block = FusedMultiTransformer(
+
+        transformer_config = FusedMultiTransformerConfig(
             self.embed_dim,
             self.n_head,
             4 * self.embed_dim,
@@ -133,6 +135,8 @@ def __init__(self, config):
             ffn2_weight_attrs=ffn2_weight_attrs,
             ffn2_bias_attrs=ffn2_bias_attrs,
         )
+
+        self.transformer_block = FusedMultiTransformerBase(transformer_config)
         self.cache_kvs = []
 
         # Final Layer Norm

diff --git a/paddlenlp/experimental/transformers/chatglm/modeling.py b/paddlenlp/experimental/transformers/chatglm/modeling.py
@@ -20,7 +20,8 @@
 from paddlenlp_ops import get_padding_offset
 
 from paddlenlp.experimental.transformers.fused_transformer_layers import (
-    FusedMultiTransformer,
+    FusedMultiTransformerBase,
+    FusedMultiTransformerConfig,
 )
 from paddlenlp.experimental.transformers.generation_utils import (
     GenerationInferenceModel,
@@ -183,7 +184,8 @@ def __init__(self, config: ChatGLMConfig):
         ]
         ffn2_bias_attrs = [paddle.ParamAttr(name="fusemt.{}.ffn2_bias".format(i)) for i in range(config.num_layers)]
         alpha = (2 * self.config.num_hidden_layers) ** 0.5
-        self.transformer_block = FusedMultiTransformer(
+
+        transformer_config = FusedMultiTransformerConfig(
             config.hidden_size,
             config.num_attention_heads,
             4 * config.hidden_size,
@@ -209,6 +211,7 @@ def __init__(self, config: ChatGLMConfig):
             norm_type="layernorm",
             use_neox_rotary_style=True,
         )
+        self.transformer_block = FusedMultiTransformerBase(transformer_config)
 
     def remove_padding(self, input_ids, seq_lens_this_time):
         cum_offsets_now = paddle.cumsum(paddle.max(seq_lens_this_time) - seq_lens_this_time)