PaddlePaddle
diff --git a/‎paddlenlp/experimental/transformers/chatglm/modeling.py
Lines changed: 2 additions & 51 deletions b/‎paddlenlp/experimental/transformers/chatglm/modeling.py
Lines changed: 2 additions & 51 deletions
diff --git a/‎paddlenlp/experimental/transformers/gpt/modeling.py
Lines changed: 2 additions & 51 deletions b/‎paddlenlp/experimental/transformers/gpt/modeling.py
Lines changed: 2 additions & 51 deletions
diff --git a/‎paddlenlp/experimental/transformers/llama/modeling.py
Lines changed: 4 additions & 132 deletions b/‎paddlenlp/experimental/transformers/llama/modeling.py
Lines changed: 4 additions & 132 deletions
@@ -13,8 +13,6 @@
 # limitations under the License.
 from __future__ import annotations
 
-import os
-
 import paddle
 import paddle.nn.functional as F
 from paddle import nn
@@ -29,23 +27,16 @@
 from paddlenlp.experimental.transformers.generation_utils import (
     GenerationInferenceModel,
 )
-from paddlenlp.experimental.transformers.utils import load_tp_checkpoint
+from paddlenlp.experimental.transformers.utils import infererence_model_from_pretrained
 from paddlenlp.transformers import ChatGLMConfig, ChatGLMPretrainedModel
 from paddlenlp.transformers.model_outputs import (
     BaseModelOutputWithPastAndCrossAttentions,
     CausalLMOutputWithPast,
 )
 from paddlenlp.transformers.model_utils import (
-    dtype_guard,
     dy2st_nocheck_guard_context,
-    no_init_weights,
     register_base_model,
 )
-from paddlenlp.transformers.utils import (
-    ContextManagers,
-    is_paddle_support_lazy_init,
-    is_safetensors_available,
-)
 
 __all__ = ["ChatGLMForCausalLMInferenceModel"]
 
@@ -593,47 +584,7 @@ def __init__(self, config: ChatGLMConfig):
 
     @classmethod
     def from_pretrained(cls, pretrained_model_name_or_path, *args, **kwargs):
-        config = kwargs.pop("config", None)
-        cache_dir = kwargs.pop("cache_dir", None)
-        dtype = kwargs.pop("dtype", None)
-        if dtype is None:
-            dtype = config.dtype
-        subfolder = kwargs.pop("subfolder", None)
-        if subfolder is None:
-            subfolder = ""
-        variant = kwargs.pop("variant", None)
-        use_safetensors = kwargs.pop("use_safetensors", None if is_safetensors_available() else False)
-        low_cpu_mem_usage = kwargs.pop("low_cpu_mem_usage", False)
-
-        init_contexts = []
-        if low_cpu_mem_usage or config.quantization_config.is_weight_quantize():
-            # Instantiate model.
-            init_contexts.append(no_init_weights(_enable=True))
-            if is_paddle_support_lazy_init():
-                init_contexts.append(paddle.LazyGuard())
-        if dtype:
-            init_contexts.append(dtype_guard(dtype))
-
-        # init the model
-        with ContextManagers(init_contexts):
-            model = cls(config)
-
-        resolved_archive_file, resolved_sharded_files, sharded_metadata, is_sharded = cls._resolve_model_file_path(
-            pretrained_model_name_or_path,
-            cache_dir=cache_dir,
-            subfolder=subfolder,
-            from_hf_hub=False,
-            from_aistudio=False,
-            config=config,
-            convert_from_torch=False,
-            use_safetensors=use_safetensors,
-            variant=variant,
-        )
-
-        model_path = os.path.dirname(resolved_archive_file)
-        state_dict = load_tp_checkpoint(model_path, cls, config)
-        model.set_state_dict(state_dict)
-        return model
+        return infererence_model_from_pretrained(cls, pretrained_model_name_or_path, args, kwargs)
 
     @classmethod
     def get_cache_kvs_shape(
 
@@ -13,8 +13,6 @@
 # limitations under the License.
 from __future__ import annotations
 
-import os
-
 import paddle
 from paddle import nn
 from paddle.distributed import fleet
@@ -28,24 +26,17 @@
 from paddlenlp.experimental.transformers.generation_utils import (
     GenerationInferenceModel,
 )
-from paddlenlp.experimental.transformers.utils import load_tp_checkpoint
+from paddlenlp.experimental.transformers.utils import infererence_model_from_pretrained
 from paddlenlp.transformers import GPTConfig, GPTPretrainedModel
 from paddlenlp.transformers.gpt.modeling import GPTEmbeddings, parallel_matmul
 from paddlenlp.transformers.model_outputs import (
     BaseModelOutputWithPastAndCrossAttentions,
     CausalLMOutputWithCrossAttentions,
 )
 from paddlenlp.transformers.model_utils import (
-    dtype_guard,
     dy2st_nocheck_guard_context,
-    no_init_weights,
     register_base_model,
 )
-from paddlenlp.transformers.utils import (
-    ContextManagers,
-    is_paddle_support_lazy_init,
-    is_safetensors_available,
-)
 
 __all__ = ["GPTInferenceModel", "GPTForCausalLMInferenceModel"]
 
@@ -456,47 +447,7 @@ def __init__(self, config):
 
     @classmethod
     def from_pretrained(cls, pretrained_model_name_or_path, *args, **kwargs):
-        config = kwargs.pop("config", None)
-        cache_dir = kwargs.pop("cache_dir", None)
-        dtype = kwargs.pop("dtype", None)
-        if dtype is None:
-            dtype = config.dtype
-        subfolder = kwargs.pop("subfolder", None)
-        if subfolder is None:
-            subfolder = ""
-        variant = kwargs.pop("variant", None)
-        use_safetensors = kwargs.pop("use_safetensors", None if is_safetensors_available() else False)
-        low_cpu_mem_usage = kwargs.pop("low_cpu_mem_usage", False)
-
-        init_contexts = []
-        if low_cpu_mem_usage or config.quantization_config.is_weight_quantize():
-            # Instantiate model.
-            init_contexts.append(no_init_weights(_enable=True))
-            if is_paddle_support_lazy_init():
-                init_contexts.append(paddle.LazyGuard())
-        if dtype:
-            init_contexts.append(dtype_guard(dtype))
-
-        # init the model
-        with ContextManagers(init_contexts):
-            model = cls(config)
-
-        resolved_archive_file, resolved_sharded_files, sharded_metadata, is_sharded = cls._resolve_model_file_path(
-            pretrained_model_name_or_path,
-            cache_dir=cache_dir,
-            subfolder=subfolder,
-            from_hf_hub=False,
-            from_aistudio=False,
-            config=config,
-            convert_from_torch=False,
-            use_safetensors=use_safetensors,
-            variant=variant,
-        )
-
-        model_path = os.path.dirname(resolved_archive_file)
-        state_dict = load_tp_checkpoint(model_path, cls, config)
-        model.set_state_dict(state_dict)
-        return model
+        return infererence_model_from_pretrained(cls, pretrained_model_name_or_path, args, kwargs)
 
     @classmethod
     def get_cache_kvs_shape(
 
@@ -43,7 +43,7 @@
     GenerationBlockInferenceModel,
     GenerationInferenceModel,
 )
-from paddlenlp.experimental.transformers.utils import load_tp_checkpoint
+from paddlenlp.experimental.transformers.utils import infererence_model_from_pretrained
 from paddlenlp.transformers import LlamaConfig, LlamaPretrainedModel
 from paddlenlp.transformers.conversion_utils import split_param_func
 from paddlenlp.transformers.llama.modeling import LlamaLMHead
@@ -52,16 +52,9 @@
     CausalLMOutputWithCrossAttentions,
 )
 from paddlenlp.transformers.model_utils import (
-    dtype_guard,
     dy2st_nocheck_guard_context,
-    no_init_weights,
     register_base_model,
 )
-from paddlenlp.transformers.utils import (
-    ContextManagers,
-    is_paddle_support_lazy_init,
-    is_safetensors_available,
-)
 from paddlenlp.utils.log import logger
 
 __all__ = [
@@ -1147,47 +1140,7 @@ def __init__(self, config):
 
     @classmethod
     def from_pretrained(cls, pretrained_model_name_or_path, *args, **kwargs):
-        config = kwargs.pop("config", None)
-        cache_dir = kwargs.pop("cache_dir", None)
-        dtype = kwargs.pop("dtype", None)
-        if dtype is None:
-            dtype = config.dtype
-        subfolder = kwargs.pop("subfolder", None)
-        if subfolder is None:
-            subfolder = ""
-        variant = kwargs.pop("variant", None)
-        use_safetensors = kwargs.pop("use_safetensors", None if is_safetensors_available() else False)
-        low_cpu_mem_usage = kwargs.pop("low_cpu_mem_usage", False)
-
-        init_contexts = []
-        if low_cpu_mem_usage or config.quantization_config.is_weight_quantize():
-            # Instantiate model.
-            init_contexts.append(no_init_weights(_enable=True))
-            if is_paddle_support_lazy_init():
-                init_contexts.append(paddle.LazyGuard())
-        if dtype:
-            init_contexts.append(dtype_guard(dtype))
-
-        # init the model
-        with ContextManagers(init_contexts):
-            model = cls(config)
-
-        resolved_archive_file, resolved_sharded_files, sharded_metadata, is_sharded = cls._resolve_model_file_path(
-            pretrained_model_name_or_path,
-            cache_dir=cache_dir,
-            subfolder=subfolder,
-            from_hf_hub=False,
-            from_aistudio=False,
-            config=config,
-            convert_from_torch=False,
-            use_safetensors=use_safetensors,
-            variant=variant,
-        )
-
-        model_path = os.path.dirname(resolved_archive_file)
-        state_dict = load_tp_checkpoint(model_path, cls, config)
-        model.set_state_dict(state_dict)
-        return model
+        return infererence_model_from_pretrained(cls, pretrained_model_name_or_path, args, kwargs)
 
     @classmethod
     def get_cache_kvs_shape(
@@ -1284,47 +1237,7 @@ def __init__(self, config):
 
     @classmethod
     def from_pretrained(cls, pretrained_model_name_or_path, *args, **kwargs):
-        config = kwargs.pop("config", None)
-        cache_dir = kwargs.pop("cache_dir", None)
-        dtype = kwargs.pop("dtype", None)
-        if dtype is None:
-            dtype = config.dtype
-        subfolder = kwargs.pop("subfolder", None)
-        if subfolder is None:
-            subfolder = ""
-        variant = kwargs.pop("variant", None)
-        use_safetensors = kwargs.pop("use_safetensors", None if is_safetensors_available() else False)
-        low_cpu_mem_usage = kwargs.pop("low_cpu_mem_usage", False)
-
-        init_contexts = []
-        if low_cpu_mem_usage or config.quantization_config.is_weight_quantize():
-            # Instantiate model.
-            init_contexts.append(no_init_weights(_enable=True))
-            if is_paddle_support_lazy_init():
-                init_contexts.append(paddle.LazyGuard())
-        if dtype:
-            init_contexts.append(dtype_guard(dtype))
-
-        # init the model
-        with ContextManagers(init_contexts):
-            model = cls(config)
-
-        resolved_archive_file, resolved_sharded_files, sharded_metadata, is_sharded = cls._resolve_model_file_path(
-            pretrained_model_name_or_path,
-            cache_dir=cache_dir,
-            subfolder=subfolder,
-            from_hf_hub=False,
-            from_aistudio=False,
-            config=config,
-            convert_from_torch=False,
-            use_safetensors=use_safetensors,
-            variant=variant,
-        )
-
-        model_path = os.path.dirname(resolved_archive_file)
-        state_dict = load_tp_checkpoint(model_path, cls, config)
-        model.set_state_dict(state_dict)
-        return model
+        return infererence_model_from_pretrained(cls, pretrained_model_name_or_path, args, kwargs)
 
     @classmethod
     def get_cache_kvs_shape(
@@ -1561,48 +1474,7 @@ def get_tensor_parallel_split_mappings(num_layers):
 
     @classmethod
     def from_pretrained(cls, pretrained_model_name_or_path, *args, **kwargs):
-        config = kwargs.pop("config", None)
-        cache_dir = kwargs.pop("cache_dir", None)
-        dtype = kwargs.pop("dtype", None)
-        if dtype is None:
-            dtype = config.dtype
-        subfolder = kwargs.pop("subfolder", None)
-        if subfolder is None:
-            subfolder = ""
-        variant = kwargs.pop("variant", None)
-        use_safetensors = kwargs.pop("use_safetensors", None if is_safetensors_available() else False)
-        low_cpu_mem_usage = kwargs.pop("low_cpu_mem_usage", False)
-
-        init_contexts = []
-        if low_cpu_mem_usage or config.quantization_config.is_weight_quantize():
-            # Instantiate model.
-            init_contexts.append(no_init_weights(_enable=True))
-            if is_paddle_support_lazy_init():
-                init_contexts.append(paddle.LazyGuard())
-        if dtype:
-            init_contexts.append(dtype_guard(dtype))
-
-        # init the model
-        with ContextManagers(init_contexts):
-            model = cls(config)
-
-        resolved_archive_file, resolved_sharded_files, sharded_metadata, is_sharded = cls._resolve_model_file_path(
-            pretrained_model_name_or_path,
-            cache_dir=cache_dir,
-            subfolder=subfolder,
-            from_hf_hub=False,
-            from_aistudio=False,
-            config=config,
-            convert_from_torch=False,
-            use_safetensors=use_safetensors,
-            variant=variant,
-        )
-
-        model_path = os.path.dirname(resolved_archive_file)
-        state_dict = load_tp_checkpoint(model_path, cls, config)
-        model.set_state_dict(state_dict)
-
-        return model
+        return infererence_model_from_pretrained(cls, pretrained_model_name_or_path, args, kwargs)
 
     @classmethod
     def get_cache_kvs_shape(