PaddlePaddle
diff --git a/‎paddlenlp/transformers/gemma/modeling.py
Lines changed: 17 additions & 62 deletions b/‎paddlenlp/transformers/gemma/modeling.py
Lines changed: 17 additions & 62 deletions
diff --git a/‎paddlenlp/transformers/gpt/modeling.py
Lines changed: 17 additions & 62 deletions b/‎paddlenlp/transformers/gpt/modeling.py
Lines changed: 17 additions & 62 deletions
diff --git a/‎paddlenlp/transformers/llama/modeling.py
Lines changed: 17 additions & 62 deletions b/‎paddlenlp/transformers/llama/modeling.py
Lines changed: 17 additions & 62 deletions
@@ -55,6 +55,7 @@
 from .. import linear_utils
 from ..linear_utils import Linear
 from ..segment_parallel_utils import ReshardLayer
+from ..utils import caculate_llm_flops
 from .configuration import (
     GEMMA_PRETRAINED_INIT_CONFIGURATION,
     GEMMA_PRETRAINED_RESOURCE_FILES_MAP,
@@ -1075,82 +1076,36 @@ def __init__(self, config: GemmaConfig):
         self.gradient_checkpointing = False
 
     def get_model_flops(self, batch_size=1, seq_length=None, **kwargs):
-        # TFLOPs formula (from Equation 3 in Section 5.1 of https://arxiv.org/pdf/2104.04473.pdf).
-        hidden_size = self.config.hidden_size
-        intermediate_size = self.config.intermediate_size
-        layer_num = self.config.num_hidden_layers
-        vocab_size = self.config.vocab_size
-
         if seq_length is None:
             if hasattr(self.config, "seq_length"):
                 seq_length = self.config.seq_length
             else:
                 seq_length = 2048
 
-        flops_per_transformer = 0
-
-        # qkvo matmul
-        flops_per_transformer += seq_length * hidden_size**2 * 4
-        # [b,s,h] [b,h,s] bs^2h
-        # [b,s,s] [b,s,h] bs^2h
-        # q_states * k_states + attn_weight * v_states
-        flops_per_transformer += seq_length**2 * hidden_size * 2
-        # swiglu, matmul + dot
-        flops_per_transformer += seq_length * hidden_size * intermediate_size * 3 + seq_length * intermediate_size
-
-        # final loggits
-        flops_loggits = seq_length * hidden_size * vocab_size
-
-        # 2 for mul + add in matmul
-        # 1 for forward, 2 for backwards since we caluate gradients for input_x and input_y
-        # so, here got 6=2*(1+2)
-        return 6 * batch_size * (layer_num * flops_per_transformer + flops_loggits)
+        return caculate_llm_flops(
+            hidden_size=self.config.hidden_size,
+            intermediate_size=self.config.intermediate_size,
+            layer_num=self.config.num_hidden_layers,
+            vocab_size=self.config.vocab_size,
+            seq_length=seq_length,
+            recompute=False,
+        )
 
     def get_hardware_flops(self, batch_size=1, seq_length=None, recompute=False, **kwargs):
-        # TFLOPs formula (from Equation 3 in Section 5.1 of https://arxiv.org/pdf/2104.04473.pdf).
-        hidden_size = self.config.hidden_size
-        intermediate_size = self.config.intermediate_size
-        layer_num = self.config.num_hidden_layers
-        vocab_size = self.config.vocab_size
-
         if seq_length is None:
             if hasattr(self.config, "seq_length"):
                 seq_length = self.config.seq_length
             else:
                 seq_length = 2048
 
-        flops_per_transformer = 0
-        flops_recompute_transformer = 0
-
-        # qkvo matmul
-        flops_qkvo_matmul = seq_length * hidden_size**2 * 4
-
-        # [b,s,h] [b,h,s] bs^2h
-        # [b,s,s] [b,s,h] bs^2h
-        # q_states * k_states + attn_weight * v_states
-        flops_core_attn = seq_length**2 * hidden_size * 2
-
-        # swiglu, matmul + dot
-        flops_ffn = seq_length * hidden_size * intermediate_size * 3 + seq_length * intermediate_size
-
-        flops_per_transformer = flops_qkvo_matmul + flops_core_attn + flops_ffn
-        if recompute:
-            if self.config.recompute_granularity == "full":
-                flops_recompute_transformer = flops_per_transformer
-            if self.config.recompute_granularity == "full_attn":
-                flops_recompute_transformer = flops_qkvo_matmul + flops_core_attn
-            if self.config.recompute_granularity == "core_attn":
-                flops_recompute_transformer = flops_core_attn
-
-        # final loggits
-        flops_loggits = seq_length * hidden_size * vocab_size
-
-        # 2 for mul + add in matmul
-        # 1 for forward, 2 for backwards since we caluate gradients for input_x and input_y
-        return (
-            2
-            * batch_size
-            * (layer_num * (flops_per_transformer * 3 + flops_recompute_transformer) + 3 * flops_loggits)
+        return caculate_llm_flops(
+            hidden_size=self.config.hidden_size,
+            intermediate_size=self.config.intermediate_size,
+            layer_num=self.config.num_hidden_layers,
+            vocab_size=self.config.vocab_size,
+            seq_length=seq_length,
+            recompute=recompute,
+            recompute_granularity=self.config.recompute_granularity,
         )
 
     def get_input_embeddings(self):
 
@@ -53,6 +53,7 @@
     TokenClassifierOutput,
 )
 from ..model_utils import dy2st_nocheck_guard_context
+from ..utils import caculate_llm_flops
 from .configuration import (
     GPT_PRETRAINED_INIT_CONFIGURATION,
     GPT_PRETRAINED_RESOURCE_FILES_MAP,
@@ -1106,82 +1107,36 @@ def __init__(self, config: GPTConfig):
         )
 
     def get_model_flops(self, batch_size=1, seq_length=None, **kwargs):
-        # TFLOPs formula (from Equation 3 in Section 5.1 of https://arxiv.org/pdf/2104.04473.pdf).
-        hidden_size = self.config.hidden_size
-        intermediate_size = self.config.intermediate_size
-        layer_num = self.config.num_hidden_layers
-        vocab_size = self.config.vocab_size
-
         if seq_length is None:
             if hasattr(self.config, "seq_length"):
                 seq_length = self.config.seq_length
             else:
                 seq_length = 2048
 
-        flops_per_transformer = 0
-
-        # qkvo matmul
-        flops_per_transformer += seq_length * hidden_size**2 * 4
-        # [b,s,h] [b,h,s] bs^2h
-        # [b,s,s] [b,s,h] bs^2h
-        # q_states * k_states + attn_weight * v_states
-        flops_per_transformer += seq_length**2 * hidden_size * 2
-        # swiglu, matmul + dot
-        flops_per_transformer += seq_length * hidden_size * intermediate_size * 3 + seq_length * intermediate_size
-
-        # final loggits
-        flops_loggits = seq_length * hidden_size * vocab_size
-
-        # 2 for mul + add in matmul
-        # 1 for forward, 2 for backwards since we caluate gradients for input_x and input_y
-        # so, here got 6=2*(1+2)
-        return 6 * batch_size * (layer_num * flops_per_transformer + flops_loggits)
+        return caculate_llm_flops(
+            hidden_size=self.config.hidden_size,
+            intermediate_size=self.config.intermediate_size,
+            layer_num=self.config.num_hidden_layers,
+            vocab_size=self.config.vocab_size,
+            seq_length=seq_length,
+            recompute=False,
+        )
 
     def get_hardware_flops(self, batch_size=1, seq_length=None, recompute=False, **kwargs):
-        # TFLOPs formula (from Equation 3 in Section 5.1 of https://arxiv.org/pdf/2104.04473.pdf).
-        hidden_size = self.config.hidden_size
-        intermediate_size = self.config.intermediate_size
-        layer_num = self.config.num_hidden_layers
-        vocab_size = self.config.vocab_size
-
         if seq_length is None:
             if hasattr(self.config, "seq_length"):
                 seq_length = self.config.seq_length
             else:
                 seq_length = 2048
 
-        flops_per_transformer = 0
-        flops_recompute_transformer = 0
-
-        # qkvo matmul
-        flops_qkvo_matmul = seq_length * hidden_size**2 * 4
-
-        # [b,s,h] [b,h,s] bs^2h
-        # [b,s,s] [b,s,h] bs^2h
-        # q_states * k_states + attn_weight * v_states
-        flops_core_attn = seq_length**2 * hidden_size * 2
-
-        # swiglu, matmul + dot
-        flops_ffn = seq_length * hidden_size * intermediate_size * 3 + seq_length * intermediate_size
-
-        flops_per_transformer = flops_qkvo_matmul + flops_core_attn + flops_ffn
-        if recompute:
-            if self.config.recompute_granularity == "full":
-                flops_recompute_transformer = flops_per_transformer
-            if self.config.recompute_granularity == "full_attn":
-                flops_recompute_transformer = flops_qkvo_matmul + flops_core_attn
-            if self.config.recompute_granularity == "core_attn":
-                flops_recompute_transformer = flops_core_attn
-
-        # final loggits
-        flops_loggits = seq_length * hidden_size * vocab_size
-
-        # 2 for mul + add in matmul
-        # 1 for forward, 2 for backwards since we caluate gradients for input_x and input_y
-        return (
-            2
-            * batch_size
-            * (layer_num * (flops_per_transformer * 3 + flops_recompute_transformer) + 3 * flops_loggits)
+        return caculate_llm_flops(
+            hidden_size=self.config.hidden_size,
+            intermediate_size=self.config.intermediate_size,
+            layer_num=self.config.num_hidden_layers,
+            vocab_size=self.config.vocab_size,
+            seq_length=seq_length,
+            recompute=recompute,
+            recompute_granularity=self.config.recompute_granularity,
         )
 
     def get_input_embeddings(self):
 
@@ -70,6 +70,7 @@ def swiglu(x, y=None):
 from .. import linear_utils
 from ..linear_utils import Linear
 from ..segment_parallel_utils import ReshardLayer
+from ..utils import caculate_llm_flops
 from .configuration import (
     LLAMA_PRETRAINED_INIT_CONFIGURATION,
     LLAMA_PRETRAINED_RESOURCE_FILES_MAP,
@@ -1469,82 +1470,36 @@ def __init__(self, config: LlamaConfig):
         self.gradient_checkpointing = False
 
     def get_model_flops(self, batch_size=1, seq_length=None, **kwargs):
-        # TFLOPs formula (from Equation 3 in Section 5.1 of https://arxiv.org/pdf/2104.04473.pdf).
-        hidden_size = self.config.hidden_size
-        intermediate_size = self.config.intermediate_size
-        layer_num = self.config.num_hidden_layers
-        vocab_size = self.config.vocab_size
-
         if seq_length is None:
             if hasattr(self.config, "seq_length"):
                 seq_length = self.config.seq_length
             else:
                 seq_length = 2048
 
-        flops_per_transformer = 0
-
-        # qkvo matmul
-        flops_per_transformer += seq_length * hidden_size**2 * 4
-        # [b,s,h] [b,h,s] bs^2h
-        # [b,s,s] [b,s,h] bs^2h
-        # q_states * k_states + attn_weight * v_states
-        flops_per_transformer += seq_length**2 * hidden_size * 2
-        # swiglu, matmul + dot
-        flops_per_transformer += seq_length * hidden_size * intermediate_size * 3 + seq_length * intermediate_size
-
-        # final loggits
-        flops_loggits = seq_length * hidden_size * vocab_size
-
-        # 2 for mul + add in matmul
-        # 1 for forward, 2 for backwards since we caluate gradients for input_x and input_y
-        # so, here got 6=2*(1+2)
-        return 6 * batch_size * (layer_num * flops_per_transformer + flops_loggits)
+        return caculate_llm_flops(
+            hidden_size=self.config.hidden_size,
+            intermediate_size=self.config.intermediate_size,
+            layer_num=self.config.num_hidden_layers,
+            vocab_size=self.config.vocab_size,
+            seq_length=seq_length,
+            recompute=False,
+        )
 
     def get_hardware_flops(self, batch_size=1, seq_length=None, recompute=False, **kwargs):
-        # TFLOPs formula (from Equation 3 in Section 5.1 of https://arxiv.org/pdf/2104.04473.pdf).
-        hidden_size = self.config.hidden_size
-        intermediate_size = self.config.intermediate_size
-        layer_num = self.config.num_hidden_layers
-        vocab_size = self.config.vocab_size
-
         if seq_length is None:
             if hasattr(self.config, "seq_length"):
                 seq_length = self.config.seq_length
             else:
                 seq_length = 2048
 
-        flops_per_transformer = 0
-        flops_recompute_transformer = 0
-
-        # qkvo matmul
-        flops_qkvo_matmul = seq_length * hidden_size**2 * 4
-
-        # [b,s,h] [b,h,s] bs^2h
-        # [b,s,s] [b,s,h] bs^2h
-        # q_states * k_states + attn_weight * v_states
-        flops_core_attn = seq_length**2 * hidden_size * 2
-
-        # swiglu, matmul + dot
-        flops_ffn = seq_length * hidden_size * intermediate_size * 3 + seq_length * intermediate_size
-
-        flops_per_transformer = flops_qkvo_matmul + flops_core_attn + flops_ffn
-        if recompute:
-            if self.config.recompute_granularity == "full":
-                flops_recompute_transformer = flops_per_transformer
-            if self.config.recompute_granularity == "full_attn":
-                flops_recompute_transformer = flops_qkvo_matmul + flops_core_attn
-            if self.config.recompute_granularity == "core_attn":
-                flops_recompute_transformer = flops_core_attn
-
-        # final loggits
-        flops_loggits = seq_length * hidden_size * vocab_size
-
-        # 2 for mul + add in matmul
-        # 1 for forward, 2 for backwards since we caluate gradients for input_x and input_y
-        return (
-            2
-            * batch_size
-            * (layer_num * (flops_per_transformer * 3 + flops_recompute_transformer) + 3 * flops_loggits)
+        return caculate_llm_flops(
+            hidden_size=self.config.hidden_size,
+            intermediate_size=self.config.intermediate_size,
+            layer_num=self.config.num_hidden_layers,
+            vocab_size=self.config.vocab_size,
+            seq_length=seq_length,
+            recompute=recompute,
+            recompute_granularity=self.config.recompute_granularity,
         )
 
     def get_input_embeddings(self):