[LLM] fix bug when loss is None in llama modeling.py

cqulilujia · cqulilujia · commit 2d2a5032042b · 2024-05-17T12:40:03.000+08:00
diff --git a/paddlenlp/transformers/llama/modeling.py b/paddlenlp/transformers/llama/modeling.py
@@ -1646,7 +1646,11 @@ def forward(self, prediction_scores, masked_lm_labels):
                 masked_lm_loss > 0, paddle.ones_like(masked_lm_loss), paddle.zeros_like(masked_lm_loss)
             )
             sum_ = paddle.sum(binary_sequence)
-            loss = 0 if sum_ == 0 else paddle.sum(masked_lm_loss * binary_sequence) / sum_
+            if sum_ == 0:
+                loss = paddle.zeros([], dtype=masked_lm_loss.dtype)
+                loss.stop_gradient = False
+            else:
+                loss = paddle.sum(masked_lm_loss * binary_sequence) / sum_
 
         return loss