PaddlePaddle
diff --git a/‎Makefile
Lines changed: 3 additions & 2 deletions b/‎Makefile
Lines changed: 3 additions & 2 deletions
diff --git a/‎applications/question_answering/unsupervised_qa/README.md
Lines changed: 4 additions & 5 deletions b/‎applications/question_answering/unsupervised_qa/README.md
Lines changed: 4 additions & 5 deletions
diff --git a/‎applications/question_answering/unsupervised_qa/run.sh
Lines changed: 0 additions & 102 deletions b/‎applications/question_answering/unsupervised_qa/run.sh
Lines changed: 0 additions & 102 deletions
diff --git a/‎applications/text_classification/hierarchical/README.md
Lines changed: 3 additions & 2 deletions b/‎applications/text_classification/hierarchical/README.md
Lines changed: 3 additions & 2 deletions
diff --git a/‎applications/text_classification/multi_class/README.md
Lines changed: 3 additions & 2 deletions b/‎applications/text_classification/multi_class/README.md
Lines changed: 3 additions & 2 deletions
diff --git a/‎applications/text_classification/multi_label/README.md
Lines changed: 3 additions & 2 deletions b/‎applications/text_classification/multi_label/README.md
Lines changed: 3 additions & 2 deletions
diff --git a/‎docs/locale/en/LC_MESSAGES/source/paddlenlp.transformers.tokenizer_utils_faster.po renamed to ‎docs/locale/en/LC_MESSAGES/source/paddlenlp.transformers.tokenizer_utils_fast.po
Lines changed: 2 additions & 2 deletions b/‎docs/locale/en/LC_MESSAGES/source/paddlenlp.transformers.tokenizer_utils_faster.po renamed to ‎docs/locale/en/LC_MESSAGES/source/paddlenlp.transformers.tokenizer_utils_fast.po
Lines changed: 2 additions & 2 deletions
diff --git a/‎docs/source/paddlenlp.transformers.rst
Lines changed: 1 addition & 1 deletion b/‎docs/source/paddlenlp.transformers.rst
Lines changed: 1 addition & 1 deletion
diff --git a/‎docs/source/paddlenlp.transformers.tokenizer_utils_faster.rst renamed to ‎docs/source/paddlenlp.transformers.tokenizer_utils_fast.rst
Lines changed: 2 additions & 2 deletions b/‎docs/source/paddlenlp.transformers.tokenizer_utils_faster.rst renamed to ‎docs/source/paddlenlp.transformers.tokenizer_utils_fast.rst
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/language_model/moe/dygraph/framework/group_sharded.py
Lines changed: 14 additions & 27 deletions b/‎examples/language_model/moe/dygraph/framework/group_sharded.py
Lines changed: 14 additions & 27 deletions
diff --git a/‎examples/language_model/moe/dygraph/framework/storage_process.py
Lines changed: 8 additions & 14 deletions b/‎examples/language_model/moe/dygraph/framework/storage_process.py
Lines changed: 8 additions & 14 deletions
diff --git a/‎examples/language_model/moe/dygraph/run_moe_pretrain.py
Lines changed: 2 additions & 6 deletions b/‎examples/language_model/moe/dygraph/run_moe_pretrain.py
Lines changed: 2 additions & 6 deletions
diff --git a/‎paddlenlp/experimental/autonlp/auto_trainer_base.py
Lines changed: 1 addition & 1 deletion b/‎paddlenlp/experimental/autonlp/auto_trainer_base.py
Lines changed: 1 addition & 1 deletion
@@ -35,8 +35,9 @@ lint:
 test: unit-test
 
 unit-test:
-	PYTHONPATH=$(shell pwd) pytest \
-		-n auto --cov paddlenlp \
+	PYTHONPATH=$(shell pwd) pytest -v \
+		-n auto \
+		--cov paddlenlp \
 		--cov-report xml:coverage.xml
 
 # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #
 
@@ -22,7 +22,7 @@
       - [问题生成](#问题生成)
       - [过滤模型](#过滤模型)
       - [语义索引和召回模型](#语义索引和召回模型)
-      - [排序模型](排序模型)
+      - [排序模型](#排序模型)
   - [References](#References)
 
 ## 简介
@@ -74,7 +74,7 @@
 
 **语义索引**：针对给定问答对语料，我们基于RocketQA（即`rocketqa-zh-base-query-encoder`）对问答对进行语义向量化，并通过ElasticSearch的ANN服务构建索引库。
 
-**召回排序**：给定用户查询，我们给予RocketQA的query-encoder和cross-encoder分别进行召回和排序操作，得到目标的问答对，从而返回给用户查询结果。
+**召回排序**：给定用户查询，我们基于RocketQA的query-encoder和cross-encoder分别进行召回和排序操作，得到目标的问答对，从而返回给用户查询结果。
 
 **Pipelines**：由于本项目设计的模块较多，我们使用PaddleNLP Pipelines进行模块的组合和项目的构建。大体来说，我们的Pipelines包含两个具体的pipeline和三个服务。两个pipeline分别是qa_generation_pipeline和dense_faq_pipeline；三个服务分别是基于ElasticSearch的ANN在线索引库服务，基于RestAPI的模型后端服务以及基于Streamlit的前端WebUI服务。
 
@@ -124,7 +124,6 @@ python run_pipelines_example.py --device cpu --source_file data/source_file.txt
 
 
 ## 可视化无监督检索式问答系统
-<!-- **【注意】**  关于构建Web可视化问答对自动生成智能检索式问答系统，请参考[Pipelines-无监督智能检索问答系统](../../../pipelines/examples/unsupervised_question_answering/README.md)。 -->
 开发者可以基于Pipelines进一步构建Web可视化的无监督检索式问答系统，其效果如下，
 <div align="center">
     <img src="https://user-images.githubusercontent.com/20476674/199488926-c64d3f4e-8117-475f-afe6-b02088105d09.gif" >
@@ -217,7 +216,7 @@ python -u run_corpus_preparation.py \
 <!-- ### 检索模型训练部署
 在已有问答语料库和语义检索模型前提下，模型部署首先要把语义检索模型由动态图转换成静态图，然后转换成serving的格式，此外还需要基于Milvus和问答语料库构建语义检索引擎。
 
-关于如何对语义检索模型进行无监督训练，以及针对给定问答语料库进行模型部署，请参考[faq_system](../README.md)。 -->
+关于如何对语义检索模型进行无监督训练，以及针对给定问答语料库进行模型部署，请参考faq_system -->
 
 ### 基于Pipelines构建问答系统
 本项目提供了基于Pipelines的低成本构建问答对自动生成智能检索问答系统的能力。开发者只需要提供非结构化的纯文本，就可以使用本项目预制的问答对生成模块生成大量的问答对，并基于此快速搭建一个针对自己业务的检索问答系统，并可以提供Web可视化产品服务。Web可视化产品服务支持问答检索、在线问答对生成，在线文件上传和解析，在线索引库更新等功能，用户也可根据需要自行调整。具体的构建流程请参考[Pipelines-无监督智能检索问答系统](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/pipelines/examples/unsupervised-question-answering)。
@@ -231,7 +230,7 @@ python -u run_corpus_preparation.py \
 #### 自定义数据
 在许多情况下，我们需要使用本地数据集来微调模型从而得到定制化的能力，让生成的问答对更接近于理想分布，本项目支持使用固定格式本地数据集文件进行微调。
 
-这里我们提供预先标注好的文件样例[train.json](https://paddlenlp.bj.bcebos.com/applications/unsupervised_qa/train.json)和[dev.json](https://paddlenlp.bj.bcebos.com/applications/unsupervised_qa/test.json)，开发者可直接下载放入`data`目录，此外也可自行构建本地数据集，具体来说，本地数据集主要包含以下文件：
+这里我们提供预先标注好的文件样例[train.json](https://paddlenlp.bj.bcebos.com/applications/unsupervised_qa/train.json)和[dev.json](https://paddlenlp.bj.bcebos.com/applications/unsupervised_qa/dev.json)，开发者可直接下载放入`data`目录，此外也可自行构建本地数据集，具体来说，本地数据集主要包含以下文件：
 ```text
 data
 ├── train.json # 训练数据集文件
 
@@ -370,7 +370,7 @@ export/
 使用裁剪功能需要安装 paddleslim：
 
 ```shell
-pip install paddleslim==2.2.2
+pip install paddleslim==2.4.1
 ```
 
 开始模型裁剪训练，默认为GPU训练，使用CPU训练只需将设备参数配置改为`--device "cpu"`：
@@ -379,6 +379,7 @@ python prune.py \
     --device "gpu" \
     --dataset_dir "data" \
     --output_dir "prune" \
+    --learning_rate 3e-5 \
     --per_device_train_batch_size 32 \
     --per_device_eval_batch_size 32 \
     --num_train_epochs 10 \
@@ -394,7 +395,7 @@ python prune.py \
 * `device`: 选用什么设备进行裁剪，选择cpu、gpu。如使用gpu训练，可使用参数--gpus指定GPU卡号。
 * `per_device_train_batch_size`：训练集裁剪训练过程批处理大小，请结合显存情况进行调整，若出现显存不足，请适当调低这一参数；默认为32。
 * `per_device_eval_batch_size`：开发集评测过程批处理大小，请结合显存情况进行调整，若出现显存不足，请适当调低这一参数；默认为32。
-* `learning_rate`：训练最大学习率；默认为3e-5。
+* `learning_rate`：训练最大学习率；默认为5e-5。
 * `num_train_epochs`: 训练轮次，使用早停法时可以选择100；默认为10。
 * `logging_steps`: 训练过程中日志打印的间隔steps数，默认100。
 * `save_steps`: 训练过程中保存模型checkpoint的间隔steps数，默认100。
 
@@ -392,7 +392,7 @@ export/
 使用裁剪功能需要安装 paddleslim：
 
 ```shell
-pip install paddleslim==2.2.2
+pip install paddleslim==2.4.1
 ```
 
 开始模型裁剪训练，默认为GPU训练，使用CPU训练只需将设备参数配置改为`--device "cpu"`：
@@ -401,6 +401,7 @@ python prune.py \
     --device "gpu" \
     --dataset_dir "data" \
     --output_dir "prune" \
+    --learning_rate 3e-5 \
     --per_device_train_batch_size 32 \
     --per_device_eval_batch_size 32 \
     --num_train_epochs 10 \
@@ -416,7 +417,7 @@ python prune.py \
 * `device`: 选用什么设备进行裁剪，选择cpu、gpu。如使用gpu训练，可使用参数--gpus指定GPU卡号。
 * `per_device_train_batch_size`：训练集裁剪训练过程批处理大小，请结合显存情况进行调整，若出现显存不足，请适当调低这一参数；默认为32。
 * `per_device_eval_batch_size`：开发集评测过程批处理大小，请结合显存情况进行调整，若出现显存不足，请适当调低这一参数；默认为32。
-* `learning_rate`：训练最大学习率；默认为3e-5。
+* `learning_rate`：训练最大学习率；默认为5e-5。
 * `num_train_epochs`: 训练轮次，使用早停法时可以选择100；默认为10。
 * `logging_steps`: 训练过程中日志打印的间隔steps数，默认100。
 * `save_steps`: 训练过程中保存模型checkpoint的间隔steps数，默认100。
 
@@ -367,7 +367,7 @@ export/
 使用裁剪功能需要安装 paddleslim：
 
 ```shell
-pip install paddleslim==2.2.2
+pip install paddleslim==2.4.1
 ```
 
 开始模型裁剪训练，默认为GPU训练，使用CPU训练只需将设备参数配置改为`--device "cpu"`：
@@ -376,6 +376,7 @@ python prune.py \
     --device "gpu" \
     --dataset_dir "data" \
     --output_dir "prune" \
+    --learning_rate 3e-5 \
     --per_device_train_batch_size 32 \
     --per_device_eval_batch_size 32 \
     --num_train_epochs 10 \
@@ -391,7 +392,7 @@ python prune.py \
 * `device`: 选用什么设备进行裁剪，选择cpu、gpu。如使用gpu训练，可使用参数--gpus指定GPU卡号。
 * `per_device_train_batch_size`：训练集裁剪训练过程批处理大小，请结合显存情况进行调整，若出现显存不足，请适当调低这一参数；默认为32。
 * `per_device_eval_batch_size`：开发集评测过程批处理大小，请结合显存情况进行调整，若出现显存不足，请适当调低这一参数；默认为32。
-* `learning_rate`：训练最大学习率；默认为3e-5。
+* `learning_rate`：训练最大学习率；默认为5e-5。
 * `num_train_epochs`: 训练轮次，使用早停法时可以选择100；默认为10。
 * `logging_steps`: 训练过程中日志打印的间隔steps数，默认100。
 * `save_steps`: 训练过程中保存模型checkpoint的间隔steps数，默认100。
 
@@ -17,7 +17,7 @@ msgstr ""
 "Content-Transfer-Encoding: 8bit\n"
 "Generated-By: Babel 2.10.1\n"
 
-#: ../source/paddlenlp.transformers.tokenizer_utils_faster.rst:2
-msgid "tokenizer\\_utils\\_faster"
+#: ../source/paddlenlp.transformers.tokenizer_utils_fast.rst:2
+msgid "tokenizer\\_utils\\_fast"
 msgstr ""
 
@@ -79,5 +79,5 @@ paddlenlp.transformers
    paddlenlp.transformers.sentencepiece_model_pb2
    paddlenlp.transformers.tokenizer_utils
    paddlenlp.transformers.tokenizer_utils_base
-   paddlenlp.transformers.tokenizer_utils_faster
+   paddlenlp.transformers.tokenizer_utils_fast
    paddlenlp.transformers.utils
@@ -1,7 +1,7 @@
-tokenizer\_utils\_faster
+tokenizer\_utils\_fast
 ======================================================
 
-.. automodule:: paddlenlp.transformers.tokenizer_utils_faster
+.. automodule:: paddlenlp.transformers.tokenizer_utils_fast
    :members:
    :no-undoc-members:
    :show-inheritance:
 
@@ -26,28 +26,21 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-import os
 from types import MethodType
 
 import paddle
-from paddle.optimizer import Optimizer
-from paddle.fluid.framework import in_dygraph_mode
-from paddle.fluid.clip import ClipGradBase, _squared_l2_norm
-from paddle.fluid.dygraph import base as imperative_base
-from paddle.fluid import core, framework
-from paddle.incubate.distributed.models.moe.grad_clip import ClipGradForMOEByGlobalNorm
-
-# Old version
-from paddle.distributed.fleet.meta_optimizers.dygraph_optimizer.sharding_optimizer_stage2 import (
-    ShardingOptimizerStage2,
-)
-from paddle.distributed.fleet.meta_parallel.sharding.sharding_stage2 import ShardingStage2
-from paddle.distributed.fleet.meta_parallel.sharding.sharding_stage3 import ShardingStage3
 
 # New version
-from paddle.distributed.fleet.meta_parallel.sharding.group_sharded_optimizer_stage2 import GroupShardedOptimizerStage2
-from paddle.distributed.fleet.meta_parallel.sharding.group_sharded_stage2 import GroupShardedStage2
-from paddle.distributed.fleet.meta_parallel.sharding.group_sharded_stage3 import GroupShardedStage3
+from paddle.distributed.fleet.meta_parallel.sharding.group_sharded_optimizer_stage2 import (
+    GroupShardedOptimizerStage2,
+)
+from paddle.distributed.fleet.meta_parallel.sharding.group_sharded_stage2 import (
+    GroupShardedStage2,
+)
+from paddle.fluid import core
+from paddle.fluid.dygraph import base as imperative_base
+from paddle.incubate.distributed.models.moe.grad_clip import ClipGradForMOEByGlobalNorm
+from paddle.optimizer import Optimizer
 
 
 class ClipGradForShardedMOEByGlobalNorm(ClipGradForMOEByGlobalNorm):
@@ -139,16 +132,10 @@ def check_dtype(param):
         )
 
     # convert model/optimizer
-    if in_dygraph_mode():
-        optimizer = GroupShardedOptimizerStage2(params=sharded_params, optim=optimizer, group=group, offload=offload)
-        model = GroupShardedStage2(
-            model, optimizer, group=group, sync_buffers=sync_buffers, buffer_max_size=buffer_max_size
-        )
-    else:
-        optimizer = ShardingOptimizerStage2(params=sharded_params, optim=optimizer, group=group, offload=offload)
-        model = ShardingStage2(
-            model, optimizer, group=group, sync_buffers=sync_buffers, buffer_max_size=buffer_max_size
-        )
+    optimizer = GroupShardedOptimizerStage2(params=sharded_params, optim=optimizer, group=group, offload=offload)
+    model = GroupShardedStage2(
+        model, optimizer, group=group, sync_buffers=sync_buffers, buffer_max_size=buffer_max_size
+    )
 
     clear_func = model._clear_gradients
     for opt in model._sharding_optimizers:
 
@@ -12,18 +12,15 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-from paddle.framework import core
-import numpy as np
 from collections import OrderedDict
 
-from paddle.fluid.framework import in_dygraph_mode, _in_legacy_dygraph
-
-if in_dygraph_mode():
-    from paddle.distributed.fleet.meta_parallel.sharding.group_sharded_storage import ParamStorage, GradStorage
-elif _in_legacy_dygraph():
-    from paddle.distributed.fleet.utils.internal_storage import ParamStorage, GradStorage
-
-from paddle.distributed.fleet.meta_parallel.sharding.sharding_utils import Type
+import numpy as np
+from paddle.distributed.fleet.meta_parallel.sharding.group_sharded_storage import (
+    GradStorage,
+    ParamStorage,
+)
+from paddle.distributed.fleet.meta_parallel.sharding.group_sharded_utils import Type
+from paddle.framework import core
 
 alignment = {
     "gpu": 256,
@@ -37,10 +34,7 @@
 def assign_group_by_size(parameters, group_size=256 * 1024 * 1024):
     is_sparse_gradient = [False] * len(parameters)
 
-    if in_dygraph_mode():
-        group_indices = core.eager_assign_group_by_size(parameters, is_sparse_gradient, [group_size, group_size])
-    elif _in_legacy_dygraph():
-        group_indices = core.assign_group_by_size(parameters, is_sparse_gradient, [group_size, group_size])
+    group_indices = core.eager_assign_group_by_size(parameters, is_sparse_gradient, [group_size, group_size])
 
     var_groups = OrderedDict()
     for group_idx, indices in enumerate(group_indices):
 
@@ -38,10 +38,7 @@
 from paddle.distributed.fleet.meta_parallel.sharding.group_sharded_utils import (
     GroupShardedScaler,
 )
-from paddle.distributed.fleet.meta_parallel.sharding.sharding_utils import (
-    ShardingScaler,
-)
-from paddle.fluid.framework import core, in_dygraph_mode
+from paddle.fluid.framework import core
 from paddle.incubate.distributed.models import moe
 from utils import get_timers, set_timers
 from visualdl import LogWriter
@@ -426,8 +423,7 @@ def do_train(args):
             scaler = fleet.distributed_scaler(scaler)
             scaler._unscale = MethodType(unscale_method, scaler)
         else:
-            wrap_scale_func = GroupShardedScaler if in_dygraph_mode() else ShardingScaler
-            scaler = wrap_scale_func(scaler)
+            scaler = GroupShardedScaler(scaler)
 
         model = paddle.amp.decorate(models=model, optimizers=None, level="O2", save_dtype="float32")
 
 
@@ -126,7 +126,7 @@ def export(self, export_path, trial_id=None):
         """
         model_result = self._get_model_result(trial_id=trial_id)
         exported_model_path = os.path.join(model_result.log_dir, self.export_path)
-        shutil.copytree(exported_model_path, export_path, dirs_exist_ok=True)
+        shutil.copytree(exported_model_path, export_path)
         logger.info(f"Exported to {export_path}")
 
     @abstractmethod