PaddleNLP 2.5.0 Release Note Candidate

# New Features

## [PPDiffusers 扩散模型工具库发布](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/ppdiffusers)
PPDiffusers是基于PaddlePaddle的扩散模型工具库，提供多模态的扩散模型，帮助开发者快速使用文生图、文生视频、文生文相关扩散模型

### SOTA扩散模型Pipelines集合
- PPDiffusers已经集成了33+Pipelines，不仅支持 Stable Diffusion 文生图Pipeline，还支持基于FastDeploy的高性能文生图Pipeline

### 提供丰富的Noise Scheduler
- 提供丰富的噪声调度器（Noise Scheduler）,可以权衡速度与质量 PPDiffusers集成了14+Scheduler，不仅支持 DDPM、DDIM 和 PNDM，还支持最新的 DPMSolver

### 支持多种Diffusion模型组件
- 集成多种 Diffusion 模型组件，如UNet1d、UNet2d、UNet2d Conditional

### 提供丰富的训练和推理教程 
- 提供了丰富的训练教程，支持使用 Laion400M 数据集 从零训练 Latent Diffusion Model 模型，可以轻易进行扩散模型的二次开发；同时支持高性能FastDeploy推理教程


## [端上语义理解压缩方案](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-tiny)
发布基于ERNIE-Tiny模型的端上语义理解压缩方案，帮助开发者快速在边缘端设备部署预训练模型

### ERNIE-Tiny V2 轻量级模型 发布
- ERNIE-Tiny V2在V1的模型的基础上使用了下游知识注入、多任务学习等策略，在out-domain、low-resourced 数据上的效果显著提升

### 基于 PaddleSlim 全量化压缩方案发布
- 首次发布基于PaddleSlim的全量化加速方案，同时支持词表量化来降低部署内存占用，在精度基本无损的情况下模型预测速度大幅提升

### FastDeplopy 边缘部署加速
- FastDeploy 是一款全场景、易用灵活、极致高效的 AI 推理部署工具，大大降低在边缘端部署难度

## [产业范例库升级](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications)
###  [文档智能信息抽取UIE-X 应用](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/information_extraction/document)
- **场景全面**： 覆盖文档信息抽取各类主流任务，支持多语言，满足开发者多样信息抽取落地需求
- **效果领先**： 以在多模态信息抽取上有突出效果的模型UIE-X作为训练基座，具有广泛成熟的实践应用性
- **简单易用**： 通过Taskflow实现三行代码可实现无标注数据的情况下进行快速调用，一行命令即可开启信息抽取训练，轻松完成
 部署上线，降低信息抽取技术落地门槛
- **高效调优**： 开发者无需机器学习背景知识，即可轻松上手数据标注及模型训练流程

###  [统一文本分类UTC应用](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/zero_shot_text_classification)
- **SOTA效果**：UTC是基于统一语义匹配框架建模的SOTA模型，模型效果刷新FewCLUE和ZeroCLUE两大榜单
- **统一建模**：单模型可支持多种任务建模，同时支持多分类、多标签、层次分类多个任务
- **快速迁移**：零样本分类和小样本迁移能力强，同时提供Label Studio标注工具标注方法，支持快速调优开发


###  [统一情感分析UIE-Seta应用](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/sentiment_analysis)
- **应用全面**：新增uie-senta系列模型，模型效果大幅提升，支持语句情感分类，属性抽取，观点抽取等常用情感分析能力
- **高效调优**：提供Label Studio标注工具标注方法，开发者通过简单数据标注，即可快速进行模型训练与调优
- **场景验证**：真实应用场景打磨的应用工具，解决隐性情感维度抽取、情感维度聚合等真实场景难题

###  [无监督问答应用](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/question_answering/unsupervised_qa)
- **应用创新**：无监督检索式问答系统（即问答对自动生成智能检索式问答），基于问题生成、UIE答案抽取、检索式问答等应用组合来支持以非结构化文本形式为上下文自动生成QA问答对，生成的问答对语料可以通过无监督的方式构建检索式问答系统。
- **简单应用**：通过PaddleNLP Pipelines 提供包括问答语料生成、索引库构建、模型服务部署、WebUI可视化一整套端到端智能问答系统能力



## [基础框架升级](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/docs)

### [PretrainedConfig](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/paddlenlp/transformers/configuration_utils.py)
-  模型配置正式化，配置模型参数更加易用，GPT/T5/Ernie/ErnieM/ErnieLayout/Bart/MBart/Unified_Transformer/Unimo/CodeGen 等模型升级至使用PretrainedConfig 

### [Trainer API](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/trainer.md)
- 新增基础训练能力支持，支持混合精度O1、O2两种模式bf16训练  #3352
- 新增分布式技术能力支持，支持recompute重计算、sharding训练支持 #3352 
- 新增 `Seq2SeqTrainer` 支持 seq2seq 类型模型训练。#3352
- 新增 `Memory Tracer` 支持监控内存、显存 #4181 

### [模型压缩 API](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/compression.md)
- 模型压缩 API 接入量化训练、词表压缩等功能，并支持各种策略组合 #3271 #4159 #4011 
- 模型压缩 API 支持 ERNIE、UIE、BERT、TinyBERT、ELECTRA、ERNIE-M、RoBERTa、PP-MiniLM 等 #3234
- 
### [数据增强api](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/dataaug.md)
- 新增字和句子级别数据增强策略，新增基于反义词和基于word embedding的近义词表，支持文件输入-输出数据增强 #4194 

### [Prompt API](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/advanced_guide/prompt.md)
- Template API 新增支持 Prefix-Tuning 和 UniMC 
## [FastGeneration](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/advanced_guide/fastgeneration/fastgeneration.rst)
- 新增T5生成加速，动转静以及预测库支持 #3763 
- `model.generate()` 接口调整，`use_faster` 参数调整为 `use_fast` #4213 
- Transformer 生成加速解除 FFN 中间隐层大小必须是 4 倍的限制 #3592

### [FastTokenizer](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/fast_tokenizer)
- 更新[FastTokenizer 1.0.1](https://pypi.org/project/fast-tokenizer-python/#description), 修复PretrainedFastTokenizer中get_vocab_size关键词参数错误 #4339 
- 修复FastTokenizer AddToken接口无法接受AddedToken数据结构的错误。#4380
- 修复FastTokenizer单线程分词仍创建线程的问题。 #4441

## [HuggingFace 生态联合](https://twitter.com/PaddlePaddle_/status/1608777581033328646)
PaddleNLP首次和HuggingFace生态联合，支持所有Model和Tokenizer类支持直接从Huggingface Hub下载和上传，开发者可以直接从HuggingFace体验预训练模型效果

- 所有Model和Tokenizer类支持直接从Huggingface Hub下载和上传
- Text Summarization, Fill Mask, Dialogue Taskflow支持直接从Huggingface Hub加载, 并且连通HuggingFace Inference API
- 新增ConversionMixin, bert和gpt模型的`from_pretrained` 支持直接从Huggingface Hub加载torch权重的模型

## Others
- 新增数据下载以及全套数据预处理流程，新增数据集自定义接口以及文档说明 #3269
- T5新增prepare_decoder_input_ids_from_labels method #4331 
- 重构CLIP和ERNIE VIL模型，新增ChineseCLIP模型 #4270 
- 新增CMSIM_LOCK模型 #4388
 - Pipelines支持批量的预测，Pipelines新增ERNIE Vilg文图生成、RocketQAv2、ERNIE-Search英文语义检索 #3432 #3512 #3718 #3906 ；PIpelines新增关键字，语义检索两路召回，新增Docker 镜像构建流程，新增Milvus 2.1向量检索工具  #3864 #3315  #3283 

## Bugs
- 修复 load_torch 中的特殊情况 #4383
- 修复 基于SKEP的情感分析tokenizer分词问题 #4357
- 修复 FastGeneration 在 FP16 下生成不在词表中 id 的问题 #3936 
- 修复 FastGeneration 在新版 PaddlePaddle eager mode 上使用 FP16 上不可用的问题 #3936 
- 修复 UnifiedTransformer 和 UNIMOText 在原生生成式 API 使用问题 #3936 
- 修复 BART，MBART，T5 在 4D AttentionMask 下生成报错的问题 #3936
- 修复Windows系统下生态模型下载的问题 #3640 #3670 
- 修复`from_pretrained_v2`不能load fp16模型的问题。#3902
- 修复Trainer sharding下保存模型报错的问题。#4220
- 修复Windows下用CPU训练Pegasus文本摘要报错的问题。#4431

## New Contributors
* @JamesLim-sy made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3089
* @bruce0210 made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3209
* @wuhuachaocoding made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3211
* @kztao made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3182
* @paopjian made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3221
* @0x45f made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3277
* @HexToString made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3309
* @Septilliony made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3375
* @Elvisambition made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/1799
* @YanhuiDua made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3377
* @Yam0214 made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3370
* @alkaideemo made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3424
* @ShawnNew made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3431
* @qipengh made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3434
* @sijunhe made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3411
* @iamWHTWD made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3527
* @USTCKAY made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3521
* @feifei-111 made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3585
* @Wang-ck123 made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3409
* @chenxiangzhen made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3602
* @ymyjl made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3641
* @sserdoubleh made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3662
* @ChenBinfighting1 made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3677
* @firestonelib made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3755
* @co63oc made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3955
* @zjjlivein made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3969
* @DefTruth made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3999
* @christineaa made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3977
* @shentanyue made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/4042
* @LazyFyh made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/4102
* @pangyoki made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/3954
* @GGBond8488 made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/4186
* @chncaption made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/4040
* @SylarTiaNII made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/4228






Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

PaddleNLP 2.5.0 Release Note Candidate #4439

New Features

PPDiffusers 扩散模型工具库发布

SOTA扩散模型Pipelines集合

提供丰富的Noise Scheduler

支持多种Diffusion模型组件

提供丰富的训练和推理教程

端上语义理解压缩方案

ERNIE-Tiny V2 轻量级模型发布

基于 PaddleSlim 全量化压缩方案发布

FastDeplopy 边缘部署加速

产业范例库升级

文档智能信息抽取UIE-X 应用

统一文本分类UTC应用

统一情感分析UIE-Seta应用

无监督问答应用

基础框架升级

PretrainedConfig

Trainer API

模型压缩 API

数据增强api

Prompt API

FastGeneration

FastTokenizer

HuggingFace 生态联合

Others

Bugs

New Contributors

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

PaddleNLP 2.5.0 Release Note Candidate #4439

Description

New Features

SOTA扩散模型Pipelines集合

提供丰富的Noise Scheduler

支持多种Diffusion模型组件

提供丰富的训练和推理教程

ERNIE-Tiny V2 轻量级模型 发布

基于 PaddleSlim 全量化压缩方案发布

FastDeplopy 边缘部署加速

Others

Bugs

New Contributors

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions

ERNIE-Tiny V2 轻量级模型发布