Skip to content

Commit a2f9558

Browse files
authored
llm inference docs (#8976)
* update inference docs * update * update * update * update * fix comments * fix comments * fix comments * update inference.md
1 parent f6fc7ff commit a2f9558

File tree

11 files changed

+579
-284
lines changed

11 files changed

+579
-284
lines changed

README.md

Lines changed: 12 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -127,6 +127,18 @@ Unified Checkpoint 大模型存储格式在模型参数分布上支持动态扩
127127
| Yuan2 |||| 🚧 | 🚧 | 🚧 | 🚧 ||
128128
------------------------------------------------------------------------------------------
129129

130+
* [大模型推理](./llm/docs/predict/inference.md)已支持 LLaMA 系列、Qwen 系列、Mistral 系列、ChatGLM 系列、Bloom 系列和Baichuan 系列,支持Weight Only INT8及INT4推理,支持WAC(权重、激活、Cache KV)进行INT8、FP8量化的推理,【LLM】模型推理支持列表如下:
131+
132+
| 模型名称/量化类型支持 | FP16/BF16 | WINT8 | WINT4 | INT8-A8W8 | FP8-A8W8 | INT8-A8W8C8 |
133+
|:--------------------------------------------:|:---------:|:-----:|:-----:|:---------:|:--------:|:-----------:|
134+
| [LLaMA](./llm/docs/predict/llama.md) |||||||
135+
| [Qwen](./llm/docs/predict/qwen.md) |||||||
136+
| [Qwen-Moe](./llm/docs/predict/qwen.md) |||| 🚧 | 🚧 | 🚧 |
137+
| [Mixtral](./llm/docs/predict/mixtral.md) |||| 🚧 | 🚧 | 🚧 |
138+
| ChatGLM |||| 🚧 | 🚧 | 🚧 |
139+
| Bloom |||| 🚧 | 🚧 | 🚧 |
140+
| BaiChuan |||||| 🚧 |
141+
130142
## 安装
131143

132144
### 环境依赖

docs/llm/docs/inference.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -1 +1 @@
1-
../../../llm/docs/inference.md
1+
../../../llm/docs/predict/inference.md

llm/README.md

Lines changed: 5 additions & 20 deletions
Original file line numberDiff line numberDiff line change
@@ -226,22 +226,7 @@ python run_finetune.py ./config/llama/ptq_argument.json
226226

227227
### 5. 推理
228228

229-
PaddleNLP 除了提供常用模型推理外,还提供了高性能推理,内置动态插入和全环节算子融合策略,极大加快并行推理的速度。
230-
231-
- **常用模型推理**:PaddleNLP 提供了动态图推理和静态图推理两种方式,方便用户快速验证模型推理效果(包含 LoRA、PrefixTuning)。
232-
233-
```shell
234-
# 动态图模型推理命令参考
235-
python ./predict/predictor.py --model_name_or_path meta-llama/Llama-2-7b-chat --data_file ./data/dev.json --dtype float16
236-
237-
# 静态图模型推理命令参考
238-
# step1 : 静态图导出
239-
python ./predict/export_model.py --model_name_or_path meta-llama/Llama-2-7b-chat --output_path ./inference --dtype float16
240-
# step2: 静态图推理
241-
python ./predict/predictor.py --model_name_or_path ./inference --data_file ./data/dev.json --dtype float16 --mode static
242-
```
243-
244-
- **InferenceModel 高性能推理**:PaddleNLP 还提供了高性能推理模型加快并行推理的速度,同时支持 FP16、Prefix Tuning、WINT8、A8W8多种推理方式。
229+
PaddleNLP 提供高性能推理,内置动态插入和全环节算子融合策略,极大加快并行推理的速度,同时支持 FP16/BF16、WINT8、WINT4、A8W8、A8W8C8多种推理方式。
245230

246231
<div align="center">
247232
<img width="500" alt="llm" src="https://github.com/PaddlePaddle/PaddleNLP/assets/63761690/fb248224-0ad1-4d6a-a1ca-3a8dd765c41d">
@@ -253,17 +238,17 @@ python ./predict/predictor.py --model_name_or_path ./inference --data_file ./dat
253238
</div>
254239

255240
```shell
256-
# 高性能动态图模型推理命令参考
241+
# 动态图模型推理命令参考
257242
python ./predict/predictor.py --model_name_or_path meta-llama/Llama-2-7b-chat --inference_model --dtype float16
258243

259-
# 高性能静态图模型推理命令参考
244+
# 静态图模型推理命令参考
260245
# step1 : 静态图导出
261246
python ./predict/export_model.py --model_name_or_path meta-llama/Llama-2-7b-chat --inference_model --output_path ./inference --dtype float16
262247
# step2: 静态图推理
263248
python ./predict/predictor.py --model_name_or_path ./inference --inference_model --dtype "float16" --mode "static"
264249
```
265250

266-
更多常用模型推理和高性能模型使用方法详见[大模型推理文档](./docs/inference.md)
251+
更多模型推理使用方法详见[大模型推理文档](./docs/predict/inference.md)
267252

268253
### 6. 服务化部署
269254

@@ -287,7 +272,7 @@ python -m paddle.distributed.launch --gpus "0,1,2,3,4,5,6,7" ./predict/flask_ser
287272

288273
- `port`: Gradio UI 服务端口号,默认8011。
289274
- `flask_port`: Flask 服务端口号,默认8010。
290-
- 其他参数请参见[推理文档](./docs/inference.md)中推理参数配置。
275+
- 其他参数请参见[推理文档](./docs/predict/inference.md)中推理参数配置。
291276

292277
此外,如果想通过 API 脚本的方式跑推理,可参考:`./predict/request_flask_server.py` 文件。
293278

llm/docs/dcu_install.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -64,4 +64,4 @@ cd -
6464
```
6565

6666
### 高性能推理:
67-
海光的推理命令与GPU推理命令一致,请参考[大模型推理教程](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/inference.md).
67+
海光的推理命令与GPU推理命令一致,请参考[大模型推理教程](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/inference.md).

0 commit comments

Comments
 (0)