From 6fbb6abce264d2c4e31ecd4f2eac6aa2f3c2ec70 Mon Sep 17 00:00:00 2001 From: Zhong Hui Date: Fri, 10 Jan 2025 11:38:07 +0800 Subject: [PATCH 1/2] Update README.md --- csrc/README.md | 7 +++++-- 1 file changed, 5 insertions(+), 2 deletions(-) diff --git a/csrc/README.md b/csrc/README.md index 02bd4a372e46..24fe14da6756 100644 --- a/csrc/README.md +++ b/csrc/README.md @@ -1,6 +1,9 @@ -# PaddleNLP 自定义 OP +# PaddleNLP 大模型高性能自定义推理算子 -此文档介绍如何编译安装 PaddleNLP 自定义 OP。 +此文档介绍如何编译安装 PaddleNLP 大模型高性能自定义推理算子的安装教程。 + +使用这些高性能算子,可以大幅提升大模型推理速度。 +大模型推理相关教程详见[此处](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/README.md#6-%E6%8E%A8%E7%90%86)。 ## 安装 C++ 依赖 From 253620519c826d66c5b7df20088c194c7f1b5c64 Mon Sep 17 00:00:00 2001 From: Zhong Hui Date: Fri, 10 Jan 2025 11:57:40 +0800 Subject: [PATCH 2/2] Update README.md --- llm/README.md | 5 +++++ 1 file changed, 5 insertions(+) diff --git a/llm/README.md b/llm/README.md index 69b6513a9c06..728f311295f4 100644 --- a/llm/README.md +++ b/llm/README.md @@ -332,6 +332,11 @@ python ./predict/export_model.py --model_name_or_path meta-llama/Llama-2-7b-chat # step2: 静态图推理 python ./predict/predictor.py --model_name_or_path ./inference --inference_model --dtype "float16" --mode "static" ``` +参数说明: +1. **`--inference_model`** 参数表示使用高性能自定义算子推理,否则使用普通动态图推理(如果可以安装算子,建议打开此开关)。打开时,请前往[此处安装](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/csrc)高性能推理自定义算子, +2. **`--mode`** 有两种模式可选 `dynamic`, `static`。分别表示动态图和静态图模式。静态图模型需要进行参数导出步骤,动态图不需要。具体可以参考上述命令执行。静态图情况下,导出和推理的参数`--inference_model`需要一致。 +3. 推理速度简要比较。`static+inference_model` > `dynamic+inference_model` >> `static w/o inference_model` > `dynamic w/o inference_mode`。推荐安装高性能算子,使用 `动态图+inference_model` 模式,方便快捷。 + 更多模型推理使用方法详见[大模型推理文档](./docs/predict/inference.md)。