Optimize `RoPEAttention` implementation for onnx export #10

zz990099 · 2025-04-30T12:34:45Z

矩阵乘法实现的RoPEAttention在TensorRT框架下耗时较高，相比于pytorch下的复数实现，在nvidia-3080-laptop下，耗时 30ms(pytorch) vs 100ms(tensorrt). 主要是由于大矩阵乘法耗时较高，所以对这部分做了优化。

这个PR的内容是将复数实现的RoPEAttention转换为实数运算，既避免了复数运算ONNX/TensorRT不支持的情况，又保留了复数运算的高效率。

推理速度测试：

Orin-NX-16GB	latency
基于矩阵运算	900ms
基于实数运算	100ms

3080-laptop	latency
基于矩阵运算	100ms
基于实数运算	24ms

在sam2原工程上验证，输出结果与原版一致。

Optimize RoPEAttention implementation for onnx export

c492deb

Aimol-l merged commit dc130b3 into Aimol-l:main May 1, 2025

zz990099 mentioned this pull request May 26, 2025

[Question] Performance Drop in SAM2's MemoryAttention with TensorRT (30ms PyTorch vs. 100ms TensorRT). facebookresearch/sam2#639

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Optimize `RoPEAttention` implementation for onnx export #10

Optimize `RoPEAttention` implementation for onnx export #10

Uh oh!

zz990099 commented Apr 30, 2025

Uh oh!

Uh oh!

Optimize RoPEAttention implementation for onnx export #10

Optimize RoPEAttention implementation for onnx export #10

Uh oh!

Conversation

zz990099 commented Apr 30, 2025

Uh oh!

Uh oh!

Optimize `RoPEAttention` implementation for onnx export #10

Optimize `RoPEAttention` implementation for onnx export #10