use torch.matmul instead of einsum in attnetion. (#445)

patil-suraj · web-flow · commit 5adb0a7bf7fe · 2022-09-09T17:16:06.000+05:30
* use torch.matmul instead of einsum

* fix softmax
diff --git a/src/diffusers/models/attention.py b/src/diffusers/models/attention.py
@@ -275,11 +275,9 @@ def _attention(self, query, key, value, sequence_length, dim):
         for i in range(hidden_states.shape[0] // slice_size):
             start_idx = i * slice_size
             end_idx = (i + 1) * slice_size
-            attn_slice = (
-                torch.einsum("b i d, b j d -> b i j", query[start_idx:end_idx], key[start_idx:end_idx]) * self.scale
-            )
+            attn_slice = torch.matmul(query[start_idx:end_idx], key[start_idx:end_idx].transpose(1, 2)) * self.scale
             attn_slice = attn_slice.softmax(dim=-1)
-            attn_slice = torch.einsum("b i j, b j d -> b i d", attn_slice, value[start_idx:end_idx])
+            attn_slice = torch.matmul(attn_slice, value[start_idx:end_idx])
 
             hidden_states[start_idx:end_idx] = attn_slice