[Feature Request] Let `ttnn.transformer.scaled_dot_product_attention` support `dropout_p` (dropout probability) #16022

jdh8 · 2024-12-13T21:12:53Z

Is your feature request related to a problem? Please describe.
I am trying to lower aten._scaled_dot_product_flash_attention to ttnn.transformer.scaled_dot_product_attention. The related issues are:

Describe the solution you'd like
Add a floating-point parameter dropout_p to ttnn.transformer.scaled_dot_product_attention. Its behavior should match torch.nn.functional.scaled_dot_product_attention.

Describe alternatives you've considered
Split out the final step of matrix multiplication, so we can insert a dropout op there?

The text was updated successfully, but these errors were encountered:

jdh8 added the feature-request External feature request label Dec 13, 2024

jdh8 added this to PyTorch 2.0 TT-NN Compiler Dec 13, 2024

jdh8 mentioned this issue Dec 13, 2024

Try lowering aten._scaled_dot_product_flash_attention tenstorrent/pytorch2.0_ttnn#569

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Feature Request] Let `ttnn.transformer.scaled_dot_product_attention` support `dropout_p` (dropout probability) #16022

[Feature Request] Let `ttnn.transformer.scaled_dot_product_attention` support `dropout_p` (dropout probability) #16022

jdh8 commented Dec 13, 2024

[Feature Request] Let ttnn.transformer.scaled_dot_product_attention support dropout_p (dropout probability) #16022

[Feature Request] Let ttnn.transformer.scaled_dot_product_attention support dropout_p (dropout probability) #16022

Comments

jdh8 commented Dec 13, 2024

[Feature Request] Let `ttnn.transformer.scaled_dot_product_attention` support `dropout_p` (dropout probability) #16022

[Feature Request] Let `ttnn.transformer.scaled_dot_product_attention` support `dropout_p` (dropout probability) #16022