Minor improvement to f16 matmul, Longer prompt and token generation for testing #12

TheSeamau5 · 2024-01-10T18:32:03Z

Changed f16 matmul kernels to only use half (no more floats) and made mistral prompt longer for testing.

~ 132 tok/s prompt processing -> ~140 tok/s

…or testing

Minor improvement to f16 matmul, Longer prompt and token generation for testing

Minor improvement to f16 matmul, Longer prompt and token generation f…

d62f2e2

…or testing

TheSeamau5 changed the title ~~Minor improvement to f16 matmul, Longer prompt and token generation f…~~ Minor improvement to f16 matmul, Longer prompt and token generation for testing Jan 10, 2024

jafioti merged commit 9e04457 into jafioti:main Jan 10, 2024
1 check passed

jafioti added a commit that referenced this pull request Jan 12, 2024

Merge pull request #12 from TheSeamau5/matmul

ed278c9

Minor improvement to f16 matmul, Longer prompt and token generation for testing

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Minor improvement to f16 matmul, Longer prompt and token generation for testing #12

Minor improvement to f16 matmul, Longer prompt and token generation for testing #12

TheSeamau5 commented Jan 10, 2024 •

edited

Loading

Minor improvement to f16 matmul, Longer prompt and token generation for testing #12

Minor improvement to f16 matmul, Longer prompt and token generation for testing #12

Conversation

TheSeamau5 commented Jan 10, 2024 • edited Loading

TheSeamau5 commented Jan 10, 2024 •

edited

Loading