Quantization

1 yazı bu etiketle etiketlendi.

TurboQuant, büyük dil modellerinin KV önbelleğini doğruluk kaybı olmadan 3 bit'e sıkıştıran bir Google Research algoritmasıdır. H100 GPU'larda 8 kat hız artışı sağlar ve hiç eğitim gerektirmez.

← Tüm yazılar