Search Results

Found 18 repositories(showing 18)

turboquant-pytorch

tonbistudio

💛72

From-scratch PyTorch implementation of Google's TurboQuant (ICLR 2026) for LLM KV cache compression. 5x compression at 3-bit with 99.5% attention fidelity.

809

103

MIT

Python

Updated 38 minutes ago

turboquant-kv

hackimov

💛70

Open-source PyTorch implementation of Google TurboQuant (ICLR 2026) — extreme KV-cache quantization to ~3 bits with zero accuracy loss. 6x less memory, up to 8x faster inference.

Apache-2.0

Python

Updated 59 minutes ago

semafold

mindtro

💛70

Vector compression with TurboQuant codecs for embeddings, retrieval, and KV-cache. 10x compression, pure NumPy core — optional GPU acceleration via PyTorch (CUDA/MPS) or MLX (Metal).

Apache-2.0

Python

Updated 17 hours ago

embedding-compressionkv-cachellm-inference+7

turboquant-vllm

varjoranta

🧡65

TurboQuant+ KV cache compression for vLLM. 3.8x smaller KV cache, same conversation quality. Fused CUDA kernels with automatic PyTorch fallback.

MIT

Python

Updated 12 hours ago

Yet Another TurboQuant in PyTorch (YATQ) is a PyTorch implementation of TurboQuant for KV cache compression, following the paper TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate (ICLR 2026). With HuggingFace interface supported.

Python

Updated 9 hours ago

turboquant-torch

codepawl

🧡55

PyTorch implementation of TurboQuant. Near-optimal vector quantization for KV cache compression and vector search. 3-bit with zero accuracy loss.

MIT

Python

Updated 3 days ago

compressioninferencekv-cache+3

turboQuantPlayground

yzamari

🧡65

TurboQuant (ICLR 2026) ported to Apple Silicon — KV cache compression with MLX Metal kernels + PyTorch CPU

Python

Updated 3 days ago

apple-siliconattentiondeep-learning+12

turboquant-app

lakshmana64

💛70

PyTorch toolkit for TurboQuant-based unbiased vector quantization, LLM KV-cache compression, and embedding retrieval.

MIT

Python

Updated 3 days ago

turboquant-serve

sammyboi1801

🧡65

A simple pytorch implementation of turboquant for model comparison

Python

Updated 20 hours ago

turboquant-tutorial

az9713

🧡65

TurboQuant PyTorch implementation + deep 9,500-word tutorial. Fork of tonbistudio/turboquant-pytorch enhanced with comprehensive educational materials covering theory, math, and code.

Python

Updated 4 days ago

turboquant-vllm

BFinn

💛70

PyTorch implementation of TurboQuant (ICLR 2026) — two-stage KV cache vector quantization for LLM inference". Suggested topics: kv-cache, llm, quantization, vllm, pytorch, transformer.

MIT

Python

Updated 2 days ago

turboquant-pytorch

sridharnandigam

❤️45

No description available

Updated 1 week ago

turboquant-pytorch

gduchidze

💛70

From-Scratch Pytorch Implementation of Google's TurboQuant for LLM KV Cache Compression. 5x compression at 3-bit with 99.5% fidelity.

MIT

Python

Updated 1 day ago

turboquant

gaetanX21

🧡65

Simple PyTorch implementation of the TurboQuant quantization algorithm.

Python

Updated 5 days ago

pytq

anchitgupt

💛70

TurboQuant for PyTorch — Near-optimal vector quantization for LLM KV cache compression

NOASSERTION

Python

Updated 6 days ago

turboquantjax

ZhuShuairong

🧡65

JAX implementation of https://github.com/tonbistudio/turboquant-pytorch from https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

Python

Updated 4 days ago

jaxpython3qwen3+1

turboquant-kvcache

G26karthik

🧡65

PyTorch implementation of TurboQuant (Google Research, 2026) for KV cache compression - 3.3× compression with only +6.1% perplexity degradation on GPT-2 Medium.

Python

Updated 5 days ago

turboquant-xpu

hammurabi-coder

🧡65

TurboQuant KV-cache compression ported to Intel Arc B580 (XPU) via Triton — pure PyTorch fallback path. Triton kernel port pending fix for tl.gather materialization bug.

MIT

Python

Updated 3 days ago

All 18 repositories loaded

GitHub Explorer

Search Results

turboquant-pytorch

turboquant-kv

semafold

turboquant-vllm

YATQ

turboquant-torch

turboQuantPlayground

turboquant-app

turboquant-serve

turboquant-tutorial

turboquant-vllm

turboquant-pytorch

turboquant-pytorch

turboquant

pytq

turboquantjax

turboquant-kvcache

turboquant-xpu

turboquant-pytorch

turboquant-kv

semafold

turboquant-vllm

YATQ

turboquant-torch

turboQuantPlayground

turboquant-app

turboquant-serve

turboquant-tutorial

turboquant-vllm

turboquant-pytorch

turboquant-pytorch

turboquant

pytq

turboquantjax

turboquant-kvcache

turboquant-xpu