Search Results

Found 149 repositories(showing 30)

turboquant-pytorch

tonbistudio

💛72

From-scratch PyTorch implementation of Google's TurboQuant (ICLR 2026) for LLM KV cache compression. 5x compression at 3-bit with 99.5% attention fidelity.

818

103

MIT

Python

Updated 7 minutes ago

turboquant

0xSero

💛72

TurboQuant: Near-optimal KV cache quantization for LLM inference (3-bit keys, 2-bit values) with Triton kernels + vLLM integration

729

GPL-3.0

Python

Updated 4 minutes ago

rotorquant

scrya-com

🧡65

KV cache compression via block-diagonal rotation. Beats TurboQuant: better PPL (6.91 vs 7.07), 28% faster decode, 5.3x faster prefill, 44x fewer params. Drop-in llama.cpp integration.

244

Python

Updated 19 hours ago

SwiftLM

SharpAI

🧡65

⚡ Native MLX Swift LLM inference server for Apple Silicon. OpenAI-compatible API, SSD streaming for 100B+ MoE models, TurboQuant KV cache compression, + iOS iPhone app.

196

MIT

C++

Updated 1 hour ago

apple-siliinferenceios+7

quant.cpp

quantumaikr

🧡65

Embeddable LLM inference in pure C. 33K LOC, zero dependencies. Delta KV compression — 4x longer context. Inspired by TurboQuant (ICLR 2026).

167

Apache-2.0

Updated 6 minutes ago

delta-compressionembeddablegguf+7

turboquant-mlx

arozanov

🧡65

TurboQuant KV cache compression for MLX with fused Metal kernels. 4.6x compression at 98% FP16 speed.

Python

Updated 21 hours ago

apple-siliconkv-cachellm+4

turboquant

OnlyTerp

🧡65

First open-source implementation of Google TurboQuant (ICLR 2026) -- near-optimal KV cache compression for LLM inference. 5x compression with near-zero quality loss.

MIT

Python

Updated 1 day ago

attentioncompressiondeep-learning+13

turboquant

OmarHory

💛70

Open-source implementation of Google's TurboQuant (ICLR 2026) — KV cache compression to 2.5–4 bits with near-zero quality loss. 3.8–5.7x memory reduction on Mistral-7B, no training required.

MIT

Python

Updated 1 day ago

turboquant-kv

hackimov

💛70

Open-source PyTorch implementation of Google TurboQuant (ICLR 2026) — extreme KV-cache quantization to ~3 bits with zero accuracy loss. 6x less memory, up to 8x faster inference.

Apache-2.0

Python

Updated 17 hours ago

turboquant_cutile

DevTechJr

🧡65

turboquant-based compression engine for LLM KV cache

Python

Updated 1 hour ago

llama-turboquant

animehacker

💛70

TurboQuant for GGML: 4.57x KV Cache Compression with 72K+ Context for Llama-3.3-70B on Consumer GPUs.

MIT

C++

Updated 14 hours ago

turboquant-vllm

Alberto-Codes

🧡55

TurboQuant KV cache compression plugin for vLLM — asymmetric K/V, 8 models validated, consumer GPUs

Apache-2.0

Python

Updated 14 hours ago

compressionconsumer-gpuinference-optimization+7

turboquant_mlx

helgklaizar

🧡55

Extreme KV Cache Compression (1-3 bit) for LLMs natively on Apple Silicon (MLX). Features TurboQuant, asymmetric PolarQuant caching, and OpenAI server compatibility.

Python

Updated 12 hours ago

apple-siliconkv-cachellm+2

prism-ml-biturbo

nisten

🧡65

1bit llama.cpp gguf weights paired with turboquant 4 bit kv cache

MIT

C++

Updated 4 hours ago

TurboQuant

AmesianX

🧡55

TurboQuant KV Cache Compression for llama.cpp — 5.2x memory reduction with near-lossless quality | Implementation of Google DeepMind's TurboQuant (ICLR 2026)

MIT

C++

Updated 1 hour ago

tq-kv

onur-gokyildiz-bhi

💛70

Pure Rust implementation of Google's TurboQuant (ICLR 2026) — KV cache compression for LLMs

Apache-2.0

Rust

Updated 19 hours ago

turboquant

back2matching

🧡55

First open-source TurboQuant KV cache compression for LLM inference. Drop-in for HuggingFace. pip install turboquant.

NOASSERTION

Python

Updated 23 hours ago

compressiongpuhuggingface+9

turboquant-mlx

DeadByDawn101

💛70

First MLX implementation of TurboQuant KV cache compression for Apple Silicon

MIT

Python

Updated 3 days ago

turbo-quant

RecursiveIntell

🧡65

Rust implementation of TurboQuant, PolarQuant, and QJL — zero-overhead vector quantization for semantic search and KV cache compression (ICLR 2026)

Rust

Updated 10 hours ago

semafold

mindtro

💛70

Vector compression with TurboQuant codecs for embeddings, retrieval, and KV-cache. 10x compression, pure NumPy core — optional GPU acceleration via PyTorch (CUDA/MPS) or MLX (Metal).

Apache-2.0

Python

Updated 1 day ago

embedding-compressionkv-cachellm-inference+7

Turbo1Bit: Combining 1-bit LLM weights (Bonsai) with TurboQuant KV cache compression for maximum inference efficiency. 4.2x KV cache compression + 16x weight compression = ~10x total memory reduction.

Updated 11 hours ago

turboquant-vllm

varjoranta

🧡65

TurboQuant+ KV cache compression for vLLM. 3.8x smaller KV cache, same conversation quality. Fused CUDA kernels with automatic PyTorch fallback.

MIT

Python

Updated 19 minutes ago

turboquant

yashkc2025

🧡60

Python implementation of TurboQuant (arXiv 2504.19874). Data-oblivious, near-optimal 1–4 bit vector quantization for streaming KV-caches and databases.

Python

Updated 1 day ago

YATQ

Arclabs001

🧡65

Yet Another TurboQuant in PyTorch (YATQ) is a PyTorch implementation of TurboQuant for KV cache compression, following the paper TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate (ICLR 2026). With HuggingFace interface supported.

Python

Updated 13 hours ago

turboquant-torch

codepawl

🧡55

PyTorch implementation of TurboQuant. Near-optimal vector quantization for KV cache compression and vector search. 3-bit with zero accuracy loss.

MIT

Python

Updated 3 days ago

compressioninferencekv-cache+3

bitnet.c

artalis-io

💛70

Minimal, zero-dependency LLM inference in pure C11. CPU-first with NEON/AVX2 SIMD. Flash MoE (pread + LRU expert cache). TurboQuant 3-bit KV compression (8.9x less memory per session). 20+ GGUF quant formats. Compiles to WASM.

MIT

Updated 4 days ago

avx2ccpu-inference+10

nexora-code

r13xr13

🧡65

Nexora Code - AI coding harness with TurboQuant KV cache optimizations

Updated 11 hours ago

mlx-turboquant

rachittshah

🧡60

TurboQuant KV cache compression for MLX (Apple Silicon)

Python

Updated 1 day ago

turboquant

RemizovDenis

🧡60

TurboQuant: KV-cache compression for faster and cheaper LLM inference.

NOASSERTION

Python

Updated 2 hours ago

inferencekv-cachellm+5

turboquant

scos-lab

💛70

TurboQuant reference implementation — KV cache compression with engineering insights (ICLR 2026 paper reproduction)

MIT

Python

Updated 3 days ago

GitHub Explorer

Search Results

turboquant-pytorch

turboquant

rotorquant

SwiftLM

quant.cpp

turboquant-mlx

turboquant

turboquant

turboquant-kv

turboquant_cutile

llama-turboquant

turboquant-vllm

turboquant_mlx

prism-ml-biturbo

TurboQuant

tq-kv

turboquant

turboquant-mlx

turbo-quant

semafold

Turbo1bit

turboquant-vllm

turboquant

YATQ

turboquant-torch

bitnet.c

nexora-code

mlx-turboquant

turboquant

turboquant

turboquant-pytorch

turboquant

rotorquant

SwiftLM

quant.cpp

turboquant-mlx

turboquant

turboquant

turboquant-kv

turboquant_cutile

llama-turboquant

turboquant-vllm

turboquant_mlx

prism-ml-biturbo

TurboQuant

tq-kv

turboquant

turboquant-mlx

turbo-quant

semafold

Turbo1bit

turboquant-vllm

turboquant

YATQ

turboquant-torch

bitnet.c

nexora-code

mlx-turboquant

turboquant

turboquant