Search Results

Found 51 repositories(showing 30)

rotorquant

scrya-com

🧡65

KV cache compression via block-diagonal rotation. Beats TurboQuant: better PPL (6.91 vs 7.07), 28% faster decode, 5.3x faster prefill, 44x fewer params. Drop-in llama.cpp integration.

245

Python

Updated 16 hours ago

llama-turboquant

animehacker

💛70

TurboQuant for GGML: 4.57x KV Cache Compression with 72K+ Context for Llama-3.3-70B on Consumer GPUs.

MIT

C++

Updated 3 hours ago

llama-turboquant

unixsysdev

🧡50

No description available

MIT

C++

Updated 2 days ago

TurboQuant

AmesianX

🧡55

TurboQuant KV Cache Compression for llama.cpp — 5.2x memory reduction with near-lossless quality | Implementation of Google DeepMind's TurboQuant (ICLR 2026)

MIT

C++

Updated 42 minutes ago

Turboquant-llama

gamogestionweb

🧡50

No description available

MIT

Shell

Updated 1 week ago

prism-ml-biturbo

nisten

🧡65

1bit llama.cpp gguf weights paired with turboquant 4 bit kv cache

MIT

C++

Updated 8 hours ago

local-ai-coding-setup

jamesarslan

🧡65

Complete local AI coding pipeline: Qwen3.5-35B-A3B + llama-server + TurboQuant + OpenCode + Context7 MCP + Chrome DevTools. 188 t/s on RTX 5090, zero cloud APIs.

Shell

Updated 1 day ago

Llama.cpp-turboquant

M-Baraa-Mardini

🧡60

No description available

Apache-2.0

Updated 2 days ago

Fused Triton kernels for TurboQuant KV cache compression — 2-4 bit quantization with RHT rotation. Drop-in HuggingFace & vLLM integration. Up to 4.9x KV cache compression for Llama, Qwen, Mistral, and more.

Apache-2.0

Python

Updated 3 days ago

attentioncompressioncuda+17

vllm-windows-build

rookiemann

💛70

Native Windows build of vLLM v0.17.1 with Triton support and TurboQuant KV cache compression — Qwen 3.5, Llama 4, and more. No WSL, no Docker. Pre-built wheel + patchset for MSVC 2022 + CUDA 12.6.

MIT

Python

Updated 1 day ago

cudafp8gpu+10

turboquant-llama-lab

pp1840

💛70

Experimental TurboQuant implementation and llama.cpp-style integration path for long-context inference

Apache-2.0

C++

Updated 4 days ago

cudeguffinference+7

turboquant-rocm-llamacpp

jagsan-cyber

🧡65

World's first TurboQuant KV cache compression for llama.cpp on AMD ROCm (RX 9070 / gfx1201)

Updated 1 day ago

llama-cpp-turboquant-guide

AI-Engineerings-at

💛70

Practical guide: TurboQuant KV-cache quantization on consumer hardware (RTX 3090) — 100K context, 4.3× compression, ICLR 2026

NOASSERTION

Shell

Updated 3 days ago

QuantumLeap---Llama.cpp-TurboQuant

MartinCrespoC

🧡55

🚀 Run any LLM on any hardware. 130% faster MoE inference with ExpertFlow + TurboQuant KV compression. Ollama-compatible API. Built on llama.cpp.

MIT

C++

Updated 4 days ago

aiamd-gpucpp+16

llama-cpp-turboquant-win-build-script

pjsgsy

🧡65

Simple all in one build script for llama-cpp-turboquant on Windows 11.

Batchfile

Updated 1 day ago

TurboQuant-QLauncher

WaveboSF

💛70

Model Switcher & Benchmark Tool for llama-server with TurboQuant KV-Cache

MIT

Python

Updated 48 minutes ago

turboquant-llama

CarapaceUDE

💛70

llama.cpp fork: Qwen 3.5 hybrid GGUF + loader fixes; syncs with ggml-org/llama.cpp

MIT

C++

Updated 1 day ago

Llama-TurboQuant

gotrendwise-com

💛70

Run Large Language Models on CPU with up to 8× less RAM using advanced KV cache compression.

MIT

Python

Updated 4 hours ago

llama-cpp-turboquant-gemma4

test1111111111111112

💛70

TurboQuant llama.cpp fork with optimized turbo4 kernels for Gemma 4 D=256/512 heads — lazy K/V, batch decode, warp-cooperative write. 120 t/s with 3.8x KV compression on RTX 3090.

MIT

C++

Updated 1 hour ago

turboquant-amd-vulkan

jimliddle

🧡65

A TurboQuant implementation with Llama.cpp for AMD with Vulkan runtime

C++

Updated 11 hours ago

amdkvcachellms+2

llama.cpp-gui

ahmaddarwesh

🧡65

A lightweight desktop application for managing and interacting with llama.cpp models through a clean, modern interface - Support TurboQuant technology

Rust

Updated 2 days ago

llama.cpp-turboquant

ProTekk

💛70

llama.cpp-turboquant

MIT

C++

Updated 3 days ago

turboquant_llamacpp

JohnnyDillinger-hub

🧡55

No description available

C++

Updated 6 days ago

llama-turboquant

Matt-Adroited

💛70

TurboQuant + KDA (Kimi Delta Attention) fork of llama.cpp — novel state matrix quantization for linear attention models

MIT

C++

Updated 6 hours ago

turboquant-llama

smurz

🧡50

Improved TurboQuant quantization for llama.cpp — adding QJL residual, residual window, asymmetric K/V to turbo-tan fork

Batchfile

Updated 3 days ago

turboquant_llama

zacpr

🧡55

No description available

C++

Updated 5 days ago

turboquant-llamacpp

thepradip

🧡60

No description available

MIT

C++

Updated 1 day ago

llama-turboquant

thekozugroup

💛70

llama-server with TurboQuant (TQ3_0) KV cache compression — DGX Spark ARM64 build

MIT

C++

Updated 3 days ago

turboquant-llama

guanyuch

🧡55

No description available

Python

Updated 4 days ago

turboquant-llama

Ascendism

💛70

llama.cpp + TurboQuant CUDA; syncs with ggml-org/llama.cpp

MIT

C++

Updated 1 day ago

GitHub Explorer

Search Results

rotorquant

llama-turboquant

llama-turboquant

TurboQuant

Turboquant-llama

prism-ml-biturbo

local-ai-coding-setup

Llama.cpp-turboquant

fused-turboquant

vllm-windows-build

turboquant-llama-lab

turboquant-rocm-llamacpp

llama-cpp-turboquant-guide

QuantumLeap---Llama.cpp-TurboQuant

llama-cpp-turboquant-win-build-script

TurboQuant-QLauncher

turboquant-llama

Llama-TurboQuant

llama-cpp-turboquant-gemma4

turboquant-amd-vulkan

llama.cpp-gui

llama.cpp-turboquant

turboquant_llamacpp

llama-turboquant

turboquant-llama

turboquant_llama

turboquant-llamacpp

llama-turboquant

turboquant-llama

turboquant-llama

rotorquant

llama-turboquant

llama-turboquant

TurboQuant

Turboquant-llama

prism-ml-biturbo

local-ai-coding-setup

Llama.cpp-turboquant

fused-turboquant

vllm-windows-build

turboquant-llama-lab

turboquant-rocm-llamacpp

llama-cpp-turboquant-guide

QuantumLeap---Llama.cpp-TurboQuant

llama-cpp-turboquant-win-build-script

TurboQuant-QLauncher

turboquant-llama

Llama-TurboQuant

llama-cpp-turboquant-gemma4

turboquant-amd-vulkan

llama.cpp-gui

llama.cpp-turboquant

turboquant_llamacpp

llama-turboquant

turboquant-llama

turboquant_llama

turboquant-llamacpp

llama-turboquant

turboquant-llama

turboquant-llama