Search Results

Found 2 repositories(showing 2)

faster-nanogpt

LH-Tech-AI

🧡60

Optimized nanoGPT using Muon optimizer for 2x faster convergence. Features modern architecture (RoPE, RMSNorm, QK-Norm, ReLU²). bfloat16, torch.compile & Flash Attention ready. The fastest way to train small-to-medium GPTs.

MIT

Python

Updated 1 week ago

fastest_flash_attention

MindIntels

🧡55

⚡ Production-ready Flash Attention library unifying FlashAttention-2/3/4 + FFPA innovations. including polynomial exp2 emulation, conditional rescaling, ping-pong pipelining, GQA/MQA/MLA, paged KV-cache, block-sparse masking, and Triton auto-tuned GPU kernels

MIT

Python

Updated 3 weeks ago

All 2 repositories loaded

GitHub Explorer

Search Results

faster-nanogpt

fastest_flash_attention

faster-nanogpt

fastest_flash_attention