GitHub Explorer

by Alexey Ratnikov

GitHub Explorer

GitHub Explorer|TRENDING COMPARE|FEEDBACK

Back to search

lechmazur/step_game - GitHub Explorer | GitHub Explorer | Trending | Compare

Back to search

step_game

lechmazur•PUBLIC

View on GitHub

Multi-Agent Step Race Benchmark: Assessing LLM Collaboration and Deception Under Pressure. A multi-player “step-race” that challenges LLMs to engage in public conversation before secretly picking a move (1, 3, or 5 steps). Whenever two or more players choose the same number, all colliding players fail to advance.

benchmarkdeepseekdeepseek-r1evalevaluationgame

Created on Jan 21, 2025

Updated on Mar 15, 2026

Stars

Forks

Watchers

Open Issues

Repository Health Score

🧡

55/100

Fair

Overall repository health assessment

Score Breakdown

Activity

Regular updates - updated this month

20/30

67%

Recent Commits

GPT-5.1, Gemini 3 Pro, Grok 4.1 Fast, Deepseek V3.2 Exp, Claude Sonnet 4.5, Kimi K2 Thinking, Claude Opus 4.5, Qwen 3 235B A22B 25-07, GLM-4.6, Qwen 3 Max Thinking, Mistral Large 3 added.

Lech•3 months ago

e24dc36View on GitHub

GPT-5.1, Gemini 3 Pro, Grok 4.1 Fast, Deepseek V3.2 Exp, Claude Sonnet 4.5, Kimi K2 Thinking, Claude Opus 4.5, Qwen 3 235B A22B 25-07, GLM-4.6, Qwen 3 Max Thinking, Mistral Large 3 added.

Lech•3 months ago

e18f0f1View on GitHub

GPT-5.1, Gemini 3 Pro, Grok 4.1 Fast, Deepseek V3.2 Exp, Claude Sonnet 4.5, Kimi K2 Thinking, Claude Opus 4.5, Qwen 3 235B A22B 25-07, GLM-4.6, Qwen 3 Max Thinking, Mistral Large 3 added.

Lech•3 months ago

aa41883View on GitHub

plots

Lech•7 months ago

72c8627View on GitHub

images

Lech•7 months ago

8a67f26View on GitHub

images

Lech•7 months ago

5102fb7View on GitHub

DeepSeek V3.1, Mistral Medium 3.1 added. 5 new baseline silent strategies added.