Found 3 repositories(showing 3)
sebuzdugan
FRAI Benchmark: Future Responsible AI Evaluation A consensus-based safety and compliance benchmark for SOTA LLMs (DeepSeek, Grok, GPT-5). Uses a "Panel of Experts" methodology where multiple frontier models judge response quality to ensure non-biased, high-fidelity safety scores
ChangyuanYU
AIGER format benchmarks for Fraig-BMC
AmauryRoub
Conception d’un pipeline Python (OCR & LLMs multimodaux) pour extraire les données de justificatifs de frais, incluant un outil de benchmark comparant la précision, la latence et les coûts d’API de chaque méthode.
All 3 repositories loaded