Search Results

Found 28 repositories(showing 28)

Visual-RFT

Liuziyu77

🧡63

Official repository of 'Visual-RFT: Visual Reinforcement Fine-Tuning' & 'Visual-ARFT: Visual Agentic Reinforcement Fine-Tuning'’

2.3k

106

Apache-2.0

Jupyter Notebook

Updated 2 days ago

AgentCPM-GUI

OpenBMB

💛73

AgentCPM-GUI: An on-device GUI agent for operating Android apps, enhancing reasoning ability with reinforcement fine-tuning for efficient task execution.

1.3k

126

Apache-2.0

Python

Updated 1 day ago

LlamaGym

KhoomeiK

💛72

Fine-tune LLM agents with online reinforcement learning

1.3k

MIT

Python

Updated 3 days ago

RL4VLM

🧡56

Official Repo for Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning

409

MIT

Jupyter Notebook

Updated 1 week ago

Attention-based Deep Reinforcement Learning framework for portfolio allocation on S&P 500 equities. Includes custom environment, policy architecture with cross-sectional attention, PPO/A2C/REINFORCE agents, training/evaluation pipeline, and fine-tuning grid search.

163

Python

Updated 1 month ago

PantheonRL

Stanford-ILIAD

❤️45

PantheonRL is a package for training and testing multi-agent reinforcement learning environments. PantheonRL supports cross-play, fine-tuning, ad-hoc coordination, and more.

158

MIT

Python

Updated 1 month ago

deep-reinforcement-learningmultiagent-reinforcement-learningreinforcement-learning

Trading-Agent-

MiChaelinzo

💛70

A trading agent AI is an artificial intelligence system that uses computational intelligence methods such as machine learning and deep reinforcement learning to automatically discover, implement, and fine-tune strategies for autonomous adaptive automated trading in financial markets

128

MIT

Jupyter Notebook

Updated 2 days ago

eval-protocol

🧡55

Eval Protocol (EP) is an open solution for doing reinforcement learning fine-tuning on existing agents — across any language, container, or framework.

MIT

MDX

Updated 1 week ago

agentic-reasoning-reinforcement-fine-tuning

redhat-et

❤️25

No description available

Jupyter Notebook

Updated 2 months ago

AI_Tetris_2024

SuZeAI

🧡50

This repository contains an AI agent for playing Tetris using the Deep Q-Learning (DQL) algorithm with fine-tuned rewards. It focuses on optimizing decision-making and performance through reinforcement learning techniques.

Jupyter Notebook

Updated 3 weeks ago

agentdeep-q-learningreward+1

ALCHEMY

SandroHub013

❤️40

🧪 Advanced LLM fine-tuning framework with Reinforcement Learning (GRPO/DPO), Multi-Agent Swarm Training, Adaptive Optimization, and Unsloth integration (2x faster, 70% less VRAM). Train 1.5B-70B+ models on 8GB+ GPUs with QLoRA, PEFT, LUFFY off-policy reasoning, and Search-R1. RAG-enabled with smart chunking.

NOASSERTION

Python

Updated 4 months ago

projrlftsim.github.io

projrlftsim

❤️35

RLFTSim: Realistic and Controllable Multi-Agent Traffic Simulation via Reinforcement Learning Fine-Tuning [Under Review]]

JavaScript

Updated 6 months ago

seea-r1.github.io

seea-r1

❤️20

official repo for SEEA-R1: Tree-Structured Reinforcement Fine-Tuning for Self-Evolving Embodied Agents

HTML

Updated 4 months ago

Capstone

rchauhan1001

🧡65

Distilling Multi-Agent Social Reasoning: Compressing MetaMind's Cognitive Architecture via Reinforcement Learning and Supervised Fine-Tuning

Python

Updated 3 days ago

Research-Lookahead-AI

msritian

🧡55

Benchmark and improve VLMs capabilities in complex, evolving markets as sequential traders - LLM post training, Reinforcement Learning Fine Tuning and Agentic AI

Python

Updated 2 weeks ago

AIGC-Nexus

henyoushili111

🧡55

Led the R&D of the first closed-loop intelligent agent framework for visual content generation that integrates "underlying model capability perception" with "high-level reinforcement fine-tuning," significantly boosting complex semantic alignment and execution success rates.

Python

Updated 1 week ago

fonpr

praveenmada

❤️40

Reinforcement Learning Agents to fine tune telecom networks.

NOASSERTION

Updated 2 years ago

Agentic-Reinforcement-Fine-Tuning

felattaoui

❤️40

Workshop on Agentic finetuning for AOAI models

Jupyter Notebook

Updated 1 month ago

liuziyu7747

annavirvi-0x0598

❤️40

Official Tuning Visual Fine Reinforcement Fine Reinforcement of ARFT Tuning Visual repository Agentic Visual Visual RFT

BSD-3-Clause

Python

Updated 4 months ago

healthcare-claims-rlhf-agent

viditjain88

❤️45

healthcare claim adjudication reinforcement fine-tuning agent

Python

Updated 2 months ago

fine-tune-llm-rl

armundl3

❤️35

Fine-Tuning AI Agents with Reinforcement Learning

Jupyter Notebook

Updated 3 months ago

Query-MARFT

JoshuaWenHIT

💛70

We present Query-MARFT, a query-guided multi-agent reinforcement fine-tuning framework.

NOASSERTION

Python

Updated 3 days ago

seea-r1.github.io

AurumTian

❤️35

official repo for SEEA-R1: Tree-Structured Reinforcement Fine-Tuning for Self-Evolving Embodied Agents

HTML

Updated 5 months ago

large-language-models

satyampurwar

❤️40

Unlocking the Power of Generative AI: In-Context Learning, Instruction Fine-Tuning, Reinforcement Learning Fine-Tuning, Retrieval Augmented Generation and LangGraph Workflows for AI Agents.

MIT

Jupyter Notebook

Updated 10 months ago

ai-agentsbertfaiss-vector-database+17

rl-reasoning-optimizer

mcar18

❤️45

Core Idea Train a reinforcement learning agent that improves reasoning prompts for an LLM. Instead of fine-tuning the LLM directly, agent learns to optimize the reasoning process.

Python

Updated 1 month ago

Consensus-Isn-t-Enough

ankushsil17

🧡55

Multi-agent debate meets reinforcement learning through game theory. Four specialized LLM agents (Researcher→Reasoning→Critic→Refiner) debate math problems; Nash equilibrium convergence and debate quality metrics provide rich reward signals for GRPO fine-tuning. Achieves +30% accuracy over baseline on GSM8K with Qwen2.5-3B-Instruct and LoRA.

Jupyter Notebook

Updated 2 weeks ago

Creating-High-Quality-Seed-Data-for-Asana-RL-Environment

likhitha285

❤️45

This project focuses on creating a realistic, enterprise-scale seed dataset simulating how a large B2B SaaS organization uses Asana for project management. The generated dataset is designed to serve as seed data for a reinforcement learning (RL) environment, enabling evaluation and fine-tuning of AI agents.

Updated 2 months ago

Agentic-RLHF-for-Aerospace-using-Browser-DPO

ArumugamKrishnan

🧡65

This project demonstrates how Agentic AI systems can be aligned using Reinforcement Learning from Human Feedback (RLHF) for aerospace engineering tasks. We build a browser-based aerospace dataset, create human preference pairs, and fine-tune a small language model using Direct Preference Optimization (DPO) to improve domain alignment.

Jupyter Notebook

Updated 39 minutes ago

All 28 repositories loaded

GitHub Explorer

Search Results

Visual-RFT

AgentCPM-GUI

LlamaGym

RL4VLM

attention_drl_trading

PantheonRL

Trading-Agent-

eval-protocol

agentic-reasoning-reinforcement-fine-tuning

AI_Tetris_2024

ALCHEMY

projrlftsim.github.io

seea-r1.github.io

Capstone

Research-Lookahead-AI

AIGC-Nexus

fonpr

Agentic-Reinforcement-Fine-Tuning

liuziyu7747

healthcare-claims-rlhf-agent

fine-tune-llm-rl

Query-MARFT

seea-r1.github.io

large-language-models

rl-reasoning-optimizer

Consensus-Isn-t-Enough

Creating-High-Quality-Seed-Data-for-Asana-RL-Environment

Agentic-RLHF-for-Aerospace-using-Browser-DPO

Visual-RFT

AgentCPM-GUI

LlamaGym

RL4VLM

attention_drl_trading

PantheonRL

Trading-Agent-

eval-protocol

agentic-reasoning-reinforcement-fine-tuning

AI_Tetris_2024

ALCHEMY

projrlftsim.github.io

seea-r1.github.io

Capstone

Research-Lookahead-AI

AIGC-Nexus

fonpr

Agentic-Reinforcement-Fine-Tuning

liuziyu7747

healthcare-claims-rlhf-agent

fine-tune-llm-rl

Query-MARFT

seea-r1.github.io

large-language-models

rl-reasoning-optimizer

Consensus-Isn-t-Enough

Creating-High-Quality-Seed-Data-for-Asana-RL-Environment

Agentic-RLHF-for-Aerospace-using-Browser-DPO