Search Results

Found 1,156 repositories(showing 30)

OpenRLHF

💛88

An Easy-to-use, Scalable and High-performance Agentic RL Framework based on Ray (PPO & DAPO & REINFORCE++ & TIS & vLLM & Ray & Async RL)

9.3k

913

Apache-2.0

Python

Updated 37 minutes ago

large-language-modelsopenai-o1proximal-policy-optimization+5

DAPO

BytedTsinghua-SIA

🧡68

An Open-source RL System from ByteDance Seed and Tsinghua AIR

1.8k

Python

Updated 1 day ago

Awesome-GRPO

WangJingyao07

🧡66

Codebase of GRPO: Implementations and Resources of GRPO and Its Variants

282

Python

Updated 4 days ago

dapogrpollm+4

LightRFT

opendilab

💛70

LightRFT: Light, Efficient, Omni-modal & Reward-model Driven Reinforcement Fine-Tuning Framework

262

Apache-2.0

Python

Updated 18 hours ago

dapogrpollm+6

inframind

saikiranrallabandi

🧡50

InfraMind: Fine-tuning toolkit for training SLMs on Infrastructure-as-Code using GRPO/DAPO. Achieves 97.3% accuracy on IaC generation.

MIT

Python

Updated 1 month ago

dapogrporl

🚀 A New DAPO Algorithm for Stock Trading (arXiv:2505.06408) Implementation of our IEEE IDS 2025 accepted algorithm combining Dynamic Sampling Policy Optimization (DAPO), Group Relative Policy Optimization (GRPO), and LLM-driven risk/sentiment signals for efficient and profitable stock trading on the NASDAQ-100 index.

Python

Updated 2 weeks ago

DAPOZ

komi22

❤️45

Zero Trust Integrated Security Solution

NOASSERTION

TypeScript

Updated 1 month ago

MediX-R1

mbzuai-oryx

🧡60

Open Ended Medical Reinforcement Learning

Python

Updated 3 days ago

dapogrpomedical-reinforcement-learning+6

dapo

lns

❤️35

Source code for the paper "Divergence-Augmented Policy Optimization"

Python

Updated 2 years ago

DAPolyPaint

piXelicidio

🧡55

Polygon Painter for Low-Poly style 3D Models. Plugin for Unity.

MIT

Updated 3 weeks ago

dapol

MystenLabs

💛70

DAPOL+ Proof of Liabilities using Bulletproofs and Sparse Merkle trees

MIT

Rust

Updated 2 days ago

6DAPose

KulunuOS

❤️45

6D Assembly Pose Estimation by Point Cloud Registration for Robot Manipulation

Python

Updated 2 months ago

dapodik

egin10

❤️45

scraping data sekolah dari web dapodik (Data Refrensi) : https://referensi.data.kemdikbud.go.id/index11.php

PHP

Updated 2 months ago

dapo_reproduce

TeenLucifer

❤️35

No description available

Python

Updated 1 month ago

DAPoinTr

Yinghui-Li-New

❤️35

No description available

MIT

Python

Updated 3 weeks ago

UINavigationController-DAPowerfulCustomization

DarkAngel7

❤️40

A category to expand UINavigationController, UINavigationItem and UIViewController. You can customization UINavigationBar for each view controller and enjoy your life.

MIT

Objective-C

Updated 5 years ago

customizationuinavigationbaruinavigationcontroller+1

defect-aware-prompt-optimization

boschresearch

❤️45

Accompanying code for paper "DAPO: Defect-aware Hybrid Prompt Optimization via Progressive Tuning for Zero-Shot Multi-type Anomaly Detection and Segmentation"

AGPL-3.0

Jupyter Notebook

Updated 3 weeks ago

dapodik-sdk

putradimas

❤️40

Unofficial Dapodik SDK for PHP

MIT

PHP

Updated 11 months ago

dapodik

dapodix

❤️25

SDK python untuk aplikasi dapodik.

MIT

Python

Updated 1 year ago

apidapodikpython-client+1

DAPOS

myaser

❤️35

Dialectal Arabic Part Of Speech Tagger

Python

Updated 4 years ago

DAPO

ai-in-pm

❤️40

This repository contains an implementation of the Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO) algorithm for reinforcement learning with language models.

MIT

Python

Updated 4 months ago

DAPO

gjskywalker

❤️35

No description available

C++

Updated 2 months ago

dapodik_go

egin10

❤️40

Command Line App untuk scraping data sekolah dari web dapodik (Data Refrensi) : https://referensi.data.kemdikbud.go.id

Updated 1 month ago

scrapingscraping-webscraping-websites

DaPoA

rupc

❤️25

DaPoA is an effort to enhance Ethereum PoA Clique algorithm using DAG-based BFT Consensus (ICBC 2024)

GPL-3.0

Updated 1 year ago

RLHF_learn

Dylsimple60

🧡65

🤖 Enhance reinforcement learning stability and efficiency with advanced algorithms like TRPO, PPO, DPO, GRPO, DAPO, and GSPO for optimized policy training.

Python

Updated 1 hour ago

ai-safetyattention-mechanismsdatasets+17

prompt-engineering

DevDizzle

🧡55

An iterative pipeline for optimizing prompt engineering strategies to generate high-quality structured requirements documents. Uses Dynamic Adaptive Prompt Optimization (DAPO) and an LLM-as-a-Judge to evaluate and refine prompts automatically.

Python

Updated 3 weeks ago

ai-automationautomated-requirements-analysisdynamic-prompt-refinement+4

dapodik-api

novay

❤️40

Dapodik Unofficial API.

MIT

JavaScript

Updated 5 months ago

VERL-NSCC

ztlmememe

❤️25

Scripts and recipes for running DAPO training on NSCC cluster with Singularity and Ray.

Apache-2.0

Python

Updated 5 months ago

GCPO

AchoWu

❤️40

Group Contrastive Policy Optimazation. Read the paper on arXiv: 👉 https://arxiv.org/abs/2510.07790

MIT

Python

Updated 4 months ago

dapogrpollm+3

Dapoer-Idita-Odoo-14

ahmaddyd

❤️40

Custom Modul Dapoer Idita Odoo 14

MIT

Python

Updated 3 years ago

GitHub Explorer

Search Results

OpenRLHF

DAPO

Awesome-GRPO

LightRFT

inframind

FinRL-DAPO-SR

DAPOZ

MediX-R1

dapo

DAPolyPaint

dapol

6DAPose

dapodik

dapo_reproduce

DAPoinTr

UINavigationController-DAPowerfulCustomization

defect-aware-prompt-optimization

dapodik-sdk

dapodik

DAPOS

DAPO

DAPO

dapodik_go

DaPoA

RLHF_learn

prompt-engineering

dapodik-api

VERL-NSCC

GCPO

Dapoer-Idita-Odoo-14

OpenRLHF

DAPO

Awesome-GRPO

LightRFT

inframind

FinRL-DAPO-SR

DAPOZ

MediX-R1

dapo

DAPolyPaint

dapol

6DAPose

dapodik

dapo_reproduce

DAPoinTr

UINavigationController-DAPowerfulCustomization

defect-aware-prompt-optimization

dapodik-sdk

dapodik

DAPOS

DAPO

DAPO

dapodik_go

DaPoA

RLHF_learn

prompt-engineering

dapodik-api

VERL-NSCC

GCPO

Dapoer-Idita-Odoo-14