reinforcement-learning-from-human-feedback

Here are 19 public repositories matching this topic...

OpenRLHF / OpenRLHF

An Easy-to-use, Scalable and High-performance RLHF Framework (70B+ PPO Full Tuning & Iterative DPO & LoRA & RingAttention & RFT)

reinforcement-learning raylib transformers proximal-policy-optimization large-language-models reinforcement-learning-from-human-feedback vllm openai-o1

Updated Feb 6, 2025
Python

PKU-Alignment / safe-rlhf

Star

Safe RLHF: Constrained Value Alignment via Safe Reinforcement Learning from Human Feedback

Updated Jun 13, 2024
Python

tatsu-lab / alpaca_farm

Star

A simulation framework for RLHF and alternatives. Develop your RLHF method without collecting human data.

natural-language-processing deep-learning instruction-following large-language-models reinforcement-learning-from-human-feedback

Updated Jul 1, 2024
Python

openpsi-project / ReaLHF

Star

Super-Efficient RLHF Training of LLMs with Parameter Reallocation

distributed-systems reinforcement-learning distributed-computing transformers large-scale-machine-learning deepspeed megatron-lm large-language-models llm reinforcement-learning-from-human-feedback llm-training llm-framework

Updated Jan 13, 2025
Python

nlp-uoregon / Okapi

Star

Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback

multilingual nlp bloom natural-language-processing reinforcement-learning chatbot dataset question-answering llama language-model large-language-models rlhf instruction-tuning reinforcement-learning-from-human-feedback

Updated Aug 18, 2023
Python

tlc4418 / llm_optimization

Star

A repo for RLHF training and BoN over LLMs, with support for reward model ensembles.

deep-learning ensembles best-of-n large-language-models reinforcement-learning-from-human-feedback reward-models

Updated Jan 16, 2025
Python

CJReinforce / RIME_ICML2024

Star

Official code for ICML 2024 paper, "RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences" (ICML 2024 Spotlight)

reinforcement-learning deep-learning robotics artificial-intelligence manipulation locomotion preference-learning reinforcement-learning-from-human-feedback

Updated Oct 15, 2024
Python

clam004 / minichatgpt

Star

annotated tutorial of the huggingface TRL repo for reinforcement learning from human feedback connecting equations from PPO and GAE to the lines of code in the pytorch implementation

nlp reinforcement-learning deep-learning transformers deep-reinforcement-learning pytorch language-model fine-tuning large-language-models reinforcement-learning-from-human-feedback

Updated Feb 28, 2023
Jupyter Notebook

XplainMind / LLMindCraft

Star

Shaping Language Models with Cognitive Insights

docker transformers pretraining deepspeed large-language-models reinforcement-learning-from-human-feedback instruct-tuning

Updated Feb 29, 2024
Python

ymetz / rlhfblender

Star

RLHF-Blender: A Configurable Interactive Interface for Learning from Diverse Human Feedback

react python reinforcement-learning experimentation human-ai-interaction reinforcement-learning-from-human-feedback

Updated Jan 27, 2025
Python

liushunyu / Ask-AC

Star

[TSMC] Ask-AC: An Initiative Advisor-in-the-Loop Actor-Critic Framework

reinforcement-learning reinforcement-learning-from-human-feedback action-advising

Updated Jun 28, 2024
Python

rosinality / halite

Star

Acceleration framework for Human Alignment Learning

reinforcement-learning transformers inference evaluation-framework proximal-policy-optimization large-language-models reinforcement-learning-from-human-feedback

Updated Feb 3, 2025
Python

SJ9VRF / Reinforcement-Learning-for-Human-Feedback-RLHF-

Star

This repository contains the implementation of a Reinforcement Learning with Human Feedback (RLHF) system using custom datasets. The project utilizes the trlX library for training a preference model that integrates human feedback directly into the optimization of language models.

language-model language-mo llms rlhf reinforcement-learning-from-human-feedback

Updated Aug 17, 2024
Python

Almost-Intelligence / LMRax

Star

LMRax is a framework built on JAX to train transformers language models by reinforcement learning, along with the reward model training.

reinforcement-learning transformer language-model jax reinforcement-learning-from-human-feedback

Updated Mar 3, 2023
Python

flint-xf-fan / Federated-RLHF

Star

[AAMAS 2025] Privacy-preserving and Personalized RLHF, with convergence guarantees. The Code contains experiments for training multiple instances of GPT-2 for personalized sentiment aligned text generation.

rft federated-reinforcement-learning llms rlhf reinforcement-learning-from-human-feedback fedrl personalized-rlhf