GitHub - Chinmaya-Kausik/RLHF-comparison: Comparing various RLHF methods

Comparing various RLHF methods for instruction-tuning LLMs. Builds on top of HuggingFace TRL.

You can find the project website here.

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
.ipynb_checkpoints		.ipynb_checkpoints
sft_output		sft_output
wandb		wandb
LICENSE		LICENSE
README.md		README.md
dataset_loading.py		dataset_loading.py
dpo_run.py		dpo_run.py
kto_dataset_maker.py		kto_dataset_maker.py
kto_nb.ipynb		kto_nb.ipynb
kto_training.py		kto_training.py
openai_api_call.ipynb		openai_api_call.ipynb
peft-playground.py		peft-playground.py
ppo_script.py		ppo_script.py
requirements.txt		requirements.txt
rlhf-env.yml		rlhf-env.yml
sft_summaries.py		sft_summaries.py

Provide feedback