natolambert/rlhf-book

Textbook on reinforcement learning from human feedback

2.0kStars

212Forks

2Claude Commits

PythonLanguage

aialignmentrlhf

First Claude commit: Mar 18, 2026Last Claude commit: 3mo agoDiscovered: Mar 19, 2026

Recent Claude Commits

a3d430f3mo agoco_authored_by

c760fb83mo agoco_authored_by