RLHF ו-DPO — יישור מודלים לפי העדפות

📚\u05DE\u05D5\u05D3\u05D5\u05DCModule 2 - \u05E9\u05D9\u05D8\u05D5\u05EA \u05D0\u05D9\u05DE\u05D5\u05DF

🎓\u05E9\u05D9\u05E2\u05D5\u05E85 \u05DE\u05EA\u05D5\u05DA 14

⏲\u05DE\u05E9\u05DA~7 \u05D3\u05E7\u05D5\u05EA

📈\u05E8\u05DE\u05D4\u05DE\u05EA\u05E7\u05D3\u05DD

🎯

\u05DE\u05D4 \u05EA\u05DC\u05DE\u05D3\u05D5 \u05D1\u05E9\u05D9\u05E2\u05D5\u05E8 \u05D4\u05D6\u05D4

TAKEAWAY 1

RLHF Pipeline \u05DE\u05DC\u05D0

3 \u05E9\u05DC\u05D1\u05D9\u05DD: SFT \u2192 Reward Model \u2192 PPO. \u05D7\u05D6\u05E7 \u05D0\u05D1\u05DC \u05DE\u05D5\u05E8\u05DB\u05D1 \u05D5\u05D9\u05E7\u05E8.

TAKEAWAY 2

DPO \u05DB\u05D1\u05E8\u05D9\u05E8\u05EA \u05DE\u05D7\u05D3\u05DC

\u05DC\u05DC\u05D0 Reward Model, \u05DC\u05DC\u05D0 RL. \u05E9\u05E0\u05D9 \u05DE\u05D5\u05D3\u05DC\u05D9\u05DD \u05D1\u05DC\u05D1\u05D3. 11+ variants \u05D1-TRL.

TAKEAWAY 3

KTO \u05DC\u05E4\u05D9\u05D3\u05D1\u05E7 \u05D1\u05D9\u05E0\u05D0\u05E8\u05D9

\u05DC\u05D0 \u05E6\u05E8\u05D9\u05DA preference pairs. \u05E8\u05E7 good/bad. \u05DE\u05D1\u05D5\u05E1\u05E1 \u05E2\u05DC Kahneman-Tversky.

TAKEAWAY 4

ORPO \u05D5-Constitutional AI

ORPO \u05DC\u05DC\u05D0 reference model. Constitutional AI \u2014 \u05D4-AI \u05DE\u05D9\u05D9\u05E9\u05E8 \u05D0\u05EA \u05E2\u05E6\u05DE\u05D5.

❓

\u05D1\u05D3\u05E7\u05D5 \u05D0\u05EA \u05E2\u05E6\u05DE\u05DB\u05DD

\u05DB\u05DE\u05D4 \u05DE\u05D5\u05D3\u05DC\u05D9\u05DD \u05E6\u05E8\u05D9\u05DA \u05DC\u05D4\u05D7\u05D6\u05D9\u05E7 \u05D1\u05D6\u05D9\u05DB\u05E8\u05D5\u05DF \u05D1\u05D6\u05DE\u05DF \u05D0\u05D9\u05DE\u05D5\u05DF PPO?

2 \u05DE\u05D5\u05D3\u05DC\u05D9\u05DD (policy + reference)

3 \u05DE\u05D5\u05D3\u05DC\u05D9\u05DD (policy, reference, reward)

4 \u05DE\u05D5\u05D3\u05DC\u05D9\u05DD (policy, reference, reward, value)

1 \u05DE\u05D5\u05D3\u05DC (policy \u05D1\u05DC\u05D1\u05D3)

\u05DE\u05D4 \u05D4\u05D9\u05EA\u05E8\u05D5\u05DF \u05D4\u05DE\u05E8\u05DB\u05D6\u05D9 \u05E9\u05DC DPO?

\u05E9\u05D9\u05DE\u05D5\u05E9 \u05D1-Reward Model \u05D9\u05E2\u05D9\u05DC \u05D9\u05D5\u05EA\u05E8

\u05D0\u05E4\u05E9\u05E8 \u05DC\u05D7\u05DC\u05E5 reward \u05D1\u05D0\u05D5\u05E4\u05DF implicitly \u05DE\u05D4-policy

PPO \u05D9\u05E6\u05D9\u05D1 \u05D9\u05D5\u05EA\u05E8 \u05E2\u05DD 4 \u05DE\u05D5\u05D3\u05DC\u05D9\u05DD

\u05D0\u05D9\u05DF \u05E6\u05D5\u05E8\u05DA \u05D1\u05D3\u05D0\u05D8\u05D4 \u05D1\u05DB\u05DC\u05DC

\u05D0\u05D9\u05D6\u05D5 \u05E9\u05D9\u05D8\u05D4 \u05DC\u05D0 \u05D3\u05D5\u05E8\u05E9\u05EA preference pairs?

DPO

ORPO

KTO

PPO

\u05DE\u05D4 \u05DE\u05D9\u05D5\u05D7\u05D3 \u05D1-Constitutional AI \u05E9\u05DC Anthropic?

\u05DE\u05E9\u05EA\u05DE\u05E9\u05D9\u05DD \u05D1-PPO \u05E2\u05DD Reward Model \u05D2\u05D3\u05D5\u05DC

\u05DE\u05D0\u05DE\u05E0\u05D9\u05DD \u05D0\u05DC\u05E4\u05D9 \u05D0\u05E0\u05E9\u05D9\u05DD \u05DC\u05D3\u05E8\u05D2

\u05D4-AI \u05DE\u05D1\u05E7\u05E8 \u05D0\u05EA \u05E2\u05E6\u05DE\u05D5 \u05DC\u05E4\u05D9 principles (\u05D7\u05D5\u05E7\u05D4)

\u05DC\u05D0 \u05DE\u05E9\u05EA\u05DE\u05E9\u05D9\u05DD \u05D1-alignment \u05D1\u05DB\u05DC\u05DC

🔗

\u05E7\u05D9\u05E9\u05D5\u05E8\u05D9\u05DD \u05D7\u05E9\u05D5\u05D1\u05D9\u05DD

📄

DPO Paper (Rafailov 2023)

Direct Preference Optimization - \u05D4\u05DE\u05D0\u05DE\u05E8 \u05D4\u05DE\u05E7\u05D5\u05E8\u05D9

🤗

TRL DPOTrainer

\u05D3\u05D5\u05E7\u05D5\u05DE\u05E0\u05D8\u05E6\u05D9\u05D4 \u05E9\u05DC Hugging Face TRL

🚀

liortesta.com

\u05E2\u05D5\u05D3 \u05E7\u05D5\u05E8\u05E1\u05D9\u05DD, \u05DE\u05D3\u05E8\u05D9\u05DB\u05D9\u05DD \u05D5\u05EA\u05D5\u05DB\u05DF \u05DE-TESTAMIND

📜

Constitutional AI Paper

\u05D4\u05D2\u05D9\u05E9\u05D4 \u05E9\u05DC Anthropic \u05DC-AI alignment

🚀 UP NEXT

\u05E9\u05D9\u05E2\u05D5\u05E8 6: GRPO \u2014 \u05D4\u05DE\u05D4\u05E4\u05DB\u05D4 \u05E9\u05DC DeepSeek

\u05D1\u05E9\u05D9\u05E2\u05D5\u05E8 \u05D4\u05D1\u05D0 \u05E0\u05E6\u05DC\u05D5\u05DC \u05DC-Group Relative Policy Optimization, \u05D4\u05E9\u05D9\u05D8\u05D4 \u05E9\u05D0\u05D9\u05E4\u05E9\u05E8\u05D4 \u05DC-DeepSeek \u05DC\u05D0\u05DE\u05DF \u05DE\u05D5\u05D3\u05DC \u05D1\u05E8\u05DE\u05EA GPT-4 \u05D1\u05E9\u05D1\u05E8\u05D9\u05E8 \u05DE\u05D4\u05E2\u05DC\u05D5\u05EA.

GRPO

DAPO

Process Rewards

Liger Kernel

DeepSeek R1