📚\u05DE\u05D5\u05D3\u05D5\u05DCModule 2 - \u05E9\u05D9\u05D8\u05D5\u05EA \u05D0\u05D9\u05DE\u05D5\u05DF
🎓\u05E9\u05D9\u05E2\u05D5\u05E85 \u05DE\u05EA\u05D5\u05DA 14
⏲\u05DE\u05E9\u05DA~7 \u05D3\u05E7\u05D5\u05EA
📈\u05E8\u05DE\u05D4\u05DE\u05EA\u05E7\u05D3\u05DD
TAKEAWAY 1
RLHF Pipeline \u05DE\u05DC\u05D0
3 \u05E9\u05DC\u05D1\u05D9\u05DD: SFT \u2192 Reward Model \u2192 PPO. \u05D7\u05D6\u05E7 \u05D0\u05D1\u05DC \u05DE\u05D5\u05E8\u05DB\u05D1 \u05D5\u05D9\u05E7\u05E8.
TAKEAWAY 2
DPO \u05DB\u05D1\u05E8\u05D9\u05E8\u05EA \u05DE\u05D7\u05D3\u05DC
\u05DC\u05DC\u05D0 Reward Model, \u05DC\u05DC\u05D0 RL. \u05E9\u05E0\u05D9 \u05DE\u05D5\u05D3\u05DC\u05D9\u05DD \u05D1\u05DC\u05D1\u05D3. 11+ variants \u05D1-TRL.
TAKEAWAY 3
KTO \u05DC\u05E4\u05D9\u05D3\u05D1\u05E7 \u05D1\u05D9\u05E0\u05D0\u05E8\u05D9
\u05DC\u05D0 \u05E6\u05E8\u05D9\u05DA preference pairs. \u05E8\u05E7 good/bad. \u05DE\u05D1\u05D5\u05E1\u05E1 \u05E2\u05DC Kahneman-Tversky.
TAKEAWAY 4
ORPO \u05D5-Constitutional AI
ORPO \u05DC\u05DC\u05D0 reference model. Constitutional AI \u2014 \u05D4-AI \u05DE\u05D9\u05D9\u05E9\u05E8 \u05D0\u05EA \u05E2\u05E6\u05DE\u05D5.
1
\u05DB\u05DE\u05D4 \u05DE\u05D5\u05D3\u05DC\u05D9\u05DD \u05E6\u05E8\u05D9\u05DA \u05DC\u05D4\u05D7\u05D6\u05D9\u05E7 \u05D1\u05D6\u05D9\u05DB\u05E8\u05D5\u05DF \u05D1\u05D6\u05DE\u05DF \u05D0\u05D9\u05DE\u05D5\u05DF PPO?
2 \u05DE\u05D5\u05D3\u05DC\u05D9\u05DD (policy + reference)
3 \u05DE\u05D5\u05D3\u05DC\u05D9\u05DD (policy, reference, reward)
4 \u05DE\u05D5\u05D3\u05DC\u05D9\u05DD (policy, reference, reward, value)
1 \u05DE\u05D5\u05D3\u05DC (policy \u05D1\u05DC\u05D1\u05D3)
2
\u05DE\u05D4 \u05D4\u05D9\u05EA\u05E8\u05D5\u05DF \u05D4\u05DE\u05E8\u05DB\u05D6\u05D9 \u05E9\u05DC DPO?
\u05E9\u05D9\u05DE\u05D5\u05E9 \u05D1-Reward Model \u05D9\u05E2\u05D9\u05DC \u05D9\u05D5\u05EA\u05E8
\u05D0\u05E4\u05E9\u05E8 \u05DC\u05D7\u05DC\u05E5 reward \u05D1\u05D0\u05D5\u05E4\u05DF implicitly \u05DE\u05D4-policy
PPO \u05D9\u05E6\u05D9\u05D1 \u05D9\u05D5\u05EA\u05E8 \u05E2\u05DD 4 \u05DE\u05D5\u05D3\u05DC\u05D9\u05DD
\u05D0\u05D9\u05DF \u05E6\u05D5\u05E8\u05DA \u05D1\u05D3\u05D0\u05D8\u05D4 \u05D1\u05DB\u05DC\u05DC
3
\u05D0\u05D9\u05D6\u05D5 \u05E9\u05D9\u05D8\u05D4 \u05DC\u05D0 \u05D3\u05D5\u05E8\u05E9\u05EA preference pairs?
4
\u05DE\u05D4 \u05DE\u05D9\u05D5\u05D7\u05D3 \u05D1-Constitutional AI \u05E9\u05DC Anthropic?
\u05DE\u05E9\u05EA\u05DE\u05E9\u05D9\u05DD \u05D1-PPO \u05E2\u05DD Reward Model \u05D2\u05D3\u05D5\u05DC
\u05DE\u05D0\u05DE\u05E0\u05D9\u05DD \u05D0\u05DC\u05E4\u05D9 \u05D0\u05E0\u05E9\u05D9\u05DD \u05DC\u05D3\u05E8\u05D2
\u05D4-AI \u05DE\u05D1\u05E7\u05E8 \u05D0\u05EA \u05E2\u05E6\u05DE\u05D5 \u05DC\u05E4\u05D9 principles (\u05D7\u05D5\u05E7\u05D4)
\u05DC\u05D0 \u05DE\u05E9\u05EA\u05DE\u05E9\u05D9\u05DD \u05D1-alignment \u05D1\u05DB\u05DC\u05DC
🚀 UP NEXT
\u05E9\u05D9\u05E2\u05D5\u05E8 6: GRPO \u2014 \u05D4\u05DE\u05D4\u05E4\u05DB\u05D4 \u05E9\u05DC DeepSeek
\u05D1\u05E9\u05D9\u05E2\u05D5\u05E8 \u05D4\u05D1\u05D0 \u05E0\u05E6\u05DC\u05D5\u05DC \u05DC-Group Relative Policy Optimization, \u05D4\u05E9\u05D9\u05D8\u05D4 \u05E9\u05D0\u05D9\u05E4\u05E9\u05E8\u05D4 \u05DC-DeepSeek \u05DC\u05D0\u05DE\u05DF \u05DE\u05D5\u05D3\u05DC \u05D1\u05E8\u05DE\u05EA GPT-4 \u05D1\u05E9\u05D1\u05E8\u05D9\u05E8 \u05DE\u05D4\u05E2\u05DC\u05D5\u05EA.
GRPO
DAPO
Process Rewards
Liger Kernel
DeepSeek R1