L
LIOR TESTA
TESTAMIND
AI Fine-Tuning Educator
Course Creator
14
Lessons
4
Modules
MODULE 2
\u05E9\u05D9\u05D8\u05D5\u05EA \u05D0\u05D9\u05DE\u05D5\u05DF - Training Methods
\u05D7\u05D5\u05DE\u05E8\u05D9\u05DD \u05E0\u05D5\u05E1\u05E4\u05D9\u05DD
1 / 10
📚\u05DE\u05D5\u05D3\u05D5\u05DCModule 2 - \u05E9\u05D9\u05D8\u05D5\u05EA \u05D0\u05D9\u05DE\u05D5\u05DF
🎓\u05E9\u05D9\u05E2\u05D5\u05E86 \u05DE\u05EA\u05D5\u05DA 14
\u05DE\u05E9\u05DA~7 \u05D3\u05E7\u05D5\u05EA
📈\u05E8\u05DE\u05D4\u05DE\u05EA\u05E7\u05D3\u05DD
🎯
\u05DE\u05D4 \u05EA\u05DC\u05DE\u05D3\u05D5 \u05D1\u05E9\u05D9\u05E2\u05D5\u05E8 \u05D4\u05D6\u05D4
TAKEAWAY 1
GRPO - Alignment \u05D1\u05DC\u05D9 Reward Model
\u05D3\u05D2\u05D9\u05DE\u05D4 \u05E7\u05D1\u05D5\u05E6\u05EA\u05D9\u05EA, \u05E0\u05D9\u05E8\u05DE\u05D5\u05DC \u05D9\u05D7\u05E1\u05D9, \u05E2\u05D3\u05DB\u05D5\u05DF policy \u05DC\u05E4\u05D9 advantage
TAKEAWAY 2
Reward Functions \u2014 \u05D4\u05DC\u05D1 \u05E9\u05DC GRPO
Rule-based, Model-based, Composite \u2014 \u05E9\u05DC\u05D5\u05E9\u05D4 \u05E1\u05D5\u05D2\u05D9\u05DD \u05E9\u05DE\u05E0\u05D9\u05E2\u05D9\u05DD \u05D0\u05EA \u05D4\u05D0\u05D9\u05DE\u05D5\u05DF
TAKEAWAY 3
DAPO \u05D5-PRM \u2014 \u05D4\u05D3\u05D5\u05E8 \u05D4\u05D1\u05D0
DAPO \u05DE\u05E9\u05E4\u05E8 \u05D0\u05EA GRPO, PRM \u05E0\u05D5\u05EA\u05DF \u05E4\u05D9\u05D3\u05D1\u05E7 step-by-step
TAKEAWAY 4
Liger Kernel \u2014 \u05D0\u05D5\u05E4\u05D8\u05D9\u05DE\u05D9\u05D6\u05E6\u05D9\u05D4 \u05D7\u05D9\u05E0\u05DE\u05D9\u05EA
20% \u05DE\u05D4\u05D9\u05E8\u05D5\u05EA, 60% \u05E4\u05D7\u05D5\u05EA \u05D6\u05D9\u05DB\u05E8\u05D5\u05DF \u2014 \u05D1\u05E9\u05D5\u05E8\u05D4 \u05D0\u05D7\u05EA \u05E9\u05DC \u05E7\u05D5\u05D3
\u05D1\u05D3\u05E7\u05D5 \u05D0\u05EA \u05E2\u05E6\u05DE\u05DB\u05DD
1
\u05DE\u05D4 \u05D4\u05D9\u05EA\u05E8\u05D5\u05DF \u05D4\u05DE\u05E8\u05DB\u05D6\u05D9 \u05E9\u05DC GRPO \u05E2\u05DC \u05E4\u05E0\u05D9 PPO \u05E8\u05D2\u05D9\u05DC?
\u05D4\u05D5\u05D0 \u05DE\u05E9\u05EA\u05DE\u05E9 \u05D1-Reward Model \u05D9\u05D5\u05EA\u05E8 \u05D2\u05D3\u05D5\u05DC
\u05D4\u05D5\u05D0 \u05DC\u05D0 \u05D3\u05D5\u05E8\u05E9 Reward Model \u05D5\u05DC\u05D0 value network
\u05D4\u05D5\u05D0 \u05D3\u05D5\u05E8\u05E9 \u05D9\u05D5\u05EA\u05E8 \u05D6\u05D9\u05DB\u05E8\u05D5\u05DF GPU
\u05D4\u05D5\u05D0 \u05E2\u05D5\u05D1\u05D3 \u05E8\u05E7 \u05E2\u05DD \u05DE\u05D5\u05D3\u05DC\u05D9\u05DD \u05E7\u05D8\u05E0\u05D9\u05DD
2
\u05DB\u05DE\u05D4 completions \u05D3\u05D5\u05D2\u05DD GRPO \u05DC\u05DB\u05DC prompt?
2-4
8-16
32-64
100+
3
\u05DE\u05D4 \u05D4\u05E9\u05D9\u05E4\u05D5\u05E8 \u05D4\u05DE\u05E8\u05DB\u05D6\u05D9 \u05E9\u05DC DAPO \u05E2\u05DC GRPO?
\u05DE\u05D5\u05E1\u05D9\u05E3 Reward Model \u05E0\u05E4\u05E8\u05D3
\u05DE\u05E9\u05EA\u05DE\u05E9 \u05E8\u05E7 \u05D1-model-based rewards
Dynamic Sampling, Overlong Penalty, Token-level Loss
\u05DE\u05D7\u05DC\u05D9\u05E3 \u05D0\u05EA LoRA \u05D1-QLoRA
4
\u05DB\u05DE\u05D4 \u05D9\u05E8\u05D9\u05D3\u05D4 \u05D1\u05D6\u05D9\u05DB\u05E8\u05D5\u05DF \u05DE\u05E1\u05E4\u05E7 Liger Kernel?
20%
40%
60%
80%
🚀 UP NEXT
\u05E9\u05D9\u05E2\u05D5\u05E8 7: Hugging Face Ecosystem - TRL, PEFT, Transformers
\u05D1\u05E9\u05D9\u05E2\u05D5\u05E8 \u05D4\u05D1\u05D0 \u05E0\u05E6\u05DC\u05D5\u05DC \u05DC\u05E2\u05D5\u05DC\u05DD \u05E9\u05DC Hugging Face. SFTTrainer, DPOTrainer, GRPOTrainer, AutoModel, Datasets \u05D5-Tokenizers. \u05D4\u05DB\u05DC\u05D9\u05DD \u05D4\u05DE\u05E2\u05E9\u05D9\u05D9\u05DD \u05DC\u05D4\u05E8\u05D9\u05E5 \u05D0\u05EA \u05DB\u05DC \u05DE\u05D4 \u05E9\u05DC\u05DE\u05D3\u05E0\u05D5.
TRL v0.28
PEFT
SFTTrainer
AutoModel
Datasets