TESTAMIND
Fine-Tune AI
קורסים
ווטסאפ
☰
קורס Fine-Tune AI
/
מודול 2: שיטות אימון
/
שיעור 6
מודול 2
7 דקות
מתקדם
GRPO ודור 2026 — המהפכה של DeepSeek
Group Relative Policy Optimization, DAPO, Process Rewards
← RLHF ו-DPO — יישור מודלים לפי העדפות
סמן כהושלם
Hugging Face Ecosystem — TRL, PEFT, Transformers →