TESTAMIND
Fine-Tune AI
קורסים
ווטסאפ
☰
קורס Fine-Tune AI
/
מודול 2: שיטות אימון
/
שיעור 5
מודול 2
7 דקות
מתקדם
RLHF ו-DPO — יישור מודלים לפי העדפות
Reward Models, PPO, Direct Preference Optimization
← שיטות מתקדמות — DoRA, rsLoRA, PiSSA ו-Full Fine-Tuning
סמן כהושלם
GRPO ודור 2026 — המהפכה של DeepSeek →