GRPO ודור 2026 — המהפכה של DeepSeek

📚\u05DE\u05D5\u05D3\u05D5\u05DCModule 2 - \u05E9\u05D9\u05D8\u05D5\u05EA \u05D0\u05D9\u05DE\u05D5\u05DF

🎓\u05E9\u05D9\u05E2\u05D5\u05E86 \u05DE\u05EA\u05D5\u05DA 14

⏲\u05DE\u05E9\u05DA~7 \u05D3\u05E7\u05D5\u05EA

📈\u05E8\u05DE\u05D4\u05DE\u05EA\u05E7\u05D3\u05DD

🎯

\u05DE\u05D4 \u05EA\u05DC\u05DE\u05D3\u05D5 \u05D1\u05E9\u05D9\u05E2\u05D5\u05E8 \u05D4\u05D6\u05D4

TAKEAWAY 1

GRPO - Alignment \u05D1\u05DC\u05D9 Reward Model

\u05D3\u05D2\u05D9\u05DE\u05D4 \u05E7\u05D1\u05D5\u05E6\u05EA\u05D9\u05EA, \u05E0\u05D9\u05E8\u05DE\u05D5\u05DC \u05D9\u05D7\u05E1\u05D9, \u05E2\u05D3\u05DB\u05D5\u05DF policy \u05DC\u05E4\u05D9 advantage

TAKEAWAY 2

Reward Functions \u2014 \u05D4\u05DC\u05D1 \u05E9\u05DC GRPO

Rule-based, Model-based, Composite \u2014 \u05E9\u05DC\u05D5\u05E9\u05D4 \u05E1\u05D5\u05D2\u05D9\u05DD \u05E9\u05DE\u05E0\u05D9\u05E2\u05D9\u05DD \u05D0\u05EA \u05D4\u05D0\u05D9\u05DE\u05D5\u05DF

TAKEAWAY 3

DAPO \u05D5-PRM \u2014 \u05D4\u05D3\u05D5\u05E8 \u05D4\u05D1\u05D0

DAPO \u05DE\u05E9\u05E4\u05E8 \u05D0\u05EA GRPO, PRM \u05E0\u05D5\u05EA\u05DF \u05E4\u05D9\u05D3\u05D1\u05E7 step-by-step

TAKEAWAY 4

Liger Kernel \u2014 \u05D0\u05D5\u05E4\u05D8\u05D9\u05DE\u05D9\u05D6\u05E6\u05D9\u05D4 \u05D7\u05D9\u05E0\u05DE\u05D9\u05EA

20% \u05DE\u05D4\u05D9\u05E8\u05D5\u05EA, 60% \u05E4\u05D7\u05D5\u05EA \u05D6\u05D9\u05DB\u05E8\u05D5\u05DF \u2014 \u05D1\u05E9\u05D5\u05E8\u05D4 \u05D0\u05D7\u05EA \u05E9\u05DC \u05E7\u05D5\u05D3

❓

\u05D1\u05D3\u05E7\u05D5 \u05D0\u05EA \u05E2\u05E6\u05DE\u05DB\u05DD

\u05DE\u05D4 \u05D4\u05D9\u05EA\u05E8\u05D5\u05DF \u05D4\u05DE\u05E8\u05DB\u05D6\u05D9 \u05E9\u05DC GRPO \u05E2\u05DC \u05E4\u05E0\u05D9 PPO \u05E8\u05D2\u05D9\u05DC?

\u05D4\u05D5\u05D0 \u05DE\u05E9\u05EA\u05DE\u05E9 \u05D1-Reward Model \u05D9\u05D5\u05EA\u05E8 \u05D2\u05D3\u05D5\u05DC

\u05D4\u05D5\u05D0 \u05DC\u05D0 \u05D3\u05D5\u05E8\u05E9 Reward Model \u05D5\u05DC\u05D0 value network

\u05D4\u05D5\u05D0 \u05D3\u05D5\u05E8\u05E9 \u05D9\u05D5\u05EA\u05E8 \u05D6\u05D9\u05DB\u05E8\u05D5\u05DF GPU

\u05D4\u05D5\u05D0 \u05E2\u05D5\u05D1\u05D3 \u05E8\u05E7 \u05E2\u05DD \u05DE\u05D5\u05D3\u05DC\u05D9\u05DD \u05E7\u05D8\u05E0\u05D9\u05DD

\u05DB\u05DE\u05D4 completions \u05D3\u05D5\u05D2\u05DD GRPO \u05DC\u05DB\u05DC prompt?

2-4

8-16

32-64

100+

\u05DE\u05D4 \u05D4\u05E9\u05D9\u05E4\u05D5\u05E8 \u05D4\u05DE\u05E8\u05DB\u05D6\u05D9 \u05E9\u05DC DAPO \u05E2\u05DC GRPO?

\u05DE\u05D5\u05E1\u05D9\u05E3 Reward Model \u05E0\u05E4\u05E8\u05D3

\u05DE\u05E9\u05EA\u05DE\u05E9 \u05E8\u05E7 \u05D1-model-based rewards

Dynamic Sampling, Overlong Penalty, Token-level Loss

\u05DE\u05D7\u05DC\u05D9\u05E3 \u05D0\u05EA LoRA \u05D1-QLoRA

\u05DB\u05DE\u05D4 \u05D9\u05E8\u05D9\u05D3\u05D4 \u05D1\u05D6\u05D9\u05DB\u05E8\u05D5\u05DF \u05DE\u05E1\u05E4\u05E7 Liger Kernel?

20%

40%

60%

80%

🔗

\u05E7\u05D9\u05E9\u05D5\u05E8\u05D9\u05DD \u05D7\u05E9\u05D5\u05D1\u05D9\u05DD

📜

DeepSeek R1 Paper

\u05D4\u05DE\u05D0\u05DE\u05E8 \u05D4\u05DE\u05E7\u05D5\u05E8\u05D9 \u05E9\u05D4\u05E6\u05D9\u05D2 \u05D0\u05EA GRPO

🤗

TRL Documentation

GRPOTrainer, PRMTrainer \u05D5\u05DB\u05DC \u05D4-Trainers

🚀

liortesta.com

\u05E2\u05D5\u05D3 \u05E7\u05D5\u05E8\u05E1\u05D9\u05DD, \u05DE\u05D3\u05E8\u05D9\u05DB\u05D9\u05DD \u05D5\u05EA\u05D5\u05DB\u05DF \u05DE-TESTAMIND

🔥

Liger Kernel GitHub

\u05D0\u05D5\u05E4\u05D8\u05D9\u05DE\u05D9\u05D6\u05E6\u05D9\u05D4 \u05D1\u05E8\u05DE\u05EA Kernel \u05DC-Training

🚀 UP NEXT

\u05E9\u05D9\u05E2\u05D5\u05E8 7: Hugging Face Ecosystem - TRL, PEFT, Transformers

\u05D1\u05E9\u05D9\u05E2\u05D5\u05E8 \u05D4\u05D1\u05D0 \u05E0\u05E6\u05DC\u05D5\u05DC \u05DC\u05E2\u05D5\u05DC\u05DD \u05E9\u05DC Hugging Face. SFTTrainer, DPOTrainer, GRPOTrainer, AutoModel, Datasets \u05D5-Tokenizers. \u05D4\u05DB\u05DC\u05D9\u05DD \u05D4\u05DE\u05E2\u05E9\u05D9\u05D9\u05DD \u05DC\u05D4\u05E8\u05D9\u05E5 \u05D0\u05EA \u05DB\u05DC \u05DE\u05D4 \u05E9\u05DC\u05DE\u05D3\u05E0\u05D5.

TRL v0.28

PEFT

SFTTrainer

AutoModel

Datasets