📚\u05DE\u05D5\u05D3\u05D5\u05DCModule 2 - \u05E9\u05D9\u05D8\u05D5\u05EA \u05D0\u05D9\u05DE\u05D5\u05DF
🎓\u05E9\u05D9\u05E2\u05D5\u05E84 \u05DE\u05EA\u05D5\u05DA 14
⏲\u05DE\u05E9\u05DA~7 \u05D3\u05E7\u05D5\u05EA
📈\u05E8\u05DE\u05D4\u05DE\u05EA\u05E7\u05D3\u05DD
TAKEAWAY 1
DoRA \u05D5-rsLoRA
DoRA \u05DE\u05E4\u05E8\u05E7 magnitude + direction \u05DC\u05E9\u05D9\u05E4\u05D5\u05E8 \u05E9\u05DC 1-3%. rsLoRA \u05DE\u05D9\u05D9\u05E6\u05D1 scaling \u05E2\u05DD rank \u05D2\u05D1\u05D5\u05D4.
TAKEAWAY 2
PiSSA \u05D5-Adapters
PiSSA \u05DE\u05D0\u05EA\u05D7\u05DC \u05DE-SVD \u05DC\u05D4\u05EA\u05DB\u05E0\u05E1\u05D5\u05EA \u05DE\u05D4\u05D9\u05E8\u05D4. Adapters \u05DE\u05D5\u05E1\u05D9\u05E4\u05D9\u05DD bottleneck layers \u05E2\u05DD \u05D2\u05DE\u05D9\u05E9\u05D5\u05EA.
TAKEAWAY 3
Full Fine-Tuning
\u05DE\u05E2\u05D3\u05DB\u05DF 100% \u05DE\u05D4\u05E4\u05E8\u05DE\u05D8\u05E8\u05D9\u05DD. DeepSpeed ZeRO Stage 3 \u05D0\u05D5 FSDP. \u05D1\u05D9\u05E6\u05D5\u05E2\u05D9\u05DD \u05DE\u05E7\u05E1\u05D9\u05DE\u05DC\u05D9\u05D9\u05DD.
TAKEAWAY 4
\u05D1\u05D7\u05D9\u05E8\u05EA \u05E9\u05D9\u05D8\u05D4
GPU < 16GB \u2192 QLoRA. GPU 24-48GB \u2192 LoRA/DoRA. GPU 80GB+ \u2192 Full FT. Data > 100K \u2192 \u05E9\u05E7\u05DC\u05D5 Full FT.
1
\u05DE\u05D4 DoRA \u05E2\u05D5\u05E9\u05D4 \u05D0\u05D7\u05E8\u05EA \u05DE-LoRA \u05E8\u05D2\u05D9\u05DC?
\u05DE\u05E9\u05EA\u05DE\u05E9 \u05D1-quantization \u05DC\u05D7\u05D9\u05E1\u05DB\u05D5\u05DF \u05D6\u05D9\u05DB\u05E8\u05D5\u05DF
\u05DE\u05E4\u05E8\u05E7 \u05D0\u05EA \u05D4\u05E9\u05D9\u05E0\u05D5\u05D9 \u05DC-magnitude \u05D5-direction
\u05DE\u05E9\u05E0\u05D4 \u05D0\u05EA ה-learning rate \u05D1\u05D0\u05D5\u05E4\u05DF \u05D3\u05D9\u05E0\u05DE\u05D9
\u05DE\u05D5\u05E1\u05D9\u05E3 \u05E9\u05DB\u05D1\u05D5\u05EA \u05E0\u05D5\u05E1\u05E4\u05D5\u05EA \u05DC-Transformer
2
\u05DE\u05D4 \u05D4-scaling factor \u05E9\u05DC rsLoRA?
alpha / r
alpha * r
alpha / sqrt(r)
alpha / r^2
3
\u05D0\u05D9\u05DC\u05D5 \u05E9\u05D9\u05D8\u05D4 \u05D3\u05D5\u05E8\u05E9\u05EA \u05D4\u05DB\u05D9 \u05E4\u05D7\u05D5\u05EA \u05D6\u05D9\u05DB\u05E8\u05D5\u05DF GPU?
Full Fine-Tuning
DoRA
QLoRA
LoRA \u05E2\u05DD rank 256
4
\u05DE\u05D4 \u05D4\u05D9\u05EA\u05E8\u05D5\u05DF \u05E9\u05DC PiSSA \u05E2\u05DC \u05E4\u05E0\u05D9 LoRA \u05E8\u05D2\u05D9\u05DC?
\u05D7\u05D5\u05E1\u05DA \u05D9\u05D5\u05EA\u05E8 \u05D6\u05D9\u05DB\u05E8\u05D5\u05DF
\u05DE\u05D4\u05D9\u05E8\u05D5\u05EA inference \u05D9\u05D5\u05EA\u05E8 \u05D2\u05D1\u05D5\u05D4\u05D4
\u05D0\u05EA\u05D7\u05D5\u05DC \u05DE-SVD \u05D1\u05DE\u05E7\u05D5\u05DD random \u2014 \u05DE\u05EA\u05DB\u05E0\u05E1 \u05DE\u05D4\u05E8 \u05D9\u05D5\u05EA\u05E8
\u05DE\u05E9\u05EA\u05DE\u05E9 \u05D1-8-bit quantization
🚀 UP NEXT
\u05E9\u05D9\u05E2\u05D5\u05E8 5: RLHF \u05D5-DPO \u2014 \u05D9\u05D9\u05E9\u05D5\u05E8 \u05DE\u05D5\u05D3\u05DC\u05D9\u05DD \u05DC\u05E4\u05D9 \u05D4\u05E2\u05D3\u05E4\u05D5\u05EA
\u05D1\u05E9\u05D9\u05E2\u05D5\u05E8 \u05D4\u05D1\u05D0 \u05E0\u05E6\u05DC\u05D5\u05DC \u05DC\u05E2\u05D5\u05DC\u05DD \u05E9\u05DC Reward Models, PPO, Direct Preference Optimization \u05D5\u05D4\u05D5\u05D5\u05E8\u05D9\u05D0\u05E0\u05D8\u05D9\u05DD. \u05D4\u05E9\u05D9\u05D8\u05D4 \u05E9\u05D4\u05D5\u05E4\u05DB\u05EA \u05DE\u05D5\u05D3\u05DC\u05D9\u05DD \u05D8\u05D5\u05D1\u05D9\u05DD \u05DC\u05DE\u05E6\u05D5\u05D9\u05E0\u05D9\u05DD.
RLHF
DPO
KTO
ORPO
Constitutional AI