📚\u05DE\u05D5\u05D3\u05D5\u05DCModule 3 - \u05DB\u05DC\u05D9\u05DD \u05D5\u05E4\u05E8\u05E7\u05D8\u05D9\u05E7\u05D4
🎓\u05E9\u05D9\u05E2\u05D5\u05E89 \u05DE\u05EA\u05D5\u05DA 14
⏲\u05DE\u05E9\u05DA~7 \u05D3\u05E7\u05D5\u05EA
📈\u05E8\u05DE\u05D4\u05DE\u05EA\u05E7\u05D3\u05DD
TAKEAWAY 1
Quantization \u05DE\u05E7\u05D8\u05D9\u05DF \u05D0\u05EA \u05D4\u05D2\u05D5\u05D3\u05DC \u05E4\u05D9 2-8
FP32 \u2192 FP16 \u2192 INT8 \u2192 INT4. \u05DB\u05DC \u05D1\u05D9\u05D8 \u05E9\u05DE\u05D5\u05E8\u05D9\u05D3\u05D9\u05DD = \u05D7\u05E6\u05D9 \u05DE\u05D4\u05D2\u05D5\u05D3\u05DC
TAKEAWAY 2
4 \u05E4\u05D5\u05E8\u05DE\u05D8\u05D9\u05DD: GGUF, GPTQ, AWQ, EXL2
GGUF \u05DC\u05DE\u05E7\u05D5\u05DE\u05D9, GPTQ/AWQ \u05DC-GPU, EXL2 \u05DC\u05D2\u05DE\u05D9\u05E9\u05D5\u05EA \u05DE\u05E7\u05E1\u05D9\u05DE\u05DC\u05D9\u05EA
TAKEAWAY 3
bitsandbytes \u05DC\u05D0\u05D9\u05DE\u05D5\u05DF + Flash Attention
QLoRA \u05E2\u05DD NF4, Flash Attention 2/3 \u05EA\u05DE\u05D9\u05D3 \u05DB\u05D3\u05D0\u05D9
TAKEAWAY 4
11 \u05D8\u05DB\u05E0\u05D9\u05E7\u05D5\u05EA \u05D0\u05D5\u05E4\u05D8\u05D9\u05DE\u05D9\u05D6\u05E6\u05D9\u05D4
Mixed Precision, DeepSpeed ZeRO, Gradient Checkpointing, Liger Kernel \u05D5\u05E2\u05D5\u05D3
1
\u05D0\u05D9\u05D6\u05D4 \u05E4\u05D5\u05E8\u05DE\u05D8 Quantization \u05D4\u05DB\u05D9 \u05DE\u05EA\u05D0\u05D9\u05DD \u05DC\u05D4\u05E8\u05E6\u05D4 \u05DE\u05E7\u05D5\u05DE\u05D9\u05EA \u05E2\u05DD Ollama?
2
\u05DE\u05D4 \u05D4\u05D9\u05EA\u05E8\u05D5\u05DF \u05E9\u05DC AWQ \u05E2\u05DC \u05E4\u05E0\u05D9 GPTQ?
\u05EA\u05DE\u05D9\u05DB\u05D4 \u05D1-CPU
\u05DE\u05D4\u05D9\u05E8\u05D5\u05EA \u05D2\u05D1\u05D5\u05D4\u05D4 \u05D9\u05D5\u05EA\u05E8
\u05E9\u05D5\u05DE\u05E8 weights \u05D7\u05E9\u05D5\u05D1\u05D9\u05DD \u05D1-precision \u05D2\u05D1\u05D5\u05D4
\u05DC\u05D0 \u05D3\u05D5\u05E8\u05E9 calibration data
3
\u05DE\u05D4 \u05D4\u05E4\u05D5\u05E8\u05DE\u05D8 \u05D4\u05DE\u05D5\u05DE\u05DC\u05E5 \u05E9\u05DC bitsandbytes \u05DC\u05DE\u05E9\u05E7\u05D5\u05DC\u05D5\u05EA \u05E2\u05DD \u05D4\u05EA\u05E4\u05DC\u05D2\u05D5\u05EA \u05E0\u05D5\u05E8\u05DE\u05DC\u05D9\u05EA?
INT4
NF4 (Normal Float 4)
FP4
Q4_K_M
4
Flash Attention 2 \u05DE\u05D5\u05E8\u05D9\u05D3 \u05D0\u05EA \u05E6\u05E8\u05D9\u05DB\u05EA \u05D4\u05D6\u05D9\u05DB\u05E8\u05D5\u05DF \u05E9\u05DC Attention \u05DE:
O(N) \u05DC-O(1)
O(N\u00B2) \u05DC-O(N)
O(N\u00B3) \u05DC-O(N\u00B2)
O(N\u00B2) \u05DC-O(log N)
🚀 UP NEXT
\u05E9\u05D9\u05E2\u05D5\u05E8 10: Evaluation -- \u05D0\u05D9\u05DA \u05DC\u05DE\u05D3\u05D5\u05D3 \u05E9\u05D4\u05DE\u05D5\u05D3\u05DC \u05D1\u05D0\u05DE\u05EA \u05D8\u05D5\u05D1
\u05D1\u05E9\u05D9\u05E2\u05D5\u05E8 \u05D4\u05D1\u05D0 \u05E0\u05DC\u05DE\u05D3 \u05D0\u05D9\u05DA \u05DC\u05DE\u05D3\u05D5\u05D3 \u05D0\u05D9\u05DB\u05D5\u05EA \u05E9\u05DC \u05DE\u05D5\u05D3\u05DC\u05D9\u05DD \u05DE\u05D0\u05D5\u05DE\u05E0\u05D9\u05DD.
Perplexity, Benchmarks, LLM-as-Judge, \u05D5\u05D6\u05D9\u05D4\u05D5\u05D9 Overfitting.
Perplexity
MMLU
HumanEval
LLM-as-Judge
Overfitting