📚\u05DE\u05D5\u05D3\u05D5\u05DCModule 3 - \u05DB\u05DC\u05D9\u05DD \u05D5\u05E4\u05E8\u05E7\u05D8\u05D9\u05E7\u05D4
🎓\u05E9\u05D9\u05E2\u05D5\u05E810 \u05DE\u05EA\u05D5\u05DA 14
⏲\u05DE\u05E9\u05DA~7 \u05D3\u05E7\u05D5\u05EA
📈\u05E8\u05DE\u05D4\u05DE\u05EA\u05E7\u05D3\u05DD
TAKEAWAY 1
\u05DE\u05D3\u05D3\u05D9\u05DD \u05D1\u05E1\u05D9\u05E1\u05D9\u05D9\u05DD
Perplexity, BLEU, ROUGE, BERTScore \u2014 \u05DB\u05DC \u05D0\u05D7\u05D3 \u05DC\u05E1\u05D9\u05D8\u05D5\u05D0\u05E6\u05D9\u05D4 \u05D0\u05D7\u05E8\u05EA
TAKEAWAY 2
Benchmarks \u05D5-Leaderboards
MMLU, HellaSwag, ARC, GSM8K, HumanEval, MT-Bench, Chatbot Arena
TAKEAWAY 3
LLM-as-Judge
\u05E9\u05D9\u05DE\u05D5\u05E9 \u05D1-Claude/GPT-4 \u05DC\u05D4\u05E2\u05E8\u05DB\u05EA \u05EA\u05E9\u05D5\u05D1\u05D5\u05EA, Position bias, ~80% agreement
TAKEAWAY 4
Overfitting \u05D5-Pipeline
\u05D6\u05D9\u05D4\u05D5\u05D9, \u05DE\u05E0\u05D9\u05E2\u05D4 \u05D5-evaluation pipeline \u05DE\u05DC\u05D0 \u05DE-train/val/test \u05E2\u05D3 A/B testing
1
\u05DE\u05D4 \u05DE\u05D5\u05D3\u05D3 Perplexity?
\u05DB\u05DE\u05D4 \u05D3\u05D5\u05DE\u05D4 \u05D4\u05E4\u05DC\u05D8 \u05DC-reference
\u05DB\u05DE\u05D4 \u05D4\u05DE\u05D5\u05D3\u05DC \u05DE\u05D5\u05E4\u05EA\u05E2 \u05DE\u05D4\u05D8\u05E7\u05E1\u05D8 (\u05E0\u05DE\u05D5\u05DA = \u05D8\u05D5\u05D1)
\u05D0\u05D7\u05D5\u05D6 \u05D4-recall \u05E9\u05DC n-grams
\u05D3\u05DE\u05D9\u05D5\u05DF \u05E1\u05DE\u05E0\u05D8\u05D9 \u05D1\u05D9\u05DF \u05DE\u05E9\u05E4\u05D8\u05D9\u05DD
2
\u05DE\u05D4 \u05D4\u05E1\u05D9\u05DE\u05DF \u05D4\u05E2\u05D9\u05E7\u05E8\u05D9 \u05DC-Overfitting?
Training loss \u05D5-Validation loss \u05E9\u05E0\u05D9\u05D4\u05DD \u05D9\u05D5\u05E8\u05D3\u05D9\u05DD
Training loss \u05D9\u05D5\u05E8\u05D3 \u05D0\u05D1\u05DC Validation loss \u05E2\u05D5\u05DC\u05D4
Training loss \u05E2\u05D5\u05DC\u05D4 \u05D5-Validation loss \u05D9\u05D5\u05E8\u05D3
\u05E9\u05E0\u05D9\u05D4\u05DD \u05E0\u05E9\u05D0\u05E8\u05D9\u05DD \u05D2\u05D1\u05D5\u05D4\u05D9\u05DD
3
\u05D0\u05D9\u05D6\u05D4 benchmark \u05D1\u05D5\u05D3\u05E7 \u05E7\u05D5\u05D3?
MMLU
HellaSwag
HumanEval
TruthfulQA
4
\u05DE\u05D4 \u05D4-Agreement rate \u05E9\u05DC LLM-as-Judge \u05E2\u05DD \u05E9\u05D5\u05E4\u05D8\u05D9\u05DD \u05D0\u05E0\u05D5\u05E9\u05D9\u05D9\u05DD?
🚀 UP NEXT
\u05E9\u05D9\u05E2\u05D5\u05E8 11: Deployment \u2014 \u05DE\u05D4\u05DE\u05E2\u05D1\u05D3\u05D4 \u05DC\u05E4\u05E8\u05D5\u05D3\u05E7\u05E9\u05DF
\u05D1\u05E9\u05D9\u05E2\u05D5\u05E8 \u05D4\u05D1\u05D0 \u05E0\u05DC\u05DE\u05D3 \u05D0\u05D9\u05DA \u05DC\u05D5\u05E7\u05D7\u05D9\u05DD \u05DE\u05D5\u05D3\u05DC \u05DE\u05D0\u05D5\u05DE\u05DF \u05D5\u05DE\u05E2\u05D1\u05D9\u05E8\u05D9\u05DD \u05D0\u05D5\u05EA\u05D5 \u05DC\u05E4\u05E8\u05D5\u05D3\u05E7\u05E9\u05DF. vLLM, Ollama, TGI, ONNX, TensorRT, \u05D5\u05D0\u05D5\u05E4\u05D8\u05D9\u05DE\u05D9\u05D6\u05E6\u05D9\u05D4.
vLLM
Ollama
TGI
ONNX Runtime
TensorRT