Evaluation — איך למדוד שהמודל באמת טוב

📚\u05DE\u05D5\u05D3\u05D5\u05DCModule 3 - \u05DB\u05DC\u05D9\u05DD \u05D5\u05E4\u05E8\u05E7\u05D8\u05D9\u05E7\u05D4

🎓\u05E9\u05D9\u05E2\u05D5\u05E810 \u05DE\u05EA\u05D5\u05DA 14

⏲\u05DE\u05E9\u05DA~7 \u05D3\u05E7\u05D5\u05EA

📈\u05E8\u05DE\u05D4\u05DE\u05EA\u05E7\u05D3\u05DD

🎯

\u05DE\u05D4 \u05EA\u05DC\u05DE\u05D3\u05D5 \u05D1\u05E9\u05D9\u05E2\u05D5\u05E8 \u05D4\u05D6\u05D4

TAKEAWAY 1

\u05DE\u05D3\u05D3\u05D9\u05DD \u05D1\u05E1\u05D9\u05E1\u05D9\u05D9\u05DD

Perplexity, BLEU, ROUGE, BERTScore \u2014 \u05DB\u05DC \u05D0\u05D7\u05D3 \u05DC\u05E1\u05D9\u05D8\u05D5\u05D0\u05E6\u05D9\u05D4 \u05D0\u05D7\u05E8\u05EA

TAKEAWAY 2

Benchmarks \u05D5-Leaderboards

MMLU, HellaSwag, ARC, GSM8K, HumanEval, MT-Bench, Chatbot Arena

TAKEAWAY 3

LLM-as-Judge

\u05E9\u05D9\u05DE\u05D5\u05E9 \u05D1-Claude/GPT-4 \u05DC\u05D4\u05E2\u05E8\u05DB\u05EA \u05EA\u05E9\u05D5\u05D1\u05D5\u05EA, Position bias, ~80% agreement

TAKEAWAY 4

Overfitting \u05D5-Pipeline

\u05D6\u05D9\u05D4\u05D5\u05D9, \u05DE\u05E0\u05D9\u05E2\u05D4 \u05D5-evaluation pipeline \u05DE\u05DC\u05D0 \u05DE-train/val/test \u05E2\u05D3 A/B testing

❓

\u05D1\u05D3\u05E7\u05D5 \u05D0\u05EA \u05E2\u05E6\u05DE\u05DB\u05DD

\u05DE\u05D4 \u05DE\u05D5\u05D3\u05D3 Perplexity?

\u05DB\u05DE\u05D4 \u05D3\u05D5\u05DE\u05D4 \u05D4\u05E4\u05DC\u05D8 \u05DC-reference

\u05DB\u05DE\u05D4 \u05D4\u05DE\u05D5\u05D3\u05DC \u05DE\u05D5\u05E4\u05EA\u05E2 \u05DE\u05D4\u05D8\u05E7\u05E1\u05D8 (\u05E0\u05DE\u05D5\u05DA = \u05D8\u05D5\u05D1)

\u05D0\u05D7\u05D5\u05D6 \u05D4-recall \u05E9\u05DC n-grams

\u05D3\u05DE\u05D9\u05D5\u05DF \u05E1\u05DE\u05E0\u05D8\u05D9 \u05D1\u05D9\u05DF \u05DE\u05E9\u05E4\u05D8\u05D9\u05DD

\u05DE\u05D4 \u05D4\u05E1\u05D9\u05DE\u05DF \u05D4\u05E2\u05D9\u05E7\u05E8\u05D9 \u05DC-Overfitting?

Training loss \u05D5-Validation loss \u05E9\u05E0\u05D9\u05D4\u05DD \u05D9\u05D5\u05E8\u05D3\u05D9\u05DD

Training loss \u05D9\u05D5\u05E8\u05D3 \u05D0\u05D1\u05DC Validation loss \u05E2\u05D5\u05DC\u05D4

Training loss \u05E2\u05D5\u05DC\u05D4 \u05D5-Validation loss \u05D9\u05D5\u05E8\u05D3

\u05E9\u05E0\u05D9\u05D4\u05DD \u05E0\u05E9\u05D0\u05E8\u05D9\u05DD \u05D2\u05D1\u05D5\u05D4\u05D9\u05DD

\u05D0\u05D9\u05D6\u05D4 benchmark \u05D1\u05D5\u05D3\u05E7 \u05E7\u05D5\u05D3?

MMLU

HellaSwag

HumanEval

TruthfulQA

\u05DE\u05D4 \u05D4-Agreement rate \u05E9\u05DC LLM-as-Judge \u05E2\u05DD \u05E9\u05D5\u05E4\u05D8\u05D9\u05DD \u05D0\u05E0\u05D5\u05E9\u05D9\u05D9\u05DD?

~50%

~65%

~80%

~95%

🔗

\u05E7\u05D9\u05E9\u05D5\u05E8\u05D9\u05DD \u05D7\u05E9\u05D5\u05D1\u05D9\u05DD

🛠

lm-eval-harness

EleutherAI \u2014 \u05D4\u05DB\u05DC\u05D9 \u05DE\u05D0\u05D7\u05D5\u05E8\u05D9 Open LLM Leaderboard

💡

lighteval

Hugging Face \u2014 \u05D0\u05DC\u05D8\u05E8\u05E0\u05D8\u05D9\u05D1\u05D4 \u05E7\u05DC\u05D4 \u05D5\u05D9\u05E2\u05D9\u05DC\u05D4

🚀

liortesta.com

\u05E2\u05D5\u05D3 \u05E7\u05D5\u05E8\u05E1\u05D9\u05DD, \u05DE\u05D3\u05E8\u05D9\u05DB\u05D9\u05DD \u05D5\u05EA\u05D5\u05DB\u05DF \u05DE-TESTAMIND

🎥

YouTube @testamind

\u05E9\u05D9\u05E2\u05D5\u05E8\u05D9\u05DD \u05D1\u05D5\u05D9\u05D3\u05D0\u05D5 \u05E2\u05DC AI, Fine-Tuning \u05D5\u05E2\u05D5\u05D3

🚀 UP NEXT

\u05E9\u05D9\u05E2\u05D5\u05E8 11: Deployment \u2014 \u05DE\u05D4\u05DE\u05E2\u05D1\u05D3\u05D4 \u05DC\u05E4\u05E8\u05D5\u05D3\u05E7\u05E9\u05DF

\u05D1\u05E9\u05D9\u05E2\u05D5\u05E8 \u05D4\u05D1\u05D0 \u05E0\u05DC\u05DE\u05D3 \u05D0\u05D9\u05DA \u05DC\u05D5\u05E7\u05D7\u05D9\u05DD \u05DE\u05D5\u05D3\u05DC \u05DE\u05D0\u05D5\u05DE\u05DF \u05D5\u05DE\u05E2\u05D1\u05D9\u05E8\u05D9\u05DD \u05D0\u05D5\u05EA\u05D5 \u05DC\u05E4\u05E8\u05D5\u05D3\u05E7\u05E9\u05DF. vLLM, Ollama, TGI, ONNX, TensorRT, \u05D5\u05D0\u05D5\u05E4\u05D8\u05D9\u05DE\u05D9\u05D6\u05E6\u05D9\u05D4.

vLLM

Ollama

TGI

ONNX Runtime

TensorRT