Data Engineering — הדאטה הוא הכל | Fine-Tune Your AI

📚מודולModule 1 - יסודות

🎓שיעור1 מתוך 14

⏲משך~8 דקות

📈רמהבינוני

🎯

מה תלמדו בשיעור הזה

TAKEAWAY 1

Dataset Formats

פורמטים: JSONL, OpenAI, Alpaca, ShareGPT ו-TRL v0.28

TAKEAWAY 2

Quality > Quantity

1,000 דוגמאות איכותיות מנצחות 52,000 רגילות

TAKEAWAY 3

Synthetic Data & Cleaning

יצירת דאטה סינתטי, ניקוי ו-augmentation

TAKEAWAY 4

Splits & Licensing

חלוקת דאטה נכונה, מניעת leakage, ורישיונות

❓

בדקו את עצמכם

מה הפורמט הסטנדרטי ל-Fine-Tuning?

CSV

JSONL

XML

Parquet

מחקר LIMA הוכיח ש:

צריך לפחות מיליון דוגמאות

1,000 דוגמאות איכותיות מנצחות 52,000

כמות לא משנה את האיכות

Fine-Tuning לא עובד

מה הסיכון העיקרי של Synthetic Data?

זה יקר מדי

זה לא חוקי

Model Collapse — דגנרציה כשמאמנים על output של מודל

זה דורש GPU חזק

מה זה Data Leakage?

דליפת מידע להאקר

דאטה מה-test שדולף ל-training ומנפח את ה-validation

שימוש בפורמט לא נכון

אימון מהיר מדי

🔗

קישורים חשובים

📖

TRL Dataset Formats

תיעוד רשמי של Hugging Face TRL

📄

LIMA Paper

Less Is More for Alignment — המחקר ששינה את התעשייה

💻

distilabel

ספרייה ליצירת Synthetic Data

🔧

datasketch

MinHash לזיהוי כפילויות מהיר

🚀

liortesta.com

עוד קורסים ותוכן מ-TESTAMIND

🎬

YouTube @testamind

כל השיעורים בוידאו

🚀 UP NEXT

שיעור 2: בחירת מודל בסיס

בשיעור הבא נבחר מודל בסיס ל-Fine-Tuning. Qwen, LLaMA, Mistral, Gemma — מה ההבדלים, איך בוחרים, ומה ה-benchmarks אומרים.

Qwen 2.5

LLaMA 3.x

Mistral / Mixtral

Gemma 2