📚מודולModule 1 - יסודות
🎓שיעור1 מתוך 14
⏲משך~8 דקות
📈רמהבינוני
TAKEAWAY 1
Dataset Formats
פורמטים: JSONL, OpenAI, Alpaca, ShareGPT ו-TRL v0.28
TAKEAWAY 2
Quality > Quantity
1,000 דוגמאות איכותיות מנצחות 52,000 רגילות
TAKEAWAY 3
Synthetic Data & Cleaning
יצירת דאטה סינתטי, ניקוי ו-augmentation
TAKEAWAY 4
Splits & Licensing
חלוקת דאטה נכונה, מניעת leakage, ורישיונות
1
מה הפורמט הסטנדרטי ל-Fine-Tuning?
צריך לפחות מיליון דוגמאות
1,000 דוגמאות איכותיות מנצחות 52,000
כמות לא משנה את האיכות
Fine-Tuning לא עובד
3
מה הסיכון העיקרי של Synthetic Data?
זה יקר מדי
זה לא חוקי
Model Collapse — דגנרציה כשמאמנים על output של מודל
זה דורש GPU חזק
דליפת מידע להאקר
דאטה מה-test שדולף ל-training ומנפח את ה-validation
שימוש בפורמט לא נכון
אימון מהיר מדי
🚀 UP NEXT
שיעור 2: בחירת מודל בסיס
בשיעור הבא נבחר מודל בסיס ל-Fine-Tuning.
Qwen, LLaMA, Mistral, Gemma — מה ההבדלים,
איך בוחרים, ומה ה-benchmarks אומרים.
Qwen 2.5
LLaMA 3.x
Mistral / Mixtral
Gemma 2