L
LIOR TESTA
TESTAMIND
AI Fine-Tuning Specialist
Course Creator
14
Lessons
4
Modules
MODULE 1 / יסודות
Fine-Tune Your AI
חומרים נוספים
1 / 10
📚מודולModule 1 - יסודות
🎓שיעור1 מתוך 14
משך~8 דקות
📈רמהבינוני
🎯
מה תלמדו בשיעור הזה
TAKEAWAY 1
Dataset Formats
פורמטים: JSONL, OpenAI, Alpaca, ShareGPT ו-TRL v0.28
TAKEAWAY 2
Quality > Quantity
1,000 דוגמאות איכותיות מנצחות 52,000 רגילות
TAKEAWAY 3
Synthetic Data & Cleaning
יצירת דאטה סינתטי, ניקוי ו-augmentation
TAKEAWAY 4
Splits & Licensing
חלוקת דאטה נכונה, מניעת leakage, ורישיונות
בדקו את עצמכם
1
מה הפורמט הסטנדרטי ל-Fine-Tuning?
CSV
JSONL
XML
Parquet
2
מחקר LIMA הוכיח ש:
צריך לפחות מיליון דוגמאות
1,000 דוגמאות איכותיות מנצחות 52,000
כמות לא משנה את האיכות
Fine-Tuning לא עובד
3
מה הסיכון העיקרי של Synthetic Data?
זה יקר מדי
זה לא חוקי
Model Collapse — דגנרציה כשמאמנים על output של מודל
זה דורש GPU חזק
4
מה זה Data Leakage?
דליפת מידע להאקר
דאטה מה-test שדולף ל-training ומנפח את ה-validation
שימוש בפורמט לא נכון
אימון מהיר מדי
🚀 UP NEXT
שיעור 2: בחירת מודל בסיס
בשיעור הבא נבחר מודל בסיס ל-Fine-Tuning. Qwen, LLaMA, Mistral, Gemma — מה ההבדלים, איך בוחרים, ומה ה-benchmarks אומרים.
Qwen 2.5
LLaMA 3.x
Mistral / Mixtral
Gemma 2