L
LIOR TESTA
TESTAMIND
AI Educator
Course Creator
14
Lessons
4
Modules
MODULE 4
\u05E4\u05E8\u05D5\u05D3\u05E7\u05E9\u05DF \u05D5\u05DE\u05EA\u05E7\u05D3\u05DD - Production
\u05D7\u05D5\u05DE\u05E8\u05D9\u05DD \u05E0\u05D5\u05E1\u05E4\u05D9\u05DD
1 / 10
📚\u05DE\u05D5\u05D3\u05D5\u05DCModule 4 - \u05E4\u05E8\u05D5\u05D3\u05E7\u05E9\u05DF \u05D5\u05DE\u05EA\u05E7\u05D3\u05DD
🎓\u05E9\u05D9\u05E2\u05D5\u05E811 \u05DE\u05EA\u05D5\u05DA 14
\u05DE\u05E9\u05DA~7 \u05D3\u05E7\u05D5\u05EA
📈\u05E8\u05DE\u05D4\u05DE\u05EA\u05E7\u05D3\u05DD
🎯
\u05DE\u05D4 \u05EA\u05DC\u05DE\u05D3\u05D5 \u05D1\u05E9\u05D9\u05E2\u05D5\u05E8 \u05D4\u05D6\u05D4
TAKEAWAY 1
vLLM - \u05D4\u05E1\u05D8\u05E0\u05D3\u05E8\u05D8 \u05DC-Serving
PagedAttention, Continuous Batching, OpenAI-compatible API
TAKEAWAY 2
Ollama, TGI, ONNX, TensorRT
\u05DB\u05DC\u05D9\u05DD \u05DC\u05DB\u05DC \u05E6\u05D5\u05E8\u05DA: \u05DE\u05E7\u05D5\u05DE\u05D9, \u05E2\u05E0\u05DF, \u05E7\u05E8\u05D5\u05E1-\u05E4\u05DC\u05D8\u05E4\u05D5\u05E8\u05DD, NVIDIA
TAKEAWAY 3
Batching \u05D5-Scaling
Static, Dynamic, Continuous Batching. Horizontal Scaling \u05E2\u05DD Kubernetes
TAKEAWAY 4
\u05D0\u05D5\u05E4\u05D8\u05D9\u05DE\u05D9\u05D6\u05E6\u05D9\u05D9\u05EA \u05E2\u05DC\u05D5\u05D9\u05D5\u05EA
Spot instances, Quantization, Caching, Distillation, Reserved pricing
\u05D1\u05D3\u05E7\u05D5 \u05D0\u05EA \u05E2\u05E6\u05DE\u05DB\u05DD
1
\u05DE\u05D4\u05D9 \u05D4\u05D8\u05DB\u05E0\u05D5\u05DC\u05D5\u05D2\u05D9\u05D4 \u05D4\u05DE\u05E8\u05DB\u05D6\u05D9\u05EA \u05E9\u05DC vLLM \u05DC\u05E0\u05D9\u05D4\u05D5\u05DC \u05D6\u05D9\u05DB\u05E8\u05D5\u05DF?
Flash Attention
PagedAttention
Grouped Query Attention
Multi-Head Attention
2
\u05D0\u05D9\u05D6\u05D4 \u05DB\u05DC\u05D9 \u05DE\u05D0\u05E4\u05E9\u05E8 \u05E4\u05E8\u05D9\u05E1\u05D4 \u05DE\u05E7\u05D5\u05DE\u05D9\u05EA \u05D1\u05E9\u05D5\u05E8\u05D4 \u05D0\u05D7\u05EA?
vLLM
Ollama
TensorRT-LLM
TGI
3
\u05DE\u05D4\u05D5 \u05D4\u05D9\u05EA\u05E8\u05D5\u05DF \u05E9\u05DC Continuous Batching \u05E2\u05DC \u05E4\u05E0\u05D9 Static Batching?
\u05E4\u05E9\u05D5\u05D8 \u05D9\u05D5\u05EA\u05E8 \u05DC\u05D4\u05D8\u05DE\u05E2\u05D4
\u05DE\u05EA\u05D0\u05D9\u05DD \u05E8\u05E7 \u05DC-NVIDIA GPUs
GPU \u05EA\u05DE\u05D9\u05D3 \u05E2\u05D5\u05D1\u05D3 - \u05D1\u05E7\u05E9\u05D5\u05EA \u05E0\u05DB\u05E0\u05E1\u05D5\u05EA \u05D5\u05D9\u05D5\u05E6\u05D0\u05D5\u05EA \u05DE\u05D4-batch \u05D1\u05D6\u05DE\u05DF \u05D0\u05DE\u05EA
\u05D3\u05D5\u05E8\u05E9 \u05E4\u05D7\u05D5\u05EA \u05D6\u05D9\u05DB\u05E8\u05D5\u05DF
4
\u05DB\u05DE\u05D4 \u05D7\u05D9\u05E1\u05DB\u05D5\u05DF \u05D0\u05E4\u05E9\u05E8\u05D9 \u05DC\u05E7\u05D1\u05DC \u05E2\u05DD Spot Instances?
30%
70%
50%
90%
🚀 UP NEXT
\u05E9\u05D9\u05E2\u05D5\u05E8 12: \u05D8\u05DB\u05E0\u05D9\u05E7\u05D5\u05EA \u05DE\u05EA\u05E7\u05D3\u05DE\u05D5\u05EA - Merging, Distillation \u05D5-Safety
\u05D1\u05E9\u05D9\u05E2\u05D5\u05E8 \u05D4\u05D1\u05D0 \u05E0\u05D3\u05D1\u05E8 \u05E2\u05DC \u05DE\u05D9\u05D6\u05D5\u05D2 \u05DE\u05D5\u05D3\u05DC\u05D9\u05DD (TIES, DARE, SLERP), Distillation \u05DE\u05DE\u05D5\u05D3\u05DC \u05D2\u05D3\u05D5\u05DC \u05DC\u05E7\u05D8\u05DF, Multi-task Fine-Tuning, Safety, Bias \u05D5-Red Teaming.
TIES Merging
DARE
SLERP
Distillation
Red Teaming