Bestellung
Wenn Sie an diesem Seminar teilnehmen wollen, füllen Sie folgendes Formular aus.Die mit * gekennzeichneten Felder müssen ausgefüllt werden.
In dieser 2-tägigen Schulung "KI-Modelle deployen mit vLLM & Runpod" erwerben Sie fundierte Kenntnisse über die professionelle Bereitstellung von Large Language Models (LLMs) in produktiven Umgebungen. Sie lernen die Architektur und Funktionsweise von vLLM als High-Performance Inference Engine kennen und verstehen die Vorteile von GPU-Cloud-Plattformen wie zum Beispiel Runpod für kosteneffizientes KI-Deployment.
Durch praxisorientierte Übungen entwickeln Sie die Fähigkeit, eigene KI-Modelle effizient zu deployen, Inference-Endpoints zu konfigurieren und zu skalieren sowie Performance-Optimierungen durchzuführen. Sie lernen, wie man vLLM-Server konfiguriert, APIs bereitstellt und Monitoring-Lösungen implementiert.
Am Ende des Seminars sind Sie in der Lage, produktionsreife LLM-Deployments zu planen und umzusetzen, Kosten zu optimieren, Skalierungsstrategien anzuwenden und professionelle Inference-Infrastrukturen mit vLLM und Runpod aufzubauen.
Einführung in LLM-Deployment
- Herausforderungen beim Deployment großer Sprachmodelle
- Unterschiede zwischen Training, Finetuning und Inference
- Überblick über Deployment-Optionen: Cloud vs. On-Premise vs. Hybrid
- Kosten-Nutzen-Analyse verschiedener Deployment-Strategien
vLLM Deep Dive
- Was ist vLLM und warum ist es performanter als Standard-Lösungen?
- PagedAttention und kontinuierliches Batching verstehen
- Unterstützte Modellarchitekturen und Quantisierungsformate
- Installation und Konfiguration von vLLM
- Vergleich: vLLM vs. TensorRT-LLM vs. SGLang vs. Ollama
Runpod-Plattform Einführung
- Überblick über die Runpod-Plattform und Preismodelle
- GPU-Typen und deren Eignung für verschiedene Modellgrößen
- Runpod Pods vs. Serverless: Vor- und Nachteile
- Account-Setup, Billing und Ressourcen-Management
- Sicherheitsaspekte und Best Practices
- Alternative Plattformen: Lambda Labs, Vast.ai, etc.
Praxis: Erstes Deployment
- Hands-on: vLLM-Server auf Runpod starten
- Modell-Download und -Konfiguration (z.B. Llama, Mistral, Phi)
- OpenAI-kompatible API einrichten und testen
- Erste API-Requests mit Python durchführen
- Workshop: Deployment eines Chat-Modells
Performance-Optimierung
- GPU-Memory-Management und Batch-Size-Tuning
- Quantisierung: GPTQ, AWQ, GGUF im Vergleich
- Tensor Parallelism für große Modelle
- Konfiguration von vLLM-Parametern für maximale Throughput
- Benchmarking und Performance-Monitoring
Skalierung und Load Balancing
- Horizontal Scaling: Multiple Instances verwalten
- Load Balancing-Strategien für LLM-Endpoints
- Auto-Scaling mit Runpod Serverless
- Fallback-Strategien und High Availability
- Cost-Optimization: Spot-Instances und Reserved GPUs
API-Integration und Deployment-Patterns
- OpenAI-kompatible Endpoints nutzen und erweitern
- Streaming-Responses implementieren
- Authentifizierung und Rate Limiting
- Integration in bestehende Anwendungen
- Multi-Model-Serving-Architekturen
Monitoring, Logging und Troubleshooting
- Logging-Strategien für Production-Deployments
- Metriken erfassen: Latency, Throughput, Token-Usage
- Debugging häufiger Probleme (OOM, CUDA Errors, etc.)
- Health Checks und Alerting einrichten
- Kostenüberwachung und -optimierung
Praxis: Produktions-Deployment
- Workshop: End-to-End-Deployment einer LLM-Anwendung
- Implementierung einer vollständigen Inference-Pipeline
- Load-Testing und Performance-Analyse
- Deployment-Automation mit Scripts
- Best Practices und Lessons Learned