0

Bestellung

Wenn Sie an diesem Seminar teilnehmen wollen, füllen Sie folgendes Formular aus.
Die mit * gekennzeichneten Felder müssen ausgefüllt werden.

In dieser 2-tägigen Schulung "KI-Modelle deployen mit vLLM & Runpod" erwerben Sie fundierte Kenntnisse über die professionelle Bereitstellung von Large Language Models (LLMs) in produktiven Umgebungen. Sie lernen die Architektur und Funktionsweise von vLLM als High-Performance Inference Engine kennen und verstehen die Vorteile von GPU-Cloud-Plattformen wie zum Beispiel Runpod für kosteneffizientes KI-Deployment.

Durch praxisorientierte Übungen entwickeln Sie die Fähigkeit, eigene KI-Modelle effizient zu deployen, Inference-Endpoints zu konfigurieren und zu skalieren sowie Performance-Optimierungen durchzuführen. Sie lernen, wie man vLLM-Server konfiguriert, APIs bereitstellt und Monitoring-Lösungen implementiert.

Am Ende des Seminars sind Sie in der Lage, produktionsreife LLM-Deployments zu planen und umzusetzen, Kosten zu optimieren, Skalierungsstrategien anzuwenden und professionelle Inference-Infrastrukturen mit vLLM und Runpod aufzubauen.

Einführung in LLM-Deployment

  • Herausforderungen beim Deployment großer Sprachmodelle
  • Unterschiede zwischen Training, Finetuning und Inference
  • Überblick über Deployment-Optionen: Cloud vs. On-Premise vs. Hybrid
  • Kosten-Nutzen-Analyse verschiedener Deployment-Strategien

vLLM Deep Dive

  • Was ist vLLM und warum ist es performanter als Standard-Lösungen?
  • PagedAttention und kontinuierliches Batching verstehen
  • Unterstützte Modellarchitekturen und Quantisierungsformate
  • Installation und Konfiguration von vLLM
  • Vergleich: vLLM vs. TensorRT-LLM vs. SGLang vs. Ollama

Runpod-Plattform Einführung

  • Überblick über die Runpod-Plattform und Preismodelle
  • GPU-Typen und deren Eignung für verschiedene Modellgrößen
  • Runpod Pods vs. Serverless: Vor- und Nachteile
  • Account-Setup, Billing und Ressourcen-Management
  • Sicherheitsaspekte und Best Practices
  • Alternative Plattformen: Lambda Labs, Vast.ai, etc.

Praxis: Erstes Deployment

  • Hands-on: vLLM-Server auf Runpod starten
  • Modell-Download und -Konfiguration (z.B. Llama, Mistral, Phi)
  • OpenAI-kompatible API einrichten und testen
  • Erste API-Requests mit Python durchführen
  • Workshop: Deployment eines Chat-Modells

Performance-Optimierung

  • GPU-Memory-Management und Batch-Size-Tuning
  • Quantisierung: GPTQ, AWQ, GGUF im Vergleich
  • Tensor Parallelism für große Modelle
  • Konfiguration von vLLM-Parametern für maximale Throughput
  • Benchmarking und Performance-Monitoring

Skalierung und Load Balancing

  • Horizontal Scaling: Multiple Instances verwalten
  • Load Balancing-Strategien für LLM-Endpoints
  • Auto-Scaling mit Runpod Serverless
  • Fallback-Strategien und High Availability
  • Cost-Optimization: Spot-Instances und Reserved GPUs

API-Integration und Deployment-Patterns

  • OpenAI-kompatible Endpoints nutzen und erweitern
  • Streaming-Responses implementieren
  • Authentifizierung und Rate Limiting
  • Integration in bestehende Anwendungen
  • Multi-Model-Serving-Architekturen

Monitoring, Logging und Troubleshooting

  • Logging-Strategien für Production-Deployments
  • Metriken erfassen: Latency, Throughput, Token-Usage
  • Debugging häufiger Probleme (OOM, CUDA Errors, etc.)
  • Health Checks und Alerting einrichten
  • Kostenüberwachung und -optimierung

Praxis: Produktions-Deployment

  • Workshop: End-to-End-Deployment einer LLM-Anwendung
  • Implementierung einer vollständigen Inference-Pipeline
  • Load-Testing und Performance-Analyse
  • Deployment-Automation mit Scripts
  • Best Practices und Lessons Learned

Seminar KI-Modelle deployen mit vLLM und Runpod
Version
Geben Sie hier bitte an, mit welcher Version Sie arbeiten!
(nur bei An­wender-Semi­naren)
Ort Virtuelles Live Training
Termin 24.03.2026 - 25.03.2026
Preis
1.495,00 € exkl. MwSt.
(1.779,05 € inkl. MwSt.)

Ansprechpartner Bestellung

Firma oder Privat*
Bestellnummer
Abteilung
Anrede*
Titel
Vorname*
Name*
Straße*
PLZ*
Ort*
Telefon*
E-Mail-Adresse*
Abweichende Rechnungsadresse

Teilnehmer*innen

Anrede* Vorname* Name* E-Mail-Adresse*
Zum Schutz gegen Spam kann das Formular erst nach 15 Sekunden abgesendet werden.
Bitte warten Sie, bis der Absende-Button aktiv wird!