KI-Modelle deployen mit vLLM und Runpod

In dieser 2-tägigen Schulung "KI-Modelle deployen mit vLLM & Runpod" erwerben Sie fundierte Kenntnisse über die professionelle Bereitstellung von Large Language Models (LLMs) in produktiven Umgebungen. Sie lernen die Architektur und Funktionsweise von vLLM als High-Performance Inference Engine kennen und verstehen die Vorteile von GPU-Cloud-Plattformen wie zum Beispiel Runpod für kosteneffizientes KI-Deployment.

Durch praxisorientierte Übungen entwickeln Sie die Fähigkeit, eigene KI-Modelle effizient zu deployen, Inference-Endpoints zu konfigurieren und zu skalieren sowie Performance-Optimierungen durchzuführen. Sie lernen, wie man vLLM-Server konfiguriert, APIs bereitstellt und Monitoring-Lösungen implementiert.

Am Ende des Seminars sind Sie in der Lage, produktionsreife LLM-Deployments zu planen und umzusetzen, Kosten zu optimieren, Skalierungsstrategien anzuwenden und professionelle Inference-Infrastrukturen mit vLLM und Runpod aufzubauen.

Einführung in LLM-Deployment

Herausforderungen beim Deployment großer Sprachmodelle
Unterschiede zwischen Training, Finetuning und Inference
Überblick über Deployment-Optionen: Cloud vs. On-Premise vs. Hybrid
Kosten-Nutzen-Analyse verschiedener Deployment-Strategien

vLLM Deep Dive

Was ist vLLM und warum ist es performanter als Standard-Lösungen?
PagedAttention und kontinuierliches Batching verstehen
Unterstützte Modellarchitekturen und Quantisierungsformate
Installation und Konfiguration von vLLM
Vergleich: vLLM vs. TensorRT-LLM vs. SGLang vs. Ollama

Runpod-Plattform Einführung

Überblick über die Runpod-Plattform und Preismodelle
GPU-Typen und deren Eignung für verschiedene Modellgrößen
Runpod Pods vs. Serverless: Vor- und Nachteile
Account-Setup, Billing und Ressourcen-Management
Sicherheitsaspekte und Best Practices
Alternative Plattformen: Lambda Labs, Vast.ai, etc.

Praxis: Erstes Deployment

Hands-on: vLLM-Server auf Runpod starten
Modell-Download und -Konfiguration (z.B. Llama, Mistral, Phi)
OpenAI-kompatible API einrichten und testen
Erste API-Requests mit Python durchführen
Workshop: Deployment eines Chat-Modells

Performance-Optimierung

GPU-Memory-Management und Batch-Size-Tuning
Quantisierung: GPTQ, AWQ, GGUF im Vergleich
Tensor Parallelism für große Modelle
Konfiguration von vLLM-Parametern für maximale Throughput
Benchmarking und Performance-Monitoring

Skalierung und Load Balancing

Horizontal Scaling: Multiple Instances verwalten
Load Balancing-Strategien für LLM-Endpoints
Auto-Scaling mit Runpod Serverless
Fallback-Strategien und High Availability
Cost-Optimization: Spot-Instances und Reserved GPUs

API-Integration und Deployment-Patterns

OpenAI-kompatible Endpoints nutzen und erweitern
Streaming-Responses implementieren
Authentifizierung und Rate Limiting
Integration in bestehende Anwendungen
Multi-Model-Serving-Architekturen

Monitoring, Logging und Troubleshooting

Logging-Strategien für Production-Deployments
Metriken erfassen: Latency, Throughput, Token-Usage
Debugging häufiger Probleme (OOM, CUDA Errors, etc.)
Health Checks und Alerting einrichten
Kostenüberwachung und -optimierung

Praxis: Produktions-Deployment

Workshop: End-to-End-Deployment einer LLM-Anwendung
Implementierung einer vollständigen Inference-Pipeline
Load-Testing und Performance-Analyse
Deployment-Automation mit Scripts
Best Practices und Lessons Learned

Erforderlich:

Grundkenntnisse in Python-Programmierung
Vertrautheit mit REST APIs und HTTP-Requests
Basiswissen über Cloud-Computing-Konzepte
Erfahrung mit der Kommandozeile (Terminal/CLI)

Von Vorteil:

Grundverständnis von Machine Learning und Large Language Models
Erfahrung mit Docker und Containerisierung
Kenntnisse in Linux/Ubuntu-Systemadministration
Verständnis von GPU-Computing und CUDA

AI/ML Engineers und DevOps-Professionals, die KI-Modelle in Produktion bringen möchten
Software-Entwickler, die LLM-basierte Anwendungen mit performanten Backend-Lösungen ausstatten wollen
Data Scientists, die ihre Modelle professionell deployen und skalieren möchten
IT-Verantwortliche und Architekten, die kosteneffiziente Cloud-Infrastrukturen für KI-Workloads planen
Unternehmen, die eigene LLM-Infrastrukturen aufbauen und unabhängig von kommerziellen API-Anbietern werden möchten

Ort:

Virtuelles Live Training

Zeitraum:

24.03.2026 bis
25.03.2026

Dauer:

2 Tage

Preis:

1.495,00 €
(1.779,05 € inkl. MwSt.)

JETZT ANMELDEN