0

KI-Modelle deployen mit vLLM und Runpod

Ihre Termine

Datum Ort Preis
29.06.2026
-30.06.2026
Nürnberg 1.779,05 €*
Buchen
29.06.2026
-30.06.2026
Virtuelles Live Training 1.779,05 €*
Buchen
08.07.2026
-09.07.2026
Nürnberg 1.779,05 €*
Buchen

* Preise inkl. der gesetzlichen Mehrwertsteuer

Beschreibung

In dieser 2-tägigen Schulung "KI-Modelle deployen mit vLLM & Runpod" erwerben Sie fundierte Kenntnisse über die professionelle Bereitstellung von Large Language Models (LLMs) in produktiven Umgebungen. Sie lernen die Architektur und Funktionsweise von vLLM als High-Performance Inference Engine kennen und verstehen die Vorteile von GPU-Cloud-Plattformen wie zum Beispiel Runpod für kosteneffizientes KI-Deployment.

Durch praxisorientierte Übungen entwickeln Sie die Fähigkeit, eigene KI-Modelle effizient zu deployen, Inference-Endpoints zu konfigurieren und zu skalieren sowie Performance-Optimierungen durchzuführen. Sie lernen, wie man vLLM-Server konfiguriert, APIs bereitstellt und Monitoring-Lösungen implementiert.

Am Ende des Seminars sind Sie in der Lage, produktionsreife LLM-Deployments zu planen und umzusetzen, Kosten zu optimieren, Skalierungsstrategien anzuwenden und professionelle Inference-Infrastrukturen mit vLLM und Runpod aufzubauen.

Inhalte

Einführung in LLM-Deployment

  • Herausforderungen beim Deployment großer Sprachmodelle
  • Unterschiede zwischen Training, Finetuning und Inference
  • Überblick über Deployment-Optionen: Cloud vs. On-Premise vs. Hybrid
  • Kosten-Nutzen-Analyse verschiedener Deployment-Strategien

vLLM Deep Dive

  • Was ist vLLM und warum ist es performanter als Standard-Lösungen?
  • PagedAttention und kontinuierliches Batching verstehen
  • Unterstützte Modellarchitekturen und Quantisierungsformate
  • Installation und Konfiguration von vLLM
  • Vergleich: vLLM vs. TensorRT-LLM vs. SGLang vs. Ollama

Runpod-Plattform Einführung

  • Überblick über die Runpod-Plattform und Preismodelle
  • GPU-Typen und deren Eignung für verschiedene Modellgrößen
  • Runpod Pods vs. Serverless: Vor- und Nachteile
  • Account-Setup, Billing und Ressourcen-Management
  • Sicherheitsaspekte und Best Practices
  • Alternative Plattformen: Lambda Labs, Vast.ai, etc.

Praxis: Erstes Deployment

  • Hands-on: vLLM-Server auf Runpod starten
  • Modell-Download und -Konfiguration (z.B. Llama, Mistral, Phi)
  • OpenAI-kompatible API einrichten und testen
  • Erste API-Requests mit Python durchführen
  • Workshop: Deployment eines Chat-Modells

Performance-Optimierung

  • GPU-Memory-Management und Batch-Size-Tuning
  • Quantisierung: GPTQ, AWQ, GGUF im Vergleich
  • Tensor Parallelism für große Modelle
  • Konfiguration von vLLM-Parametern für maximale Throughput
  • Benchmarking und Performance-Monitoring

Skalierung und Load Balancing

  • Horizontal Scaling: Multiple Instances verwalten
  • Load Balancing-Strategien für LLM-Endpoints
  • Auto-Scaling mit Runpod Serverless
  • Fallback-Strategien und High Availability
  • Cost-Optimization: Spot-Instances und Reserved GPUs

API-Integration und Deployment-Patterns

  • OpenAI-kompatible Endpoints nutzen und erweitern
  • Streaming-Responses implementieren
  • Authentifizierung und Rate Limiting
  • Integration in bestehende Anwendungen
  • Multi-Model-Serving-Architekturen

Monitoring, Logging und Troubleshooting

  • Logging-Strategien für Production-Deployments
  • Metriken erfassen: Latency, Throughput, Token-Usage
  • Debugging häufiger Probleme (OOM, CUDA Errors, etc.)
  • Health Checks und Alerting einrichten
  • Kostenüberwachung und -optimierung

Praxis: Produktions-Deployment

  • Workshop: End-to-End-Deployment einer LLM-Anwendung
  • Implementierung einer vollständigen Inference-Pipeline
  • Load-Testing und Performance-Analyse
  • Deployment-Automation mit Scripts
  • Best Practices und Lessons Learned

Voraussetzungen

Erforderlich:

  • Grundkenntnisse in Python-Programmierung
  • Vertrautheit mit REST APIs und HTTP-Requests
  • Basiswissen über Cloud-Computing-Konzepte
  • Erfahrung mit der Kommandozeile (Terminal/CLI)

Von Vorteil:

  • Grundverständnis von Machine Learning und Large Language Models
  • Erfahrung mit Docker und Containerisierung
  • Kenntnisse in Linux/Ubuntu-Systemadministration
  • Verständnis von GPU-Computing und CUDA

Zielgruppe

  • AI/ML Engineers und DevOps-Professionals, die KI-Modelle in Produktion bringen möchten
  • Software-Entwickler, die LLM-basierte Anwendungen mit performanten Backend-Lösungen ausstatten wollen
  • Data Scientists, die ihre Modelle professionell deployen und skalieren möchten
  • IT-Verantwortliche und Architekten, die kosteneffiziente Cloud-Infrastrukturen für KI-Workloads planen
  • Unternehmen, die eigene LLM-Infrastrukturen aufbauen und unabhängig von kommerziellen API-Anbietern werden möchten