Meta hat mit Llama 4 einen technologischen Sprung gemacht, der die Open-Source-KI-Landschaft neu definiert: Zum ersten Mal nutzt ein Llama-Modell Mixture-of-Experts — und das Kontextfenster übertrifft alles bisher Dagewesene.

Was ist Mixture-of-Experts?

Llama 4 ist das erste Modell der Reihe mit Mixture-of-Experts (MoE)-Architektur. Statt alle Parameter bei jeder Anfrage zu aktivieren, wählt das Modell nur die relevanten “Experten” aus.

Das Ergebnis: Mehr Power bei weniger Rechenaufwand. Scout hat 109 Milliarden Parameter gesamt — aber nur 17B davon werden pro Anfrage aktiviert. Das macht lokales Deployment auf High-End-Hardware realistisch.

Die zwei Modelle im Überblick

FeatureLlama 4 ScoutLlama 4 Maverick
Aktive Parameter17B~50B (von 400B)
Gesamt-Parameter109B400B
Experten16128
Kontextfenster10M Token10M Token
MultimodalJaJa
DeploymentLokal möglichServer erforderlich
LizenzLlama 4 CommunityLlama 4 Community

10 Millionen Token Kontext ist ein Rekord für Open-Weight-Modelle. Zum Vergleich: GPT-4 hat 128.000 Token, Claude 3.5 Sonnet hat 200.000 Token. Mit 10M Token kannst du eine gesamte Codebasis, ein Buch oder Monate an E-Mail-Kommunikation in einem einzigen Prompt verarbeiten.

Warum ist das relevant für DACH-Unternehmen?

Llama 4 ist besonders interessant für Unternehmen, die KI DSGVO-konform betreiben wollen:

  • On-Premise Deployment — keine Daten verlassen das Unternehmensnetzwerk
  • Keine Abhängigkeit von US-Hyperscalern — volle Datensouveränität
  • Anpassbar — Fine-Tuning auf eigene Daten möglich
  • Keine API-Kosten — nach dem Setup sind keine laufenden Token-Kosten fällig

Das macht Llama 4 zur ernsthaften Alternative zu OpenAI und Anthropic für datensensible Branchen wie Gesundheit, Recht und Finanzen.

Performance: Wie gut ist Llama 4 wirklich?

Meta positioniert Llama 4 Maverick als GPT-4-Klasse bei Reasoning-Aufgaben und besser als Gemini 1.5 Pro bei mehreren Benchmarks. Unabhängige Tests zeigen:

  • MMLU (Allgemeinwissen): Maverick ~88% (vergleichbar mit GPT-4o)
  • HumanEval (Coding): Scout ~72%, Maverick ~82%
  • Long-Context-Aufgaben: Scout/Maverick deutlich überlegen dank 10M-Token-Fenster

Für sehr lange Dokumente oder komplexe Multi-Step-Workflows ist der 10M-Token-Kontext ein echter Wettbewerbsvorteil — auch gegenüber proprietären Modellen.

So nutzt du Llama 4 heute

Option 1: Über Hosted APIs

  • Groq, Together AI, Fireworks AI bieten Llama 4 bereits an
  • Günstiger als OpenAI/Anthropic, ähnliche Qualität

Option 2: Lokal mit Ollama

  • Scout läuft auf GPUs mit ~40GB VRAM (RTX 4090 + Ryzen-System)
  • ollama pull llama4-scout (sobald verfügbar im Ollama Hub)

Option 3: Hugging Face + vLLM

Das Fazit

Llama 4 ist das bisher stärkste Open-Weight-Modell. Für alle die mit DSGVO, Datensouveränität oder einfach KI-Kosten kämpfen, ist es ein Game-Changer. Der 10M-Token-Kontext alleine rechtfertigt einen Test.


Weiterlesen: