Meta hat mit Llama 4 einen technologischen Sprung gemacht, der die Open-Source-KI-Landschaft neu definiert: Zum ersten Mal nutzt ein Llama-Modell Mixture-of-Experts — und das Kontextfenster übertrifft alles bisher Dagewesene.
Was ist Mixture-of-Experts?
Llama 4 ist das erste Modell der Reihe mit Mixture-of-Experts (MoE)-Architektur. Statt alle Parameter bei jeder Anfrage zu aktivieren, wählt das Modell nur die relevanten “Experten” aus.
Das Ergebnis: Mehr Power bei weniger Rechenaufwand. Scout hat 109 Milliarden Parameter gesamt — aber nur 17B davon werden pro Anfrage aktiviert. Das macht lokales Deployment auf High-End-Hardware realistisch.
Die zwei Modelle im Überblick
| Feature | Llama 4 Scout | Llama 4 Maverick |
|---|---|---|
| Aktive Parameter | 17B | ~50B (von 400B) |
| Gesamt-Parameter | 109B | 400B |
| Experten | 16 | 128 |
| Kontextfenster | 10M Token | 10M Token |
| Multimodal | Ja | Ja |
| Deployment | Lokal möglich | Server erforderlich |
| Lizenz | Llama 4 Community | Llama 4 Community |
10 Millionen Token Kontext ist ein Rekord für Open-Weight-Modelle. Zum Vergleich: GPT-4 hat 128.000 Token, Claude 3.5 Sonnet hat 200.000 Token. Mit 10M Token kannst du eine gesamte Codebasis, ein Buch oder Monate an E-Mail-Kommunikation in einem einzigen Prompt verarbeiten.
Warum ist das relevant für DACH-Unternehmen?
Llama 4 ist besonders interessant für Unternehmen, die KI DSGVO-konform betreiben wollen:
- On-Premise Deployment — keine Daten verlassen das Unternehmensnetzwerk
- Keine Abhängigkeit von US-Hyperscalern — volle Datensouveränität
- Anpassbar — Fine-Tuning auf eigene Daten möglich
- Keine API-Kosten — nach dem Setup sind keine laufenden Token-Kosten fällig
Das macht Llama 4 zur ernsthaften Alternative zu OpenAI und Anthropic für datensensible Branchen wie Gesundheit, Recht und Finanzen.
Performance: Wie gut ist Llama 4 wirklich?
Meta positioniert Llama 4 Maverick als GPT-4-Klasse bei Reasoning-Aufgaben und besser als Gemini 1.5 Pro bei mehreren Benchmarks. Unabhängige Tests zeigen:
- MMLU (Allgemeinwissen): Maverick ~88% (vergleichbar mit GPT-4o)
- HumanEval (Coding): Scout ~72%, Maverick ~82%
- Long-Context-Aufgaben: Scout/Maverick deutlich überlegen dank 10M-Token-Fenster
Für sehr lange Dokumente oder komplexe Multi-Step-Workflows ist der 10M-Token-Kontext ein echter Wettbewerbsvorteil — auch gegenüber proprietären Modellen.
So nutzt du Llama 4 heute
Option 1: Über Hosted APIs
- Groq, Together AI, Fireworks AI bieten Llama 4 bereits an
- Günstiger als OpenAI/Anthropic, ähnliche Qualität
Option 2: Lokal mit Ollama
- Scout läuft auf GPUs mit ~40GB VRAM (RTX 4090 + Ryzen-System)
ollama pull llama4-scout(sobald verfügbar im Ollama Hub)
Option 3: Hugging Face + vLLM
- Download direkt von huggingface.co/meta-llama
- Deployment mit vLLM für Production-Workloads
Das Fazit
Llama 4 ist das bisher stärkste Open-Weight-Modell. Für alle die mit DSGVO, Datensouveränität oder einfach KI-Kosten kämpfen, ist es ein Game-Changer. Der 10M-Token-Kontext alleine rechtfertigt einen Test.
Weiterlesen:
