Google hat am 2. April 2026 eine Bombe geworfen: Gemma 4, das neue Open-Source-Flaggschiff von Google DeepMind, schlägt Modelle mit dem 10-fachen seiner Parameterzahl – und ist dabei kostenlos, offline-fähig und auf deinem Laptop ausführbar.

Das 31B-Modell landet auf Platz 3 im Arena AI Leaderboard mit ELO 1452. Auf dem AIME 2026 Mathe-Benchmark springt die Punktzahl von 20,8% (Gemma 3) auf 89,2%. Beim Coding-Benchmark LiveCodeBench: von 29,1% auf 80,0%. Das sind keine inkrementellen Verbesserungen – das ist ein Generationssprung.

Was bedeutet das für dich? Konkret: Du kannst ab sofort ein Spitzenmodell lokal auf deinem Mac oder PC laufen lassen, keine API-Kosten, keine Datenschutzbedenken, keine Internetsverbindung nötig.

Was ist Gemma 4 genau?

Gemma 4 ist Googles vierte Generation der Open-Weight-Modellserie. Im Gegensatz zu proprietären Modellen wie GPT-5 oder Claude Sonnet kannst du Gemma 4 herunterladen, lokal ausführen, modifizieren und kommerziell nutzen – alles unter der freizügigen Apache 2.0 Lizenz.

Die neue Generation ist von Grund auf multimodal aufgebaut: Text, Bilder und Audio werden nativ verarbeitet, nicht nur als Plugin hinzugefügt.

Die 4 Modellvarianten im Überblick

VarianteParameterKontextEinsatzgebiet
E2B2,3B effektiv128KSmartphone, Raspberry Pi
E4B4,5B effektiv128KLaptop, Edge Devices
26B MoE26B gesamt, 4B aktiv256KDesktop, Server
31B Dense31B256KWorkstation, Cloud

Das “E” bei E2B und E4B steht für “Edge” – diese Modelle sind speziell für ressourcenbegrenzte Geräte optimiert. Durch Mixture-of-Experts (MoE)-Architektur beim 26B-Modell werden nur 4B Parameter pro Inferenz aktiviert, was RAM und Batterie schont.

Die wichtigsten Features

Multimodalität ab Werk

Gemma 4 versteht Text, Bilder und Audio gleichzeitig – nativ, nicht nachträglich angebaut. Du kannst ein Foto hochladen und Fragen dazu stellen, Diagramme analysieren lassen oder Audio-Snippets transkribieren und zusammenfassen. Alles lokal, offline.

256.000 Token Kontext

Das 26B und 31B-Modell verarbeiten bis zu 256K Token – das entspricht etwa 200.000 Wörtern oder einem ganzen Buch. Für Entwickler bedeutet das: gesamte Codebasen in einem einzigen Kontext, lange Dokumentenanalyse, komplexe mehrstufige Reasoning-Aufgaben.

Agentic Workflows

Gemma 4 wurde speziell für agentic Workflows trainiert. Über sogenannte Agent Skills kann das Modell eigenständig Werkzeuge wie Wikipedia-Suche, Taschenrechner oder interaktive Karten nutzen. Es entscheidet selbst, wann welches Tool sinnvoll ist.

140+ Sprachen

Gemma 4 unterstützt über 140 Sprachen, mit besonderer Stärke bei Deutsch, Englisch, Französisch, Spanisch und Mandarin. Für deutschsprachige Nutzer ist das ein klarer Vorteil gegenüber vielen Open-Source-Alternativen, die primär auf Englisch optimiert sind.

Benchmark-Vergleich: Gemma 4 vs. die Konkurrenz

Die Zahlen sprechen für sich:

BenchmarkGemma 3 31BGemma 4 31BGPT-4oClaude 3.5 Sonnet
AIME 202620,8%89,2%83,1%85,4%
LiveCodeBench29,1%80,0%76,3%78,9%
GPQA Science42,4%84,3%81,2%82,7%
Arena ELO~12801452 (#3)14481436

Das 31B-Modell übertrifft in mehreren wichtigen Kategorien Modelle mit 400B+ Parametern. Das ist bemerkenswert – besonders wenn man bedenkt, dass Gemma 4 kostenlos und lokal läuft.

Wie du Gemma 4 sofort nutzen kannst

Option 1: Ollama (einfachste Methode)

# Ollama installieren (einmalig)
curl -fsSL https://ollama.com/install.sh | sh

# Gemma 4 E4B (4.5B, ca. 3 GB Download)
ollama run gemma4:e4b

# Gemma 4 26B MoE (braucht ~16 GB RAM)
ollama run gemma4:26b

Nach dem ersten Download läuft alles vollständig offline – keine API-Kosten, keine Datenweitergabe.

Option 2: Google AI Studio (Browser, kostenlos)

Gehe auf Google AI Studio und wähle Gemma 4 aus dem Modell-Dropdown. Perfekt zum Ausprobieren ohne lokale Installation.

Option 3: Hugging Face + Transformers

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")
model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-4-31b",
    device_map="auto"
)

Option 4: Google Cloud (Vertex AI)

Für Unternehmensanwendungen steht Gemma 4 über Vertex AI bereit – mit Enterprise-Support, Compliance-Features und einfacher Skalierung.

Gemma 4 für Edge AI: Der Gamechanger

Der vielleicht aufregendste Aspekt ist die Edge-Fähigkeit. Die E2B und E4B-Varianten laufen auf:

  • Smartphones (Android AICore Developer Preview aktiv seit April 2026)
  • Raspberry Pi 5 (4B empfohlen)
  • NVIDIA Jetson Orin Nano
  • MacBooks (M1 und neuer)

Das bedeutet: KI-Anwendungen die vollständig offline, mit near-zero Latenz und ohne Datenweitergabe an Cloud-Server funktionieren. Für datenschutzsensible Anwendungen im Gesundheitswesen, Recht oder Finanzen ist das ein echter Durchbruch.

Wofür ist Gemma 4 besonders stark?

Coding: Mit 80% auf LiveCodeBench ist Gemma 4 eine ernsthafte Alternative zu spezialisierten Code-Modellen. Offline-Code-Completion direkt in der IDE – ohne API-Schlüssel.

Mathematik und Logik: AIME 2026 mit 89,2% – das entspricht einem sehr guten Mathematikstudenten. Für technische Berechnungen, Formeln und komplexes Reasoning ist Gemma 4 klasse.

Dokumentenanalyse: 256K Kontext plus native Vision macht Gemma 4 ideal für die Analyse langer PDFs, Verträge oder Berichte direkt auf dem eigenen Rechner.

Mehrsprachige Anwendungen: 140+ Sprachen nativ – kein Übersetzungsschritt nötig.

Fazit: Open Source holt auf

Google Gemma 4 ist ein Signal. Open-Source-KI-Modelle sind nicht mehr die “guten, aber etwas schlechteren” Alternativen zu proprietären Diensten. Das 31B-Modell liegt auf Augenhöhe mit den besten kommerziellen Modellen – und läuft dabei kostenlos, offline und ohne Datenweitergabe.

Für Entwickler, Unternehmen mit Datenschutzanforderungen und alle, die keine monatlichen API-Kosten zahlen wollen, ist Gemma 4 der Moment, wo Open-Source-KI ernsthaft attraktiv wird.

Der Apache 2.0 Lizenz sei Dank: Verwende es wie du willst. Modifiziere es. Baue kommerzielle Produkte darauf. Das ist die Zukunft der KI-Demokratisierung.


Weiterlesen: