KI & Entwicklung

Gemma 4: Googles Open-Weight-Kraftpaket und wie Sie es lokal ausführen

Google DeepMind hat Gemma 4 veröffentlicht — Apache 2.0, nativ multimodal, ein 31B-Modell, das 400B+-Konkurrenten schlägt, und es läuft auf einem Laptop. Der vollständige Leitfaden zu Was, Wie und Warum.

Alex Rivera

Leiter für Sicherheits- und KI-Forschung

9. April 2026 14 Min. Lesezeit
Gemma 4: Googles Open-Weight-Kraftpaket und wie Sie es lokal ausführen

Am 2. April 2026 veröffentlichte Google DeepMind die bedeutendste Open-Weight-Modell-Familie des Jahres. Keine Sicherheitsvorbehalte. Kein eingeschränkter Zugang. Keine restriktive Lizenz. Nur Gewichte, Apache 2.0 und eine Benchmark-Tabelle, die die meisten proprietären Anbieter beschämen sollte.

Willkommen bei Gemma 4 — einer Viermodell-Familie, die von einem 2,3B-Modell, das auf Ihrem Telefon läuft, bis hin zu einem 31B-Dense-Modell reicht, das auf dem Arena-Leaderboard Platz 3 unter allen offenen Modellen belegt und Konkurrenten mit über 400 Milliarden Parametern schlägt.

Was ist Gemma 4?

Gemma 4 destilliert Erkenntnisse aus Googles proprietärer Gemini-3-Forschung in eine vollständig offene, lokal einsetzbare Modellfamilie. Das erklärte Designprinzip: Intelligenz pro Parameter maximieren, anstatt auf rohe Skalierung zu setzen.

Drei Dinge machen Gemma 4 strukturell anders als frühere Gemma-Versionen:

  1. Apache-2.0-Lizenz — Keine monatlichen Nutzer-Obergrenzen. Keine Nutzungsrichtlinienbeschränkungen. Keine Lizenzgebühren.
  2. Native Multimodalität in allen Größen — Jedes Modell verarbeitet Text und Bilder von Anfang an. Die beiden kleineren Modelle verarbeiten auch Audio.
  3. Tag-0-Ökosystemunterstützung — Ollama, llama.cpp, LM Studio, vLLM und Hugging Face Transformers wurden alle am Veröffentlichungstag unterstützt.

Die vier Modelle

Vergleichsdiagramm der Gemma-4-Modellvarianten
Gemma 4s Viermodell-Familie reicht von telefongeeignet bis Workstation-Klasse — alle nativ multimodal.

Das 26B MoE-Modell ist die Geheimwaffe. Zur Inferenzzeit aktiviert es nur 4B Parameter — daher läuft es mit dem Speicherbedarf eines kleinen Modells und erreicht dabei nahezu die Qualität des 31B-Modells.

Benchmark-Ergebnisse

  • MMLU Pro: 85,2% (31B-Modell)
  • AIME 2026 Mathematik: 89,2%
  • LiveCodeBench Coding: 80,0%
  • Codeforces ELO: 2150
  • Arena-Leaderboard: #3 offenes Modell (übertrifft Modelle mit 400B+ Parametern)

Lokal ausführen: Vier Methoden

Methode 1: Ollama (Empfohlen für Entwickler)

# Installation (macOS/Linux)
curl -fsSL https://ollama.com/install.sh | sh

# Modellvarianten herunterladen
ollama pull gemma4:e4b        # Bester Einstiegspunkt (~3 GB)
ollama pull gemma4:e2b        # Leichteste Option (~1,5 GB)
ollama pull gemma4:26b        # Starkes Reasoning (~16 GB)
ollama pull gemma4:31b-it     # Maximale Qualität (~18 GB)

# Chat starten
ollama run gemma4:e4b

# OpenAI-kompatibler API-Aufruf
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "gemma4:e4b", "messages": [{"role": "user", "content": "Hallo"}]}'

Methode 2: LM Studio (Beste für Nicht-Techniker)

  1. Herunterladen von lmstudio.ai
  2. App öffnen → "Discover"-Tab → nach gemma-4 suchen
  3. Vorquantisierte GGUF-Varianten herunterladen
  4. "Chat" für sofortigen Start klicken

Methode 3: llama.cpp

# Direkt von Hugging Face GGUF ausführen
llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

Methode 4: MLX für Apple Silicon

pip install -U mlx-vlm
mlx_vlm.generate \
  --model "mlx-community/gemma-4-26b-a4b-it-4bit" \
  --prompt "Erkläre diese Funktion"

Was die Community sagt

Die Apache-2.0-Lizenz war der meistgelobte Aspekt. Frühere Gemma-Versionen hatten restriktive benutzerdefinierte Lizenzen. Die Effizienz des 26B MoE — "#6 offenes Modell bei nur 4B aktiven Parametern" — faszinierte Ingenieure. Die Tag-0-Ökosystemunterstützung wurde als Wendepunkt in Googles OSS-Koordination gewertet.

Anwendungsfälle für Produkt- und Engineering-Teams

  • Lokaler Code-Assistent — Quantisierte Versionen laufen in IDEs ohne Cloud-Latenz
  • Datenschutz-first Dokumentenverarbeitung — 128K–256K-Kontext deckt die meisten Dokumente ab
  • Agentische Workflows ohne Cloud-Abhängigkeit — Natives Function Calling in allen Größen
  • Fine-Tuning auf proprietären Daten — Apache 2.0 ermöglicht kommerzielles Deployment
# Schnellstart: Zwei Befehle
curl -fsSL https://ollama.com/install.sh | sh
ollama run gemma4:e4b

Alle Modellgewichte sind auf Hugging Face unter Apache 2.0 verfügbar. Gemma 4 ist auch über Google Cloud Vertex AI zugänglich.