Le 2 avril 2026, Google DeepMind a discrètement publié ce qui est probablement le lancement de modèle open-weight le plus conséquent de l'année. Pas de mises en garde de sécurité. Pas d'accès restreint. Pas de licence restrictive. Juste des poids, Apache 2.0 et une fiche de benchmarks qui devrait mettre mal à l'aise la plupart des fournisseurs propriétaires.

Voici Gemma 4 — une famille de quatre modèles allant d'un modèle de 2,3B qui tourne sur votre téléphone à un modèle dense de 31B classé #3 parmi tous les modèles ouverts sur le leaderboard Arena, battant des concurrents avec plus de 400 milliards de paramètres.

Qu'est-ce que Gemma 4 ?

Gemma 4 distille les enseignements de la recherche propriétaire Gemini 3 de Google dans une famille de modèles entièrement ouverte et déployable localement. Le principe de conception déclaré : maximiser l'intelligence par paramètre plutôt que l'échelle brute.

Trois choses rendent Gemma 4 structurellement différent des versions précédentes :

Licence Apache 2.0 — Aucune limite d'utilisateurs actifs mensuels. Aucune restriction de politique d'utilisation. Aucune redevance.
Multimodalité native dans toutes les tailles — Tous les modèles traitent texte et images. Les deux plus petits gèrent également l'audio.
Support écosystème jour 0 — Ollama, llama.cpp, LM Studio, vLLM et Hugging Face Transformers tous supportés le jour du lancement.

Les quatre modèles

Diagramme de comparaison des variantes de modèles Gemma 4 — La famille de quatre modèles de Gemma 4 va du compatible téléphone au grade workstation — tous nativement multimodaux.

Le 26B MoE est le choix surprise. En temps d'inférence, il n'active que 4B paramètres — il tourne donc avec l'empreinte mémoire d'un petit modèle tout en atteignant une qualité proche du 31B. Un développeur sur Hacker News a rapporté faire tourner le 26B Q8_0 sur un M2 Ultra à 300 tokens par seconde avec entrée vidéo en temps réel.

Benchmarks

MMLU Pro : 85,2% (modèle 31B)
AIME 2026 Mathématiques : 89,2%
LiveCodeBench Coding : 80,0%
Codeforces ELO : 2150
Arena Leaderboard : #3 modèle ouvert (bat des modèles avec 400B+ paramètres)

Comment exécuter Gemma 4 localement

Méthode 1 : Ollama (Recommandé pour les Développeurs)

# Installation (macOS/Linux)
curl -fsSL https://ollama.com/install.sh | sh

# Télécharger les variantes
ollama pull gemma4:e4b        # Meilleur point de départ (~3 Go)
ollama pull gemma4:e2b        # Option la plus légère (~1,5 Go)
ollama pull gemma4:26b        # Raisonnement puissant (~16 Go)
ollama pull gemma4:31b-it     # Qualité maximale (~18 Go)

# Démarrer un chat
ollama run gemma4:e4b

Méthode 2 : LM Studio (Meilleur pour les Non-Techniciens)

Télécharger depuis lmstudio.ai
Ouvrir l'app → onglet "Discover" → rechercher gemma-4
Télécharger les variantes GGUF pré-quantifiées Unsloth
Cliquer sur "Chat" pour commencer immédiatement

Méthode 3 : llama.cpp

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

Méthode 4 : MLX pour Apple Silicon

pip install -U mlx-vlm
mlx_vlm.generate \
  --model "mlx-community/gemma-4-26b-a4b-it-4bit" \
  --prompt "Explique cette fonction"

Ce que dit la communauté

La licence Apache 2.0 a été le détail le plus célébré. L'efficacité du 26B MoE — "#6 modèle ouvert avec seulement 4B paramètres actifs" — a impressionné les ingénieurs. Le support écosystème dès le jour 0 a été noté comme un tournant dans la coordination OSS de Google.

Cas d'usage pour les équipes produit et ingénierie

Assistant de code local — Sans latence cloud, dans les IDE
Traitement de documents privacy-first — Contexte 128K–256K
Workflows agentiques sans dépendance cloud — Function calling natif
Fine-tuning sur données propriétaires — Apache 2.0 permet le déploiement commercial

# Démarrage rapide : deux commandes
curl -fsSL https://ollama.com/install.sh | sh
ollama run gemma4:e4b

Tous les poids des modèles sont disponibles sur Hugging Face sous Apache 2.0. Gemma 4 est également accessible via Google Cloud Vertex AI.

Gemma 4 : La puissance open-weight de Google et comment l'exécuter localement