Gemma 4 : La puissance open-weight de Google et comment l'exécuter localement
Google DeepMind vient de lancer Gemma 4 — Apache 2.0, nativement multimodal, un modèle 31B qui bat des rivaux de 400B+, et tourne sur votre laptop. Le guide complet sur ce que c'est, ses performances, et comment lancer votre propre LLM local en minutes.
Alex Rivera
Responsable Recherche Sécurité & IA
Le 2 avril 2026, Google DeepMind a discrètement publié ce qui est probablement le lancement de modèle open-weight le plus conséquent de l'année. Pas de mises en garde de sécurité. Pas d'accès restreint. Pas de licence restrictive. Juste des poids, Apache 2.0 et une fiche de benchmarks qui devrait mettre mal à l'aise la plupart des fournisseurs propriétaires.
Voici Gemma 4 — une famille de quatre modèles allant d'un modèle de 2,3B qui tourne sur votre téléphone à un modèle dense de 31B classé #3 parmi tous les modèles ouverts sur le leaderboard Arena, battant des concurrents avec plus de 400 milliards de paramètres.
Qu'est-ce que Gemma 4 ?
Gemma 4 distille les enseignements de la recherche propriétaire Gemini 3 de Google dans une famille de modèles entièrement ouverte et déployable localement. Le principe de conception déclaré : maximiser l'intelligence par paramètre plutôt que l'échelle brute.
Trois choses rendent Gemma 4 structurellement différent des versions précédentes :
- Licence Apache 2.0 — Aucune limite d'utilisateurs actifs mensuels. Aucune restriction de politique d'utilisation. Aucune redevance.
- Multimodalité native dans toutes les tailles — Tous les modèles traitent texte et images. Les deux plus petits gèrent également l'audio.
- Support écosystème jour 0 — Ollama, llama.cpp, LM Studio, vLLM et Hugging Face Transformers tous supportés le jour du lancement.
Les quatre modèles
Le 26B MoE est le choix surprise. En temps d'inférence, il n'active que 4B paramètres — il tourne donc avec l'empreinte mémoire d'un petit modèle tout en atteignant une qualité proche du 31B. Un développeur sur Hacker News a rapporté faire tourner le 26B Q8_0 sur un M2 Ultra à 300 tokens par seconde avec entrée vidéo en temps réel.
Benchmarks
- MMLU Pro : 85,2% (modèle 31B)
- AIME 2026 Mathématiques : 89,2%
- LiveCodeBench Coding : 80,0%
- Codeforces ELO : 2150
- Arena Leaderboard : #3 modèle ouvert (bat des modèles avec 400B+ paramètres)
Comment exécuter Gemma 4 localement
Méthode 1 : Ollama (Recommandé pour les Développeurs)
# Installation (macOS/Linux)
curl -fsSL https://ollama.com/install.sh | sh
# Télécharger les variantes
ollama pull gemma4:e4b # Meilleur point de départ (~3 Go)
ollama pull gemma4:e2b # Option la plus légère (~1,5 Go)
ollama pull gemma4:26b # Raisonnement puissant (~16 Go)
ollama pull gemma4:31b-it # Qualité maximale (~18 Go)
# Démarrer un chat
ollama run gemma4:e4b
Méthode 2 : LM Studio (Meilleur pour les Non-Techniciens)
- Télécharger depuis lmstudio.ai
- Ouvrir l'app → onglet "Discover" → rechercher
gemma-4 - Télécharger les variantes GGUF pré-quantifiées Unsloth
- Cliquer sur "Chat" pour commencer immédiatement
Méthode 3 : llama.cpp
llama-server -hf ggml-org/gemma-4-E2B-it-GGUF
Méthode 4 : MLX pour Apple Silicon
pip install -U mlx-vlm
mlx_vlm.generate \
--model "mlx-community/gemma-4-26b-a4b-it-4bit" \
--prompt "Explique cette fonction"
Ce que dit la communauté
La licence Apache 2.0 a été le détail le plus célébré. L'efficacité du 26B MoE — "#6 modèle ouvert avec seulement 4B paramètres actifs" — a impressionné les ingénieurs. Le support écosystème dès le jour 0 a été noté comme un tournant dans la coordination OSS de Google.
Cas d'usage pour les équipes produit et ingénierie
- Assistant de code local — Sans latence cloud, dans les IDE
- Traitement de documents privacy-first — Contexte 128K–256K
- Workflows agentiques sans dépendance cloud — Function calling natif
- Fine-tuning sur données propriétaires — Apache 2.0 permet le déploiement commercial
# Démarrage rapide : deux commandes
curl -fsSL https://ollama.com/install.sh | sh
ollama run gemma4:e4b
Tous les poids des modèles sont disponibles sur Hugging Face sous Apache 2.0. Gemma 4 est également accessible via Google Cloud Vertex AI.