Gemma 4: La potencia open-weight de Google y cómo ejecutarla localmente
Google DeepMind acaba de lanzar Gemma 4 — Apache 2.0, nativa multimodal, un modelo 31B que supera rivales de 400B+, y funciona en tu laptop. La guía completa de qué es, cómo funciona y cómo ejecutar tu propio LLM local en minutos.
Alex Rivera
Líder de Investigación en Seguridad e IA
El 2 de abril de 2026, Google DeepMind lanzó silenciosamente el lanzamiento de modelo open-weight más trascendental del año. Sin advertencias de seguridad. Sin acceso restringido. Sin licencia restrictiva. Solo pesos, Apache 2.0 y una hoja de benchmarks que debería avergonzar a la mayoría de los vendedores propietarios.
Conoce Gemma 4 — una familia de cuatro modelos que va desde un modelo de 2.3B que corre en tu teléfono hasta un modelo denso de 31B que ocupa el puesto #3 entre todos los modelos abiertos en el leaderboard de Arena, superando a competidores con más de 400 mil millones de parámetros.
¿Qué es Gemma 4?
Gemma 4 destila perspectivas de la investigación propietaria Gemini 3 de Google en una familia de modelos completamente abierta y desplegable localmente. El principio de diseño declarado: maximizar la inteligencia por parámetro en lugar de la escala bruta.
Tres cosas hacen que Gemma 4 sea estructuralmente diferente de las versiones anteriores de Gemma:
- Licencia Apache 2.0 — Sin límites de usuarios activos mensuales. Sin restricciones de política de uso aceptable. Sin regalías.
- Multimodalidad nativa en todos los tamaños — Todos los modelos procesan texto e imágenes. Los dos más pequeños también manejan audio.
- Soporte del ecosistema desde el día 0 — Ollama, llama.cpp, LM Studio, vLLM y Hugging Face Transformers todos soportados el día del lanzamiento.
Los cuatro modelos
El 26B MoE es la elección sorpresa. En tiempo de inferencia solo activa 4B parámetros — así que corre con el footprint de memoria de un modelo pequeño mientras logra calidad cercana al 31B. Un desarrollador en Hacker News reportó correr el 26B Q8_0 en un M2 Ultra a 300 tokens por segundo con entrada de video en tiempo real.
Benchmarks
- MMLU Pro: 85.2% (modelo 31B)
- AIME 2026 Matemáticas: 89.2%
- LiveCodeBench Coding: 80.0%
- Codeforces ELO: 2150
- Arena Leaderboard: #3 modelo abierto (supera modelos con 400B+ parámetros)
Cómo ejecutar Gemma 4 localmente
Método 1: Ollama (Recomendado para Desarrolladores)
# Instalar (macOS/Linux)
curl -fsSL https://ollama.com/install.sh | sh
# Descargar variantes del modelo
ollama pull gemma4:e4b # Mejor punto de partida (~3 GB)
ollama pull gemma4:e2b # Opción más ligera (~1.5 GB)
ollama pull gemma4:26b # Razonamiento potente (~16 GB)
ollama pull gemma4:31b-it # Calidad máxima (~18 GB)
# Iniciar chat
ollama run gemma4:e4b
# Llamada API compatible con OpenAI
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "gemma4:e4b", "messages": [{"role": "user", "content": "Hola"}]}'
Método 2: LM Studio (Mejor para Usuarios No Técnicos)
- Descargar de lmstudio.ai
- Abrir app → pestaña "Discover" → buscar
gemma-4 - Descargar variantes GGUF pre-cuantizadas de Unsloth
- Hacer clic en "Chat" para empezar inmediatamente
Método 3: llama.cpp
# Ejecutar directamente desde Hugging Face GGUF
llama-server -hf ggml-org/gemma-4-E2B-it-GGUF
Método 4: MLX para Apple Silicon
pip install -U mlx-vlm
mlx_vlm.generate \
--model "mlx-community/gemma-4-26b-a4b-it-4bit" \
--prompt "Explica esta función"
Lo que dice la comunidad
La licencia Apache 2.0 fue el detalle más celebrado. La eficiencia del 26B MoE — "#6 modelo abierto con solo 4B parámetros activos" — impresionó a los ingenieros. El soporte del ecosistema desde el día 0 fue notado como un punto de inflexión en la coordinación OSS de Google.
Casos de uso para equipos de producto e ingeniería
- Asistente de código local — Sin latencia de nube, dentro de IDEs
- Procesamiento de documentos primero en privacidad — 128K–256K contexto
- Flujos de trabajo agénticos sin dependencia de nube — Function calling nativo
- Fine-tuning en datos propietarios — Apache 2.0 permite despliegue comercial
# Inicio rápido: dos comandos
curl -fsSL https://ollama.com/install.sh | sh
ollama run gemma4:e4b
Todos los pesos de los modelos están disponibles en Hugging Face bajo Apache 2.0. Gemma 4 también está disponible a través de Google Cloud Vertex AI.