IA & Desarrollo

Gemma 4: La potencia open-weight de Google y cómo ejecutarla localmente

Google DeepMind acaba de lanzar Gemma 4 — Apache 2.0, nativa multimodal, un modelo 31B que supera rivales de 400B+, y funciona en tu laptop. La guía completa de qué es, cómo funciona y cómo ejecutar tu propio LLM local en minutos.

Alex Rivera

Líder de Investigación en Seguridad e IA

9 de abril de 2026 14 min de lectura
Gemma 4: La potencia open-weight de Google y cómo ejecutarla localmente

El 2 de abril de 2026, Google DeepMind lanzó silenciosamente el lanzamiento de modelo open-weight más trascendental del año. Sin advertencias de seguridad. Sin acceso restringido. Sin licencia restrictiva. Solo pesos, Apache 2.0 y una hoja de benchmarks que debería avergonzar a la mayoría de los vendedores propietarios.

Conoce Gemma 4 — una familia de cuatro modelos que va desde un modelo de 2.3B que corre en tu teléfono hasta un modelo denso de 31B que ocupa el puesto #3 entre todos los modelos abiertos en el leaderboard de Arena, superando a competidores con más de 400 mil millones de parámetros.

¿Qué es Gemma 4?

Gemma 4 destila perspectivas de la investigación propietaria Gemini 3 de Google en una familia de modelos completamente abierta y desplegable localmente. El principio de diseño declarado: maximizar la inteligencia por parámetro en lugar de la escala bruta.

Tres cosas hacen que Gemma 4 sea estructuralmente diferente de las versiones anteriores de Gemma:

  1. Licencia Apache 2.0 — Sin límites de usuarios activos mensuales. Sin restricciones de política de uso aceptable. Sin regalías.
  2. Multimodalidad nativa en todos los tamaños — Todos los modelos procesan texto e imágenes. Los dos más pequeños también manejan audio.
  3. Soporte del ecosistema desde el día 0 — Ollama, llama.cpp, LM Studio, vLLM y Hugging Face Transformers todos soportados el día del lanzamiento.

Los cuatro modelos

Diagrama comparativo de variantes del modelo Gemma 4
La familia de cuatro modelos de Gemma 4 abarca desde capaz en teléfonos hasta clase workstation — todos nativamente multimodales.

El 26B MoE es la elección sorpresa. En tiempo de inferencia solo activa 4B parámetros — así que corre con el footprint de memoria de un modelo pequeño mientras logra calidad cercana al 31B. Un desarrollador en Hacker News reportó correr el 26B Q8_0 en un M2 Ultra a 300 tokens por segundo con entrada de video en tiempo real.

Benchmarks

  • MMLU Pro: 85.2% (modelo 31B)
  • AIME 2026 Matemáticas: 89.2%
  • LiveCodeBench Coding: 80.0%
  • Codeforces ELO: 2150
  • Arena Leaderboard: #3 modelo abierto (supera modelos con 400B+ parámetros)

Cómo ejecutar Gemma 4 localmente

Método 1: Ollama (Recomendado para Desarrolladores)

# Instalar (macOS/Linux)
curl -fsSL https://ollama.com/install.sh | sh

# Descargar variantes del modelo
ollama pull gemma4:e4b        # Mejor punto de partida (~3 GB)
ollama pull gemma4:e2b        # Opción más ligera (~1.5 GB)
ollama pull gemma4:26b        # Razonamiento potente (~16 GB)
ollama pull gemma4:31b-it     # Calidad máxima (~18 GB)

# Iniciar chat
ollama run gemma4:e4b

# Llamada API compatible con OpenAI
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "gemma4:e4b", "messages": [{"role": "user", "content": "Hola"}]}'

Método 2: LM Studio (Mejor para Usuarios No Técnicos)

  1. Descargar de lmstudio.ai
  2. Abrir app → pestaña "Discover" → buscar gemma-4
  3. Descargar variantes GGUF pre-cuantizadas de Unsloth
  4. Hacer clic en "Chat" para empezar inmediatamente

Método 3: llama.cpp

# Ejecutar directamente desde Hugging Face GGUF
llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

Método 4: MLX para Apple Silicon

pip install -U mlx-vlm
mlx_vlm.generate \
  --model "mlx-community/gemma-4-26b-a4b-it-4bit" \
  --prompt "Explica esta función"

Lo que dice la comunidad

La licencia Apache 2.0 fue el detalle más celebrado. La eficiencia del 26B MoE — "#6 modelo abierto con solo 4B parámetros activos" — impresionó a los ingenieros. El soporte del ecosistema desde el día 0 fue notado como un punto de inflexión en la coordinación OSS de Google.

Casos de uso para equipos de producto e ingeniería

  • Asistente de código local — Sin latencia de nube, dentro de IDEs
  • Procesamiento de documentos primero en privacidad — 128K–256K contexto
  • Flujos de trabajo agénticos sin dependencia de nube — Function calling nativo
  • Fine-tuning en datos propietarios — Apache 2.0 permite despliegue comercial
# Inicio rápido: dos comandos
curl -fsSL https://ollama.com/install.sh | sh
ollama run gemma4:e4b

Todos los pesos de los modelos están disponibles en Hugging Face bajo Apache 2.0. Gemma 4 también está disponible a través de Google Cloud Vertex AI.