Gemma 4: O modelo open-weight do Google e como executá-lo localmente
O Google DeepMind acaba de lançar o Gemma 4 — Apache 2.0, nativamente multimodal, um modelo 31B que supera rivais de 400B+, e roda no seu laptop. O guia completo do que é, como funciona e como executar seu próprio LLM local em minutos.
Alex Rivera
Líder de Pesquisa em Segurança e IA
Em 2 de abril de 2026, o Google DeepMind lançou silenciosamente o que provavelmente é o lançamento de modelo open-weight mais consequente do ano. Sem avisos de segurança. Sem acesso restrito. Sem licença restritiva. Apenas pesos, Apache 2.0 e uma folha de benchmarks que deveria envergonhar a maioria dos fornecedores proprietários.
Conheça o Gemma 4 — uma família de quatro modelos que vai de um modelo de 2,3B que roda no seu telefone até um modelo denso de 31B que ocupa o #3 entre todos os modelos abertos no leaderboard do Arena, superando concorrentes com mais de 400 bilhões de parâmetros.
O que é o Gemma 4?
O Gemma 4 destila insights da pesquisa proprietária Gemini 3 do Google em uma família de modelos completamente aberta e deployável localmente. O princípio de design declarado: maximizar inteligência por parâmetro em vez de escala bruta.
Três coisas tornam o Gemma 4 estruturalmente diferente das versões anteriores:
- Licença Apache 2.0 — Sem limites de usuários ativos mensais. Sem restrições de política de uso. Sem royalties.
- Multimodalidade nativa em todos os tamanhos — Todos os modelos processam texto e imagens nativamente. Os dois menores também lidam com áudio.
- Suporte do ecossistema no dia 0 — Ollama, llama.cpp, LM Studio, vLLM e Hugging Face Transformers, todos suportados no dia do lançamento.
Os quatro modelos
O 26B MoE é a escolha surpresa. No tempo de inferência, ele ativa apenas 4B parâmetros — então roda com o footprint de memória de um modelo pequeno enquanto alcança qualidade próxima ao 31B. Um desenvolvedor no Hacker News reportou rodar o 26B Q8_0 em um M2 Ultra a 300 tokens por segundo com entrada de vídeo em tempo real.
Benchmarks
- MMLU Pro: 85,2% (modelo 31B)
- AIME 2026 Matemática: 89,2%
- LiveCodeBench Coding: 80,0%
- Codeforces ELO: 2150
- Arena Leaderboard: #3 modelo aberto (supera modelos com 400B+ parâmetros)
Como executar o Gemma 4 localmente
Método 1: Ollama (Recomendado para Desenvolvedores)
# Instalar (macOS/Linux)
curl -fsSL https://ollama.com/install.sh | sh
# Baixar variantes do modelo
ollama pull gemma4:e4b # Melhor ponto de partida (~3 GB)
ollama pull gemma4:e2b # Opção mais leve (~1,5 GB)
ollama pull gemma4:26b # Raciocínio potente (~16 GB)
ollama pull gemma4:31b-it # Qualidade máxima (~18 GB)
# Iniciar chat
ollama run gemma4:e4b
# Chamada de API compatível com OpenAI
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "gemma4:e4b", "messages": [{"role": "user", "content": "Olá"}]}'
Método 2: LM Studio (Melhor para Usuários Não Técnicos)
- Baixar de lmstudio.ai
- Abrir app → aba "Discover" → pesquisar
gemma-4 - Baixar variantes GGUF pré-quantizadas do Unsloth
- Clicar em "Chat" para começar imediatamente
Método 3: llama.cpp
llama-server -hf ggml-org/gemma-4-E2B-it-GGUF
Método 4: MLX para Apple Silicon
pip install -U mlx-vlm
mlx_vlm.generate \
--model "mlx-community/gemma-4-26b-a4b-it-4bit" \
--prompt "Explique esta função"
O que a comunidade está dizendo
A licença Apache 2.0 foi o detalhe mais celebrado. A eficiência do 26B MoE — "#6 modelo aberto com apenas 4B parâmetros ativos" — impressionou os engenheiros. O suporte do ecossistema no dia 0 foi notado como um ponto de virada na coordenação OSS do Google.
Casos de uso para equipes de produto e engenharia
- Assistente de código local — Sem latência de nuvem, dentro de IDEs
- Processamento de documentos privacy-first — Contexto de 128K–256K
- Fluxos de trabalho agênticos sem dependência de nuvem — Function calling nativo
- Fine-tuning em dados proprietários — Apache 2.0 permite deploy comercial
# Início rápido: dois comandos
curl -fsSL https://ollama.com/install.sh | sh
ollama run gemma4:e4b
Todos os pesos dos modelos estão disponíveis no Hugging Face sob Apache 2.0. O Gemma 4 também está acessível via Google Cloud Vertex AI.