Gemma 4:GoogleのOpen-Weightモデルとローカルで実行する方法
Google DeepMindがGemma 4をリリース — Apache 2.0、ネイティブマルチモーダル、400B+のライバルを超える31Bモデルで、ラップトップで動作します。完全ガイド:何であるか、ベンチマーク、そして数分でローカルLLMを実行する方法。
Alex Rivera
セキュリティ・AI研究リード
2026年4月2日、Google DeepMindは今年最も重要なオープンウェイトモデルリリースを静かに公開しました。安全上の注意書きなし。アクセス制限なし。制限的なライセンスなし。ただ、ウェイト、Apache 2.0、そとんどのプロプライエタリベンダーを恥ずかしめるベンチマーク表だけです。
Gemma 4をご紹介します — スマートフォンで動作する2.3Bモデルから、Arenaリーダーボードで全オープンモデル中3位にランクされ、4000億以上のパラメータを持つ競合他社を上回る31B密モデルまで、4つのモデルファミリーです。
Gemma 4とは何か?
Gemma 4は、Googleの独自Gemini 3研究からの洞察を、完全にオープンでローカルにデプロイ可能なモデルファミリーに凝縮したものです。設計原則:生の規模よりもパラメータ当たりの知能を最大化する。
Gemma 4を以前のGemmaリリースと構造的に異なるものにする3つのポイント:
- Apache 2.0ライセンス — 月間アクティブユーザー制限なし。使用ポリシーの制限なし。ロイヤリティなし。
- 全サイズにわたるネイティブマルチモダリティ — すべてのモデルがテキストと画像を処理。2つの小型モデルはオーディオも対応。
- Day-0エコシステムサポート — Ollama、llama.cpp、LM Studio、vLLM、Hugging Face Transformersがすべてリリース当日にサポート。
4つのモデル
26B MoEは隠れた逸品です。推論時に4Bパラメータしかアクティブにしないため、小型モデルのメモリフットプリントで31Bに近い品質を達成します。Hacker Newsのある開発者は、M2 Ultraで26B Q8_0をリアルタイムビデオ入力で毎秒300トークンで実行したと報告しました。
ベンチマーク
- MMLU Pro: 85.2%(31Bモデル)
- AIME 2026数学: 89.2%
- LiveCodeBenchコーディング: 80.0%
- Codeforces ELO: 2150
- Arenaリーダーボード: オープンモデル第3位(400B+パラメータのモデルを超える)
Gemma 4をローカルで実行する方法
方法1:Ollama(開発者向け推奨)
# インストール(macOS/Linux)
curl -fsSL https://ollama.com/install.sh | sh
# モデルバリアントをダウンロード
ollama pull gemma4:e4b # 最良の出発点(~3 GB)
ollama pull gemma4:e2b # 最軽量オプション(~1.5 GB)
ollama pull gemma4:26b # 高品質推論(~16 GB)
ollama pull gemma4:31b-it # 最高品質(~18 GB)
# チャット開始
ollama run gemma4:e4b
方法2:LM Studio(非技術者向け最良)
- lmstudio.aiからダウンロード
- アプリを開く → "Discover"タブ →
gemma-4を検索 - Unsloth事前量子化GGUFバリアントをダウンロード
- "Chat"をクリックして即座に開始
方法3:llama.cpp
llama-server -hf ggml-org/gemma-4-E2B-it-GGUF
方法4:Apple Silicon向けMLX
pip install -U mlx-vlm
mlx_vlm.generate \
--model "mlx-community/gemma-4-26b-a4b-it-4bit" \
--prompt "この関数を説明してください"
コミュニティの反応
Apache 2.0ライセンスが最も称賛された点でした。26B MoEの効率性 — 「4Bアクティブパラメータのみで第6位オープンモデル」 — はエンジニアを魅了しました。Day-0のエコシステムサポートは、GoogleのOSS調整の転換点として注目されました。
プロダクト・エンジニアリングチームへの活用
- ローカルコードアシスタント — クラウドのレイテンシなしにIDE内で動作
- プライバシーファーストのドキュメント処理 — 128K〜256Kコンテキスト
- クラウド依存なしのエージェント的ワークフロー — ネイティブファンクションコール
- 独自データでのファインチューニング — Apache 2.0で商用デプロイが可能
# クイックスタート:2つのコマンド
curl -fsSL https://ollama.com/install.sh | sh
ollama run gemma4:e4b
すべてのモデルウェイトはApache 2.0の下でHugging Faceで利用可能です。Gemma 4はGoogle Cloud Vertex AIを通じても利用可能です。