Gemma 4 を Ollama で動かす Mac のメモリ容量に合わせたモデルの選び方

Google が公開している AI モデル「Gemma 4」。

Ollama を使えば、Mac 上でローカルLLM として動かすことができます。

テキストだけでなく、画像や音声も扱えるマルチモーダルな能力を持っています。

なお、モデル自体は音声入力に対応していますが、実際の利用可否については Ollama 側の対応状況に依存するため、導入後にご確認ください。

この記事では、Ollama を使って、この Gemma 4 ファミリーを Mac 環境で動かす際の、「モデル選び」に絞って解説します。

Ollama の導入と実行
Gemma 4 モデル選びの考え方
Gemma 4 モデル・カタログ
モデルサイズと推奨メモリ容量
知っておくと役立つ補足知識
まとめ
おまけ：Gemma の次に気になる技術
参考情報

Ollama の導入と実行

Gemma 4 をローカルLLM として Mac 上で実行するには、ローカルLLM 実行環境である Ollama が必要です。

まだインストールがお済みでない方は、以下の手順から進めてください。

➡️ Ollama のインストール方法（Mac編）

Ollama のインストール方法（Mac編）最短でローカルLLM を動かす手順

ローカルで AI を動かす環境として注目されている「Ollama」。この記事では、Mac 環境で Ollama をインストールし、実際にモデルを動かすところまでを、最短ルートで解説します。「とりあえず一度動かしてみたい」という方向けに、余計...

インストールが完了していれば、ターミナルを開いて以下のコマンドを入力するだけで、すぐに Gemma 4 の体験を始めることができます。

ollama run gemma4

初回実行時はモデルのダウンロードが始まりますので、通信環境の良い場所で行うことをおすすめします。

Gemma 4 モデル選びの考え方

Gemma 4 には、用途やハードウェアに合わせて複数のサイズ（アーキテクチャ）が存在します。

「とりあえず動けばいい」のであれば軽量なもの、「複雑な推論をさせたい」のであれば大型のもの、といった使い分けが可能です。

ローカルLLM では、モデルサイズによって必要なメモリ容量が大きく変わります。

そのため、ここで重要になるのが Mac のユニファイドメモリ容量です。

以前のモデルと同様、モデルのサイズが大きくなればなるほど、より多くのメモリを消費します。

メモリに余裕があれば、

より高精度な回答が得られる
マルチモーダルな処理（画像解析など）に挑戦できる
動作が安定する

といったメリットがあります。

逆に、メモリ容量がギリギリの状態で大きなモデルを動かそうとすると、「動作が極端に遅くなる」「他のアプリが使えなくなる」といったストレスが生じます。

この記事では、検証環境として Mac mini M4 (32GB) を基準に考えています。

Gemma 4 モデル・カタログ

gemma4

Gemma 4 models are designed to deliver frontier-level performance at each size. They are well-suited for reasoning, agen...

Gemma 4 ファミリーには、用途や実行環境に合わせて複数のモデルが用意されています。

それぞれの特徴を見ていきましょう。

E2B / E4B モデル：軽量・高速エディション

Gemma 4 ファミリーの中では最も軽量なモデルです。

Apple Silicon 搭載 Mac であれば比較的扱いやすく、特に E2B は 8GB 環境でも動作可能です。

E2B / E4B ともに 16GB クラス（またはそれ以上）のメモリがあるとより快適に利用できます。

ただし、他のアプリとメモリを共有するため、スムーズに動かすには重いアプリケーションを閉じておくのがおすすめです。

「とりあえず AI と会話してみたい」という初期の検証に最適です。

Gemma 4 E2B 実行コマンド

ollama run gemma4:e2b

Gemma 4 E4B 実行コマンド

ollama run gemma4:e4b

12B モデル：標準的なマルチモーダル・モデル

テキストだけでなく、画像なども扱える能力を持った、バランスの良いモデルです。

特に 16GB〜24GB クラスのメモリを搭載した Mac では、この 12B が最も主力となる、バランスの取れた選択肢となります。

Gemma 4 12B 実行コマンド

ollama run gemma4:12b

26B A4B モデル：高度な推論向け（MoE）

「Mixture of Experts (MoE)」という仕組みを採用しています。

MoE により推論時に使用されるパラメータ数は少ないものの、モデル全体はメモリ上にロードしておく必要があるため、実際のメモリ消費量は 26B クラスとして考える必要があります。

24GB 以上のメモリがある環境での運用をおすすめします。

Gemma 4 26B 実行コマンド

ollama run gemma4:26b

31B モデル：高性能・重量級エディション

Gemma 4 ファミリーの中でも非常に強力なモデルです。

高い回答精度が期待できますが、その分、非常に多くのメモリを必要とします。

32GB クラスの Mac でも動作は可能ですが、用途によっては重さを感じる場面があります。

本格的な検証や高精度な推論を試したいユーザー向けのモデルです。

Gemma 4 31B 実行コマンド

ollama run gemma4:31b

モデルサイズと推奨メモリ容量

実際に Ollama で動かす際、どの程度のメモリを確保しておくべきかの目安をまとめました。

量子化によってモデルは軽量化されていますが、macOS 自体やブラウザなどの他のアプリが使用する分も含めて考える必要があります。

モデル名	モデルサイズ ※1	推奨メモリ ※2
Gemma 4 E2B	約7.2GB	16GB 以上
Gemma 4 E4B	約9.6GB	16GB 以上
Gemma 4 12B	約7.6GB	16GB 以上
Gemma 4 26B	約18GB	24GB 以上
Gemma 4 31B	約20GB	32GB 以上

※1 モデルサイズは Ollama 上で公開されている容量の目安です。
※2 実際に必要となるメモリ容量は、コンテキスト長や同時起動しているアプリによって変動します。

Gemma 4 31B は Mac mini M4 32GB でも動作しますが、用途によっては重たく感じる場面がありました。僕自身は普段使いなら 26B の方が扱いやすいと感じています。

知っておくと役立つ補足知識

Gemma 4 には、ローカル環境での動作をより快適にするための新しい技術がいくつか組み込まれています。

これらを知っておくと、モデルの使いこなしに役立ちます。

QAT（Quantization Aware Training）

Gemma 4 には、QAT（Quantization Aware Training）版のモデルも公開されています。

モデル名に「-qat」が付いているものがそれにあたります。

QAT は、量子化による精度低下をできるだけ抑えるために、あらかじめ量子化を考慮して学習されたモデルです。

そのため、通常の量子化モデルよりも精度低下を抑えやすいのが特徴です。

実際に Ollama では、QAT 版のほうが小さなサイズで公開されているモデルもあります。

例えば E2B モデルの場合、

標準版（gemma4:e2b） → 約 7.2GB
QAT版（gemma4:e2b-it-qat） → 約 4.3GB

と、必要な容量を大きく削減できます。

メモリ容量に余裕がない環境では、まず QAT 版を試してみるのも有効な選択肢です。

Gemma 4 E2B の QAT 版を試す場合は、以下のコマンドで実行できます。

Gemma 4 E2B QAT 版実行コマンド

ollama run gemma4:e2b-it-qat

MTP（Multi-Token Prediction）

生成スピードを速めるための仕組みです。

AI の回答待ち時間を減らし、よりスムーズな対話体験に貢献しています。

Thinking Mode（推論モード）

Gemma 4 には、より深く考えながら回答を生成するための推論モードが用意されています。

複雑な問題解決や論理的なタスクで効果を発揮しますが、利用方法には追加の設定が必要です。

通常の利用ではあまり意識する必要はありませんが、今後さらに活用したい場合に覚えておくと役立ちます。

まとめ

Gemma 4 は、Mac と Ollama を組み合わせてローカルLLM として利用できる AI モデルです。

快適に使うためには、メモリ容量に合わせたモデル選びが重要になります。

Mac mini M4 16GB なら E4B〜12B
24GB なら 12B〜26B
32GB なら 26B が現実的な主力候補、31B は検証向け

がひとつの目安になります。

実際に使ってみると、モデルサイズによって必要なメモリや使い勝手はかなり変わります。

まずは無理なく動作するモデルから試し、自分の用途に合ったサイズを探していくのがおすすめです。

おまけ：Gemma の次に気になる技術

Gemma 4 とは別に、実験的なモデルとして「DiffusionGemma」というプロジェクトも進行しています。

これはテキスト生成を劇的に高速化する新しい手法を用いたもので、将来的にローカルLLM のあり方を変える可能性があります。

※記事作成日時点では Ollama の標準的な利用方法では扱えないため、検証には追加の環境構築が必要です。

参考情報

Ollama : gemma4
Google AI for Developers : Gemma 4 モデルの概要
Google DeepMind : DiffusionGemma