Ollama は、Apple Silicon 環境において最高のパフォーマンスを発揮できるよう、MLX エンジンを大幅にアップデートしました。今回の更新により、モデルの回答品質の向上、応答速度の高速化、およびメモリ使用量の削減が実現しています。
NVFP4 サポートによる回答精度の向上
NVIDIA が開発した、モデルに最適化された「NVFP4」というフォーマットをサポートしました。これにより、従来の 4 ビット形式と比較して、高いパフォーマンスを維持しながら、より高品質な出力を得ることが可能になります。
また、データセンターでの運用向けに最適化されたモデルを Ollama の MLX エンジンへ持ち込んで実行することも可能になり、環境間の移植性が向上しました。
最大 20% の処理速度向上を実現
MLX のジャストインタイム・コンパイラ機能を利用して、複数の計算処理を一つの Metal カーネルに統合しました。さらに、GPU を利用したサンプリング処理の改良により、最大で 20% の高速化を実現しています。
エージェント・ワークフローにおける効率化
AI エージェントがツールを使用する際、これまでは過去の履歴やファイル内容などを何度も再処理する必要がありました。新しいスナップショット・システムは、会話の重要なポイントでモデルの状態を保存します。
スナップショットによる最適化のメリット
- マルチエージェント: サブエージェントへの引き継ぎ時などに、共通するプロンプトやツール定義の再計算を防ぎます。
- 思考モデル(Reasoning Models): 推論プロセス中に生成されたトークンを処理済みとして扱い、次のターンでの再計算を回避します。
- 分岐とリトライ: 会話が枝分かれした際も、保存されたスナップショットから即座に再開できます。
最新版の利用方法
MLX エンジンを利用するには、最新バージョンの Ollama をダウンロードして、以下のコマンドを実行してください。
ollama run gemma4:12b-mlx
また、コーディングエージェントとして使用する場合は、以下の手順で起動できます。
ollama launch pi --model gemma4:12b-mlx
今回のアップデートのメリット
- Apple Silicon ユーザーが、より低メモリ消費で高品質な回答を得られるようになります。
- 大規模なコンテキストや複雑なエージェント・タスクの実行が、より高速に完了します。
- データセンター向けのモデルをローカル環境へ簡単に持ち込んでテストできるようになります。
参考情報:Ollama’s highest performance on Apple Silicon yet with MLX
※ この記事は、Mac mini M4(32GB)環境で ローカル LLM(Ollama / gemma4:26b)と n8n を組み合わせて生成した実験的な記事です。内容は確認していますが、誤りが含まれる可能性があります。正確な情報は公式情報をご確認ください。




















