Ollama バージョン履歴（GitHub コミット）要約…というか「おかっけ」ログ（v0.23.1〜｜v0.30.0 〜） & 所管

ローカル LLM の実行環境として日々進化を続ける Ollama ですが、そのアップデートの速さには驚かされるばかりです。

最近では Gemma 4 の MTP 対応による劇的な高速化や、一度は導入された Claude Desktop 連携がわずか数日で非対応（仕様変更）になるといった動きがありました。

こうした重要な変更を正確に把握し、自分なりの知識として積み上げておきたいと感じたのが、このログを始めたきっかけです。

そこで当サイトでは、v0.23.1 あたりから、できる範囲で Ollama のバージョン履歴を追いかけていこうと考えています。

公式のリリースページだけでは見落としてしまうような詳細な改善を拾うため、GitHub のソースコードやコミット履歴を NotebookLM に読み込ませ、情報の要約と検証を行っています。

単なる翻訳ではない、技術的な背景まで踏み込んだログを「源勝の一言コメント」と共に残していきます。

ソース（参考情報）

Releases · ollama/ollama

Get up and running with Kimi-K2.5, GLM-5, MiniMax, DeepSeek, gpt-oss, Qwen, Gemma and other models. - ollama/ollama

リポジトリは常に更新されています。閲覧した時の内容で書いていても、修正が入ってしまうこともあります。ここに書いている内容はその時々に確認した内容となりますので、最新のリポジトリと相違がある場合があります。最新の情報は Ollama リポジトリをご確認ください。

Ollama v0.32.4
Ollama v0.32.3
Ollama v0.32.1
Ollama v0.32.0
Ollama v0.31.2
Ollama v0.31.1
Ollama v0.30.12
Ollama v0.30.11
Ollama v0.30.10
Ollama v0.30.9
Ollama v0.30.8
Ollama v0.30.7
Ollama v0.30.6
Ollama v0.30.5
Ollama v0.30.4
Ollama v0.30.3
Ollama v0.30.2
Ollama v0.30.0

Ollama v0.32.4

Ollama v0.32.4 がリリースされました。このバージョンでは、特定のモデルアーキテクチャへの対応強化と、推論プロセスのさらなる高速化、そしてシステムの安定性を高める内部修正が主な内容となっています。

技術的な大きな進展として、Apple Silicon 環境において MLX エンジンを通じた Laguna アーキテクチャ（Laguna XS 2, XS 2.1, S 2.1）の実行が正式にサポートされました。これに合わせて、Laguna モデルの大きなエキスパートバッファが頻繁にスワップ（ページング）されるのを防ぐため、重みを Metal 上に常駐させるメモリ管理の最適化も導入されています。また、Qwen3 モデルについても、エキスパートごとに量子化形式が異なる場合でも正常にデコードできるよう修正が行われ、ゲートとアップの射影処理をパッキングして一括処理することで、M5 Max 環境においてデコード速度が約 4%、プリフィル速度が約 9% 向上しました。

推論速度の面では、投機的デコード（Speculative Decoding）におけるドラフトモデルの最適化が注目されます。具体的には、ドラフトモデルの出力ヘッド（lm_head）を、これまでのソース精度保持から、要求された型（8ビットなど）で量子化するよう変更されました。これにより、例えば gemma4:26b-mlx を M5 Max で動作させた場合、コード生成のデコード速度が従来の 26% 向上から 37% 向上へとさらに高速化しています。その他、ollama ps コマンド実行時のデータ競合（レースコンディション）の修正や、macOS/Windows 環境におけるテストの堅牢化など、バックエンドの安定性向上も図られています。

v0.32.3 のすぐ後にまた更新が来ましたね。今回は Apple Silicon での Gemma 4 がさらに速くなったり、Qwen3 や Laguna といったモデルへの最適化が進んだりしているみたいです。

中身はどんどん専門的で難しくなっている気がしますが、自分の Mac でより快適に動くようになるのであれば大歓迎です。

Ollama v0.32.3

Ollama v0.32.3 がリリースされました。直前の v0.32.2 は取り下げられた状態となっており、利用者は v0.32.3 以降を使用することが推奨されています。

今回のアップデートでは、不具合の修正、ハードウェア対応の拡充、および内部エンジンの更新が行われました。

主な変更点は以下の通りです。

モデルのダウンロードが開始直後に失速してしまう問題が解消されました。

Claude Code Channels の復元や、Anthropic モデルにおける思考（thinking）ストリームの修正が行われました。また、Hermes Desktop において –force-build フラグが尊重されるようになったほか、GLM モデルで生成終了時にツール呼び出しが意図せずドロップされる不具合も修正されています。

Windows ARM64 環境での CUDA サポートが追加されたほか、CUDA 12 を通じて NVIDIA B200 がサポートされました。また、Linux 環境における CUDA および ROCm の iGPU（統合 GPU）でのメモリ使用量が削減されています。

Laguna 2.1 モデルにおけるチャット、思考、およびツール呼び出しがサポートされました。これに関連して、Apple Silicon 環境での Metal 推論に関する修正も含まれています。

内部で使用されている MLX エンジンおよび llama.cpp エンジンが更新されました。

v0.32.3 もコミットが多かった・・・。内部の修正や Laguna 2.1 がきちんと動くように整備されたのかな？という印象を受けたけど。MLX エンジンおよび llama.cpp エンジンについては常にアプデされていくのは変わらずですね。

Ollama v0.32.1

Ollama v0.32.1 がリリースされました。このバージョンは、前バージョンの v0.32.0 で導入された「インタラクティブ・エージェント体験」を土台に、モデルの動作安定性向上、メモリリークの修正、および開発環境への統合強化が行われたマイナーアップデートです。

主な変更内容と技術的な改善点は以下の通りです。

ツール呼び出しの安定性やマルチターン（複数回のやり取り）での推論能力が向上しました。具体的には、アップストリームの Gemma 4 チャットテンプレートの改良を取り込み、隣接するアシスタントとツールの継続を同じターン内に保持したり、思考機能が有効な場合に適切なキューを追加したりする調整が行われています。これにより、ツール応答後の継続的な推論がより確実になりました。

Apple Silicon 環境向けの MLX ランナーにおいて、再帰型（recurrent）モデルを使用する際に発生していたキャッシュのメモリリークが修正されました。これまでは境界状態のキャッシュが不要にメモリを占有し続けることがありましたが、各状態を実際のサイズに圧縮して保持するように変更されています。また、モデル読み込みのタイムアウト設定（OLLAMA_LOAD_TIMEOUT）が MLX テキストモデルでも有効になりました。さらに、内部的には kvCache という名称が、トライ木（trie）上での接頭辞マッチングを調整する役割に合わせて prefixCache へと変更されています。

エージェントが現在の作業ディレクトリ（CWD）をシステムプロンプトとして受け取るようになり、プロジェクトの文脈をより正確に把握できるようになりました。また、エージェントによるウェブ検索やデータ取得の際に認証が必要な場合、ユーザーに ollama signin を実行するよう促す通知機能が追加されました。

ollama launch において、非推奨（deprecated）なモデルを –model フラグで指定した際、別のモデルを選択（Pick another model）しようとしても正常に動作しない問題が修正されました。ドキュメント面では、公式の VS Code 拡張機能のセットアップガイドが追加されています。

v0.32.1 の内容は難しい・・・。僕的には日頃使うことが多い gemma4 のツール呼び出しが安定した、という改善点は嬉しいところかも。

Ollama v0.32.0

Ollama v0.32.0 は 2026年7月13日にリリースされ、これまでのモデル実行ツールという枠組みを超え、新しく「インタラクティブ・エージェント体験」を導入する大きな節目となるアップデートとなりました。今回のバージョンからは、単に ollama コマンドを実行するだけで、コーディングの補助や作業の委任を行うためのエージェントが起動するようになっています。これに合わせて、内部的にもエージェント専用の UI（ユーザーインターフェース）に関するコードが追加され、ユーザー体験の向上が図られています。

外部ツールとの連携面では、これまで提供されていた「Codex App」との統合が「ChatGPT」へと改称されました。ユーザーは ollama launch chatgpt というコマンドでこの機能を利用でき、–restore フラグを使用することで通常のプロフィールに戻すことも可能です。また、利便性を高めるために ollama launch のメニュー表示が簡素化され、頻繁に使われる主要な統合機能のみが表示されるようになりましたが、表示されない他の統合機能も引き続きコマンドから直接呼び出すことができます。さらに、CodeLlama や Qwen2.5-coder、Llama 3.x などの古いエージェントモデルを起動しようとする際には、非推奨であることを示す警告が表示される仕組みが導入されました。

技術的な細部においては、特定のモデルアーキテクチャやハードウェアへの最適化が行われています。Qwen3.5 や Qwen3-Next アーキテクチャにおいて、空の思考ブロック（<think></think>）がコンテンツに漏れ出したり、思考の無効化設定が無視されたりする問題に対処するため、専用のパーサーとレンダラーが選択されるようになりました。Apple Silicon 環境向けの MLX ランナーでは、Metal v4 ビルドにおいて NAX カーネルが欠落していた問題が修正されています。これは、依存関係にある MLX の最新版が macOS 26.2 ターゲットを要求していたのに対し、Ollama のビルド設定が旧来の 26.0 のままだったことで発生していましたが、今回の更新で適切に復元されました。

ollama launch codex-app も引き続き使えそうだけど、今後は ollama launch chatgpt へとまとめられそうですね。

Ollama v0.31.2

Ollama v0.31.2 が正式にリリースされました。このバージョンは、前バージョンの v0.31.1 で導入された大幅な高速化を維持しつつ、ハードウェアの互換性向上や特定の不具合修正、そして内部エンジンの大規模な整理が行われたアップデートとなっています,。

機能面での大きな改善として、まず Compute Capability 6.x（Pascal 世代など）の古い NVIDIA GPU において Flash Attention が有効化されました。これは、上流のカーネル修正によって SM60/SM61 向けのネイティブコンパイルが再び可能になったことによるもので、古い GPU 資産の有効活用に繋がります。また、統合 GPU（iGPU）におけるビジョンモデルのオフロード機能が強化され、利用可能なメモリに合わせてパディングを調整しながらオフロードできるようになりました,。これにより、GB10 や Strix Halo といった環境において、これまで CPU 処理に追い出されていたプロジェクター部分を GPU で処理できる可能性が広がっています。

さらに、利便性と安全性の面では、ollama launch で Claude Code を起動する際のテレメトリ（利用統計の送信）がデフォルトで無効に設定されました。また、Windows 環境において Unicode 文字（非 UTF-8）を含むパスからモデルを読み込む際に発生していた不具合が、ggml_fopen を利用した適切な文字変換処理の導入によって修正されています。その他、思考（thinking）機能を持つモデルにおいて、思考出力を無効化した際の構造化データの出力不具合が解消されたほか、GGUF モデル作成プロセスの堅牢化も図られました。

技術的な基盤面では、内部エンジンである llama.cpp が build 9888 へと更新されました。MLX エンジンに関しても、モデル作成（create）機能の全面的なリライトが行われ、読み込みから変換、書き出しまでのプロセスがパイプライン化されるなど、内部構造の最適化が進められています。一方で、サポートが終了した古い ROCm デバイスの定義が削除されるなど、新アーキテクチャへの完全移行に向けたコードのクリーンアップも並行して実施されました。

v0.31.2 はコミットが多いですね。そして内容が専門的で難しい。ユーザー目線では安定性と機能面が強化されたと思っておけばいいかな？ llama.cpp や MLX がアプデされているのは分かりやすかった。

Ollama v0.31.1

正式リリースとなった v0.31.1 における最大のトピックは、Apple Silicon 環境での Gemma 4 の大幅な高速化です。マルチトークン予測（MTP）の最適化により、コーディングエージェントのベンチマークにおいて、トークン生成速度が平均で約90% 向上しました。この高速化は、実行中にドラフトトークンの数を自動調整する仕組みによって実現されており、ユーザーによる特別な設定は不要で、出力結果にも影響を与えません。

また、MLX エンジンに関しても重要な更新が含まれており、最新バージョンへの更新によって小規模バッチ向けの新しい matmul（行列演算）カーネルが導入されました。これに伴い、Gemma 4 MoE モデルのロード処理も強化され、量子化モデル（nvfp4、mxfp8）と非量子化モデル（bf16）で共通のテンソル名を利用できるようコードが整理されています。

内部エンジンの llama.cpp については、build 9840 へと更新されました。

その他、ollama launch における Hermes Desktop の最小バージョンチェック機能の追加といった、エージェント利用時の安定性を高める修正も実施されています。

v0.30.12 を飛ばして一気に v0.31.1 が「Latest」になったのは驚き。v0.31.1 は Apple Silicon での Gemma 4 の高速化が目玉のようで、90% アップというのはちょっと信じられない数字ですね。

自分の Mac でどれくらい体感できるのか、試すのが楽しみな反面、内部エンジンのバージョンもどんどん上がっているので、また何か新しい発見や「あれ？」と思うような挙動の差があるのかな、とワクワクと不安が入り混じっています。

Ollama v0.30.12

プレリリース版である v0.30.12（rc0 ※ 2026.7.1時点）は、主にツールの挙動修正と内部エンジンの更新が行われています。具体的な修正点として、JSON 文字列内に中括弧 {} が含まれている場合に、ツール呼び出しの終了を誤検知してしまう問題が解消されました。例えば、プログラムコードを引数に取るようなツール呼び出しにおいて、コード内の {} をタグの終わりと勘違いして途中で出力を打ち切ってしまう現象を防げるようになっています。

技術的な基盤面では、MLX の依存関係が更新されたほか、内部エンジンの llama.cpp もアップデートされています。

Ollama v0.31.1 に置いてけぼりとなった v0.30.12。今後のバージョンで v0.30.12 の内容も統合されるのかな？

Ollama v0.30.11

Ollama v0.30.11 がリリースされました。このバージョンでは、外部エージェントツールの統合の自動化や、ハードウェア固有の最適化、そして推論プロセスの細かな挙動の改善が幅広く行われています。

機能面で最も目立つ変更は、ollama launch コマンドの利便性向上です。新たに Claude Code や opencode の自動インストール機能が追加され、これらが環境にない場合でもコマンド一つでセットアップから起動までを行えるようになりました。

また、opencode における「思考（thinking）」能力の検出機能が追加されたほか、Codex App の UI 切り替え時にモデルのズレ（drift）を検知する仕組みも導入されており、コーディングエージェントとしての実用性が高められています。

ドキュメント面では、max think level に関する記述が追加され、思考プロセスの制御についても整備が進んでいます。

技術的な最適化としては、Apple Silicon Mac 向けの MLX ランナーにおいて投機的デコード（speculative decoding）の統合と調整が行われました。

Windows 環境では、ハイブリッドグラフィックス構成において iGPU と dGPU の Vulkan 分類が逆転していた問題が修正されたほか、ホスト側の Vulkan ローダーを使用するように変更されています。

さらに、CUDA v13 向けに sm_86 アーキテクチャや Jetson 用の CC 87 サポートが追加されるなど、特定のハードウェア環境での安定性とパフォーマンスの向上が図られています。

内部的な推論処理においても、マルチモーダルモデルの mmproj オフロードをプロジェクターのメモリサイズに合わせて調整する最適化や、プロンプトがシフトした際にも生成のための余白（headroom）を確保する修正が行われました。

その他、ollama ps コマンドで一部オフロードされた重みのメモリ使用量が二重にカウントされる不具合の修正や、qwen2.5vl のウィンドウアテンション用メタデータのデフォルト設定、そして llama.cpp エンジンの更新などが含まれています。

ollama launch コマンドや llama.cpp のあたりは理解できるけど、そのほかの点は難しく感じるなぁ。v0.30.11 は新機能というよりは全体的な安定性向上って意味合いが強いのかな。

Ollama v0.30.10

Ollama v0.30.10 がリリースされました。このバージョンは、特定の新しいモデルアーキテクチャへの対応と、内部エンジンの更新が主な内容となっています。

機能面での大きな追加は、Cohere2MoE（Command A / North）アーキテクチャの MLX エンジンへの実装です。これにより、CohereLabs/North-Mini-Code-1.0 といったモデルが Apple Silicon 搭載 Mac 上で効率的に動作するようになります。前バージョンの v0.30.9 でも Cohere2Moe への対応が謳われていましたが、本バージョンで MLX エンジンへの最適化がさらに進められた形です。

技術的な基盤面では、内部エンジンである llama.cpp が b9672 へと更新されました。前回の v0.30.9 では、コミットメッセージと実際のコード内のバージョン指定に僅かな食い違いが見られましたが、今回の v0.30.10 では公式の変更ログとコミット内容が共に b9672 で一致しています。なお、llama.cpp 本体のリポジトリでは既に b9692 などのより新しいバージョンも公開されていますが、Ollama 側では安定性や機能要件に基づき、特定のビルドを選択して統合していると考えられます。

v0.30.9 が出たと思ったら、すぐ翌日には v0.30.10 がリリースされましたね。バージョンアップが早すぎる。今回は llama.cpp が b9672 になったとのことで、前回のバージョン番号の謎もこれでスッキリしたのかな？と自分なりに納得しています。新しく追加された Cohere2MoE というのも、コーディング向けモデルみたいですが、僕の Mac で動くものなのか 🤔

Ollama v0.30.9

Ollama v0.30.9 では、新しいモデルアーキテクチャへの対応と、エージェント利用時の利便性を高める重要な修正、および安全性の強化が行われました。

機能面における大きな追加要素は、Cohere2Moe アーキテクチャのサポートです。これにより、対応する新しいモデルの利用が可能になります。

また、推論プロセスの改善として、LFM2（Liquid Foundation Model 2）において思考（thinking）が適切に出力されない不具合が修正されました。

さらに、ollama launch claude などのコーディングエージェントにおいて、レスポンスが 1 トークンで止まってしまうという問題が解消されており、対話型ツールとしての実用性が向上しています。

加えて、メッセージがコンテキストウィンドウのサイズを超えている場合にエラーを返す仕組みが導入されたほか、8k 以上のコンテキストウィンドウにおけるシフト処理も最適化されました。

llama.cpp のバージョンが b9637 なのか b9626 なのか、ちょっと不明に思った。タイプミス？ 2026年6月17日10:40分頃に確認した内容。後ほど修正されるかも？まぁ、いずれにしても Ollama の内部 llama.cpp バージョンは追従している感じですね。

Ollama v0.30.8

Ollama v0.30.8 では、システムの安定性向上と内部的な推論プロセスの最適化を中心としたアップデートが行われました。

機能面での大きな改善として、プロンプトキャッシングがコンテキストシフト（overflow behavior）から切り離されました。これにより、従来よりも効率的に KV キャッシュを再利用することが可能になり、全体的な推論効率の向上が図られています。また、特定のケースにおいて ollama launch が誤ったプロバイダーを選択してしまう不具合も修正されました。

Apple Silicon Mac 向けの MLX ランナーにおいても、技術的な深部でいくつかの強化がなされています。まず、リニア層やエンベディング層において、データ型の不適切な昇格（オーバープロモーション）を防ぐガードが導入され、推論の安定性が高められました。さらに、プロンプト処理や投機的デコードの際にキャッシュのスナップショットを作成する仕組みが導入されています。これにより、MTP（マルチトークン予測）などでドラフトが拒絶された際のロールバックが効率化され、信頼性が向上しています。また、GatedDelta カーネルが境界ごとの状態を返すようになったことで、リカレント（再帰型）モデルのサポートも改善されました。

その他の変更点として、「oh-my-pi (omp)」や「Hermes Desktop」の構成およびセットアップに関するドキュメントが追加され、外部ツールとの連携準備が整えられています。内部的な修正では、生成ストリームが途中でキャンセルされた際にキャッシュの同期がずれてパニックが発生する問題の修正や、MLX ランナーにおけるキャッシュ関連ファイルの整理など、堅牢性を高めるための調整が行われました。

v0.30.8 は、目に見える新機能というよりは、キャッシュの再利用やデータの同期といった「中身」の安定感を高めるアプデなのかな？と感じています。

Ollama v0.30.7

Ollama v0.30.7 では、外部ツールとの連携強化と、開発者向けのドキュメント整備や API の挙動修正が主な内容となっています。

大きなトピックとして、ollama launch コマンドが Hermes Desktop をサポートしました。これは Hermes エージェントのためのネイティブなデスクトップインターフェースで、会話やインテグレーション、メッセージングアプリなどを視覚的に管理できるようになります。これに合わせて、Windows 環境において Hermes の設定パスをネイティブな形式で扱う修正も行われており、プラットフォーム固有の動作の安定性が図られています。

API 関連では、OpenAI 互換 API におけるモデルリストの表示が、利用可能なモデルタグと一致するよう調整されました。

また、構造化データ出力に利用される Zod スキーマの例が、ネイティブな toJSONSchema ヘルパーを使用するように更新されています。

ドキュメント面でのアップデートも目立っており、リポジトリのルートに AGENTS.md や CLAUDE.md が新たに追加されました。さらに、内部エンジンである llama.cpp の更新プロセスを記述したドキュメントが追加されたほか、各種ガイド内のサンプルコードで使用されるモデルが Gemma 3 から Gemma 4 へと差し替えられており、最新の推奨環境に合わせた情報の刷新が行われています。

ollama launch hermes-desktop コマンドって v0.30.5 で追加されてなかったっけ？と思ってアプデ前の v0.30.6 環境でコマンド打ったら普通に使えた。Windows 環境の不具合とかもあったので、改めてのお知らせなのかな？

Ollama v0.30.6

Ollama v0.30.6 では、v0.30.0 から続くアーキテクチャ刷新の流れを汲みつつ、モデルラインナップの拡充と特定のランナーへの機能改善、そしてドキュメントの整備が行われました。

大きな変更点として、Gemma 4 ファミリーに Quantization-Aware Training (QAT) を適用した重みが追加されました。これは量子化を考慮した学習を行うことで、モデルのメモリ要件を大幅に削減しつつ、デバイス上でのパフォーマンスを最大化するように最適化されたものです。具体的には、gemma4:e2b-it-qat や gemma4:31b-it-qat など、末尾に -qat が付いたタグで提供されており、オンデバイスでの効率的な推論が期待されます。

技術的な面では、Apple Silicon Mac 向けの MLX ランナーにおいて、エンベディングレイヤー（埋め込み層）が nvfp4 のグローバルスケールを利用できるようになりました。これは、Mac 環境における推論処理の最適化に関連する内部的な修正であると考えられます。

また、機能面では ollama launch コマンドにおいて、新たに「oh-my-pi」のサポートが追加されました。これにより、omp コマンドを通じて外部ツールと連携するなどの起動オプションの幅が広がっています。

その他、Ollama Cloud で運用されているモデルのライフサイクルについて最新の情報を反映するため、クラウドモデルの廃止（retirement）に関するドキュメントの更新も行われました。

Gemma 4 QAT 版の追加！使いところによっては選択肢としていいかも？他気になったのは oh-my-pi の起動コマンド追加。コマンドは ollama launch omp ぽいですね。そもそも僕は oh-my-pi は触ったことがない・・・

Ollama v0.30.5

Ollama v0.30.5 では、内部エンジンの llama.cpp が b9509 へ更新されました。この変更は、Gemma 4 12B モデルを x86、CUDA、Linux、および Windows 環境で使用した際に発生していた、マルチモーダルプロジェクターに関連するゼロ除算クラッシュ（n_head=0）を修正するためのものです。

また、ollama launch コマンドにおいて hermes-desktop アプリの起動がサポートされました。初回実行時にアプリがインストールされていない場合は、インストールが開始される仕組みが導入されています。これに関連して、Windows 環境でのインストール処理の改善や、Cline CLI に関するドキュメントの追加も行われました。

なお、llama.cpp のリポジトリ上ではすでに b9518 などのより新しいバージョンが公開されていますが、今回の Ollama では特定の修正が含まれる b9509 が選択されています

前日の v0.30.4 からまたすぐに更新が来ましたね。Gemma 4 12B のクラッシュ修正がメインのようですが、僕の環境でもこれで安定するのかな？と少し期待しています。Hermes Desktop の起動コマンドが追加されたのも良い！

Ollama v0.30.4

同日に立て続けにリリースされた v0.30.4 は、新アーキテクチャへの移行に伴う不具合の解消と、システムの安定性を高めるための重要な修正が数多く含まれています。技術的な基盤としては、内部エンジンである llama.cpp が b9493 へと更新されました。これにより、v0.30.2 で復活した Laguna アーキテクチャの互換パッチも合わせて再調整されています。

Windows 環境における大きな改善点として、ollama.exe を直接終了した際に llama-server.exe がプロセスとして残ってしまう問題が修正されました。これは、クリーンアップ処理にタスクの強制終了コマンド（taskkill /T）を明示的に組み込むことで解決されており、リソースの解放がより確実になっています。また、マルチモーダル機能も強化されており、ビジョンモデルなどで使用される mmproj GGUF ファイルがプロジェクターレイヤーとして正しく分類されるようになったほか、Metal iGPU においてプロジェクターの GPU オフロードが可能になりました。これにより、Mac 環境での画像解析などのパフォーマンス向上が期待できます。

その他、実験的な機能において MLX ベースのモデルを作成する際に Modelfile 内の REQUIRES コマンドが無視されてしまう不具合が修正されました。さらに、Gemma 4 使用時に発生していた「Unknown projector type」というクラッシュについても、パッチの配線ミスを修正することで解消されています。

不具合解消と安定性向上を目的としたアップデートの様子。新しいモデルに対応！といった華やかさはないけど、こういうアプデは非常に重要だと思います。

Ollama v0.30.3

v0.30.3では、特定のモデルへの対応が強化されています。具体的には、Gemma 4の12Bモデル（gemma4-12b）のサポートが追加されました。これは、以前のバージョン（v0.23.1）で導入されたGemma 4向けのMTP（マルチトークン予測）による高速化などの技術的な恩恵を、12Bというミドルクラスのモデルサイズでも享受できるようにするためのアップデートと考えられます。コミット履歴を確認する限り、このモデルサポートに関連するファイル修正を中心とした、ピンポイントな改善が行われています。

26B や 31B ではリソース（メモリ）的に厳しい場合に gemma4:12b は選択肢として良いかも。

Ollama v0.30.2

Ollama v0.30.2 では、v0.30.0 で実施された大規模なアーキテクチャ刷新（llama.cpp への移行）を土台とし、機能の復元と外部ツールとの連携強化が行われました。

特筆すべきは、v0.30.0 のプレリリース段階で一時的に非対応となっていた Poolside 社の Laguna アーキテクチャが、パッチ適用によって再びサポートされた点です。これにより、特定のコーディングモデルとの互換性が回復しています。機能の拡張面では、新たに Cline CLI の自動インストールと表示機能が追加されたほか、Qwen コードの統合も実施されました。また、OpenCode におけるローカルモデルのコンテキスト制限に関する挙動が以前のバージョンに近い形に修正され、利用時の制約が緩和されています。

内部的な改善としては、プロンプトトークンの集計方法が調整され、キャッシュされたトークンもカウントに含まれるようになったことで、以前のバージョンとの一貫性が保たれるようになりました。さらに、通信維持のために送られる空のデータ（SSE ピング）を適切に無視する処理が導入され、生成ストリームの安定性が向上しています。ハードウェア対応についても、Radeon 8060S iGPU がデフォルトで認識されるようになるなど、対応の幅が広がっています。

アーキテクチャの刷新直後ということもあり、非対応だったモデルの復活や細かな挙動の修正が非常にスピーディーに行われているみたいですね。特に Laguna アーキテクチャがパッチ対応で戻ってきたのは、特定のモデルを使い続けたいユーザーへの配慮を感じます。

しかし、僕の環境だとまだ Ollama バージョン 0.24.0 のまま。アプデが降臨しない。v0.30.2 が 6月3日時点で latest ではあるけど、アプリのアプデはもう少し先なのか？ちょっとわかっていない。

Ollama v0.30.0

Ollama v0.30.0 では、システムの根幹を支えるアーキテクチャにおいて、極めて重要な刷新が行われました。これまで GGML をベースに構築されていた仕組みから、llama.cpp を直接サポートする構成へと移行しています。この変更によって、現在のローカル LLM 業界の標準である GGUF ファイルフォーマットとの互換性が確保されました。Apple Silicon 搭載 Mac 環境においては、引き続き MLX を活用してモデルの推論を高速化する仕組みが維持されています。

アーキテクチャの根本的な変更に伴い、今回のリリースではパフォーマンスの増減やメモリ利用効率の変化、あるいは以前のバージョンでは見られなかったエラーの有無について、ユーザーからのフィードバックが広く求められています。なお、v0.30.0 では一部のモデル（laguna-xs.2 および llama3.2-vision）がサポート対象外となっているなど、既知の問題もいくつか存在しています。