当サイトは広告を設置しています

glm-ocr とは？ローカルLLM で OCR は実用になるのか検証してみた（Ollama × n8n）

無料で AI を使う

2026.03.28

ローカルLLM で OCR をやろうとすると、思ったよりうまくいかないことが多いです。

特に、

表が崩れる
日本語が不安定
レイアウトが壊れる

といった問題が出やすく、「結局クラウド API に頼るしかないのか」と感じる場面もあります。

そこで試したのが、Ollama で使える OCR 特化モデル「glm-ocr」です。

この記事では、glm-ocr の概要だけでなく、実際に n8n と組み合わせてレシートOCR を運用してみた結果をもとに、

精度はどれくらい出るのか
どこでつまずくのか
実用レベルに持っていくには何が必要か

を整理していきます。

広告

目次

glm-ocr とは
なぜ専用モデルを使うのか
実際に構築した構成（ n8n × Ollama ）
精度はどれくらい出るのか
プロンプト設計で精度が変わる
JSON スキーマ指定はほぼ必須
改善していくと精度は上がる
ローカル OCR は実用になるのか
参考：実験ログ（詳細）
次のステップ

glm-ocr とは

glm-ocr は、画像から文字を読み取ることに特化したマルチモーダルモデルです。

GLM-OCR is a multimodal OCR model for complex document understanding, built on the GLM-V encoder–decoder architecture.

一般的な LLM（ gpt-oss や qwen 系など）でも画像入力は可能ですが、OCR 用途では精度や安定性に課題があります。

glm-ocr はその点、

OCR 専用に設計されている
表・数式・帳票などの構造理解が強い
比較的軽量（約2GB）でローカル動作可能

といった特徴があります。

Ollama にも対応しており、以下のようにすぐ試せます。

ollama run glm-ocr Text Recognition: ./image.jpg

以下は実際の読み取り結果です。

Ollama glm-ocr 動作テスト

元画像はこちら。

動作環境について

今回の検証は主に Mac mini M4（メモリ 32GB）の環境で行っています。なお、軽く試した範囲では、Mac mini M1（メモリ 8GB）でも glm-ocr 自体は動作しました。ただし、後に紹介する gpt-oss:20b はメモリの制約上、Mac mini M1（メモリ 8GB）では動作不可です。OCR 用途（ glm-ocr 単体）であれば、低スペック環境でも試すことは可能です。

広告

なぜ専用モデルを使うのか

今回の検証で大きかったのはここです。

OCR は「読む」だけでなく、

レイアウトを（ある程度）維持する
数値を正しく拾う
意味のある単位で分割する

といった処理が必要になります。

汎用モデルでも一応できるのですが、

数字がズレる
行が混ざる
JSON が崩れる

といった問題が頻発します。

そこで、

文字認識 → glm-ocr
構造化 → 別モデル（ gpt-oss など）

という役割分担にすることで、安定性が大きく向上しました。

広告

実際に構築した構成（ n8n × Ollama ）

今回作ったのは、

「レシートを撮影して Google ドライブに入れるだけで、家計簿が更新される仕組み」です。

全体の流れは以下です。

Google Drive に画像アップロード
n8n がトリガーで起動
未処理ファイルのみ抽出
glm-ocr で文字認識
gpt-oss で JSON 整形
Google Sheets に書き込み

ポイントは、

👉 OCR と整形を分離していること

これによって、

精度の改善がしやすい
モデルの入れ替えが可能
トラブルの切り分けができる

というメリットがあります。

広告

精度はどれくらい出るのか

実際に使ってみた体感は以下の通りです。

印字文字 → かなり高精度
店名（カタカナ） → やや不安定
半角カナ → かなり不安定
手書き → ほぼ不可

説明書やレシートの印字部分は問題なく読み取れます。

glm-ocr で説明書を読み取った結果

glm-ocr でレシートを読み取った結果（一部抜粋）

一方で、

手書きメモ
崩れたフォント
低画質画像

はまだ厳しい印象です。

ここは glm-ocr というより、現状の OCR 全体の限界に近い部分です。

glm-ocr で手書きメモを読み取った結果

手書きの文字が汚すぎるのがそもそもの問題でしょうね・・・（笑）

広告

プロンプト設計で精度が変わる

今回一番ハマったのがここです。

最初は、

「インボイス番号を取得して」

といった指示をしていましたが、

#7336
null

など、意図しない結果が出ていました。

原因はシンプルで、

👉 レシートには「登録番号」と書かれている

この気づきから、

登録番号を取得してください
Tから始まる13桁です
インボイス番号と書かれている場合もあります

といった形に修正。

これだけで精度が大きく改善しました。

👉 実データに合わせることが最重要

広告

JSON スキーマ指定はほぼ必須

n8n で扱う場合、もう一つ重要なのが出力形式です。

自由出力のままだと、

フィールドが欠ける
余計な文章が混ざる
パースに失敗する

といった問題が出ます。

そこで、

型を固定
必須項目を指定
余計な出力を禁止

といった JSON スキーマを設定。

これにより、後処理が一気に安定します。

JSON スキーマを設定して AI に出力させる

広告

改善していくと精度は上がる

運用しながら以下の改善を行いました。

割引の読み取り対応
消費税の追加
不要行の除外

例えば消費税では、

「外8% タイショウ ¥XXXX」

のような行を誤って拾う問題がありました。

これも、

👉 「小計は除外する」と明示

することで解決。

このように、

👉 パターンを学習 → プロンプトに反映

というループで精度が上がっていきます。

広告

ローカル OCR は実用になるのか

結論としては、

👉 条件付きで実用レベル

です。

印字中心 → 実用可能（カタカナ、特に半角カナに課題あり）
手書き → 厳しい
プロンプト調整 → 必須

ただし、

API 課金なし
ローカル完結
試行回数無制限

というメリットは非常に大きく、

👉 「試して改善する前提」ならかなり強い

です。

広告

参考：実験ログ（詳細）

今回の内容は、実際の検証ログをもとに整理しています。

より細かい試行錯誤や改善過程については、以下にまとめています。

➡️ n8n × Ollama：glm-ocr で文字認識

n8n × Ollama：glm-ocr で光文字認識に挑戦 💪 Google ドライブ・スプレッドシート連携上手くいった｜源勝（みなもとまさる）

こんにちは、源勝（みなもとまさる）です。 Mac mini M4（メモリ 32GB）を使い、API 課金なしでどこまで自動化できるか試行錯誤を続けています。今日は、Ollama で公開されている文字認識特化モデル「glm-ocr」を...

➡️ レシート読み取り → 家計簿自動化

n8n × Ollama：glm-ocr でレシート読み取り → 家計簿自動化に挑戦した話 💪｜源勝（みなもとまさる）

こんにちは、源勝（みなもとまさる）です。 Mac mini M4（メモリ32GB）環境で、「API 課金なしでどこまで AI を実運用できるか？」というテーマで検証を続けています。今回は、前回の続編です。 Ollamaの「glm-oc...

➡️ 割引・消費税対応の改善

n8n × Ollama：glm-ocr レシート読み取りプロジェクト：割引と消費税の自動入力にも対応させてみた｜源勝（みなもとまさる）

こんにちは、源勝（みなもとまさる）です。前回の n8n × Ollama：glm-ocr でレシート読み取り → 家計簿自動化の続きです。今日は買い物デー。午前中は買い物に行っていました。買い物から帰ってきたらいつも通りに G...

広告

次のステップ

今回の構成ができれば、

領収書の自動仕訳
家計簿の完全自動化
他の帳票処理

といった応用も見えてきます。

n8n とローカルLLM を組み合わせることで、

👉 「無料でどこまで自動化できるか」

というテーマが一気に現実的になります。

このあたりはまだ検証途中のため、引き続き試行錯誤していきます。

MacBook Pro M5 Max

最大 614GB/s のメモリ帯域幅！ Mac Studio (M3 Ultra) の 819GB/s のメモリ帯域幅に近づく性能・・・気になる！！

Apple 2026 MacBook Pro 18コアCPU、32コアGPUのM5 Maxチップ搭載ノートパソコン：AIのために設計、14.2インチLiquid Retina XDRディスプレイ、36GBユニファイドメモリ、2TBのSSDストレージ - スペースブラック

Apple(アップル)

￥699,800（2026/07/25 15:53時点）

スピードの遺伝子 — M5 ProまたはM5 Maxチップを搭載した14インチMacBook Proが、次世代のスピードとパワフルなオンデバイスAI体験をもたらします。毎日のあれこれも、プロやクリエイティブのタスクも思いのままです。一日中使えるバッテリー*。息をのむほど美しいLiquid Retina XDRディスプレイ。どこから見ても、プロにふさわしいProです。

Amazonの商品レビュー・口コミを見る

NVIDIA DGX Spark

NVIDIA の AI スーパーコンピューター。NVIDIA GB10 Grace Blackwell Superchip、128GB のユニファイドメモリ、4TB NVMe M.2 搭載。メモリ帯域幅は最大 273 GB/s。基本は法人向けモデルだと思いますが、個人も購入できそう。90万円〜100万円と高額ですが。

NVIDIA DGX Spark 20 core Arm 10 Cortex-X925 + 10 Cortex-A725 Arm NVIDIA Blackwell Architecture 4TB NVME.M2 128 GB LPDDR5x 4560152390054

パソコンパーツのアプライド

MSI EdgeXpert

NVIDIA DGX Spark をベースとしているので性能は同等かな。NVIDIA DGX Spark が欲しいけど、コストを抑えたい、という時には MSI EdgeXpert が良さそうか。ASUS Ascent GX10 とかも気になりますが。

MSI EdgeXpert AIスーパーコンピューター（4TBモデル） 9S6-C9311-83S NVIDIA GB10 Grace Blackwell 20コアArm CPU 128GBユニファイドメモリ Gen5モデル【代引き不可】 4526541062049

パソコンパーツのアプライド

タイトルとURLをコピーしました