GOT-OCR-2-GUI

英語版はこちら

🛑サポート停止、今後は気ままに更新

このプロジェクトについて

モデル重み：ミラーサイト、公式サイト元GitHub：GOT-OCR2.0 このプロジェクトはWindows上で開発されています。私はLinuxを使ったことがなく、Linux上で正常に動作するか保証できません。もしLinuxでのデプロイをする場合は、このissueを参考にしてください。一部のコードは以下からのものです：GLM4、Deepseek

スターを押してください

ToDo

[x] ログ内容のローカライズ
[ ] 新モデル stepfun-ai/GOT-OCR-2.0-hf のサポート
[ ] PDF関連のエラー処理ロジックの最適化
[x] GGUFモデルのサポート、推論の高速化を期待（issue #19 の協力に感謝）
[ ] GGUFモデルのサポートの充実
[x] 新レンダリングモード：性能最適化、より多くのフォーマット出力対応
[ ] 旧レンダラーの削除/非表示

使い方

ここにあるフォルダがなければ、新規作成してください

ブランチを選択

#### Alpha

最も更新が早いブランチで、最新の変更はすべてここにコミットされます。コードは時々未テストの場合があります。非常に不安定で、時には使用できないこともあります。

#### main

比較的に安定したブランチですが、いくつかの新機能が欠けていることがあります。

依存関係

この環境はpython 3.11.9でテストされ、正常に動作することが確認されています。

#### torch

torch公式サイトから自分に合ったGPUバージョンのtorchをインストールしてください。以前はStable 2.4.1 + cu124を使用していました。現在はStable 2.0.1 + cu118を使用しており、1 Torch is not compiled with Flash Attentionの問題を解決できており、他の問題は見つかっていません。

#### PyMuPDF

実際にrequirements.txtから直接インストールするとModuleNotFoundError: No module named 'frontend'が発生します。しかし、個別にインストールするとこの問題は発生しません。具体的な原因は不明です。また、もし依然としてModuleNotFoundErrorが発生する場合は、まずfitzとPyMuPDFをアンインストールし、再度インストールすると解決する可能性があります。実際にはpip install -U PyMuPDFだけでは効果がありません。

pip install fitz
pip install PyMuPDF

#### 使用pipでのインストール

pip install -r requirements.txt

また、requirements.txtを使って依存関係をインストールした際に競合問題が発生したという報告がありましたが、私の環境では問題は見つかりませんでしたし、pipdeptreeでも競合は表示されませんでした。 requirements.txtは私の仮想環境でpip freezeしたものをそのまま使っているので、基本的には問題ないはずです。しかし、実際に問題が起きている方もいるため、バージョン番号なしのrequirements-noversion.txtを用意しましたので、試してみてください：詳細はこの issue #4 をご覧ください。

pip install -r requirements-noversion.txt

#### その他

Edge WebDriver

圧縮ファイルをダウンロードし、edge_driverフォルダに入れる

みんなのパソコンにはedgeが入ってるはずだよね？多分？これってプリインストールされてるはず……

ファイル構成は以下のような感じのはず：

> GOT-OCR-2-GUI


└─edge_driver
   ├─msedgedriver.exe
   └─...
``
モデルファイルのダウンロード
以下のモデルのうちどれか1つあればOCRは実行できるが、自動ロード機能を使うにはSafetensorsモデルが必要  
GGUFモデルのサポートはまだ十分ではなく、現在はGGUFタブで個別に試すことができる
#### Safetensors
modelsフォルダにダウンロードする  

ファイルのダウンロード漏れに注意  
新しいGOT-OCR-2-HFモデルの場合（現在は未対応）、models-hfフォルダにダウンロードする（ただし現時点では対応していない）
ファイル構成は以下のような感じのはず：

GOT-OCR-2-GUI
└─models
   ├─config.json
   ├─generation_config.json
   ├─got_vision_b.py
   ├─model.safetensors
   ├─modeling_GOT.py
   ├─qwen.tiktoken
   ├─render_tools.py
   ├─special_tokens_map.json
   ├─tokenization_qwen.py
   └─tokenizer_config.json


#### GGUF

GGUF モデルは got.cppによってサポートされていますモデルをダウンロードするにはMosRat/got.cpp リポジトリへ行き、Encode.onnx を gguf\Encoder.onnx に置き、残りの Decoder GGUF モデルは gguf\decoders に入れてください

`使用開始`

コマンドラインを使いたい場合は CLI.py を使用してください

グラフィカルインターフェースを使いたい場合は GUI.py を使用してください

設定を変更したい場合は Config Manager.py を使用してください

自動レンダリング処理を実行したい場合は Renderer.py を使用してください。imgs フォルダ内のすべての .jpg と .png 画像を自動でレンダリングします

> GUI を使う場合は気にしなくて構いませんが、CLI を使う方は OCR したい画像を imgs フォルダに入れてください（CLI は現在 .jpg と .png

 の画像のみを検出します）
ローカライズサポート

Locales フォルダ内に各言語の .json ファイルがあり、CLI と GUI の言語ファイルは別々に保存されています

gui サブフォルダ内には言語 .json ファイルの他に instructions フォルダがあり、GUI の組み込みチュートリアルが 言語.md という名前であります

言語サポートを変更したい場合は、config.json の 'language' の値を変更してください。使用可能な選択肢は言語 .json ファイルの拡張子を除いたファイル名です

新しい言語サポートを追加する場合、CLI では新しい言語 .json を追加するだけで（既存のファイルを基にすることを強く推奨します）、GUI では対応する 言語.md ファイルも必要です

言語やその他の設定ファイルは Config Manager.py で管理できます

`注意事項`

スクリプトがクラッシュする場合は、cmd で python +ファイル名 を実行してみてください。私自身テスト時にクラッシュすることがあり、原因は不明です

result フォルダ内の markdown-it.js を削除しないでください。削除すると PDF 出力がエラーになります！

> もし誤って削除してしまった場合は、scripts フォルダ内にバックアップがありますので、コピーして戻してください

インストールしている torch は GPU バージョンであることを確認してください。スクリプト内で device_map='cuda' を使用しています

`よくある質問`

Q：CLI.py: error: the following arguments are required: --path/-P


A：PowerShell を使ってください。CMD ではなぜかこのバグが出るようで、原因はまだ見つかっていません

---  
Q：「HTML本地文件」とは何ですか？ローカルに保存されていないHTMLファイルがあるのですか？  
A：モデルが出力するHTMLファイルはローカルに保存されていますが、外部スクリプトを使用しているため、ファイルがローカルにあってもネットワーク接続が必要です。そのため外部スクリプトをダウンロードしてきて、先に述べた通りにしています

mardown-it.js

。これは主にネットワークの問題によるPDFエクスポートの失敗を防ぐためです。

Q：なぜ私のモデルの読み込みに失敗したのですか？
A：ファイルが不足していないか確認してください。百度クラウドからダウンロードしたモデルファイルはファイルが不足しているようです。前述のHuggingfaceからダウンロードすることをお勧めします。
---
Q：このプロジェクトのデプロイに関するアドバイスはありますか？
A：こちらのissue #5をご覧ください。
---

Q：どこでヘルプドキュメントを見られますか？

A：GUIユーザーの場合は説明タブを探してください。CLIユーザーの場合は、.\CLI.py --helpでargparseが自動生成するヘルプドキュメントを確認できますし、.\CLI.py --detailed-help`でより詳細なヘルプドキュメントを見ることもできます。

Star History

--- Tranlated By Open Ai Tx | Last indexed: 2026-01-12 ---