Web Analytics

GOT-OCR-2-GUI

⭐ 180 stars Japanese by XJF2332

GOT-OCR-2-GUI

英語版はこちら

🛑サポート停止、今後は気ままに更新

img.png

このプロジェクトについて

モデル重み:ミラーサイト公式サイト 元GitHub:GOT-OCR2.0 このプロジェクトはWindows上で開発されています。私はLinuxを使ったことがなく、Linux上で正常に動作するか保証できません。 もしLinuxでのデプロイをする場合は、このissueを参考にしてください。 一部のコードは以下からのものです:GLM4Deepseek

スターを押してください

ToDo

使い方

ここにあるフォルダがなければ、新規作成してください

ブランチを選択

#### Alpha

最も更新が早いブランチで、最新の変更はすべてここにコミットされます。 コードは時々未テストの場合があります。 非常に不安定で、時には使用できないこともあります。

#### main

比較的に安定したブランチですが、いくつかの新機能が欠けていることがあります。

依存関係

この環境はpython 3.11.9でテストされ、正常に動作することが確認されています。

#### torch

torch公式サイトから自分に合ったGPUバージョンのtorchをインストールしてください。 以前はStable 2.4.1 + cu124を使用していました。 現在はStable 2.0.1 + cu118を使用しており、1 Torch is not compiled with Flash Attentionの問題を解決できており、他の問題は見つかっていません。

#### PyMuPDF

実際にrequirements.txtから直接インストールするとModuleNotFoundError: No module named 'frontend'が発生します。 しかし、個別にインストールするとこの問題は発生しません。具体的な原因は不明です。 また、もし依然としてModuleNotFoundErrorが発生する場合は、まずfitzPyMuPDFをアンインストールし、再度インストールすると解決する可能性があります。実際にはpip install -U PyMuPDFだけでは効果がありません。

pip install fitz
pip install PyMuPDF
#### 使用pipでのインストール

pip install -r requirements.txt
また、requirements.txtを使って依存関係をインストールした際に競合問題が発生したという報告がありましたが、私の環境では問題は見つかりませんでしたし、pipdeptreeでも競合は表示されませんでした。 requirements.txtは私の仮想環境でpip freezeしたものをそのまま使っているので、基本的には問題ないはずです。 しかし、実際に問題が起きている方もいるため、バージョン番号なしのrequirements-noversion.txtを用意しましたので、試してみてください: 詳細はこの issue #4 をご覧ください。

pip install -r requirements-noversion.txt
#### その他

圧縮ファイルをダウンロードし、edge_driverフォルダに入れる

みんなのパソコンにはedgeが入ってるはずだよね?多分?これってプリインストールされてるはず……
ファイル構成は以下のような感じのはず:
> GOT-OCR-2-GUI
└─edge_driver
├─msedgedriver.exe
└─...
``

モデルファイルのダウンロード

以下のモデルのうちどれか1つあればOCRは実行できるが、自動ロード機能を使うにはSafetensorsモデルが必要 GGUFモデルのサポートはまだ十分ではなく、現在はGGUFタブで個別に試すことができる

#### Safetensors

  • modelsフォルダにダウンロードする
  • ファイルのダウンロード漏れに注意
  • 新しいGOT-OCR-2-HFモデルの場合(現在は未対応)、models-hfフォルダにダウンロードする(ただし現時点では対応していない)
  • ファイル構成は以下のような感じのはず:
GOT-OCR-2-GUI └─models ├─config.json ├─generation_config.json ├─got_vision_b.py ├─model.safetensors ├─modeling_GOT.py ├─qwen.tiktoken ├─render_tools.py ├─special_tokens_map.json ├─tokenization_qwen.py └─tokenizer_config.json
` #### GGUF

GGUF モデルは got.cpp によってサポートされています モデルをダウンロードするには MosRat/got.cpp リポジトリへ行き、Encode.onnxgguf\Encoder.onnx に置き、残りの Decoder GGUF モデルは gguf\decoders に入れてください

使用開始

> GUI を使う場合は気にしなくて構いませんが、CLI を使う方は OCR したい画像を imgs フォルダに入れてください(CLI は現在 .jpg.png の画像のみを検出します)

ローカライズサポート

注意事項

> もし誤って削除してしまった場合は、scripts フォルダ内にバックアップがありますので、コピーして戻してください

よくある質問

---
  • Q:「HTML本地文件」とは何ですか?ローカルに保存されていないHTMLファイルがあるのですか?
  • A:モデルが出力するHTMLファイルはローカルに保存されていますが、外部スクリプトを使用しているため、ファイルがローカルにあってもネットワーク接続が必要です。そのため外部スクリプトをダウンロードしてきて、先に述べた通りにしています
mardown-it.js。これは主にネットワークの問題によるPDFエクスポートの失敗を防ぐためです。
  • Q:なぜ私のモデルの読み込みに失敗したのですか?
  • A:ファイルが不足していないか確認してください。百度クラウドからダウンロードしたモデルファイルはファイルが不足しているようです。前述のHuggingfaceからダウンロードすることをお勧めします。
---
  • Q:このプロジェクトのデプロイに関するアドバイスはありますか?
  • A:こちらのissue #5をご覧ください。
---

Star History

Star History Chart --- Tranlated By Open Ai Tx | Last indexed: 2026-01-12 ---