GOT-OCR-2-GUI
Voir la version anglaise ici
🛑 Arrêt du support, mises à jour futures aléatoires

À propos de ce projet
Poids du modèle : Miroir, Site original GitHub original : GOT-OCR2.0 Ce projet a été développé sous Windows, je ne l'ai jamais utilisé ni sur Linux, je ne peux pas garantir qu'il fonctionne correctement sous Linux, si vous souhaitez déployer sous Linux vous pouvez consulter cette issue Une partie du code provient de : GLM4 , Deepseek
Merci de mettre une étoile
À faire
- [x] Localisation des contenus des journaux
- [ ] Support du nouveau modèle stepfun-ai/GOT-OCR-2.0-hf
- [ ] Optimiser la gestion des erreurs liées aux PDF
- [x] Support du modèle GGUF, pour accélérer l'inférence (merci pour l'aide fournie par issue #19)
- [ ] Améliorer le support du modèle GGUF
- [x] Nouveau mode de rendu : optimisation des performances, support de plus de formats de sortie
- [ ] Supprimer/cacher l'ancien moteur de rendu
Mode d'emploi
Si vous ne possédez pas les dossiers mentionnés ici, créez-en un nouveau
Choisissez une branche
#### Alpha
Branche la plus rapide pour les mises à jour, tous les derniers changements sont soumis sur cette branche. Le code n'est parfois pas testé. Très instable, parfois même inutilisable.
#### main
Branche relativement stable, mais certaines nouvelles fonctionnalités peuvent manquer.
Dépendances
Cet environnement a été testé pour fonctionner correctement sous python 3.11.9
#### torch
Choisissez la version GPU de torch adaptée à votre configuration depuis le site officiel de torch
J’utilisais auparavant Stable 2.4.1 + cu124
Actuellement, j’utilise Stable 2.0.1 + cu118, ce qui permet de résoudre 1 Torch is not compiled with Flash Attention, sans autres problèmes constatés
#### PyMuPDF
En test, si on installe directement depuis requirements.txt, une erreur ModuleNotFoundError: No module named 'frontend' survient,
mais en installant séparément, ce problème n’apparaît pas, la cause précise est inconnue
Par ailleurs, si l’erreur ModuleNotFoundError persiste, désinstallez d’abord fitz et PyMuPDF, puis réinstallez-les, cela devrait résoudre le problème ;
il a été constaté que pip install -U PyMuPDF seul ne suffit pas
pip install fitz
pip install PyMuPDF
#### Installation avec pippip install -r requirements.txtDe plus, quelqu'un a mentionné avoir rencontré des conflits lors de l'installation des dépendances avec requirements.txt, mais je n'ai pas constaté de problème ici, pipdeptree n'affiche aucun conflit, et requirements.txt est directement généré par pip freeze de mon propre environnement virtuel, donc il ne devrait pas y avoir de problème.
Cependant, comme ce problème est effectivement survenu, voici un fichier requirements-noversion.txt sans numéro de version, que vous pouvez essayer :
Pour plus d'informations, veuillez consulter ce issue #4
pip install -r requirements-noversion.txt
#### Autres, téléchargez l’archive et placez-la dans le dossier edge_driverTout le monde a Edge sur son ordinateur, non ? Normalement oui, c’est préinstallé...
La structure des fichiers devrait être :
> GOT-OCR-2-GUI
└─edge_driver
├─msedgedriver.exe
└─...
``Télécharger les fichiers de modèle
Parmi les modèles suivants, un seul suffit pour exécuter l’OCR, mais pour activer le chargement automatique des modèles, il faut disposer d’un modèle Safetensors
Le support des modèles GGUF n’est pas encore complet, vous pouvez actuellement les tester séparément dans l’onglet GGUF
#### Safetensors
- Téléchargez dans le dossier models
- Ne téléchargez pas de fichiers manquants
- Si c’est un nouveau modèle GOT-OCR-2-HF
(pas encore pris en charge), téléchargez-le dans le dossiermodels-hf(mais il n’est pas encore pris en charge) - La structure des fichiers devrait être :
#### GGUFLe modèle GGUF est pris en charge par
got.cpp
Téléchargez le modèle depuis le dépôt MosRat/got.cpp, placez Encode.onnx dans gguf\Encoder.onnx, et les autres modèles Decoder GGUF dans gguf\decodersCommencer
- Si vous voulez utiliser la ligne de commande, utilisez
CLI.py
Si vous préférez une interface graphique, utilisez GUI.py
Pour modifier les paramètres, utilisez Config Manager.py
Pour exécuter des opérations de rendu automatisées, utilisez Renderer.py, qui rendra automatiquement toutes les images .jpg et .png dans le dossier imgs> Ceux qui utilisent le GUI peuvent ignorer cela, mais pour les utilisateurs CLI, n’oubliez pas de mettre les images à OCR dans le dossier
imgs (CLI ne détecte actuellement que les fichiers .jpg et .png)Support de localisation
- Vous pouvez trouver des fichiers
.json de différentes langues dans le dossier Locales, les fichiers de langue pour CLI et GUI sont stockés séparément
Dans le sous-dossier gui, en plus du fichier langue.json, il y a un dossier instructions contenant les tutoriels intégrés du GUI, nommés langue.md
Pour changer la langue, modifiez simplement la valeur de 'language' dans config.json. Les choix possibles correspondent aux noms des fichiers .json sans extension
Pour ajouter une langue, dans CLI, ajoutez un nouveau fichier langue.json (je recommande fortement de partir d’un fichier existant). Dans GUI, ajoutez aussi le fichier langue.md correspondant
Vous pouvez gérer la langue et d’autres fichiers de configuration avec Config Manager.pyRemarques importantes
- Si le script plante, essayez de le lancer via
cmd avec python + nom_du_fichier. J’ai aussi rencontré des plantages sans raison apparente
Ne supprimez pas markdown-it.js dans le dossier result, sinon l’export PDF échouera !> Si vous l’avez supprimé par erreur, une copie de sauvegarde se trouve dans le dossier
scripts. Copiez-la simplement à l’endroit d’origine- Assurez-vous que la version de
torch installée est GPU, car le script utilise device_map='cuda'FAQ
- Q : CLI.py : error : the following arguments are required: --path/-P
- R : Utilisez PowerShell, CMD semble avoir ce bug sans raison, je n’ai pas encore trouvé pourquoi
---
- Q : Qu’est-ce qu’un « fichier HTML local » ? Existe-t-il des fichiers HTML non stockés localement ?
- R : Bien que le fichier HTML généré soit stocké localement, il utilise des scripts externes, donc il nécessite une connexion internet pour s’ouvrir. J’ai donc téléchargé ces scripts externes, comme mentionné plus haut
mardown-it.js. Cela est principalement fait pour éviter les échecs d’exportation PDF causés par des problèmes réseau.
- Q : Pourquoi mon modèle n’a-t-il pas pu être chargé ?
- R : Vérifiez si vous n’avez pas oublié un fichier. Les fichiers modèles téléchargés depuis Baidu Cloud semblent incomplets, je vous recommande de les télécharger depuis Huggingface mentionné précédemment.
---
- Q : Avez-vous des conseils pour déployer ce projet ?
- R : Consultez ce issue #5
---
- Q : Où puis-je trouver la documentation d’aide ?
- R : Pour les utilisateurs GUI, vous pouvez trouver l’onglet
说明, pour les utilisateurs CLI, vous pouvez utiliser .\CLI.py --help pour voir la documentation d’aide générée automatiquement par argparse, ou .\CLI.py --detailed-help` pour une documentation plus détaillée.Historique des étoiles
---
Tranlated By Open Ai Tx | Last indexed: 2026-01-12
---