Web Analytics

GOT-OCR-2-GUI

⭐ 180 stars Spanish by XJF2332

GOT-OCR-2-GUI

Ver versión en inglés aquí

🛑 Soporte detenido, actualizaciones futuras serán esporádicas

img.png

Sobre este proyecto

Pesos del modelo: Sitio espejo, Sitio original GitHub original: GOT-OCR2.0 Este proyecto fue desarrollado en Windows, personalmente no he usado ni manejo Linux, no puedo garantizar que funcione correctamente en Linux, si deseas desplegarlo en Linux puedes consultar este issue Parte del código proviene de: GLM4 , Deepseek

Por favor, regálanos una estrella

Pendientes

Cómo usar

Si no tienes las carpetas mencionadas aquí, crea una nueva

Elige una rama

#### Alpha

La rama con actualizaciones más rápidas, los cambios más recientes se suben aquí. El código a veces no está probado. Muy inestable, a veces ni siquiera funciona.

#### main

Una rama relativamente estable, pero puede carecer de algunas características nuevas.

Dependencias

Este entorno ha sido probado para funcionar correctamente bajo python 3.11.9

#### torch

Desde la página oficial de torch selecciona la versión de GPU adecuada para ti e instala torch Anteriormente usaba Stable 2.4.1 + cu124 Actualmente uso Stable 2.0.1 + cu118, lo que puede resolver 1 Torch is not compiled with Flash Attention, sin haber encontrado otros problemas

#### PyMuPDF

En pruebas, si se instala directamente desde requirements.txt da el error ModuleNotFoundError: No module named 'frontend' pero si se instala por separado no ocurre, la razón exacta no está clara Además, si aún aparece ModuleNotFoundError, primero desinstala fitz y PyMuPDF, luego reinstálalos; en pruebas, pip install -U PyMuPDF no funciona para resolverlo

pip install fitz
pip install PyMuPDF
#### Instalación usando pip

pip install -r requirements.txt
Además, alguien mencionó que tuvo problemas de conflicto al instalar dependencias usando requirements.txt, pero aquí no he encontrado ningún problema, pipdeptree tampoco muestra ningún conflicto, el requirements.txt es directamente de mi entorno virtual con pip freeze, por lo que en teoría no debería haber problema. Pero dado que efectivamente surgió este problema, aquí proporciono un requirements-noversion.txt sin números de versión, puedes probarlo: Para más información, consulta este issue #4

pip install -r requirements-noversion.txt
#### Otros

, descarga el paquete comprimido y colócalo en la carpeta edge_driver

¿No debería tener todo el mundo Edge en sus computadoras? ¿Verdad? Esto viene preinstalado...
La estructura de archivos debería ser:
> GOT-OCR-2-GUI
└─edge_driver
├─msedgedriver.exe
└─...
``

Descargar archivos de modelo

Con cualquiera de los modelos listados a continuación se puede ejecutar OCR, pero para activar la carga automática de modelos, es necesario tener el modelo Safetensors El soporte para modelos GGUF aún no está completo, por ahora puedes probarlo en la pestaña GGUF de forma independiente

#### Safetensors

  • Descarga a la carpeta models
  • No olvides descargar todos los archivos
  • Si es un nuevo modelo GOT-OCR-2-HF (actualmente no soportado), descárgalo a la carpeta models-hf (aunque aún no se ha añadido soporte para este)
  • La estructura de archivos debería ser:
GOT-OCR-2-GUI └─models ├─config.json ├─generation_config.json ├─got_vision_b.py ├─model.safetensors ├─modeling_GOT.py ├─qwen.tiktoken ├─render_tools.py ├─special_tokens_map.json ├─tokenization_qwen.py └─tokenizer_config.json
` #### GGUF

El modelo GGUF es compatible con got.cpp Descarga el modelo desde el repositorio MosRat/got.cpp, coloca Encode.onnx en gguf\Encoder.onnx y el resto de los modelos Decoder GGUF en gguf\decoders

Comenzar

> Los usuarios de la GUI pueden ignorar esto, pero los que usen la CLI deben poner las imágenes para OCR en la carpeta imgs (la CLI actualmente solo detecta imágenes .jpg y .png)

Soporte de localización

Precauciones

> Si accidentalmente lo borras, puedes encontrar una copia de seguridad en la carpeta scripts, solo cópiala de nuevo

Preguntas frecuentes

---
  • P: ¿Qué es un “archivo HTML local”? ¿Acaso hay archivos HTML que no estén guardados localmente?
  • R: Aunque el archivo HTML generado por el modelo se guarda localmente, usa scripts externos, por lo que aún necesita conexión a internet para abrirlo. Por eso descargué los scripts externos, como se mencionó antes
mardown-it.js. Esto se hace principalmente para evitar fallos en la exportación a PDF debido a problemas de red.
  • P: ¿Por qué falla la carga de mi modelo?
  • R: Revisa si te falta algún archivo. Los archivos del modelo descargados desde Baidu Cloud parecen estar incompletos, te recomiendo descargarlos desde Huggingface como se mencionó antes.
---
  • P: ¿Tienes alguna recomendación para desplegar este proyecto?
  • R: Consulta este issue #5
---

Historial de Estrellas

Gráfico de Historial de Estrellas --- Tranlated By Open Ai Tx | Last indexed: 2026-01-12 ---