Web Analytics

RefineAnything

⭐ 206 stars Spanish by limuloo

RefineAnything

Refinamiento multimodal específico por región para detalles locales perfectos

RefineAnything se enfoca en el refinamiento de imágenes específico por región: dada una imagen de entrada y una región especificada por el usuario (por ejemplo, máscara de garabato o caja delimitadora), restaura detalles finos—texto, logotipos, estructuras delgadas—manteniendo todos los píxeles no editados sin cambios. Soporta refinamiento tanto con referencia como sin referencia.

Teaser


Noticias

---

Destacados

---

Comparaciones

Comparaciones cualitativas sin referencia

Reference-based qualitative comparisons


Installation

pip install -r requirement.txt

Importante — fije estas versiones exactamente. RefineAnything es sensible a pequeñas diferencias numéricas en las bibliotecas subyacentes. Por favor, instale exactamente las versiones indicadas a continuación; usar versiones más nuevas o más antiguas puede causar artefactos visibles como cambios de color en la región refinada.
>
> diffusers==0.36.0
transformers==4.55.0
safetensors==0.5.3
peft==0.17.0
``


Aviso sobre el entorno

Hemos observado que versiones incompatibles de diffusers / transformers / safetensors / peft pueden introducir cambios de color en la región refinada, incluso cuando todo lo demás es idéntico. El ejemplo a continuación usa el prompt "remove the hand":

Entrada (región enmascarada = mano) Entorno correcto Entorno incorrecto (cambio de color)

Si su resultado muestra una leve discordancia de color/tono dentro de la máscara mientras el resto de la imagen se ve bien, lo primero que debe revisar son las versiones de sus paquetes.


Inicio rápido

Solo se requieren tres cosas para ejecutar RefineAnything:

| Argumento | Descripción | |----------|-------------| | --input | Imagen fuente | | --mask | Máscara binaria (blanco = región a refinar) | | --prompt | Qué refinar | | --ref | (opcional) Imagen de referencia para refinamiento guiado |


Demostración 1 — Refinamiento de logotipo basado en referencia

Refina un logotipo borroso en una almohada usando una imagen de referencia. bash python scripts/fast_inference.py \ --input src/input1.png \ --mask src/mask1.png \ --prompt "Refine the LOGO." \ --ref src/ref1.png \ --output output/demo1.png


Entrada Referencia Indicador
"Refinar el LOGO."
Salida


Demostración 2 — Refinamiento de Texto sin Referencia

Refina texto chino borroso en un letrero de edificio — no se necesita imagen de referencia.

bash python scripts/fast_inference.py \ --input src/input2.png \ --mask src/mask2.png \ --prompt "refine the text '鼎好商城'" \ --output output/demo2.png
Entrada Indicación
"refinar el texto '鼎好商城'"
Salida


Demostración Local en Gradio

También ofrecemos una interfaz web basada en Gradio para pruebas interactivas. Puedes pintar regiones, subir imágenes de referencia y ajustar todos los parámetros de inferencia en el navegador.

bash python app.py

Luego abre http://localhost:7860 en tu navegador. La aplicación descargará automáticamente el modelo base (Qwen/Qwen-Image-Edit-2511) y el LoRA RefineAnything desde Hugging Face en el primer inicio.

Puedes especificar una ruta personalizada para el modelo base mediante la variable de entorno MODEL_DIR:

bash MODEL_DIR=/path/to/local/Qwen-Image-Edit-2511 python app.py

Características de la demostración de Gradio:
  • Pincel para seleccionar: pinta directamente sobre la imagen fuente para definir la región de refinamiento.
  • Imagen de referencia opcional: sube una segunda imagen y opcionalmente pinta para recortar un área de referencia específica.
  • Recorte de enfoque: recorta y acerca automáticamente la región de edición para mayor fidelidad de detalles, luego la recompone sin problemas.
  • Lightning LoRA: conmutador de un clic para una inferencia más rápida con menos pasos.
  • Control deslizante Antes / Después: compara instantáneamente la entrada y la salida.
---

Citación

Si usas este repositorio, por favor cita:

bibtex @article{zhou2026refineanything, title={RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details}, author={Zhou, Dewei and Li, You and Yang, Zongxin and Yang, Yi}, journal={arXiv preprint arXiv:2604.06870}, year={2026} }
`


Agradecimientos y Licencia

RefineAnything se basa en ideas y componentes del ecosistema más amplio de difusión y multimodal (incluyendo Qwen2.5-VL, Qwen-Image, y difusión latente con VAE + MMDiT). Los pesos del modelo base y los términos de la API están sujetos a sus respectivas licencias—verifique el cumplimiento antes de redistribuir puntos de control o pesos derivados.

Licencia del código del repositorio: Por determinar (p. ej., Apache-2.0 o MIT)—establezca LICENSE` cuando haga público el código fuente.

--- Tranlated By Open Ai Tx | Last indexed: 2026-06-29 ---