Web Analytics

RefineAnything

⭐ 206 stars French by limuloo

RefineAnything

Affinement multimodal spécifique à une région pour des détails locaux parfaits

RefineAnything cible l’affinement d’image spécifique à une région : à partir d’une image d’entrée et d’une région spécifiée par l’utilisateur (par exemple un masque griffonné ou une boîte englobante), il restaure les détails fins — textes, logos, structures fines — tout en gardant tous les pixels non modifiés inchangés. Il supporte à la fois l’affinement avec référence et sans référence.

Teaser


Actualités

---

Points forts

---

Comparaisons

Comparaisons qualitatives sans référence

Reference-based qualitative comparisons


Installation

pip install -r requirement.txt

Important — épinglez ces versions exactement. RefineAnything est sensible aux petites différences numériques dans les bibliothèques sous-jacentes. Veuillez installer exactement les versions ci-dessous ; utiliser des versions plus récentes ou plus anciennes peut provoquer des artefacts visibles tels que des décalages de couleur dans la zone raffinée.
>
> diffusers==0.36.0
transformers==4.55.0
safetensors==0.5.3
peft==0.17.0
``


Avis sur l’environnement

Nous avons observé que des versions non assorties de diffusers / transformers / safetensors / peft peuvent introduire des décalages de couleur dans la zone raffinée, même lorsque tout le reste est identique. L’exemple ci-dessous utilise l’invite « retirer la main » :

Entrée (zone masquée = main) Environnement correct Mauvais environnement (décalage de couleur)

Si votre sortie affiche un léger décalage de couleur/ton à l’intérieur du masque alors que le reste de l’image semble correct, la première chose à vérifier est la version de vos paquets.


Démarrage rapide

Seules trois choses sont nécessaires pour exécuter RefineAnything :

| Argument | Description | |----------|-------------| | --input | Image source | | --mask | Masque binaire (blanc = région à affiner) | | --prompt | Ce qu'il faut affiner | | --ref | (optionnel) Image de référence pour un affinage guidé |


Démo 1 — Affinage de logo basé sur une référence

Affinez un logo flou sur un coussin en utilisant une image de référence. bash python scripts/fast_inference.py \ --input src/input1.png \ --mask src/mask1.png \ --prompt "Refine the LOGO." \ --ref src/ref1.png \ --output output/demo1.png

Entrée Référence Invite
« Affiner le LOGO. »
Sortie


Démo 2 — Affinement de texte sans référence

Affiner un texte chinois flou sur un panneau de bâtiment — aucune image de référence nécessaire.

bash python scripts/fast_inference.py \ --input src/input2.png \ --mask src/mask2.png \ --prompt "refine the text '鼎好商城'" \ --output output/demo2.png

Entrée Invite
« affiner le texte '鼎好商城' »
Sortie


Démonstration locale Gradio

Nous proposons également une interface web basée sur Gradio pour des tests interactifs. Vous pouvez brosser des régions, télécharger des images de référence et ajuster tous les paramètres d'inférence dans le navigateur.

bash python app.py

Ouvrez ensuite http://localhost:7860 dans votre navigateur. L'application téléchargera automatiquement le modèle de base (Qwen/Qwen-Image-Edit-2511) et le LoRA RefineAnything depuis Hugging Face lors du premier lancement.

Vous pouvez spécifier un chemin personnalisé pour le modèle de base via la variable d'environnement MODEL_DIR :

bash MODEL_DIR=/path/to/local/Qwen-Image-Edit-2511 python app.py

Fonctionnalités de la démo Gradio :
  • Sélection au pinceau : peignez directement sur l'image source pour définir la zone de raffinement.
  • Image de référence optionnelle : téléchargez une seconde image et utilisez éventuellement un pinceau pour découper une zone de référence spécifique.
  • Recadrage de mise au point : recadre et zoome automatiquement sur la zone d'édition pour une fidélité de détail accrue, puis recombine sans couture.
  • Lightning LoRA : bascule en un clic pour une inférence plus rapide avec moins d'étapes.
  • Curseur Avant / Après : comparez instantanément l'entrée et la sortie.
---

Citation

Si vous utilisez ce dépôt, veuillez citer :

bibtex @article{zhou2026refineanything, title={RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details}, author={Zhou, Dewei and Li, You and Yang, Zongxin and Yang, Yi}, journal={arXiv preprint arXiv:2604.06870}, year={2026} }
`


Remerciements et Licence

RefineAnything s’appuie sur des idées et composants issus de l’écosystème plus large de diffusion et multimodal (y compris Qwen2.5-VL, Qwen-Image, et la diffusion latente avec VAE + MMDiT). Les poids des modèles de base et les conditions d’API sont soumis à leurs licences respectives—vérifiez la conformité avant de redistribuer les points de contrôle ou les poids dérivés.

Licence du code du dépôt : À DÉFINIR (par exemple, Apache-2.0 ou MIT)—définissez LICENSE` lorsque vous publiez le code source de l’implémentation.

--- Tranlated By Open Ai Tx | Last indexed: 2026-06-29 ---