Web Analytics

RefineAnything

⭐ 206 stars Simplified Chinese by limuloo

RefineAnything

多模态区域特定细化,实现完美局部细节

RefineAnything 目标是区域特定图像细化:给定输入图像和用户指定区域(如涂鸦遮罩或边界框),它恢复细粒度细节——文字、标志、细线结构——同时保持所有未编辑像素不变。支持基于参考图像无参考的细化。

Teaser


新闻

---

亮点

---

对比

无参考定性对比

Reference-based qualitative comparisons


Installation

pip install -r requirement.txt

重要 — 请精确固定这些版本。 RefineAnything 对底层库中的微小数值差异非常敏感。请严格安装以下版本;使用更新或更旧的版本可能导致细化区域出现明显的色彩偏差等问题。
>
> diffusers==0.36.0
transformers==4.55.0
safetensors==0.5.3
peft==0.17.0
``


环境说明

我们观察到 diffusers / transformers / safetensors / peft 版本不匹配时,即使其他条件相同,也可能在细化区域引入色彩偏差。以下示例使用提示语 “remove the hand”

输入(遮罩区域 = 手) 正确环境 错误环境(色彩偏差)

如果输出显示遮罩内存在轻微色彩或色调不匹配,而图像其他部分正常,首先应检查您的软件包版本。


快速开始

运行 RefineAnything 仅需三个参数:

| 参数 | 说明 | |----------|-------------| | --input | 源图像 | | --mask | 二值掩码(白色 = 需要细化的区域) | | --prompt | 需要细化的内容 | | --ref | (可选) 用于引导细化的参考图像 |


演示 1 — 基于参考的标志细化

使用参考图像细化枕头上模糊的标志。 bash python scripts/fast_inference.py \ --input src/input1.png \ --mask src/mask1.png \ --prompt "Refine the LOGO." \ --ref src/ref1.png \ --output output/demo1.png

输入 参考 提示
“优化LOGO。”
输出


演示2 — 无参考文本优化

优化建筑招牌上的模糊中文文本 — 无需参考图片。

bash python scripts/fast_inference.py \ --input src/input2.png \ --mask src/mask2.png \ --prompt "refine the text '鼎好商城'" \ --output output/demo2.png

输入 提示词
“润色文字‘鼎好商城’”
输出


本地 Gradio 演示

我们还提供了基于 Gradio 的网页界面,支持交互式测试。您可以在浏览器中刷选区域、上传参考图像,并调整所有推理参数。

bash python app.py

然后在浏览器中打开 http://localhost:7860。应用程序将在首次启动时自动从 Hugging Face 下载基础模型(Qwen/Qwen-Image-Edit-2511)和 RefineAnything LoRA。

您可以通过 MODEL_DIR 环境变量指定自定义的基础模型路径:

bash MODEL_DIR=/path/to/local/Qwen-Image-Edit-2511 python app.py

Gradio 演示的特点:
  • 刷子选择:直接在源图像上绘制以定义细化区域。
  • 可选参考图像:上传第二张图像,并可选择性地刷选特定参考区域。
  • 焦点裁剪:自动裁剪并放大编辑区域以获得更高细节保真度,然后无缝合成回去。
  • Lightning LoRA:一键切换,实现更少步骤的更快推理。
  • 前后滑块:即时比较输入和输出。
---

引用

如果您使用此仓库,请引用:

bibtex @article{zhou2026refineanything, title={RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details}, author={Zhou, Dewei and Li, You and Yang, Zongxin and Yang, Yi}, journal={arXiv preprint arXiv:2604.06870}, year={2026} }
`


致谢与许可

RefineAnything 建立在更广泛的扩散和多模态生态系统的思想和组件之上(包括 Qwen2.5-VLQwen-Image 以及带有 VAE + MMDiT 的潜在扩散)。基础模型权重和 API 条款受各自许可协议约束—在重新分发检查点或派生权重前请核实合规性

仓库 代码许可待定(例如 Apache-2.0 或 MIT)—在开源实现时请设置 LICENSE`。

--- Tranlated By Open Ai Tx | Last indexed: 2026-06-29 ---