Web Analytics

RefineAnything

⭐ 206 stars Japanese by limuloo

RefineAnything

完璧な局所ディテールのためのマルチモーダル領域特化型リファインメント

RefineAnythingは領域特化型画像リファインメントをターゲットにしています:入力画像とユーザー指定の領域(例:スクリブルマスクやバウンディングボックス)を与えると、テキスト、ロゴ、細い構造などの細かいディテールを復元し、編集されていないピクセルはすべて保持します。参照画像あり参照画像なしの両方のリファインメントをサポートします。

Teaser


ニュース

---

ハイライト

---

比較

参照なし定性的比較

Reference-based qualitative comparisons


Installation

pip install -r requirement.txt
重要 — これらのバージョンを正確に固定してください。 RefineAnythingは基盤となるライブラリのわずかな数値の違いに敏感です。以下のバージョンを正確にインストールしてください。新しいバージョンや古いバージョンを使うと、補正された領域に色のずれなどの目に見えるアーティファクトが発生することがあります。
>
> diffusers==0.36.0
transformers==4.55.0
safetensors==0.5.3
peft==0.17.0
``


環境に関する注意

diffusers / transformers / safetensors / peft のバージョンが一致しないと、他の条件が同じでも補正領域に色のずれが生じることを確認しています。以下の例はプロンプト「手を消す」を使用しています:

入力(マスク領域 = 手) 正しい環境 誤った環境(色ずれ)

マスク内部にわずかな色やトーンの不一致が見られ、その他の部分は問題ない場合、まずはパッケージのバージョンを確認してください。


クイックスタート

RefineAnythingを動かすには3つの引数だけが必要です:

| 引数 | 説明 | |----------|-------------| | --input | 元画像 |

| --mask | バイナリマスク(白=修正する領域) | | --prompt | 修正内容 | | --ref | (オプション) ガイド付き修正のための参照画像 |


デモ1 — 参照画像を用いたロゴ修正

参照画像を使って、枕のぼやけたロゴを修正します。 bash python scripts/fast_inference.py \ --input src/input1.png \ --mask src/mask1.png \ --prompt "Refine the LOGO." \ --ref src/ref1.png \ --output output/demo1.png

入力 参照 プロンプト
「ロゴを洗練してください。」
出力


デモ 2 — 参照なしテキスト洗練

建物の看板のぼやけた中国語テキストを洗練する — 参照画像は不要。

bash python scripts/fast_inference.py \ --input src/input2.png \ --mask src/mask2.png \ --prompt "refine the text '鼎好商城'" \ --output output/demo2.png
入力 プロンプト
「テキスト '鼎好商城' をリファインしてください」
出力


ローカルGradioデモ

インタラクティブなテストのためのGradioベースのウェブUIも提供しています。ブラシで領域をなぞり、参照画像をアップロードし、すべての推論パラメータをブラウザ上で調整できます。

bash python app.py

次に、ブラウザで http://localhost:7860 を開きます。アプリは初回起動時にベースモデル(Qwen/Qwen-Image-Edit-2511)とRefineAnything LoRAをHugging Faceから自動的にダウンロードします。

MODEL_DIR 環境変数を使ってカスタムベースモデルのパスを指定できます:

bash MODEL_DIR=/path/to/local/Qwen-Image-Edit-2511 python app.py

Gradioデモの特徴:
  • ブラシで選択:元画像に直接ペイントしてリファインメント領域を定義します。
  • オプションの参照画像:2枚目の画像をアップロードし、必要に応じてブラシで特定の参照領域を切り取れます。
  • フォーカスクロップ:編集領域を自動でクロップおよびズームし、高精細で処理後にシームレスに合成します。
  • Lightning LoRA:ステップ数を減らした高速推論をワンクリックで切り替え可能。
  • ビフォー/アフタースライダー:入力と出力を即座に比較可能。
---

引用

このリポジトリを使用する場合は、以下を引用してください:

bibtex @article{zhou2026refineanything, title={RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details}, author={Zhou, Dewei and Li, You and Yang, Zongxin and Yang, Yi}, journal={arXiv preprint arXiv:2604.06870}, year={2026} }
`


謝辞とライセンス

RefineAnythingは、より広範な拡散およびマルチモーダルエコシステムのアイデアとコンポーネント(Qwen2.5-VLQwen-Image、およびVAE + MMDiTを用いた潜在拡散を含む)に基づいて構築されています。ベースモデルの重みおよびAPIの利用規約はそれぞれのライセンスに従います—チェックポイントや派生重みを再配布する前に遵守状況を確認してください

リポジトリのコードライセンス未定(例:Apache-2.0またはMIT)—実装をオープンソース化する際にLICENSE`を設定してください。

--- Tranlated By Open Ai Tx | Last indexed: 2026-06-29 ---