Web Analytics

RefineAnything

⭐ 206 stars Korean by limuloo

RefineAnything

완벽한 국부 디테일을 위한 멀티모달 영역별 정교화

RefineAnything은 영역별 이미지 정교화를 목표로 합니다: 입력 이미지와 사용자가 지정한 영역(예: 스크리블 마스크 또는 바운딩 박스)을 받아, 텍스트, 로고, 얇은 구조물 등 세밀한 디테일을 복원하면서 편집되지 않은 픽셀은 모두 유지합니다. 참조 이미지 기반과 참조 이미지 없는 정교화를 모두 지원합니다.

Teaser


뉴스

---

주요 특징

---

비교

참조 없는 정성적 비교

Reference-based qualitative comparisons


Installation

pip install -r requirement.txt
중요 — 이 버전을 정확히 고정하세요. RefineAnything은 기본 라이브러리의 작은 버전 차이에 민감합니다. 아래 버전을 정확히 설치해 주세요; 최신 또는 구버전을 사용할 경우 정제된 영역에서 색상 왜곡과 같은 눈에 띄는 아티팩트가 발생할 수 있습니다.
>
> diffusers==0.36.0
transformers==4.55.0
safetensors==0.5.3
peft==0.17.0
``


환경 안내

diffusers / transformers / safetensors / peft 버전이 맞지 않으면, 다른 조건이 동일해도 정제된 영역에서 색상 왜곡이 발생할 수 있음을 확인했습니다. 아래 예시는 "remove the hand" 프롬프트를 사용했습니다:

입력 (마스크 영역 = 손) 올바른 환경 잘못된 환경 (색상 왜곡)

출력 결과에서 마스크 내부의 색상/톤이 약간 맞지 않고 나머지 부분이 정상이라면, 가장 먼저 패키지 버전을 확인해 보세요.


빠른 시작

RefineAnything 실행에 필요한 것은 단 세 가지입니다:

| 인자 | 설명 | |----------|-------------| | --input | 원본 이미지 |

| --mask | 이진 마스크 (흰색 = 세밀하게 다듬을 영역) | | --prompt | 다듬을 내용 | | --ref | (선택 사항) 가이드 정제를 위한 참조 이미지 |


데모 1 — 참조 기반 로고 정제

참조 이미지를 사용하여 베개 위의 흐릿한 로고를 정제합니다. bash python scripts/fast_inference.py \ --input src/input1.png \ --mask src/mask1.png \ --prompt "Refine the LOGO." \ --ref src/ref1.png \ --output output/demo1.png

입력 참고 이미지 프롬프트
"로고를 정제하세요."
출력


데모 2 — 참고 이미지 없이 텍스트 정제

건물 간판의 흐릿한 중국어 텍스트를 정제합니다 — 참고 이미지가 필요 없습니다.

bash python scripts/fast_inference.py \ --input src/input2.png \ --mask src/mask2.png \ --prompt "refine the text '鼎好商城'" \ --output output/demo2.png
입력 프롬프트
"텍스트 '鼎好商城' 다듬기"
출력


로컬 그라디오 데모

인터랙티브 테스트를 위해 그라디오 기반 웹 UI도 제공합니다. 브러시로 영역을 지정하고, 참조 이미지를 업로드하며, 모든 추론 파라미터를 브라우저에서 조정할 수 있습니다.

bash python app.py

그런 다음 브라우저에서 http://localhost:7860을 엽니다. 앱은 첫 실행 시 자동으로 기본 모델(Qwen/Qwen-Image-Edit-2511)과 Hugging Face에서 RefineAnything LoRA를 다운로드합니다.

MODEL_DIR 환경 변수를 통해 사용자 지정 기본 모델 경로를 지정할 수 있습니다:

bash MODEL_DIR=/path/to/local/Qwen-Image-Edit-2511 python app.py

Gradio 데모의 특징:
  • 브러시 선택: 원본 이미지에 직접 그려서 세부 조정 영역을 정의합니다.
  • 선택적 참조 이미지: 두 번째 이미지를 업로드하고 선택적으로 브러시로 특정 참조 영역을 자를 수 있습니다.
  • 포커스 크롭: 편집 영역을 자동으로 자르고 확대하여 더 높은 세부 충실도를 제공한 후 원활하게 합성합니다.
  • 라이트닝 LoRA: 더 적은 단계로 빠른 추론을 위한 원클릭 토글 기능.
  • 전후 슬라이더: 입력과 출력을 즉시 비교할 수 있습니다.
---

인용

이 저장소를 사용할 경우, 다음을 인용해 주십시오:

bibtex @article{zhou2026refineanything, title={RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details}, author={Zhou, Dewei and Li, You and Yang, Zongxin and Yang, Yi}, journal={arXiv preprint arXiv:2604.06870}, year={2026} }
`


감사의 글 및 라이선스

RefineAnything은 광범위한 확산 및 멀티모달 생태계(예: Qwen2.5-VL, Qwen-Image, 그리고 VAE + MMDiT를 사용한 잠재 확산)에서 아이디어와 구성 요소를 기반으로 합니다. 기본 모델 가중치 및 API 조건은 각각의 라이선스에 따르며—체크포인트 또는 파생 가중치를 재배포하기 전에 준수 여부를 확인하세요.

레포지토리 코드 라이선스: 미정 (예: Apache-2.0 또는 MIT)—구현을 오픈소스로 공개할 때 LICENSE`를 설정하세요.

--- Tranlated By Open Ai Tx | Last indexed: 2026-06-29 ---