Web Analytics

ComfyUI-DaVinci-MagiHuman

⭐ 94 stars Korean by mjansrud

수정: 이 저장소는 모델로 좋은(충분한) 결과를 생성하지 못해 아카이브되었습니다. 당분간 LTX2.3을 사용할 예정입니다. 계속 작업하셔도 좋습니다.

수정: 주의! 아직 진행 중인 작업이며 작동을 기대하지 마세요. 부활절 휴가로 자리를 비워 돌아오기 전까지는 볼 시간이 없습니다. 포크하여 작업을 이어가거나 Kijai가 자신의 버전을 출시할 때까지 기다리셔도 됩니다.

코드는 (현재는, 나중에 변경 예정) 필요한 텍스트 인코더와 wan vae를 huggingface에서 자동으로 다운로드합니다. 첫 실행 시 시간이 좀 걸릴 수 있습니다.

ComfyUI-DaVinci-MagiHuman

daVinci-MagiHuman를 위한 ComfyUI 커스텀 노드입니다. 15B 파라미터 단일 스트림 트랜스포머로 빠른 오디오-비디오 생성에 최적화되어 있습니다. 소비자용 GPU(RTX 5090 32GB)에 최적화되어 있습니다.

기능

노드

| 노드 | 설명 | |------|-------------| | DaVinci 모델 로더 | 구성 가능한 blocks_on_gpu로 디스틸/베이스/SR 모델 로드 | | DaVinci TurboVAE 로더 | 빠른 디코드 전용 VAE 로드 | | DaVinci 텍스트 인코더 | 텍스트 프롬프트를 임베딩으로 변환 (외부 T5 인코더 사용 가능) | | DaVinci 샘플러 | 디노이징 루프 (8단계 디스틸 / 32단계 베이스) | | DaVinci 슈퍼 해상도 | 256p 잠재공간을 SR 모델로 1080p 업스케일 | | DaVinci 디코드 | TurboVAE 잠재공간을 비디오로 변환하며 출력 오프로드 수행 | | DaVinci 비디오 출력 | FFmpeg를 통한 mp4/webm 저장 |

작업 흐름

Model Loader (distill, 8 blocks on GPU)
  → Text Encode
    → Sampler (256p, 8 steps)
      → [optional] SR Model Loader (1080p_sr) → Super Resolution
        → TurboVAE Loader → Decode → Video Output

요구 사항

모델 설정

HuggingFace에서 모델 가중치를 다운로드하세요:

cd ComfyUI/models

Clone without large files

GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/GAIR/daVinci-MagiHuman

cd daVinci-MagiHuman

Pull only what you need (skip 540p_sr if you only want 1080p)

git lfs pull --include="distill/,turbo_vae/" # ~61GB - base generation git lfs pull --include="1080p_sr/*" # ~61GB - 1080p upscaling
예상 디렉터리 구조:

ComfyUI/models/daVinci-MagiHuman/
├── distill/          # 8-step distilled model (~61GB)
├── 1080p_sr/         # Super-resolution model (~61GB)
├── turbo_vae/        # Fast decoder (small)
├── base/             # Full 32-step model (optional, ~30GB)
└── 540p_sr/          # 540p SR (optional, ~61GB)

VRAM 가이드

| blocks_on_gpu | VRAM 사용량 | 속도 | 권장 대상 | |-----------------|-----------|-------|-----------------| | 4 | 약 3GB + 오버헤드 | 가장 느림 | 16GB GPU | | 8 | 약 6GB + 오버헤드 | 양호 | 24-32GB GPU | | 16 | 약 12GB + 오버헤드 | 빠름 | 48GB GPU | | 40 | 약 30GB | 가장 빠름 | 80GB 이상 GPU |

텍스트 인코더

daVinci-MagiHuman은 T5Gemma-9B를 텍스트 인코더로 사용합니다. DaVinci Text Encode 노드는 현재 다음을 제공합니다:

실제 사용 시에는 T5-XXL 또는 T5Gemma 인코더 노드를 t5_embeds 입력에 연결하세요.

아키텍처

모델은 비디오와 오디오를 함께 생성하는 단일 스트림 트랜스포머입니다:

크레딧

라이선스

Apache 2.0

--- Tranlated By Open Ai Tx | Last indexed: 2026-04-22 ---