Web Analytics

ComfyUI-DaVinci-MagiHuman

⭐ 94 stars Spanish by mjansrud

Edición: Este repositorio ha sido archivado ya que no he podido generar resultados buenos (suficientemente) con el modelo, por ahora me quedaré con LTX2.3. Siéntete libre de seguir trabajando en él.

Edición: ¡OJO! Esto aún está en progreso, no esperes que funcione. Me voy de vacaciones de Pascua y no tendré tiempo de revisarlo hasta que regrese. Siéntete libre de hacer un fork y continuar el trabajo, o espera a que Kijai lance su versión.

El código (por ahora, se cambiará más adelante) descargará automáticamente el codificador de texto y el wan vae necesarios desde huggingface, espera que tome un tiempo en la primera ejecución.

ComfyUI-DaVinci-MagiHuman

Nodos personalizados de ComfyUI para daVinci-MagiHuman, un transformador de flujo único de 15 mil millones de parámetros para generación rápida de audio y video. Optimizado para GPUs de consumo (RTX 5090 32GB).

Características

Nodos

| Nodo | Descripción | |------|-------------| | Cargador de Modelo DaVinci | Carga modelo distill/base/SR con blocks_on_gpu configurable | | Cargador DaVinci TurboVAE | Carga el VAE rápido solo para decodificación | | Codificador de Texto DaVinci | Texto a embeddings (acepta codificador T5 externo) | | Sampler DaVinci | Bucle de denoising (8 pasos distill / 32 pasos base) | | Super Resolución DaVinci | Escala latente 256p a 1080p con modelo SR | | Decodificador DaVinci | TurboVAE latente a video con descarga de salida | | Salida de Video DaVinci | Guardar en mp4/webm vía FFmpeg |

Flujo de trabajo

Model Loader (distill, 8 blocks on GPU)
  → Text Encode
    → Sampler (256p, 8 steps)
      → [optional] SR Model Loader (1080p_sr) → Super Resolution
        → TurboVAE Loader → Decode → Video Output

Requisitos

Configuración del modelo

Descargue los pesos del modelo desde HuggingFace:

cd ComfyUI/models

Clone without large files

GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/GAIR/daVinci-MagiHuman

cd daVinci-MagiHuman

Pull only what you need (skip 540p_sr if you only want 1080p)

git lfs pull --include="distill/,turbo_vae/" # ~61GB - base generation git lfs pull --include="1080p_sr/*" # ~61GB - 1080p upscaling

Estructura de directorios esperada:

ComfyUI/models/daVinci-MagiHuman/
├── distill/          # 8-step distilled model (~61GB)
├── 1080p_sr/         # Super-resolution model (~61GB)
├── turbo_vae/        # Fast decoder (small)
├── base/             # Full 32-step model (optional, ~30GB)
└── 540p_sr/          # 540p SR (optional, ~61GB)

Guía de VRAM

| blocks_on_gpu | Uso de VRAM | Velocidad | Recomendado Para | |-----------------|-------------|-----------|------------------| | 4 | ~3GB + overhead | Más lento | GPUs de 16GB | | 8 | ~6GB + overhead | Bueno | GPUs de 24-32GB | | 16 | ~12GB + overhead | Rápido | GPUs de 48GB | | 40 | ~30GB | Más rápido | GPUs de 80GB+ |

Codificador de Texto

daVinci-MagiHuman usa T5Gemma-9B como su codificador de texto. El nodo DaVinci Text Encode actualmente proporciona:

Para uso en producción, conecta un nodo codificador T5-XXL o T5Gemma a la entrada t5_embeds.

Arquitectura

El modelo es un transformador de flujo único que genera video y audio conjuntamente:

Créditos

Licencia

Apache 2.0

--- Tranlated By Open Ai Tx | Last indexed: 2026-04-22 ---