Édition : Ce dépôt a été archivé car je n’ai pas réussi à générer de bons résultats (suffisants) avec le modèle, je vais rester sur LTX2.3 pour le moment. N’hésitez pas à continuer à y travailler.
Édition : ATTENTION ! Ceci est encore en cours de développement, ne vous attendez pas à ce que ça fonctionne. Je pars en vacances de Pâques et n’aurai pas le temps de m’en occuper avant mon retour. N’hésitez pas à forker et poursuivre le travail, ou à attendre que Kijai publie sa version.
Le code va (pour l’instant, sera modifié plus tard) télécharger automatiquement l’encodeur de texte requis et le wan vae depuis huggingface, préparez-vous à ce que cela prenne un certain temps lors du premier lancement.
ComfyUI-DaVinci-MagiHuman
Nœuds personnalisés ComfyUI pour daVinci-MagiHuman, un transformeur à flux unique de 15 milliards de paramètres pour une génération rapide audio-vidéo. Optimisé pour les GPU grand public (RTX 5090 32GB).
Fonctionnalités
- Échange CPU/GPU au niveau des blocs — seulement 8 des 40 couches du transformeur sur GPU simultanément (~6GB vs ~30GB)
- Préchargement CUDA asynchrone — transfert du bloc suivant pendant le calcul du bloc actuel
- Mode distillation — génération en 8 étapes sans CFG (le plus rapide)
- Super-résolution 1080p — suréchantillonnage en espace latent depuis une base 256p
- Décodeur TurboVAE — décodage en fenêtre glissante avec déchargement de sortie pour 1080p
- Audio + vidéo — génération conjointe en flux unique
Nœuds
| Nœud | Description |
|------|-------------|
| Chargeur de modèle DaVinci | Charge le modèle distill/base/SR avec blocks_on_gpu configurable |
| Chargeur TurboVAE DaVinci | Charge le VAE rapide en mode décodage seul |
| Encodeur de texte DaVinci | Prompt texte vers embeddings (accepte un encodeur T5 externe) |
| Échantillonneur DaVinci | Boucle de débruitage (8 étapes distill / 32 étapes base) |
| Super-résolution DaVinci | Suréchantillonne le latent 256p en 1080p avec le modèle SR |
| Décodage DaVinci | Latent TurboVAE vers vidéo avec déchargement de sortie |
| Sortie vidéo DaVinci | Sauvegarde au format mp4/webm via FFmpeg |
Flux de travail
Model Loader (distill, 8 blocks on GPU)
→ Text Encode
→ Sampler (256p, 8 steps)
→ [optional] SR Model Loader (1080p_sr) → Super Resolution
→ TurboVAE Loader → Decode → Video OutputExigences
- GPU : RTX 5090 (32 Go) ou mieux. 8 blocs sur GPU fonctionne avec 32 Go de VRAM.
- RAM : 64 Go+ recommandé (le déchargement CPU stocke ~24 Go de poids du modèle dans la RAM système)
- CUDA : GPU compatible CUDA avec prise en charge bf16
- FFmpeg : Requis pour la sortie vidéo
- Packages Python :
safetensors,torch,numpy
Configuration du modèle
Téléchargez les poids du modèle depuis HuggingFace :
cd ComfyUI/modelsClone without large files
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/GAIR/daVinci-MagiHumancd daVinci-MagiHuman
Pull only what you need (skip 540p_sr if you only want 1080p)
git lfs pull --include="distill/,turbo_vae/" # ~61GB - base generation
git lfs pull --include="1080p_sr/*" # ~61GB - 1080p upscalingStructure de répertoires attendue :
ComfyUI/models/daVinci-MagiHuman/
├── distill/ # 8-step distilled model (~61GB)
├── 1080p_sr/ # Super-resolution model (~61GB)
├── turbo_vae/ # Fast decoder (small)
├── base/ # Full 32-step model (optional, ~30GB)
└── 540p_sr/ # 540p SR (optional, ~61GB)Guide VRAM
| blocks_on_gpu | Utilisation VRAM | Vitesse | Recommandé pour |
|-----------------|------------------|---------|-----------------|
| 4 | ~3GB + surcharge | Le plus lent | GPUs 16GB |
| 8 | ~6GB + surcharge | Bon | GPUs 24-32GB |
| 16 | ~12GB + surcharge | Rapide | GPUs 48GB |
| 40 | ~30GB | Le plus rapide | GPUs 80GB+ |
Encodeur de texte
daVinci-MagiHuman utilise T5Gemma-9B comme encodeur de texte. Le nœud DaVinci Text Encode fournit actuellement :
- Embeddings de substitution pour les tests de pipeline (bruit aléatoire — ne produit pas de sortie significative)
- Entrée T5 externe — connecter des embeddings T5 pré-calculés (3584 dim) depuis un autre nœud encodeur
t5_embeds.Architecture
Le modèle est un transformeur à flux unique qui génère conjointement vidéo et audio :
- 15 milliards de paramètres, 40 couches de transformeur
- Taille cachée : 5120, GQA : 40 têtes de requête / 8 KV, Dimension tête : 128
- Couches sandwich : 0-3 et 36-39 ont des normes par modalité (vidéo/audio/texte)
- Couches partagées : 4-35 utilisent un traitement unifié
- Sans incrément de temps : Pas d’incrément explicite — infère l’état de débruitage depuis l’entrée
- Gate par tête : Sigmoïdes apprises sur chaque tête d’attention
Crédits
- daVinci-MagiHuman par SII-GAIR & Sand.ai
- MagiCompiler pour la fusion d’opérateurs
- Basé sur Wan2.2 et TurboVAED
Licence
Apache 2.0
--- Tranlated By Open Ai Tx | Last indexed: 2026-04-22 ---