Web Analytics

ComfyUI-DaVinci-MagiHuman

⭐ 94 stars Japanese by mjansrud

Edit: このリポジトリは、モデルで十分に良い結果を生成できなかったためアーカイブされました。現在はLTX2.3を使い続けています。 引き続き作業を進めていただいて構いません。

Edit: 注意!これはまだ作業中の段階であり、動作を期待しないでください。 イースター休暇でしばらく離れるため、戻るまで確認できません。 フォークして作業を続けるか、Kijaiがリリースするバージョンを待ってください。

コードは(現時点では、後で変更予定)必要なテキストエンコーダーとwan vaeをhuggingfaceから自動的にダウンロードします。 初回実行時は時間がかかることを想定してください。

ComfyUI-DaVinci-MagiHuman

daVinci-MagiHuman向けのComfyUIカスタムノード。15Bパラメータの単一ストリームトランスフォーマーによる高速な音声・映像生成用。消費者向けGPU(RTX 5090 32GB)に最適化。

特徴

ノード

| ノード | 説明 | |------|-------------| | DaVinci Model Loader | blocks_on_gpu設定可能な蒸留/ベース/SRモデルのロード | | DaVinci TurboVAE Loader | 高速デコード専用VAEのロード | | DaVinci Text Encode | テキストプロンプトから埋め込みへ(外部T5エンコーダー使用可) | | DaVinci Sampler | ノイズ除去ループ(蒸留8ステップ/ベース32ステップ) | | DaVinci Super Resolution | 256p潜在空間をSRモデルで1080pにアップスケール | | DaVinci Decode | TurboVAEによる潜在空間から映像へのデコード(出力オフロード付き) | | DaVinci Video Output | FFmpeg経由でmp4/webmとして保存 |

ワークフロー

Model Loader (distill, 8 blocks on GPU)
  → Text Encode
    → Sampler (256p, 8 steps)
      → [optional] SR Model Loader (1080p_sr) → Super Resolution
        → TurboVAE Loader → Decode → Video Output

要件

モデル設定

HuggingFaceからモデル重みをダウンロードしてください:

cd ComfyUI/models

Clone without large files

GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/GAIR/daVinci-MagiHuman

cd daVinci-MagiHuman

Pull only what you need (skip 540p_sr if you only want 1080p)

git lfs pull --include="distill/,turbo_vae/" # ~61GB - base generation git lfs pull --include="1080p_sr/*" # ~61GB - 1080p upscaling
期待されるディレクトリ構造:

ComfyUI/models/daVinci-MagiHuman/
├── distill/          # 8-step distilled model (~61GB)
├── 1080p_sr/         # Super-resolution model (~61GB)
├── turbo_vae/        # Fast decoder (small)
├── base/             # Full 32-step model (optional, ~30GB)
└── 540p_sr/          # 540p SR (optional, ~61GB)

VRAM ガイド

| blocks_on_gpu | VRAM 使用量 | 速度 | 推奨用途 | |-----------------|-----------|-------|-----------------| | 4 | 約3GB + オーバーヘッド | 最遅 | 16GB GPU | | 8 | 約6GB + オーバーヘッド | 良好 | 24-32GB GPU | | 16 | 約12GB + オーバーヘッド | 高速 | 48GB GPU | | 40 | 約30GB | 最速 | 80GB以上のGPU |

テキストエンコーダー

daVinci-MagiHuman は T5Gemma-9B をテキストエンコーダーとして使用します。DaVinci Text Encode ノードは現在以下を提供しています:

実運用では、T5-XXL または T5Gemma エンコーダーノードを t5_embeds 入力に接続してください。

アーキテクチャ

モデルは映像と音声を同時に生成するシングルストリームトランスフォーマーです:

クレジット

ライセンス

Apache 2.0

--- Tranlated By Open Ai Tx | Last indexed: 2026-04-22 ---