JustDubit : Doublage vidéo via diffusion audio-visuelle conjointe
📰 Actualités
- [2026/02/10] 🔥 Code, checkpoints et données publiés
- [2026/01/29] 🔥 Rapport technique publié
📄 Résumé
Les modèles fondamentaux audio-visuels, préentraînés pour générer conjointement du son et du contenu visuel, ont récemment montré une capacité sans précédent à modéliser la génération et l’édition multimodales, ouvrant de nouvelles opportunités pour les tâches en aval.
Parmi ces tâches, le doublage vidéo pourrait grandement bénéficier de tels savoirs, pourtant la plupart des solutions existantes reposent encore sur des pipelines complexes et spécifiques à la tâche qui peinent dans des contextes réels.
Dans ce travail, nous introduisons une approche mono-modèle qui adapte un modèle fondamental de diffusion audio-vidéo pour le doublage vidéo à vidéo via un LoRA léger. Le LoRA permet au modèle de se conditionner sur une entrée audio-vidéo tout en générant conjointement un audio traduit et un mouvement facial synchronisé.
Pour entraîner ce LoRA, nous exploitons le modèle génératif lui-même pour synthétiser des vidéos multilingues appariées du même locuteur. Plus précisément, nous générons des vidéos multilingues avec des changements de langue au sein d’un même clip, puis nous retouchons le visage et l’audio dans chaque moitié pour correspondre à la langue de l’autre moitié.
En tirant parti du riche savoir génératif du modèle audio-visuel, notre approche préserve l’identité du locuteur et la synchronisation labiale tout en restant robuste aux mouvements complexes et aux dynamiques du monde réel. Nous démontrons que notre approche produit des vidéos doublées de haute qualité avec une fidélité visuelle, une synchronisation labiale et une robustesse améliorées par rapport aux pipelines de doublage existants.
🚀 Liens rapides
| Ressource | Description | |----------|-------------| | Pipeline d’inférence | Exécuter le doublage vidéo avec le pipeline JustDubit | | Guide d’entraînement | Entraîner votre propre LoRA JustDubit |
📦 Structure du dépôt
just-dub-it/
├── packages/
│ ├── ltx-pipelines/ # Inference pipeline for video dubbing
│ │ └── README.md # Pipeline usage guide
│ ├── ltx-trainer/ # Training tools for JustDubit LoRA
│ │ └── README.md # Training guide
│ └── ltx-core/ # Core model components
└── README.md # This file🎬 Inférence
Voir le README du pipeline pour :
- Instructions d'installation
- Téléchargements des checkpoints de modèle
- Guide de format de prompt
- Référence des arguments CLI
🏋️ Entraînement
Voir le README du Trainer pour :
- Téléchargement et préparation du dataset
- Pipeline de prétraitement
- Configuration de l'entraînement
- Configuration multi-GPU pour l'entraînement