JustDubit：通过联合音视频扩散实现视频配音

Name: just-dub-it
Rating: 5 (223 reviews)
Author: justdubit

📰 新闻

[2026/02/10] 🔥 代码、检查点和数据已发布
[2026/01/29] 🔥 技术报告发布

---

📄 摘要

音视频基础模型，预训练以联合生成声音和视觉内容，最近展现了前所未有的多模态生成与编辑能力，为下游任务开辟了新机遇。

在这些任务中，视频配音可大大受益于此类先验知识，但现有大多数解决方案仍依赖复杂的任务专用流水线，难以应对现实场景。

在本工作中，我们提出了一种单模型方法，通过轻量级LoRA将基础音视频扩散模型适配用于视频到视频配音。该LoRA使模型能够以输入音视频为条件，同时生成翻译后的音频和同步的面部动作。

为了训练此LoRA，我们利用生成模型自身合成同一说话者的多语言配对视频。具体而言，我们生成单个片段内带语言切换的多语言视频，然后对每半段中的面部和音频进行修复，使其匹配另一半的语言。

通过利用音视频模型丰富的生成先验，我们的方法在保持说话者身份和口型同步的同时，对复杂动作和现实动态具有良好的鲁棒性。我们证明该方法生成的配音视频在视觉保真度、口型同步和鲁棒性方面均优于现有配音流水线。

🚀 快速链接

| 资源 | 描述 | |----------|-------------| | 推理流水线 | 使用 JustDubit 流水线运行视频配音 | | 训练指南 | 训练你自己的 JustDubit LoRA |

📦 仓库结构

just-dub-it/
├── packages/
│   ├── ltx-pipelines/     # Inference pipeline for video dubbing
│   │   └── README.md      # Pipeline usage guide
│   ├── ltx-trainer/       # Training tools for JustDubit LoRA
│   │   └── README.md      # Training guide
│   └── ltx-core/          # Core model components
└── README.md              # This file

🎬 推理

请参阅 Pipeline README 了解：

安装说明
模型检查点下载
提示格式指南
CLI 参数参考

---

🏋️ 训练

请参阅 Trainer README 了解：

数据集下载与准备
预处理流程
训练配置
多GPU训练设置

--- Tranlated By Open Ai Tx | Last indexed: 2026-03-20 ---