Web Analytics

just-dub-it

⭐ 223 stars Simplified Chinese by justdubit

JustDubit:通过联合音视频扩散实现视频配音

Website Model Dataset

📰 新闻

---

📄 摘要

音视频基础模型,预训练以联合生成声音和视觉内容,最近展现了前所未有的多模态生成与编辑能力,为下游任务开辟了新机遇。

在这些任务中,视频配音可大大受益于此类先验知识,但现有大多数解决方案仍依赖复杂的任务专用流水线,难以应对现实场景。

在本工作中,我们提出了一种单模型方法,通过轻量级LoRA将基础音视频扩散模型适配用于视频到视频配音。该LoRA使模型能够以输入音视频为条件,同时生成翻译后的音频和同步的面部动作。

为了训练此LoRA,我们利用生成模型自身合成同一说话者的多语言配对视频。具体而言,我们生成单个片段内带语言切换的多语言视频,然后对每半段中的面部和音频进行修复,使其匹配另一半的语言。

通过利用音视频模型丰富的生成先验,我们的方法在保持说话者身份和口型同步的同时,对复杂动作和现实动态具有良好的鲁棒性。我们证明该方法生成的配音视频在视觉保真度、口型同步和鲁棒性方面均优于现有配音流水线。


🚀 快速链接

| 资源 | 描述 | |----------|-------------| | 推理流水线 | 使用 JustDubit 流水线运行视频配音 | | 训练指南 | 训练你自己的 JustDubit LoRA |


📦 仓库结构

just-dub-it/
├── packages/
│   ├── ltx-pipelines/     # Inference pipeline for video dubbing
│   │   └── README.md      # Pipeline usage guide
│   ├── ltx-trainer/       # Training tools for JustDubit LoRA
│   │   └── README.md      # Training guide
│   └── ltx-core/          # Core model components
└── README.md              # This file


🎬 推理

请参阅 Pipeline README 了解:

---

🏋️ 训练

请参阅 Trainer README 了解:

--- Tranlated By Open Ai Tx | Last indexed: 2026-03-20 ---