ThinkSound
🌐 English | 简体中文 | 繁體中文 | Español | Français | 日本語
Se você achar este projeto útil,
um star ⭐ no GitHub seria muito apreciado!
ThinkSound é uma estrutura unificada de geração Any2Audio com fluxo guiado por raciocínio Chain-of-Thought (CoT).
Implementação em PyTorch para geração e edição multimodal de áudio: gere ou edite áudio a partir de vídeo, texto e áudio, impulsionado por raciocínio passo a passo de Modelos de Linguagem Multimodal de Grande Escala (MLLMs).
📰 Novidades
- 2025.09.19 🎉 ThinkSound foi aceito na Conferência Principal NeurIPS 2025!
- 2025.09.01 🔥 Nosso conjunto de dados AudioCoT agora é open-source e está disponível no Hugging Face!
- 2025.07.17 🧠 Finetuning habilitado: código para treinamento e ajuste fino agora disponível publicamente, juntamente com instruções claras para ajudar você a customizar e ampliar o ThinkSound com seus próprios dados.
- 2025.07.15 📦 Instalação e usabilidade simplificadas: dependências no PyPI para configuração fácil em múltiplas plataformas; scripts
.batpara Windows automatizam a criação do ambiente e execução dos scripts. - 2025.07.08 🔧 Grande atualização: modelo otimizado e leve, com uso aprimorado de memória e GPU, agora suporta geração de áudio em larga escala!
- 2025.07.01 🔥Demo online no Hugging Face Spaces e ModelScope para experiência interativa!
- 2025.07.01 🔥Scripts de inferência e interface web lançados;
- 2025.06 🔥Artigo ThinkSound publicado no arXiv!
- 2025.06 🔥Demo Online disponível - experimente agora!
🚀 Funcionalidades
- Any2Audio: Gere áudio a partir de qualquer modalidade — vídeo, texto, áudio ou suas combinações.
- Video-to-Audio SOTA: Alcança resultados de última geração em múltiplos benchmarks V2A.
- Raciocínio CoT-Driven: Raciocínio em cadeia para geração de áudio composicional e controlável via MLLMs.
- Edição Interativa Centrada em Objetos: Refine ou edite eventos sonoros específicos clicando em objetos visuais ou usando instruções de texto.
- Framework Unificado: Um modelo base suporta geração, edição e fluxo de trabalho interativo.
✨ Visão Geral do Método
ThinkSound decompõe a geração e edição de áudio em três etapas interativas, todas guiadas pelo raciocínio Chain-of-Thought (CoT) baseado em MLLM:
- Geração Foley: Gere paisagens sonoras fundamentais, semanticamente e temporalmente alinhadas a partir de vídeo.
- Refinamento Centrado em Objetos: Refine ou adicione sons para objetos especificados pelo usuário via cliques ou regiões no vídeo.
- Edição de Áudio Direcionada: Modifique o áudio gerado usando instruções em linguagem natural de alto nível.
⚡ Início Rápido
Preparação do Ambiente:
git clone https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound
conda create -n thinksound python=3.10
conda activate thinksound
pip install thinksound
conda install -y -c conda-forge 'ffmpeg<7'
Download pretrained weights https://huggingface.co/liuhuadai/ThinkSound to Directory ckpts/
model weights can be also downloaded from https://www.modelscope.cn/models/iic/ThinkSound
git lfs install
git clone https://huggingface.co/liuhuadai/ThinkSound ckpts
To improve inference and training speed, you may optionally install a FlashAttention backend compatible with your system and PyTorch version.
✅ Dica para Windows:
Usuários do Windows podem simplesmente executar setup_windows.bat (ou dar um duplo clique) para criar automaticamente o ambiente conda, instalar todas as dependências (incluindo o FFmpeg) e baixar o modelo pré-treinado — não é necessário configuração manual.
Certifique-se de quecondaegitestejam instalados e disponíveis no PATH do sistema antes de executar o script.
▶️ Execute a Demonstração
#### Linux/macOS
chmod +x scripts/demo.sh
./scripts/demo.sh [use-half]
#### WindowsVocê pode usar o script .bat fornecido em vez disso:
.\scripts\demo.bat [use-half]
Nota:: O caminho para um único vídeo[use-half](opcional): Adicione use-half ao final para ativar a extração de recursos em precisão reduzida.
📦 Inferência em Lote
#### Linux/macOS
chmod +x scripts/eval_batch.sh
./scripts/eval_batch.sh [use-half]
#### WindowsUse o script .bat equivalente:
.\scripts\eval_batch.bat [use-half]
Nota:: Caminho para o diretório raiz contendo todos os vídeos .mp4 a serem processados (todos os vídeos devem ter a mesma duração).: Um arquivo CSV com prompts de texto para cada vídeo (vejademo_test.csvpara o formato).(opcional): Onde salvar o áudio gerado. O padrão éresults/features.[use-half](opcional): Adicione use-half ao final para habilitar a extração de recursos em meia precisão.
Uso da Interface Web
Para uma experiência interativa, inicie a interface web do Gradio:
python app.py🏋️ Treinar o Modelo
Veja Training.md
📝 TODO & Planos Futuros
- - [ ] Lançar um modelo de fundação mais poderoso cobrindo múltiplos domínios para oferecer criação de foley mais envolvente e imersiva
- - [ ] Adicionar suporte para modalidades adicionais e tarefas downstream
- - [ ] Lançar modelos em diferentes escalas
- - [x] Open-source do conjunto de dados AudioCoT e pipeline automatizado
- - [x] Lançar scripts de treinamento para os modelos ThinkSound
- - [x] Um README de início rápido para Windows, amigável para iniciantes
📄 Licença
Este projeto é lançado sob a Licença Apache 2.0.
Nota:
O código, modelos e conjunto de dados são apenas para fins de pesquisa e educação.
Uso comercial NÃO é permitido.
Para licenciamento comercial, entre em contato com os autores.
📦 Componentes de Terceiros
- Stable Audio Open VAE (por Stability AI):
- 📘 Todo o restante do código e modelos são lançados sob a Licença Apache 2.0.
Agradecimentos
Muito obrigado a:
- stable-audio-tools (por Stability AI):
- MMAudio:
📖 Citação
Se você achar o ThinkSound útil em sua pesquisa ou trabalho, por favor cite nosso artigo:
@misc{liu2025thinksoundchainofthoughtreasoningmultimodal,
title={ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing},
author={Huadai Liu and Jialei Wang and Kaicheng Luo and Wen Wang and Qian Chen and Zhou Zhao and Wei Xue},
year={2025},
eprint={2506.21448},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2506.21448},
}📬 Contact
✨ Feel free to open an issue or contact us via email (liuhuadai@zju.edu.cn) if you have any questions or suggestions!
--- Tranlated By Open Ai Tx | Last indexed: 2025-10-04 ---