ThinkSound
🌐 English | 简体中文 | 繁體中文 | Español | Français | 日本語
Si encuentras útil este proyecto,
¡un estrella ⭐ en GitHub sería muy apreciado!
ThinkSound es un marco unificado de generación Any2Audio con coincidencia de flujo guiada por razonamiento de Cadena de Pensamiento (CoT).
Implementación en PyTorch para generación y edición multimodal de audio: genera o edita audio a partir de video, texto y audio, impulsado por razonamiento paso a paso de Modelos de Lenguaje Multimodal Grandes (MLLMs).
📰 Noticias
- 2025.09.19 🎉 ¡ThinkSound ha sido aceptado en la Conferencia Principal de NeurIPS 2025!
- 2025.09.01 🔥 ¡Nuestro conjunto de datos AudioCoT ahora es de código abierto y está disponible en Hugging Face!
- 2025.07.17 🧠 Finetuning habilitado: el código para entrenamiento y ajuste fino ya está disponible públicamente, junto con instrucciones claras para ayudarte a personalizar y ampliar ThinkSound con tus propios datos.
- 2025.07.15 📦 Instalación y usabilidad simplificadas: dependencias en PyPI para configuración fácil multiplataforma; los scripts
.batpara Windows automatizan la creación de entornos y ejecución de scripts. - 2025.07.08 🔧 Actualización mayor: el modelo ha sido aligerado y la memoria y el uso de GPU optimizados, ¡ahora admite generación de audio de alto rendimiento a escala!
- 2025.07.01 🔥Demo en línea en Hugging Face Spaces y ModelScope para experiencia interactiva.
- 2025.07.01 🔥Se publicaron scripts de inferencia y la interfaz web;
- 2025.06 🔥¡El artículo de ThinkSound (ThinkSound paper) está disponible en arXiv!
- 2025.06 🔥Demo en línea está activa – ¡pruébala ahora!
🚀 Características
- Any2Audio: Genera audio desde cualquier modalidad — video, texto, audio o combinaciones de estos.
- Video-a-Audio SOTA: Logra resultados de última generación en múltiples benchmarks V2A.
- Razonamiento CoT: Razonamiento en cadena de pensamiento para generación de audio composicional y controlable mediante MLLMs.
- Edición interactiva centrada en objetos: Refina o edita eventos sonoros específicos haciendo clic en objetos visuales o usando instrucciones de texto.
- Marco unificado: Un modelo base soporta generación, edición y flujo de trabajo interactivo.
✨ Resumen del método
ThinkSound descompone la generación y edición de audio en tres etapas interactivas, todas guiadas por razonamiento CoT basado en MLLM:
- Generación Foley: Genera paisajes sonoros fundamentales, alineados semántica y temporalmente a partir de video.
- Refinamiento centrado en objetos: Refina o añade sonidos para objetos especificados por el usuario mediante clics o regiones en el video.
- Edición de audio dirigida: Modifica el audio generado usando instrucciones de lenguaje natural de alto nivel.
⚡ Inicio Rápido
Preparación del entorno:
git clone https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound
conda create -n thinksound python=3.10
conda activate thinksound
pip install thinksound
conda install -y -c conda-forge 'ffmpeg<7'
Download pretrained weights https://huggingface.co/liuhuadai/ThinkSound to Directory ckpts/
model weights can be also downloaded from https://www.modelscope.cn/models/iic/ThinkSound
git lfs install
git clone https://huggingface.co/liuhuadai/ThinkSound ckpts
To improve inference and training speed, you may optionally install a FlashAttention backend compatible with your system and PyTorch version.
✅ Consejo para Windows:
Los usuarios de Windows pueden simplemente ejecutar setup_windows.bat (o hacer doble clic en él) para crear automáticamente el entorno conda, instalar todas las dependencias (incluido FFmpeg) y descargar el modelo preentrenado — no se requiere configuración manual.
Asegúrate de quecondaygitestén instalados y disponibles en el PATH de tu sistema antes de ejecutar el script.
▶️ Ejecutar la Demostración
#### Linux/macOS
chmod +x scripts/demo.sh
./scripts/demo.sh [use-half]
#### WindowsEn su lugar, puede usar el script .bat proporcionado:
.\scripts\demo.bat [use-half]
Nota:: La ruta a un solo video[use-half](opcional): Añade use-half al final para habilitar la extracción de características en media precisión.
📦 Inferencia por Lotes
#### Linux/macOS
chmod +x scripts/eval_batch.sh
./scripts/eval_batch.sh [use-half]
#### WindowsUtilice el script .bat equivalente:
.\scripts\eval_batch.bat [use-half]
Nota:: Ruta al directorio raíz que contiene todos los videos .mp4 a procesar (todos los videos deben tener la misma duración).: Un archivo CSV con indicaciones de texto para cada video (verdemo_test.csvpara el formato).(opcional): Dónde guardar el audio generado. Por defecto esresults/features.[use-half](opcional): Agregue use-half al final para habilitar la extracción de características en precisión media.
Uso de la Interfaz Web
Para una experiencia interactiva, inicie la interfaz web de Gradio:
python app.py🏋️ Entrena el Modelo
Consulta Training.md
📝 TODO y Planes Futuros
- - [ ] Lanzar un modelo base más potente que cubra múltiples dominios para ofrecer una creación de foley más atractiva e inmersiva
- - [ ] Agregar soporte para modalidades adicionales y tareas posteriores
- - [ ] Lanzar modelos en diferentes escalas
- - [x] Liberar el conjunto de datos AudioCoT y la canalización automatizada como código abierto
- - [x] Publicar scripts de entrenamiento para los modelos ThinkSound
- - [x] Un README de inicio rápido para Windows, amigable para principiantes
📄 Licencia
Este proyecto se publica bajo la Licencia Apache 2.0.
Nota:
El código, los modelos y el conjunto de datos son solo para fines de investigación y educativos.
NO se permite el uso comercial.
Para licencias comerciales, por favor contacte a los autores.
📦 Componentes de Terceros
- Stable Audio Open VAE (por Stability AI):
- 📘 Todo el resto del código y modelos se publica bajo la Licencia Apache 2.0.
Agradecimientos
Muchas gracias a:
- stable-audio-tools (por Stability AI):
- MMAudio:
📖 Citación
Si ThinkSound te resulta útil en tu investigación o trabajo, por favor cita nuestro artículo:
@misc{liu2025thinksoundchainofthoughtreasoningmultimodal,
title={ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing},
author={Huadai Liu and Jialei Wang and Kaicheng Luo and Wen Wang and Qian Chen and Zhou Zhao and Wei Xue},
year={2025},
eprint={2506.21448},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2506.21448},
}📬 Contact
✨ Feel free to open an issue or contact us via email (liuhuadai@zju.edu.cn) if you have any questions or suggestions!
--- Tranlated By Open Ai Tx | Last indexed: 2025-10-04 ---