Web Analytics

ThinkSound

⭐ 1321 stars Spanish by FunAudioLLM

ThinkSound

🌐 English | 简体中文 | 繁體中文 | Español | Français | 日本語

NeurIPS 2025   arXiv   Online Demo   Hugging Face   ModelScope

Si encuentras útil este proyecto,
¡una estrella ⭐ en GitHub sería muy apreciada!


Estructura del repositorio

Este repositorio de GitHub ThinkSound aloja dos proyectos relacionados en ramas separadas:

| Rama | Proyecto | Documentación | |--------|---------|----------------| | master | ThinkSound (NeurIPS 2025) — generación unificada Any2Audio con flujo guiado por CoT | Este archivo: README.md | | prismaudio | PrismAudio — trabajo posterior (ICLR 2026) sobre video-audio con CoT-RL multidimensional | README.md en la rama prismaudio |

Para ThinkSound, usa la rama master (este README). Para PrismAudio, cambia a prismaudio y sigue el README.md allí.


ThinkSound es un marco unificado de generación Any2Audio con flujo guiado por razonamiento Chain-of-Thought (CoT).

Implementación en PyTorch para generación y edición de audio multimodal: genera o edita audio a partir de video, texto y audio, potenciados por razonamiento paso a paso de Modelos Multimodales de Lenguaje Grande (MLLMs).

Teaser


📰 Noticias

---

Trabajo posterior: PrismAudio (mismo repositorio, rama prismaudio)

PrismAudio es el sucesor de ThinkSound (ICLR 2026), desarrollado bajo un nuevo nombre pero mantenido en este repositorio en la rama prismaudio. Instalación, puntos de control y citación están en README.md en esa rama.

👉 git checkout prismaudio o abre la rama en GitHub.


🚀 Características

---

✨ Descripción general del método

ThinkSound descompone la generación y edición de audio en tres etapas interactivas, todas guiadas por razonamiento Chain-of-Thought (CoT) basado en MLLM:

ThinkSound Overview


⚡ Inicio rápido

Preparación del entorno:

# ThinkSound code: branch master. PrismAudio: clone with -b prismaudio (see README.md on that branch).
git clone -b master https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound
conda create -n thinksound python=3.10
conda activate thinksound
pip install thinksound
conda install -y -c conda-forge 'ffmpeg<7'

Download pretrained weights https://huggingface.co/liuhuadai/ThinkSound to Directory ckpts/

model weights can be also downloaded from https://www.modelscope.cn/models/iic/ThinkSound

git lfs install git clone https://huggingface.co/liuhuadai/ThinkSound ckpts

To improve inference and training speed, you may optionally install a FlashAttention backend compatible with your system and PyTorch version.

Consejo para Windows:
Los usuarios de Windows pueden simplemente ejecutar setup_windows.bat (o hacer doble clic en él) para crear automáticamente el entorno conda, instalar todas las dependencias (incluido FFmpeg) y descargar el modelo preentrenado — no se requiere configuración manual.
Asegúrate de que conda y git estén instalados y disponibles en el PATH de tu sistema antes de ejecutar el script.

▶️ Ejecutar la Demostración

#### Linux/macOS

chmod +x scripts/demo.sh
./scripts/demo.sh   <CoT description> [use-half]</code></pre>
#### <strong>Windows</strong></p><p>En su lugar, puede usar el script <code>.bat</code> proporcionado:</p><pre><code class="language-bash">.\scripts\demo.bat <path-to-your-demo-video> <title> <CoT description> [use-half]</code></pre>
<strong>Nota:</strong></p><ul><li><code><ruta-a-tu-video-demo></code>: La ruta a un solo video</li>
<li><code>[use-half]</code> (opcional): Añade use-half al final para habilitar la extracción de características en media precisión.</li></p><p></ul>---</p><h3>📦 Inferencia por Lotes</h3></p><p>#### <strong>Linux/macOS</strong></p><pre><code class="language-bash">chmod +x scripts/eval_batch.sh
./scripts/eval_batch.sh <video_path> <csv_path> <save_path (optional)> [use-half]</code></pre>
#### <strong>Windows</strong></p><p>Utilice el script <code>.bat</code> equivalente:</p><pre><code class="language-bash">.\scripts\eval_batch.bat <video_path> <csv_path> <save_path (optional)> [use-half]</code></pre>
<strong>Nota:</strong></p><ul><li><code><video_path></code>: Ruta al directorio raíz que contiene todos los videos .mp4 a procesar (todos los videos deben tener la misma duración).</li>
<li><code><csv_path></code>: Un archivo CSV con indicaciones de texto para cada video (ver <code>demo_test.csv</code> para el formato).</li>
<li><code><save_path></code> (opcional): Dónde guardar el audio generado. Por defecto es <code>results/features</code>.</li>
<li><code>[use-half]</code> (opcional): Agregue use-half al final para habilitar la extracción de características en precisión media.</li></p><p></ul>---</p><h3>Uso de la Interfaz Web</h3></p><p>Para una experiencia interactiva, inicie la interfaz web de Gradio:</p><pre><code class="language-bash">python app.py</code></pre>
<h2>🏋️ Entrena el Modelo</h2></p><p>Consulta <a href="https://raw.githubusercontent.com/FunAudioLLM/ThinkSound/master/docs/Training.md" target="_blank" rel="noopener noreferrer"><code>Training.md</code></a></p><hr></p><h2>📄 Licencia</h2></p><p>Este proyecto se publica bajo la Licencia Apache 2.0.</p><blockquote><strong>Nota:</strong></blockquote>
<blockquote>El código, los modelos y el conjunto de datos son <strong>solo para fines de investigación y educativos</strong>.</blockquote>
<blockquote><strong>No se permite el uso comercial.</strong></blockquote>
<blockquote>Para licencias comerciales, por favor contacte a los autores.</blockquote></p><p><strong>📦 Componentes de terceros</strong></p><ul><li><strong>Stable Audio Open VAE</strong> (por Stability AI):</li>
  </ul>Este repositorio incluye un VAE ajustado de <a href="https://huggingface.co/stabilityai/stable-audio-open-1.0/" target="_blank" rel="noopener noreferrer">Stable Audio Open</a>, licenciado bajo la <a href="https://raw.githubusercontent.com/FunAudioLLM/ThinkSound/master/./third_party/LICENSE_StabilityAI.md" target="_blank" rel="noopener noreferrer">Licencia de la Comunidad Stability AI</a>.
  <strong>El uso comercial y la redistribución requieren permiso previo de Stability AI.</strong></p><ul><li>📘 <strong>Todo el resto del código y modelos</strong> se publica bajo la Licencia Apache 2.0.</li></p><p></ul>---</p><h2>Agradecimientos</h2></p><p>Muchas gracias a:</p><ul><li><strong>stable-audio-tools</strong> (por Stability AI):</li>
</ul>Por proporcionar un marco fácil de usar para la generación de audio, así como el módulo VAE y los pesos.
<ul><li><strong>MMAudio</strong>:</li>
  </ul>Por la implementación del backbone MM-DiT en el dominio del audio.</p><hr></p><h2>📖 Citación</h2></p><p>Si nuestro proyecto te resulta útil en tu investigación o trabajo, por favor cita nuestro artículo:</p><pre><code class="language-bibtex">@misc{liu2025thinksoundchainofthoughtreasoningmultimodal,
      title={ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing}, 
      author={Huadai Liu and Jialei Wang and Kaicheng Luo and Wen Wang and Qian Chen and Zhou Zhao and Wei Xue},
      year={2025},
      eprint={2506.21448},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2506.21448}, 
}
@misc{liu2025prismaudiodecomposedchainofthoughtsmultidimensional,
          title={PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation}, 
          author={Huadai Liu and Kaicheng Luo and Wen Wang and Qian Chen and Peiwen Sun and Rongjie Huang and Xiangang Li and Jieping Ye and Wei Xue},
          year={2025},
          eprint={2511.18833},
          archivePrefix={arXiv},
          primaryClass={cs.SD},
          url={https://arxiv.org/abs/2511.18833}, 
    }</code></pre></p><hr></p><h2>📬 Contact</h2></p><p>
✨ Feel free to <a href="https://github.com/liuhuadai/ThinkSound/issues" target="_blank" rel="noopener noreferrer">open an issue</a> or contact us via email (<a href="https://raw.githubusercontent.com/FunAudioLLM/ThinkSound/master/mailto:liuhuadai@zju.edu.cn" target="_blank" rel="noopener noreferrer">liuhuadai@zju.edu.cn</a>) if you have any questions or suggestions!</p><p>


---


Tranlated By <a href="https://github.com/OpenAiTx/OpenAiTx" target="_blank" rel="noopener noreferrer">Open Ai Tx</a> | Last indexed: 2026-04-20


---</p>
        </div>
        
        <div class="original-link">
            <strong>Original README:</strong> <a href="https://raw.githubusercontent.com/FunAudioLLM/ThinkSound/master/README.md" target="_blank" rel="noopener noreferrer">View on GitHub</a>
        </div>
    </div>
    
    <div class="footer">
        <p>Translated by <a href="https://github.com/OpenAiTx/OpenAiTx" target="_blank" rel="noopener noreferrer">OpenAiTx</a> | 
        Last updated: 2026-04-20 
    </div>
    
</body>
</html>