ThinkSound
🌐 English | 简体中文 | 繁體中文 | Español | Français | 日本語
Si vous trouvez ce projet utile,
une étoile ⭐ sur GitHub serait très appréciée !
ThinkSound est un cadre unifié de génération Any2Audio avec un appariement de flux guidé par le raisonnement Chain-of-Thought (CoT).
Implémentation PyTorch pour la génération et l’édition audio multimodales : générez ou modifiez de l’audio à partir de vidéo, de texte et d’audio, propulsé par un raisonnement étape par étape issu des grands modèles de langage multimodaux (MLLM).
📰 Actualités
- 2025.09.19 🎉 ThinkSound a été accepté à la Conférence Principale NeurIPS 2025 !
- 2025.09.01 🔥 Notre jeu de données AudioCoT est désormais open-source et disponible sur Hugging Face !
- 2025.07.17 🧠 Le finetuning est activé : le code d’entraînement et de finetuning est maintenant accessible publiquement, avec des instructions claires pour personnaliser et étendre ThinkSound avec vos propres données.
- 2025.07.15 📦 Installation et utilisation simplifiées : dépendances sur PyPI pour une installation multiplateforme facile ; des scripts Windows
.batautomatisent la création d’environnement et l’exécution des scripts. - 2025.07.08 🔧 Mise à jour majeure : modèle allégé et optimisation de la mémoire et de l’utilisation du GPU, prend désormais en charge la génération audio à haut débit à grande échelle !
- 2025.07.01 🔥Démo en ligne sur Hugging Face Spaces et ModelScope pour une expérience interactive !
- 2025.07.01 🔥Scripts d’inférence et interface web publiés ;
- 2025.06 🔥Article ThinkSound publié sur arXiv !
- 2025.06 🔥Démo en ligne disponible - essayez-la dès maintenant !
🚀 Fonctionnalités
- Any2Audio : Génération audio à partir de modalités arbitraires — vidéo, texte, audio, ou leurs combinaisons.
- Video-to-Audio SOTA : Atteint des résultats de pointe sur plusieurs benchmarks V2A.
- Raisonnement CoT-Driven : Raisonnement Chain-of-Thought pour une génération audio compositionnelle et contrôlable via MLLMs.
- Édition interactive centrée objet : Affinez ou modifiez des événements sonores spécifiques en cliquant sur des objets visuels ou en utilisant des instructions textuelles.
- Cadre unifié : Un modèle fondation unique prend en charge la génération, l’édition et le flux de travail interactif.
✨ Aperçu de la méthode
ThinkSound décompose la génération et l’édition audio en trois étapes interactives, toutes guidées par le raisonnement Chain-of-Thought (CoT) basé sur MLLM :
- Génération Foley : Générer des paysages sonores fondamentaux, alignés sémantiquement et temporellement à partir de la vidéo.
- Affinement centré objet : Affiner ou ajouter des sons pour des objets spécifiés par l’utilisateur via des clics ou des zones dans la vidéo.
- Édition audio ciblée : Modifier l’audio généré à l’aide d’instructions en langage naturel de haut niveau.
⚡ Démarrage rapide
Préparation de l'environnement :
git clone https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound
conda create -n thinksound python=3.10
conda activate thinksound
pip install thinksound
conda install -y -c conda-forge 'ffmpeg<7'
Download pretrained weights https://huggingface.co/liuhuadai/ThinkSound to Directory ckpts/
model weights can be also downloaded from https://www.modelscope.cn/models/iic/ThinkSound
git lfs install
git clone https://huggingface.co/liuhuadai/ThinkSound ckpts
To improve inference and training speed, you may optionally install a FlashAttention backend compatible with your system and PyTorch version.
✅ Astuce Windows :
Les utilisateurs de Windows peuvent simplement exécuter setup_windows.bat (ou double-cliquer dessus) pour créer automatiquement l'environnement conda, installer toutes les dépendances (y compris FFmpeg) et télécharger le modèle pré-entraîné — aucune configuration manuelle n'est requise.
Assurez-vous quecondaetgitsont installés et disponibles dans le PATH de votre système avant d'exécuter le script.
▶️ Exécuter la démo
#### Linux/macOS
chmod +x scripts/demo.sh
./scripts/demo.sh [use-half]
#### WindowsVous pouvez utiliser le script .bat fourni à la place :
.\scripts\demo.bat [use-half]
Remarque :: Le chemin vers une seule vidéo[utiliser-half](optionnel) : Ajoutez utiliser-half à la fin pour activer l’extraction de caractéristiques en demi-précision.
📦 Inférence par lot
#### Linux/macOS
chmod +x scripts/eval_batch.sh
./scripts/eval_batch.sh [use-half]
#### WindowsUtilisez le script .bat équivalent :
.\scripts\eval_batch.bat [use-half]
Remarque :: Chemin vers le répertoire racine contenant toutes les vidéos .mp4 à traiter (toutes les vidéos doivent avoir la même durée).: Un fichier CSV avec les invites textuelles pour chaque vidéo (voirdemo_test.csvpour le format).(optionnel) : Emplacement où enregistrer l'audio généré. Par défautresults/features.[use-half](optionnel) : Ajoutez use-half à la fin pour activer l'extraction de caractéristiques en demi-précision.
Utilisation de l’interface Web
Pour une expérience interactive, lancez l’interface web Gradio :
python app.py🏋️ Entraînez le modèle
Voir Training.md
📝 À faire & Plans futurs
- - [ ] Publier un modèle de base plus puissant couvrant plusieurs domaines pour offrir une création de foley plus engageante et immersive
- - [ ] Ajouter la prise en charge de modalités supplémentaires et de tâches aval
- - [ ] Publier des modèles à différentes échelles
- - [x] Open source du jeu de données AudioCoT et du pipeline automatisé
- - [x] Publication des scripts d'entraînement pour les modèles ThinkSound
- - [x] Un README de démarrage rapide convivial pour Windows
📄 Licence
Ce projet est publié sous la licence Apache 2.0.
Remarque :
Le code, les modèles et le jeu de données sont uniquement destinés à la recherche et à l'éducation.
L'utilisation commerciale n'est PAS autorisée.
Pour une licence commerciale, veuillez contacter les auteurs.
📦 Composants tiers
- Stable Audio Open VAE (par Stability AI) :
- 📘 Tout le reste du code et des modèles est publié sous la licence Apache 2.0.
Remerciements
Un grand merci à :
- stable-audio-tools (par Stability AI) :
- MMAudio :
📖 Citation
Si ThinkSound vous est utile dans vos recherches ou travaux, veuillez citer notre article :
@misc{liu2025thinksoundchainofthoughtreasoningmultimodal,
title={ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing},
author={Huadai Liu and Jialei Wang and Kaicheng Luo and Wen Wang and Qian Chen and Zhou Zhao and Wei Xue},
year={2025},
eprint={2506.21448},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2506.21448},
}📬 Contact
✨ Feel free to open an issue or contact us via email (liuhuadai@zju.edu.cn) if you have any questions or suggestions!
--- Tranlated By Open Ai Tx | Last indexed: 2025-10-04 ---