ThinkSound
🌐 English | 简体中文 | 繁體中文 | Español | Français | 日本語
Als je dit project nuttig vindt,
wordt een ster ⭐ op GitHub zeer gewaardeerd!
ThinkSound is een uniform Any2Audio generatiekader met flow matching gestuurd door Chain-of-Thought (CoT) redeneren.
PyTorch-implementatie voor multimodale audiogeneratie en -bewerking: genereer of bewerk audio vanuit video, tekst en audio, aangedreven door stapsgewijze redenering van Multimodale Grote Taalmodellen (MLLMs).
📰 Nieuws
- 2025.09.19 🎉 ThinkSound is geaccepteerd voor de NeurIPS 2025 Hoofdconferentie!
- 2025.09.01 🔥 Onze AudioCoT-dataset is nu open-source en beschikbaar op Hugging Face!
- 2025.07.17 🧠 Finetuning ingeschakeld: trainings- en finetuningcode is nu publiekelijk beschikbaar, samen met duidelijke gebruiksinstructies om ThinkSound te personaliseren en uit te breiden met je eigen data.
- 2025.07.15 📦 Vereenvoudigde installatie en bruikbaarheid: afhankelijkheden op PyPI voor eenvoudige cross-platform installatie; Windows
.bat-scripts automatiseren het aanmaken van omgevingen en het uitvoeren van scripts. - 2025.07.08 🔧 Grote update: model is lichter gemaakt en geoptimaliseerd voor geheugen- en GPU-gebruik, ondersteunt nu grootschalige audiogeneratie met hoge doorvoer!
- 2025.07.01 🔥Online demo op Hugging Face Spaces en ModelScope voor een interactieve ervaring!
- 2025.07.01 🔥Inference-scripts en webinterface vrijgegeven;
- 2025.06 🔥ThinkSound-paper uitgebracht op arXiv!
- 2025.06 🔥Online Demo is live - probeer het nu uit!
🚀 Functionaliteiten
- Any2Audio: Genereer audio vanuit willekeurige modaliteiten — video, tekst, audio of hun combinaties.
- Video-naar-Audio SOTA: Behaalt state-of-the-art resultaten op meerdere V2A benchmarks.
- CoT-Gestuurde Redenering: Chain-of-Thought-redenering voor compositorische en controleerbare audiogeneratie via MLLMs.
- Interactieve Objectgerichte Bewerking: Verfijn of bewerk specifieke geluidsgebeurtenissen door te klikken op visuele objecten of tekstinstructies te gebruiken.
- Uniform Framework: Eén basismodel ondersteunt generatie, bewerking en interactieve workflows.
✨ Methode Overzicht
ThinkSound splitst audiogeneratie en -bewerking op in drie interactieve stadia, allemaal geleid door CoT-redenering op basis van MLLM:
- Foley-generatie: Genereer fundamentele, semantisch en temporeel uitgelijnde geluidslandschappen vanuit video.
- Objectgerichte verfijning: Verfijn of voeg geluiden toe voor door de gebruiker gespecificeerde objecten via klikken of regio's in de video.
- Gerichte audiobewerking: Pas gegenereerde audio aan met behulp van natuurlijke taal instructies op hoog niveau.
⚡ Snelle start
Omgevingsvoorbereiding:
git clone https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound
conda create -n thinksound python=3.10
conda activate thinksound
pip install thinksound
conda install -y -c conda-forge 'ffmpeg<7'
Download pretrained weights https://huggingface.co/liuhuadai/ThinkSound to Directory ckpts/
model weights can be also downloaded from https://www.modelscope.cn/models/iic/ThinkSound
git lfs install
git clone https://huggingface.co/liuhuadai/ThinkSound ckpts
To improve inference and training speed, you may optionally install a FlashAttention backend compatible with your system and PyTorch version.
✅ Windows Tip:
Windows-gebruikers kunnen eenvoudig setup_windows.bat uitvoeren (of dubbelklikken) om automatisch de conda-omgeving aan te maken, alle afhankelijkheden te installeren (inclusief FFmpeg) en het voorgetrainde model te downloaden — geen handmatige installatie vereist.
Zorg ervoor datcondaengitzijn geïnstalleerd en beschikbaar zijn in je systeem-PATH voordat je het script uitvoert.
▶️ Demo uitvoeren
#### Linux/macOS
chmod +x scripts/demo.sh
./scripts/demo.sh [use-half]
#### WindowsU kunt in plaats daarvan het meegeleverde .bat-script gebruiken:
.\scripts\demo.bat [use-half]
Opmerking:: Het pad naar een enkele video[use-half](optioneel): Voeg use-half toe aan het einde om halfprecisie feature-extractie in te schakelen.
📦 Batch-inferentie
#### Linux/macOS
chmod +x scripts/eval_batch.sh
./scripts/eval_batch.sh [use-half]
#### WindowsGebruik het equivalente .bat-script:
.\scripts\eval_batch.bat [use-half]
Opmerking:: Pad naar de hoofdmap met alle .mp4-video’s die verwerkt moeten worden (alle video’s moeten even lang zijn).: Een CSV-bestand met tekstprompts voor elke video (ziedemo_test.csvvoor het formaat).(optioneel): Locatie om gegenereerde audio op te slaan. Standaardresults/features.[use-half](optioneel): Voeg use-half toe aan het einde om extractie met halve precisie in te schakelen.
Gebruik van de webinterface
Voor een interactieve ervaring start je de Gradio webinterface:
python app.py🏋️ Train het model
Zie Training.md
📝 TODO & Toekomstplannen
- - [ ] Uitbrengen van een krachtiger basismodel dat meerdere domeinen bestrijkt voor meer boeiende en meeslepende foley-creatie
- - [ ] Ondersteuning toevoegen voor extra modaliteiten en vervolgopdrachten
- - [ ] Modellen uitbrengen op verschillende schalen
- - [x] Open-source AudioCoT dataset en geautomatiseerde pipeline
- - [x] Trainingsscripts voor ThinkSound-modellen uitbrengen
- - [x] Een beginnersvriendelijke Windows quick-start README
📄 Licentie
Dit project wordt uitgebracht onder de Apache 2.0-licentie.
Let op:
De code, modellen en dataset zijn alleen voor onderzoeks- en educatieve doeleinden.
Commercieel gebruik is NIET toegestaan.
Voor commerciële licenties kunt u contact opnemen met de auteurs.
📦 Componenten van derden
- Stable Audio Open VAE (door Stability AI):
- 📘 Alle overige code en modellen worden uitgebracht onder de Apache License 2.0.
Dankbetuigingen
Veel dank aan:
- stable-audio-tools (door Stability AI):
- MMAudio:
📖 Referentie
Als u ThinkSound nuttig vindt in uw onderzoek of werk, citeer dan onze paper:
@misc{liu2025thinksoundchainofthoughtreasoningmultimodal,
title={ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing},
author={Huadai Liu and Jialei Wang and Kaicheng Luo and Wen Wang and Qian Chen and Zhou Zhao and Wei Xue},
year={2025},
eprint={2506.21448},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2506.21448},
}📬 Contact
✨ Feel free to open an issue or contact us via email (liuhuadai@zju.edu.cn) if you have any questions or suggestions!
--- Tranlated By Open Ai Tx | Last indexed: 2025-10-04 ---