ThinkSound
🌐 English | 简体中文 | 繁體中文 | Español | Français | 日本語
Wenn Sie dieses Projekt nützlich finden,
würden wir uns sehr über einen Stern ⭐ auf GitHub freuen!
ThinkSound ist ein einheitliches Any2Audio-Generierungsframework mit Flow Matching, das durch Chain-of-Thought (CoT)-Reasoning gesteuert wird.
PyTorch-Implementierung für multimodale Audiogenerierung und -bearbeitung: Erzeugen oder Bearbeiten von Audio aus Video, Text und Audio, unterstützt durch schrittweise Argumentation von multimodalen großen Sprachmodellen (MLLMs).
📰 Neuigkeiten
- 2025.09.19 🎉 ThinkSound wurde auf der NeurIPS 2025 Hauptkonferenz akzeptiert!
- 2025.09.01 🔥 Unser AudioCoT-Datensatz ist jetzt als Open Source verfügbar auf Hugging Face!
- 2025.07.17 🧠 Finetuning aktiviert: Trainings- und Finetuning-Code ist jetzt öffentlich verfügbar, mit klaren Nutzungsanweisungen, um ThinkSound mit eigenen Daten anzupassen und zu erweitern.
- 2025.07.15 📦 Vereinfachte Installation und Benutzerfreundlichkeit: Abhängigkeiten auf PyPI für einfache plattformübergreifende Einrichtung; Windows-
.bat-Skripte automatisieren die Umgebungserstellung und das Ausführen von Skripten. - 2025.07.08 🔧 Großes Update: Modell verschlankt und optimierte Speicher- sowie GPU-Nutzung, unterstützt jetzt hochdurchsatzfähige Audiogenerierung im großen Maßstab!
- 2025.07.01 🔥Online-Demo auf Hugging Face Spaces und ModelScope für interaktives Erlebnis!
- 2025.07.01 🔥Veröffentlichte Inferenzskripte und Weboberfläche;
- 2025.06 🔥ThinkSound-Paper auf arXiv veröffentlicht!
- 2025.06 🔥Online-Demo ist live – jetzt ausprobieren!
🚀 Funktionen
- Any2Audio: Erzeuge Audio aus beliebigen Modalitäten – Video, Text, Audio oder deren Kombinationen.
- Video-zu-Audio SOTA: Erzielt Spitzenergebnisse auf mehreren V2A-Benchmarks.
- CoT-gesteuerte Argumentation: Chain-of-Thought-Argumentation für zusammensetzbare und kontrollierbare Audiogenerierung via MLLMs.
- Interaktive objektzentrierte Bearbeitung: Verfeinere oder bearbeite gezielt Klangereignisse durch Klicken auf visuelle Objekte oder mit Textanweisungen.
- Vereinheitlichtes Framework: Ein Basismodell unterstützt Generierung, Bearbeitung und interaktiven Workflow.
✨ Methodenüberblick
ThinkSound zerlegt Audiogenerierung und -bearbeitung in drei interaktive Phasen, alle gesteuert durch MLLM-basierte Chain-of-Thought (CoT)-Argumentation:
- Foley-Generierung: Erzeugen von grundlegenden, semantisch und zeitlich ausgerichteten Klanglandschaften aus Video.
- Objektzentrierte Verfeinerung: Verfeinern oder Hinzufügen von Klängen für benutzerspezifizierte Objekte durch Klicks oder Regionen im Video.
- Gezielte Audiobearbeitung: Modifizieren des generierten Audios mit natürlichen Sprachbefehlen auf höherer Ebene.
⚡ Schnellstart
Umgebungsvorbereitung:
git clone https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound
conda create -n thinksound python=3.10
conda activate thinksound
pip install thinksound
conda install -y -c conda-forge 'ffmpeg<7'
Download pretrained weights https://huggingface.co/liuhuadai/ThinkSound to Directory ckpts/
model weights can be also downloaded from https://www.modelscope.cn/models/iic/ThinkSound
git lfs install
git clone https://huggingface.co/liuhuadai/ThinkSound ckpts
To improve inference and training speed, you may optionally install a FlashAttention backend compatible with your system and PyTorch version.
✅ Windows-Tipp:
Windows-Benutzer können einfach setup_windows.bat ausführen (oder doppelt anklicken), um automatisch die Conda-Umgebung zu erstellen, alle Abhängigkeiten zu installieren (einschließlich FFmpeg) und das vortrainierte Modell herunterzuladen — keine manuelle Einrichtung erforderlich.
Stellen Sie sicher, dasscondaundgitinstalliert sind und sich in Ihrem System-PATH befinden, bevor Sie das Skript ausführen.
▶️ Demo ausführen
#### Linux/macOS
chmod +x scripts/demo.sh
./scripts/demo.sh [use-half]
#### WindowsStattdessen können Sie das bereitgestellte .bat-Skript verwenden:
.\scripts\demo.bat [use-half]
Hinweis:: Der Pfad zu einem einzelnen Video[use-half](optional): Fügen Sie use-half am Ende hinzu, um die Extraktion von Merkmalen mit halber Genauigkeit zu aktivieren.
📦 Stapel-Inferenz
#### Linux/macOS
chmod +x scripts/eval_batch.sh
./scripts/eval_batch.sh [use-half]
#### WindowsVerwenden Sie das entsprechende .bat-Skript:
.\scripts\eval_batch.bat [use-half]
Hinweis:: Pfad zum Stammverzeichnis, das alle zu verarbeitenden .mp4-Videos enthält (alle Videos müssen die gleiche Dauer haben).: Eine CSV-Datei mit Text-Inputs für jedes Video (siehedemo_test.csvfür das Format).(optional): Speicherort für die generierte Audiodatei. Standardmäßigresults/features.[use-half](optional): Fügen Sie use-half am Ende hinzu, um die Halbpräzisions-Feature-Extraktion zu aktivieren.
Nutzung der Weboberfläche
Für eine interaktive Erfahrung starten Sie die Gradio-Weboberfläche:
python app.py🏋️ Modell trainieren
Siehe Training.md
📝 TODO & Zukunftspläne
- - [ ] Veröffentlichung eines leistungsfähigeren Foundation-Modells für mehrere Domänen zur Bereitstellung einer ansprechenderen und immersiveren Foley-Erstellung
- - [ ] Unterstützung für zusätzliche Modalitäten und nachgelagerte Aufgaben hinzufügen
- - [ ] Veröffentlichung von Modellen in verschiedenen Größen
- - [x] Open-Source AudioCoT-Datensatz und automatisierte Pipeline
- - [x] Veröffentlichung von Trainingsskripten für ThinkSound-Modelle
- - [x] Ein einsteigerfreundliches Windows-Quickstart-README
📄 Lizenz
Dieses Projekt wird unter der Apache 2.0 Lizenz veröffentlicht.
Hinweis:
Der Code, die Modelle und der Datensatz sind ausschließlich für Forschungs- und Bildungszwecke.
Kommerzielle Nutzung ist NICHT gestattet.
Für kommerzielle Lizenzen kontaktieren Sie bitte die Autoren.
📦 Komponenten Dritter
- Stable Audio Open VAE (von Stability AI):
- 📘 Alle anderen Codes und Modelle sind unter der Apache License 2.0 veröffentlicht.
Danksagungen
Vielen Dank an:
- stable-audio-tools (von Stability AI):
- MMAudio:
📖 Zitation
Wenn ThinkSound für Ihre Forschung oder Arbeit nützlich ist, zitieren Sie bitte unser Paper:
@misc{liu2025thinksoundchainofthoughtreasoningmultimodal,
title={ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing},
author={Huadai Liu and Jialei Wang and Kaicheng Luo and Wen Wang and Qian Chen and Zhou Zhao and Wei Xue},
year={2025},
eprint={2506.21448},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2506.21448},
}📬 Contact
✨ Feel free to open an issue or contact us via email (liuhuadai@zju.edu.cn) if you have any questions or suggestions!
--- Tranlated By Open Ai Tx | Last indexed: 2025-10-04 ---