ThinkSound
🌐 English | 简体中文 | 繁體中文 | Español | Français | 日本語
Jeśli uważasz, że ten projekt jest przydatny,
gwiazdka ⭐ na GitHubie będzie mile widziana!
ThinkSound to zunifikowany system generowania Any2Audio z dopasowaniem przepływu kierowanym przez rozumowanie Chain-of-Thought (CoT). Implementacja PyTorch dla multimodalnej generacji i edycji dźwięku: generuj lub edytuj dźwięk z wideo, tekstu i dźwięku, wspierana przez krok po kroku rozumowanie z Multimodalnych Dużych Modeli Językowych (MLLM).
📰 Aktualności
- 2025.11.25 🔥Online PrismAudio Demo już dostępne – wypróbuj teraz!
- 2025.11.25 🔥PrismAudio paper opublikowany na arXiv, pierwszy wielowymiarowy framework CoT-RL dla generowania dźwięku z wideo!
- 2025.09.19 🎉 ThinkSound został przyjęty na NeurIPS 2025 Main Conference!
- 2025.09.01 Nasz zbiór danych AudioCoT jest teraz open-source i dostępny na Hugging Face!
- 2025.07.17 🧠 Dostępne dostrajanie: kod treningowy i dostrajania jest już publiczny wraz z jasnymi instrukcjami, które pomogą Ci dostosować i rozszerzyć ThinkSound o własne dane.
- 2025.07.15 📦 Uproszczona instalacja i użyteczność: zależności dostępne na PyPI dla łatwego wdrożenia cross-platform; skrypty Windows
.batautomatyzują tworzenie środowiska i uruchamianie skryptów. - 2025.07.08 🔧 Duża aktualizacja: model odchudzony i zoptymalizowane zużycie pamięci i GPU, teraz obsługuje generowanie dźwięku na dużą skalę!
- 2025.07.01 Demo online na Hugging Face Spaces oraz ModelScope dla interaktywnej prezentacji!
- 2025.07.01 Udostępniono skrypty do wnioskowania oraz interfejs webowy;
- 2025.06 ThinkSound paper opublikowany na arXiv!
- 2025.06 Demo Online już dostępne – wypróbuj teraz!
🚀 Funkcje
- Any2Audio: Generowanie dźwięku z dowolnych modalności — wideo, tekstu, dźwięku lub ich kombinacji.
- Video-to-Audio SOTA: Osiąga najnowocześniejsze wyniki na wielu benchmarkach V2A.
- CoT-Driven Reasoning: Chain-of-Thought do kompozycyjnej i sterowalnej generacji dźwięku przez MLLM.
- Interaktywna Edycja Obiektowa: Ulepszaj lub edytuj konkretne zdarzenia dźwiękowe klikając w obiekty wizualne lub używając instrukcji tekstowych.
- Zunifikowany Framework: Jeden model bazowy obsługuje generowanie, edycję i interaktywny workflow.
✨ Przegląd Metody
ThinkSound rozbija generowanie i edycję dźwięku na trzy interaktywne etapy, wszystkie sterowane rozumowaniem Chain-of-Thought (CoT) na bazie MLLM:
- Generowanie Foley: Tworzenie podstawowych, semantycznie i czasowo dopasowanych krajobrazów dźwiękowych z wideo.
- Refinacja Obiektowa: Ulepszaj lub dodawaj dźwięki dla wskazanych przez użytkownika obiektów poprzez kliknięcia lub zaznaczenia w wideo.
- Ukierunkowana Edycja Dźwięku: Modyfikuj wygenerowany dźwięk za pomocą wysokopoziomowych poleceń w języku naturalnym.
⚡ Szybki start
Przygotowanie środowiska:
git clone https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound
conda create -n thinksound python=3.10
conda activate thinksound
pip install thinksound
conda install -y -c conda-forge 'ffmpeg<7'
Download pretrained weights https://huggingface.co/liuhuadai/ThinkSound to Directory ckpts/
model weights can be also downloaded from https://www.modelscope.cn/models/iic/ThinkSound
git lfs install
git clone https://huggingface.co/liuhuadai/ThinkSound ckpts
To improve inference and training speed, you may optionally install a FlashAttention backend compatible with your system and PyTorch version.
✅ Wskazówka dla Windows:
Użytkownicy Windows mogą po prostu uruchomić setup_windows.bat (lub kliknąć go dwukrotnie), aby automatycznie utworzyć środowisko conda, zainstalować wszystkie zależności (w tym FFmpeg) i pobrać wytrenowany model — bez konieczności ręcznej konfiguracji.
Przed uruchomieniem skryptu upewnij się, żecondaigitsą zainstalowane i dostępne w zmiennej PATH systemu.
▶️ Uruchom Demo
#### Linux/macOS
chmod +x scripts/demo.sh
./scripts/demo.sh [use-half]
#### WindowsMożesz zamiast tego użyć dołączonego skryptu .bat:
.\scripts\demo.bat [use-half]
Uwaga:<ścieżka-do-twojego-wideo-demo>: Ścieżka do pojedynczego wideo[use-half](opcjonalnie): Dodaj use-half na końcu, aby włączyć ekstrakcję cech w połowie precyzji.
📦 Przetwarzanie wsadowe
#### Linux/macOS
chmod +x scripts/eval_batch.sh
./scripts/eval_batch.sh [use-half]
#### WindowsUżyj równoważnego skryptu .bat:
.\scripts\eval_batch.bat [use-half]
Uwaga:: Ścieżka do katalogu głównego zawierającego wszystkie filmy .mp4 do przetworzenia (wszystkie filmy muszą mieć taką samą długość).: Plik CSV z tekstowymi podpowiedziami dla każdego filmu (zobaczdemo_test.csvdla formatu).(opcjonalnie): Gdzie zapisać wygenerowane audio. Domyślnieresults/features.[use-half](opcjonalnie): Dodaj use-half na końcu, aby włączyć ekstrakcję cech w trybie półprecyzyjnym.
Użycie interfejsu webowego
Aby uzyskać interaktywne doświadczenie, uruchom interfejs webowy Gradio:
python app.py
🏋️ Trening modelu
Zobacz Training.md
📝 TODO i plany na przyszłość
- - [ ] Wydanie bardziej zaawansowanego modelu bazowego obejmującego wiele domen, zapewniającego bardziej angażujące i immersyjne tworzenie efektów foley
- - [ ] Dodanie obsługi dodatkowych modalności i zadań pochodnych
- - [ ] Wydanie modeli o różnych skalach
- - [x] Otwarcie źródła zestawu danych AudioCoT oraz automatycznej linii produkcyjnej
- - [x] Wydanie skryptów treningowych dla modeli ThinkSound
- - [x] Przyjazny dla początkujących README z szybkim startem na Windows
📄 Licencja
Ten projekt jest wydany na licencji Apache 2.0.
Uwaga:
Kod, modele i zestaw danych są przeznaczone wyłącznie do celów badawczych i edukacyjnych.
Użycie komercyjne NIE jest dozwolone.
W sprawie licencji komercyjnych prosimy o kontakt z autorami.
📦 Komponenty zewnętrzne
- Stable Audio Open VAE (by Stability AI):
- 📘 Wszelki inny kod i modele wydawane są na licencji Apache 2.0.
Podziękowania
Wielkie podziękowania dla:
- stable-audio-tools (od Stability AI):
- MMAudio:
📖 Cytowanie
Jeśli ThinkSound okazał się przydatny w Twoich badaniach lub pracy, prosimy o cytowanie naszej publikacji:
@misc{liu2025thinksoundchainofthoughtreasoningmultimodal,
title={ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing},
author={Huadai Liu and Jialei Wang and Kaicheng Luo and Wen Wang and Qian Chen and Zhou Zhao and Wei Xue},
year={2025},
eprint={2506.21448},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2506.21448},
}📬 Contact
✨ Feel free to open an issue or contact us via email (liuhuadai@zju.edu.cn) if you have any questions or suggestions!
--- Tranlated By Open Ai Tx | Last indexed: 2026-01-07 ---