ThinkSound
🌐 English | 简体中文 | 繁體中文 | Español | Français | 日本語
Jeśli uważasz, że ten projekt jest przydatny,
będziemy bardzo wdzięczni za gwiazdkę ⭐ na GitHub!
Struktura repozytorium
To repozytorium ThinkSound na GitHubie zawiera dwa powiązane projekty na oddzielnych gałęziach:
| Gałąź | Projekt | Dokumentacja |
|--------|---------|----------------|
| master | ThinkSound (NeurIPS 2025) — zunifikowana generacja Any2Audio z dopasowaniem przepływu prowadzonym przez CoT | Ten plik: README.md |
| prismaudio | PrismAudio — praca kontynuacyjna (ICLR 2026) na temat video-to-audio z wielowymiarowym CoT-RL | README.md na gałęzi prismaudio |
Dla ThinkSound użyj gałęzi master (ten README). Dla PrismAudio przejdź na prismaudio i postępuj zgodnie z README.md tam.
ThinkSound to zunifikowany framework generacji Any2Audio z dopasowaniem przepływu prowadzonym przez Chain-of-Thought (CoT).
Implementacja w PyTorch do multimodalnej generacji i edycji dźwięku: generuj lub edytuj audio z wideo, tekstu i audio, zasilana przez rozumowanie krok po kroku z Multimodalnymi Dużymi Modelami Językowymi (MLLM).
📰 Aktualności
- 2026.03.24 🔥 PrismAudio wydany w tym samym repozytorium na gałęzi
prismaudio— zobaczREADME.mdtam, aby uzyskać instrukcje i modele. - 2026.01.26 🎉 PrismAudio zaakceptowany na ICLR 2026 Main Conference (kod/dokumentacja na
prismaudio). - 2025.11.25 🔥 PrismAudio Demo Online jest dostępne.
- 2025.11.25 🔥 PrismAudio paper na arXiv — wielowymiarowy CoT-RL dla video-to-audio.
- 2025.09.19 🎉 ThinkSound zaakceptowany na NeurIPS 2025 Main Conference!
- 2025.09.01 Nasz zbiór danych AudioCoT jest już otwartoźródłowy i dostępny na Hugging Face!
- 2025.07.17 🧠 Finetuning włączony: kod do treningu i finetuningu jest już publiczny, z jasnymi instrukcjami użytkowania, które pozwalają dostosować i rozbudować ThinkSound o własne dane.
- 2025.07.15 📦 Uproszczona instalacja i użyteczność: zależności dostępne na PyPI dla łatwego, wieloplatformowego wdrożenia; skrypty Windows
.batautomatyzują tworzenie środowiska i uruchamianie skryptów. - 2025.07.08 🔧 Duża aktualizacja: model odchudzony i zoptymalizowano użycie pamięci oraz GPU, teraz obsługuje generację audio na dużą skalę!
- 2025.07.01 Demo online na Hugging Face Spaces oraz ModelScope dla interaktywnego doświadczenia!
- 2025.07.01 Wydano skrypty do inferencji i interfejs webowy;
- 2025.06 ThinkSound paper wydany na arXiv!
- 2025.06 Demo Online jest dostępne - wypróbuj teraz!
Kontynuacja: PrismAudio (to samo repozytorium, gałąź prismaudio)
PrismAudio jest następcą ThinkSound (ICLR 2026), rozwijanym pod nową nazwą, ale utrzymywanym w tym repozytorium na gałęzi prismaudio. Instrukcje instalacji, punkty kontrolne i cytowanie znajdują się w README.md na tej gałęzi.
👉 git checkout prismaudio lub otwórz gałąź na GitHubie.
🚀 Funkcje
- Any2Audio: Generowanie dźwięku z dowolnych modalności — wideo, tekstu, audio lub ich kombinacji.
- Video-to-Audio SOTA: Osiąga najlepsze wyniki na wielu benchmarkach V2A.
- CoT-Driven Reasoning: Chain-of-Thought reasoning do kompozycyjnego i kontrolowanego generowania dźwięku przez MLLM.
- Interaktywna Edycja Obiektowa: Poprawiaj lub edytuj określone zdarzenia dźwiękowe klikając na obiekty wizualne lub używając instrukcji tekstowych.
- Zunifikowany Framework: Jeden model bazowy obsługuje generowanie, edycję i interaktywny workflow.
✨ Przegląd Metody
ThinkSound rozbija generowanie i edycję dźwięku na trzy interaktywne etapy, wszystkie prowadzone przez Chain-of-Thought (CoT) oparty na MLLM:
- Generowanie Foley: Tworzenie podstawowych, semantycznie i czasowo dopasowanych pejzaży dźwiękowych z wideo.
- Doprecyzowanie obiektowe: Poprawianie lub dodawanie dźwięków dla wybranych przez użytkownika obiektów za pomocą kliknięć lub wskazanych obszarów na wideo.
- Celowana edycja audio: Modyfikacja wygenerowanego dźwięku za pomocą wysokopoziomowych instrukcji języka naturalnego.
⚡ Szybki Start
Przygotowanie środowiska:
# ThinkSound code: branch master. PrismAudio: clone with -b prismaudio (see README.md on that branch).
git clone -b master https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound
conda create -n thinksound python=3.10
conda activate thinksound
pip install thinksound
conda install -y -c conda-forge 'ffmpeg<7'
Download pretrained weights https://huggingface.co/liuhuadai/ThinkSound to Directory ckpts/
model weights can be also downloaded from https://www.modelscope.cn/models/iic/ThinkSound
git lfs install
git clone https://huggingface.co/liuhuadai/ThinkSound ckpts
To improve inference and training speed, you may optionally install a FlashAttention backend compatible with your system and PyTorch version.
✅ Wskazówka dla Windows:
Użytkownicy Windows mogą po prostu uruchomić setup_windows.bat (lub kliknąć go dwukrotnie), aby automatycznie utworzyć środowisko conda, zainstalować wszystkie zależności (w tym FFmpeg) i pobrać wytrenowany model — bez konieczności ręcznej konfiguracji.
Przed uruchomieniem skryptu upewnij się, żecondaigitsą zainstalowane i dostępne w zmiennej PATH systemu.
▶️ Uruchom Demo
#### Linux/macOS
chmod +x scripts/demo.sh
./scripts/demo.sh [use-half]
#### WindowsMożesz zamiast tego użyć dołączonego skryptu .bat:
.\scripts\demo.bat [use-half]
Uwaga:<ścieżka-do-twojego-wideo-demo>: Ścieżka do pojedynczego wideo[use-half](opcjonalnie): Dodaj use-half na końcu, aby włączyć ekstrakcję cech w połowie precyzji.
📦 Przetwarzanie wsadowe
#### Linux/macOS
chmod +x scripts/eval_batch.sh
./scripts/eval_batch.sh [use-half]
#### WindowsUżyj równoważnego skryptu .bat:
.\scripts\eval_batch.bat [use-half]
Uwaga:: Ścieżka do katalogu głównego zawierającego wszystkie filmy .mp4 do przetworzenia (wszystkie filmy muszą mieć taką samą długość).: Plik CSV z tekstowymi podpowiedziami dla każdego filmu (zobaczdemo_test.csvdla formatu).(opcjonalnie): Gdzie zapisać wygenerowane audio. Domyślnieresults/features.[use-half](opcjonalnie): Dodaj use-half na końcu, aby włączyć ekstrakcję cech w trybie półprecyzyjnym.
Użycie interfejsu webowego
Aby uzyskać interaktywne doświadczenie, uruchom interfejs webowy Gradio:
python app.py🏋️ Trening modelu
Zobacz Training.md
📄 Licencja
Ten projekt jest udostępniany na licencji Apache 2.0.
Uwaga:
Kod, modele i zestaw danych są wyłącznie do celów badawczych i edukacyjnych.
Użycie komercyjne NIE jest dozwolone.
W sprawie licencjonowania komercyjnego prosimy o kontakt z autorami.
📦 Komponenty zewnętrzne
- Stable Audio Open VAE (autor: Stability AI):
- 📘 Cały pozostały kod i modele są udostępnione na licencji Apache 2.0.
Podziękowania
Serdeczne podziękowania dla:
- stable-audio-tools (autor: Stability AI):
- MMAudio:
📖 Cytowanie
Jeśli nasz projekt okazał się przydatny w Twoich badaniach lub pracy, prosimy o cytowanie naszej publikacji:
@misc{liu2025thinksoundchainofthoughtreasoningmultimodal,
title={ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing},
author={Huadai Liu and Jialei Wang and Kaicheng Luo and Wen Wang and Qian Chen and Zhou Zhao and Wei Xue},
year={2025},
eprint={2506.21448},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2506.21448},
}
@misc{liu2025prismaudiodecomposedchainofthoughtsmultidimensional,
title={PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation},
author={Huadai Liu and Kaicheng Luo and Wen Wang and Qian Chen and Peiwen Sun and Rongjie Huang and Xiangang Li and Jieping Ye and Wei Xue},
year={2025},
eprint={2511.18833},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2511.18833},
}📬 Contact
✨ Feel free to open an issue or contact us via email (liuhuadai@zju.edu.cn) if you have any questions or suggestions!
--- Tranlated By Open Ai Tx | Last indexed: 2026-04-20 ---