ThinkSound
🌐 English | 简体中文 | 繁體中文 | Español | Français | 日本語
Eğer bu projeyi faydalı bulduysanız,
GitHub'da bir yıldız ⭐ bırakırsanız çok memnun oluruz!
Depo düzeni
Bu ThinkSound GitHub deposu, iki ilgili projeyi ayrı dallarda barındırmaktadır:| Dal | Proje | Dokümantasyon |
|-----|-------|----------------|
| master | ThinkSound (NeurIPS 2025) — CoT rehberli akış eşleştirme ile birleşik Any2Audio üretimi | Bu dosya: README.md |
| prismaudio | PrismAudio — video'dan ses'e çok boyutlu CoT-RL ile devam eden çalışma (ICLR 2026) | prismaudio dalında README.md |
ThinkSound için master dalını (bu README) kullanın. PrismAudio için ise prismaudio dalına geçip oradaki README.md dosyasını takip edin.
ThinkSound, Zincirleme Düşünce (CoT) akıl yürütme ile yönlendirilen akış eşleştirmeye sahip birleşik bir Any2Audio üretim çerçevesidir.
Multimodal ses üretimi ve düzenlemesi için PyTorch uygulaması: video, metin ve sesten ses üretin veya düzenleyin; Multimodal Büyük Dil Modellerinin (MLLM) adım adım akıl yürütme yeteneğiyle desteklenir.
📰 Haberler
- 2026.03.24 🔥 PrismAudio aynı repoda
prismaudiodalında yayınlandı — kurulum ve modeller için oradakiREADME.mddosyasına bakın. - 2026.01.26 🎉 PrismAudio, ICLR 2026 Ana Konferansı'na kabul edildi (kod/dökümanlar
prismaudiodalında). - 2025.11.25 🔥 Çevrimiçi PrismAudio Demo yayında.
- 2025.11.25 🔥 PrismAudio makalesi arXiv'de — video'dan ses'e çok boyutlu CoT-RL.
- 2025.09.19 🎉 ThinkSound, NeurIPS 2025 Ana Konferansı'na kabul edildi!
- 2025.09.01 AudioCoT veri setimiz artık açık kaynaklı ve Hugging Face üzerinde erişilebilir!
- 2025.07.17 🧠 İnce ayar etkin: eğitim ve ince ayar kodu artık herkese açık, ThinkSound'u kendi verinizle özelleştirmeniz ve geliştirmeniz için net kullanım yönergeleriyle birlikte.
- 2025.07.15 📦 Kolay kurulum ve kullanım: PyPI bağımlılıkları ile kolay çapraz platform kurulum; Windows
.batbetikleri ortam oluşturmayı ve betik çalıştırmayı otomatikleştirir. - 2025.07.08 🔧 Büyük güncelleme: model hafifletildi ve bellek/GPU kullanımı optimize edildi, artık yüksek verimli ses üretimini destekliyor!
- 2025.07.01 Hugging Face Spaces ve ModelScope üzerinde çevrimiçi demo ile interaktif deneyim!
- 2025.07.01 Çıkarım betikleri ve web arayüzü yayınlandı;
- 2025.06 ThinkSound makalesi arXiv'de yayınlandı!
- 2025.06 Çevrimiçi Demo yayında - hemen deneyin!
Devam Çalışması: PrismAudio (aynı repo, prismaudio dalı)
PrismAudio ThinkSound'un (ICLR 2026) halefidir, yeni bir ad altında geliştirilmiş ancak bu depoda prismaudio dalında tutulmaktadır. Kurulum, kontrol noktaları ve atıf bilgileri için o dalın README.md dosyasına bakınız.
👉 git checkout prismaudio veya dalı GitHub'da açın.
🚀 Özellikler
- Any2Audio: İstenilen herhangi bir modaliteden — video, metin, ses veya bunların kombinasyonlarından — ses üretimi.
- Video'dan Sese SOTA: Birden fazla V2A benchmark'ında son teknoloji (state-of-the-art) sonuçlara ulaşır.
- CoT-Tabanlı Akıl Yürütme: MLLM'ler aracılığıyla birleşik ve kontrol edilebilir ses üretimi için Chain-of-Thought akıl yürütme.
- Etkileşimli Nesne Merkezli Düzenleme: Görsel nesnelere tıklayarak veya metin talimatlarıyla belirli ses olaylarını iyileştirin veya düzenleyin.
- Birleşik Çerçeve: Tek bir temel model; üretim, düzenleme ve etkileşimli iş akışını destekler.
✨ Yöntem Genel Bakış
ThinkSound, ses üretimi ve düzenlemesini, tümü MLLM tabanlı Chain-of-Thought (CoT) akıl yürütmesi ile yönlendirilen üç etkileşimli aşamaya ayırır:
- Foley Üretimi: Videodan, anlamca ve zamanca uyumlu temel ses manzaraları üretir.
- Nesne Merkezli İyileştirme: Videodaki belirli nesneler için tıklama veya bölge seçimiyle sesleri iyileştirin veya ekleyin.
- Hedefli Ses Düzenleme: Üretilen sesi, üst düzey doğal dil talimatlarıyla değiştirin.
⚡ Hızlı Başlangıç
Ortam Hazırlığı:
# ThinkSound code: branch master. PrismAudio: clone with -b prismaudio (see README.md on that branch).
git clone -b master https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound
conda create -n thinksound python=3.10
conda activate thinksound
pip install thinksound
conda install -y -c conda-forge 'ffmpeg<7'
Download pretrained weights https://huggingface.co/liuhuadai/ThinkSound to Directory ckpts/
model weights can be also downloaded from https://www.modelscope.cn/models/iic/ThinkSound
git lfs install
git clone https://huggingface.co/liuhuadai/ThinkSound ckpts
To improve inference and training speed, you may optionally install a FlashAttention backend compatible with your system and PyTorch version.
✅ Windows İpucu:
Windows kullanıcıları, setup_windows.bat dosyasını çalıştırarak (veya çift tıklayarak) conda ortamını otomatik olarak oluşturabilir, tüm bağımlılıkları (FFmpeg dahil) yükleyebilir ve önceden eğitilmiş modeli indirebilir — elle kurulum gerekmez.
Scripti çalıştırmadan önce,condavegit'in sistem PATH'inizde kurulu ve erişilebilir olduğundan emin olun.
▶️ Demoyu Çalıştırın
#### Linux/macOS
chmod +x scripts/demo.sh
./scripts/demo.sh [use-half]
#### WindowsBunun yerine sağlanan .bat betiğini kullanabilirsiniz:
.\scripts\demo.bat [use-half]
Not:: Tek bir videonun yolu[use-half](isteğe bağlı): Yarı hassasiyetli özellik çıkarımını etkinleştirmek için sona use-half ekleyin.
📦 Toplu Çıkarım
#### Linux/macOS
chmod +x scripts/eval_batch.sh
./scripts/eval_batch.sh [use-half]
#### WindowsEşdeğer .bat betiğini kullanın:
.\scripts\eval_batch.bat [use-half]
Not:: İşlenecek tüm .mp4 videoların bulunduğu kök dizinin yolu (tüm videolar aynı sürede olmalıdır).: Her video için metin istemleri içeren bir CSV dosyası (demo_test.csvformatına bakınız).(isteğe bağlı): Oluşturulan sesin kaydedileceği yer. Varsayılan olarakresults/features.[use-half](isteğe bağlı): Yarı hassasiyetli özellik çıkarımını etkinleştirmek için en sona use-half ekleyin.
Web Arayüzü Kullanımı
Etkileşimli bir deneyim için Gradio web arayüzünü başlatın:
python app.py
🏋️ Modeli Eğit
Training.md dosyasına bakın
📄 Lisans
Bu proje Apache 2.0 Lisansı altında yayımlanmıştır.
Not:
Kod, modeller ve veri seti yalnızca araştırma ve eğitim amaçlıdır.
Ticari kullanım İZİN VERİLMEZ.
Ticari lisanslama için lütfen yazarlarla iletişime geçin.
📦 Üçüncü Taraf Bileşenler
- Stable Audio Open VAE (Stability AI tarafından):
- 📘 Tüm diğer kod ve modeller Apache Lisansı 2.0 altında yayımlanmıştır.
Teşekkürler
Çok teşekkürler:
- stable-audio-tools (Stability AI tarafından):
- MMAudio:
📖 Atıf
Eğer projemizi araştırmanızda veya çalışmalarınızda faydalı bulduysanız, lütfen makalemize atıfta bulunun:
@misc{liu2025thinksoundchainofthoughtreasoningmultimodal,
title={ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing},
author={Huadai Liu and Jialei Wang and Kaicheng Luo and Wen Wang and Qian Chen and Zhou Zhao and Wei Xue},
year={2025},
eprint={2506.21448},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2506.21448},
}
@misc{liu2025prismaudiodecomposedchainofthoughtsmultidimensional,
title={PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation},
author={Huadai Liu and Kaicheng Luo and Wen Wang and Qian Chen and Peiwen Sun and Rongjie Huang and Xiangang Li and Jieping Ye and Wei Xue},
year={2025},
eprint={2511.18833},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2511.18833},
}📬 Contact
✨ Feel free to open an issue or contact us via email (liuhuadai@zju.edu.cn) if you have any questions or suggestions!
--- Tranlated By Open Ai Tx | Last indexed: 2026-04-20 ---