ThinkSound
🌐 English | 简体中文 | 繁體中文 | Español | Français | 日本語
Eğer bu projeyi faydalı bulduysanız,
GitHub'da bir yıldız ⭐ bırakmanız çok memnuniyet verici olur!
ThinkSound, Zincirleme-Düşünce (CoT) çıkarımıyla yönlendirilen akış eşleştirmesine sahip, birleşik bir Any2Audio üretim çerçevesidir.
Multimodal ses üretimi ve düzenlemesi için PyTorch uygulaması: video, metin ve sesten ses üretin veya düzenleyin, Çok Modlu Büyük Dil Modellerinin (MLLM) adım adım akıl yürütmesiyle desteklenir.
📰 Haberler
- 2025.09.19 🎉 ThinkSound, NeurIPS 2025 Ana Konferansı'na kabul edildi!
- 2025.09.01 🔥 AudioCoT veri setimiz artık açık kaynak ve Hugging Face'de mevcut!
- 2025.07.17 🧠 İnce ayar etkin: eğitim ve ince ayar kodu artık herkese açık, ThinkSound'u kendi verilerinizle özelleştirip genişletmeniz için açık kullanım talimatları ile birlikte.
- 2025.07.15 📦 Basitleştirilmiş kurulum ve kullanılabilirlik: kolay platformlar arası kurulum için PyPI bağımlılıkları; Windows
.batbetikleri ortam oluşturma ve betik çalıştırmayı otomatikleştirir. - 2025.07.08 🔧 Büyük güncelleme: model hafifletildi ve bellek/GPU kullanımı optimize edildi, artık ölçekli yüksek verimli ses üretimini destekliyor!
- 2025.07.01 🔥Hugging Face Spaces ve ModelScope'da çevrimiçi demo ile etkileşimli deneyim!
- 2025.07.01 🔥Çıkarım betikleri ve web arayüzü yayınlandı;
- 2025.06 🔥ThinkSound makalesi arXiv'de yayınlandı!
- 2025.06 🔥Çevrimiçi Demo yayında - hemen deneyin!
🚀 Özellikler
- Any2Audio: Ses üretimi için herhangi bir modallite — video, metin, ses veya bunların kombinasyonları.
- Video'dan Sese SOTA: Birçok V2A benchmark'ında alanında en iyi sonuçlar elde edilmiştir.
- CoT Tabanlı Akıl Yürütme: MLLM'ler aracılığıyla kompozisyonel ve kontrol edilebilir ses üretimi için Chain-of-Thought akıl yürütme.
- Etkileşimli Nesne Merkezli Düzenleme: Görsel nesneler üzerine tıklayarak veya metin talimatları kullanarak belirli ses olaylarını iyileştirin veya düzenleyin.
- Birleşik Çerçeve: Tek temel model üretim, düzenleme ve etkileşimli iş akışını destekler.
✨ Yöntem Genel Bakışı
ThinkSound, ses üretimi ve düzenlemesini, tümü MLLM tabanlı Chain-of-Thought (CoT) akıl yürütmesiyle yönlendirilen üç etkileşimli aşamaya ayırır:
- Foley Üretimi: Videodan temel, anlamsal ve zamansal olarak hizalı ses manzaraları üretin.
- Nesne Merkezli İyileştirme: Videodaki tıklamalar veya bölgeler aracılığıyla, kullanıcı tarafından belirtilen nesneler için sesleri iyileştirin veya ekleyin.
- Hedefli Ses Düzenleme: Üretilen sesi üst düzey doğal dil talimatlarıyla değiştirin.
⚡ Hızlı Başlangıç
Ortam Hazırlığı:
git clone https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound
conda create -n thinksound python=3.10
conda activate thinksound
pip install thinksound
conda install -y -c conda-forge 'ffmpeg<7'
Download pretrained weights https://huggingface.co/liuhuadai/ThinkSound to Directory ckpts/
model weights can be also downloaded from https://www.modelscope.cn/models/iic/ThinkSound
git lfs install
git clone https://huggingface.co/liuhuadai/ThinkSound ckpts
To improve inference and training speed, you may optionally install a FlashAttention backend compatible with your system and PyTorch version.
✅ Windows İpucu:
Windows kullanıcıları, setup_windows.bat dosyasını çalıştırarak (veya çift tıklayarak) conda ortamını otomatik olarak oluşturabilir, tüm bağımlılıkları (FFmpeg dahil) yükleyebilir ve önceden eğitilmiş modeli indirebilir — elle kurulum gerekmez.
Scripti çalıştırmadan önce,condavegit'in sistem PATH'inizde kurulu ve erişilebilir olduğundan emin olun.
▶️ Demoyu Çalıştırın
#### Linux/macOS
chmod +x scripts/demo.sh
./scripts/demo.sh [use-half]
#### WindowsBunun yerine sağlanan .bat betiğini kullanabilirsiniz:
.\scripts\demo.bat [use-half]
Not:: Tek bir videonun yolu[use-half](isteğe bağlı): Yarı hassasiyetli özellik çıkarımını etkinleştirmek için sona use-half ekleyin.
📦 Toplu Çıkarım
#### Linux/macOS
chmod +x scripts/eval_batch.sh
./scripts/eval_batch.sh [use-half]
#### WindowsEşdeğer .bat betiğini kullanın:
.\scripts\eval_batch.bat [use-half]
Not:: İşlenecek tüm .mp4 videoların bulunduğu kök dizinin yolu (tüm videolar aynı sürede olmalıdır).: Her video için metin istemleri içeren bir CSV dosyası (demo_test.csvformatına bakınız).(isteğe bağlı): Oluşturulan sesin kaydedileceği yer. Varsayılan olarakresults/features.[use-half](isteğe bağlı): Yarı hassasiyetli özellik çıkarımını etkinleştirmek için en sona use-half ekleyin.
Web Arayüzü Kullanımı
Etkileşimli bir deneyim için Gradio web arayüzünü başlatın:
python app.py🏋️ Modeli Eğitme
Bakınız Training.md
📝 TODO & Gelecek Planları
- - [ ] Daha güçlü, çoklu alanları kapsayan bir temel model yayınlanarak daha ilgi çekici ve sürükleyici foley üretimi sağlanacak
- - [ ] Ek modlar ve aşağı akış görevleri için destek eklenecek
- - [ ] Farklı ölçeklerde modeller yayınlanacak
- - [x] AudioCoT veri seti ve otomatikleştirilmiş boru hattı açık kaynak yapılacak
- - [x] ThinkSound modelleri için eğitim betikleri yayınlanacak
- - [x] Yeni başlayanlar için Windows hızlı başlangıç README'si hazırlanacak
📄 Lisans
Bu proje Apache 2.0 Lisansı altında yayınlanmıştır.
Not:
Kod, modeller ve veri seti sadece araştırma ve eğitim amaçlıdır.
Ticari kullanımına İZİN VERİLMEMEKTEDİR.
Ticari lisanslama için lütfen yazarlarla iletişime geçiniz.
📦 Üçüncü Taraf Bileşenler
- Stable Audio Open VAE (Stability AI tarafından):
- 📘 Diğer tüm kod ve modeller Apache License 2.0 kapsamında yayınlanmıştır.
Teşekkürler
Çok teşekkürler:
- stable-audio-tools (Stability AI tarafından):
- MMAudio:
📖 Atıf
ThinkSound'u araştırmanızda veya çalışmalarınızda faydalı bulursanız, lütfen makalemize atıfta bulunun:
@misc{liu2025thinksoundchainofthoughtreasoningmultimodal,
title={ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing},
author={Huadai Liu and Jialei Wang and Kaicheng Luo and Wen Wang and Qian Chen and Zhou Zhao and Wei Xue},
year={2025},
eprint={2506.21448},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2506.21448},
}📬 Contact
✨ Feel free to open an issue or contact us via email (liuhuadai@zju.edu.cn) if you have any questions or suggestions!
--- Tranlated By Open Ai Tx | Last indexed: 2025-10-04 ---