Web Analytics

ThinkSound

⭐ 1321 stars Turkish by FunAudioLLM

ThinkSound

🌐 English | 简体中文 | 繁體中文 | Español | Français | 日本語

NeurIPS 2025   arXiv   Online Demo   Hugging Face   ModelScope

Eğer bu projeyi faydalı bulduysanız,
GitHub'da bir yıldız ⭐ bırakırsanız çok memnun oluruz!


Depo düzeni

Bu ThinkSound GitHub deposu, iki ilgili projeyi ayrı dallarda barındırmaktadır:

| Dal | Proje | Dokümantasyon | |-----|-------|----------------| | master | ThinkSound (NeurIPS 2025) — CoT rehberli akış eşleştirme ile birleşik Any2Audio üretimi | Bu dosya: README.md | | prismaudio | PrismAudio — video'dan ses'e çok boyutlu CoT-RL ile devam eden çalışma (ICLR 2026) | prismaudio dalında README.md |

ThinkSound için master dalını (bu README) kullanın. PrismAudio için ise prismaudio dalına geçip oradaki README.md dosyasını takip edin.


ThinkSound, Zincirleme Düşünce (CoT) akıl yürütme ile yönlendirilen akış eşleştirmeye sahip birleşik bir Any2Audio üretim çerçevesidir.

Multimodal ses üretimi ve düzenlemesi için PyTorch uygulaması: video, metin ve sesten ses üretin veya düzenleyin; Multimodal Büyük Dil Modellerinin (MLLM) adım adım akıl yürütme yeteneğiyle desteklenir.

Teaser


📰 Haberler

---

Devam Çalışması: PrismAudio (aynı repo, prismaudio dalı)

PrismAudio ThinkSound'un (ICLR 2026) halefidir, yeni bir ad altında geliştirilmiş ancak bu depoda prismaudio dalında tutulmaktadır. Kurulum, kontrol noktaları ve atıf bilgileri için o dalın README.md dosyasına bakınız.

👉 git checkout prismaudio veya dalı GitHub'da açın.


🚀 Özellikler

---

✨ Yöntem Genel Bakış

ThinkSound, ses üretimi ve düzenlemesini, tümü MLLM tabanlı Chain-of-Thought (CoT) akıl yürütmesi ile yönlendirilen üç etkileşimli aşamaya ayırır:

ThinkSound Overview


⚡ Hızlı Başlangıç

Ortam Hazırlığı:

# ThinkSound code: branch master. PrismAudio: clone with -b prismaudio (see README.md on that branch).
git clone -b master https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound
conda create -n thinksound python=3.10
conda activate thinksound
pip install thinksound
conda install -y -c conda-forge 'ffmpeg<7'

Download pretrained weights https://huggingface.co/liuhuadai/ThinkSound to Directory ckpts/

model weights can be also downloaded from https://www.modelscope.cn/models/iic/ThinkSound

git lfs install git clone https://huggingface.co/liuhuadai/ThinkSound ckpts

To improve inference and training speed, you may optionally install a FlashAttention backend compatible with your system and PyTorch version.

Windows İpucu:
Windows kullanıcıları, setup_windows.bat dosyasını çalıştırarak (veya çift tıklayarak) conda ortamını otomatik olarak oluşturabilir, tüm bağımlılıkları (FFmpeg dahil) yükleyebilir ve önceden eğitilmiş modeli indirebilir — elle kurulum gerekmez.
Scripti çalıştırmadan önce, conda ve git'in sistem PATH'inizde kurulu ve erişilebilir olduğundan emin olun.

▶️ Demoyu Çalıştırın

#### Linux/macOS

chmod +x scripts/demo.sh
./scripts/demo.sh   <CoT description> [use-half]</code></pre>
#### <strong>Windows</strong></p><p>Bunun yerine sağlanan <code>.bat</code> betiğini kullanabilirsiniz:</p><pre><code class="language-bash">.\scripts\demo.bat <path-to-your-demo-video> <title> <CoT description> [use-half]</code></pre>
<strong>Not:</strong></p><ul><li><code><path-to-your-demo-video></code>: Tek bir videonun yolu</li>
<li><code>[use-half]</code> (isteğe bağlı): Yarı hassasiyetli özellik çıkarımını etkinleştirmek için sona use-half ekleyin.</li></p><p></ul>---</p><h3>📦 Toplu Çıkarım</h3></p><p>#### <strong>Linux/macOS</strong></p><pre><code class="language-bash">chmod +x scripts/eval_batch.sh
./scripts/eval_batch.sh <video_path> <csv_path> <save_path (optional)> [use-half]</code></pre>
#### <strong>Windows</strong></p><p>Eşdeğer <code>.bat</code> betiğini kullanın:</p><pre><code class="language-bash">.\scripts\eval_batch.bat <video_path> <csv_path> <save_path (optional)> [use-half]</code></pre>
<strong>Not:</strong></p><ul><li><code><video_path></code>: İşlenecek tüm .mp4 videoların bulunduğu kök dizinin yolu (tüm videolar aynı sürede olmalıdır).</li>
<li><code><csv_path></code>: Her video için metin istemleri içeren bir CSV dosyası (<code>demo_test.csv</code> formatına bakınız).</li>
<li><code><save_path></code> (isteğe bağlı): Oluşturulan sesin kaydedileceği yer. Varsayılan olarak <code>results/features</code>.</li>
<li><code>[use-half]</code> (isteğe bağlı): Yarı hassasiyetli özellik çıkarımını etkinleştirmek için en sona use-half ekleyin.</li></p><p></ul>---</p><h3>Web Arayüzü Kullanımı</h3></p><p>Etkileşimli bir deneyim için Gradio web arayüzünü başlatın:</p><pre><code class="language-bash">python app.py</code></pre>
<h2>🏋️ Modeli Eğit</h2></p><p><a href="https://raw.githubusercontent.com/FunAudioLLM/ThinkSound/master/docs/Training.md" target="_blank" rel="noopener noreferrer"><code>Training.md</code></a> dosyasına bakın</p><hr></p><h2>📄 Lisans</h2></p><p>Bu proje Apache 2.0 Lisansı altında yayımlanmıştır.</p><blockquote><strong>Not:</strong></blockquote>
<blockquote>Kod, modeller ve veri seti <strong>yalnızca araştırma ve eğitim amaçlıdır</strong>.</blockquote>
<blockquote><strong>Ticari kullanım İZİN VERİLMEZ.</strong></blockquote>
<blockquote>Ticari lisanslama için lütfen yazarlarla iletişime geçin.</blockquote></p><p><strong>📦 Üçüncü Taraf Bileşenler</strong></p><ul><li><strong>Stable Audio Open VAE</strong> (Stability AI tarafından):</li>
  </ul>Bu depo, <a href="https://huggingface.co/stabilityai/stable-audio-open-1.0/" target="_blank" rel="noopener noreferrer">Stable Audio Open</a> adresinden alınan ve <a href="https://raw.githubusercontent.com/FunAudioLLM/ThinkSound/master/./third_party/LICENSE_StabilityAI.md" target="_blank" rel="noopener noreferrer">Stability AI Community License</a> ile lisanslanan ince ayarlı bir VAE içermektedir.
  <strong>Ticari kullanım ve yeniden dağıtım için Stability AI’dan önceden izin alınması gerekmektedir.</strong></p><ul><li>📘 <strong>Tüm diğer kod ve modeller</strong> Apache Lisansı 2.0 altında yayımlanmıştır.</li></p><p></ul>---</p><h2>Teşekkürler</h2></p><p>Çok teşekkürler:</p><ul><li><strong>stable-audio-tools</strong> (Stability AI tarafından):</li>
</ul>Ses üretimi için kolay kullanılabilen bir çerçeve sağladıkları ve VAE modülü ile ağırlıklarını sundukları için.
<ul><li><strong>MMAudio</strong>:</li>
  </ul>Ses alanında MM-DiT omurgasının uygulanması için.</p><hr></p><h2>📖 Atıf</h2></p><p>Eğer projemizi araştırmanızda veya çalışmalarınızda faydalı bulduysanız, lütfen makalemize atıfta bulunun:</p><pre><code class="language-bibtex">@misc{liu2025thinksoundchainofthoughtreasoningmultimodal,
      title={ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing}, 
      author={Huadai Liu and Jialei Wang and Kaicheng Luo and Wen Wang and Qian Chen and Zhou Zhao and Wei Xue},
      year={2025},
      eprint={2506.21448},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2506.21448}, 
}
@misc{liu2025prismaudiodecomposedchainofthoughtsmultidimensional,
          title={PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation}, 
          author={Huadai Liu and Kaicheng Luo and Wen Wang and Qian Chen and Peiwen Sun and Rongjie Huang and Xiangang Li and Jieping Ye and Wei Xue},
          year={2025},
          eprint={2511.18833},
          archivePrefix={arXiv},
          primaryClass={cs.SD},
          url={https://arxiv.org/abs/2511.18833}, 
    }</code></pre></p><hr></p><h2>📬 Contact</h2></p><p>
✨ Feel free to <a href="https://github.com/liuhuadai/ThinkSound/issues" target="_blank" rel="noopener noreferrer">open an issue</a> or contact us via email (<a href="https://raw.githubusercontent.com/FunAudioLLM/ThinkSound/master/mailto:liuhuadai@zju.edu.cn" target="_blank" rel="noopener noreferrer">liuhuadai@zju.edu.cn</a>) if you have any questions or suggestions!</p><p>


---


Tranlated By <a href="https://github.com/OpenAiTx/OpenAiTx" target="_blank" rel="noopener noreferrer">Open Ai Tx</a> | Last indexed: 2026-04-20


---</p>
        </div>
        
        <div class="original-link">
            <strong>Original README:</strong> <a href="https://raw.githubusercontent.com/FunAudioLLM/ThinkSound/master/README.md" target="_blank" rel="noopener noreferrer">View on GitHub</a>
        </div>
    </div>
    
    <div class="footer">
        <p>Translated by <a href="https://github.com/OpenAiTx/OpenAiTx" target="_blank" rel="noopener noreferrer">OpenAiTx</a> | 
        Last updated: 2026-04-20 
    </div>
    
</body>
</html>