Web Analytics

ThinkSound

⭐ 1321 stars Hindi by FunAudioLLM

ThinkSound

🌐 English | 简体中文 | 繁體中文 | Español | Français | 日本語

NeurIPS 2025   arXiv   Online Demo   Hugging Face   ModelScope

यदि आपको यह परियोजना उपयोगी लगे,
GitHub पर एक स्टार ⭐ बहुत सराहनीय होगा!


रिपॉजिटरी संरचना

यह ThinkSound GitHub रिपॉज़िटरी दो संबंधित प्रोजेक्ट्स को अलग-अलग ब्रांच पर होस्ट करती है:

| ब्रांच | प्रोजेक्ट | डोक्युमेंटेशन | |--------|----------|----------------| | master | ThinkSound (NeurIPS 2025) — एकीकृत Any2Audio जेनरेशन CoT-गाइडेड फ्लो मैचिंग के साथ | यह फाइल: README.md | | prismaudio | PrismAudio — फॉलो-अप कार्य (ICLR 2026) वीडियो-टू-ऑडियो के लिए मल्टी-डायमेंशनल CoT-RL के साथ | README.md prismaudio ब्रांच पर |

ThinkSound के लिए ब्रांच master (यह README) का उपयोग करें। PrismAudio के लिए prismaudio ब्रांच देखें और वहाँ का README.md फॉलो करें।


ThinkSound एक एकीकृत Any2Audio जेनरेशन फ्रेमवर्क है जिसमें फ्लो मैचिंग Chain-of-Thought (CoT) रीजनिंग द्वारा गाइडेड है।

मल्टीमोडल ऑडियो जेनरेशन और एडिटिंग के लिए PyTorch इम्प्लीमेंटेशन: वीडियो, टेक्स्ट और ऑडियो से ऑडियो जेनरेट या एडिट करें, पावर्ड बाय स्टेप-बाय-स्टेप रीजनिंग मल्टीमोडल लार्ज लैंग्वेज मॉडल्स (MLLMs) से।

Teaser


📰 समाचार

---

फॉलो-अप: PrismAudio (यही रिपॉ, prismaudio ब्रांच)

PrismAudio ThinkSound (ICLR 2026) का उत्तराधिकारी है, जिसे एक नए नाम के तहत विकसित किया गया है लेकिन इस रिपॉजिटरी में ब्रांच prismaudio पर रखा गया है। इंस्टॉलेशन, चेकपॉइंट्स और संदर्भ के लिए README.md on that branch देखें।

👉 git checkout prismaudio या GitHub पर ब्रांच खोलें।


🚀 विशेषताएँ

---

✨ विधि का अवलोकन

ThinkSound ऑडियो जेनरेशन और एडिटिंग को तीन इंटरैक्टिव चरणों में विभाजित करता है, जो सभी MLLM-आधारित चेन-ऑफ-थॉट (CoT) रीजनिंग द्वारा निर्देशित हैं:

ThinkSound Overview


⚡ त्वरित प्रारंभ

पर्यावरण तैयारी:

# ThinkSound code: branch master. PrismAudio: clone with -b prismaudio (see README.md on that branch).
git clone -b master https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound
conda create -n thinksound python=3.10
conda activate thinksound
pip install thinksound
conda install -y -c conda-forge 'ffmpeg<7'

Download pretrained weights https://huggingface.co/liuhuadai/ThinkSound to Directory ckpts/

model weights can be also downloaded from https://www.modelscope.cn/models/iic/ThinkSound

git lfs install git clone https://huggingface.co/liuhuadai/ThinkSound ckpts

To improve inference and training speed, you may optionally install a FlashAttention backend compatible with your system and PyTorch version.

Windows टिप:
Windows उपयोगकर्ता केवल setup_windows.bat चला सकते हैं (या उस पर डबल-क्लिक कर सकते हैं) जिससे कोंडा वातावरण अपने आप बन जाएगा, सभी आवश्यकताएँ (FFmpeg सहित) स्थापित हो जाएंगी, और प्रीट्रेंड मॉडल डाउनलोड हो जाएगा — कोई मैन्युअल सेटअप आवश्यक नहीं है।
स्क्रिप्ट चलाने से पहले सुनिश्चित करें कि आपके सिस्टम PATH में conda और git इंस्टॉल और उपलब्ध हैं।

▶️ डेमो चलाएँ

#### Linux/macOS

chmod +x scripts/demo.sh
./scripts/demo.sh   <CoT description> [use-half]</code></pre>
#### <strong>Windows</strong></p><p>इसके बजाय आप प्रदान की गई <code>.bat</code> स्क्रिप्ट का उपयोग कर सकते हैं:</p><pre><code class="language-bash">.\scripts\demo.bat <path-to-your-demo-video> <title> <CoT description> [use-half]</code></pre>
<strong>नोट:</strong></p><ul><li><code><path-to-your-demo-video></code>: एकल वीडियो का पथ</li>
<li><code>[use-half]</code> (वैकल्पिक): अंतिम में use-half जोड़ें ताकि हाफ प्रिसीजन फीचर एक्सट्रैक्शन सक्षम हो सके।</li></p><p></ul>---</p><h3>📦 बैच इनफेरेंस</h3></p><p>#### <strong>Linux/macOS</strong></p><pre><code class="language-bash">chmod +x scripts/eval_batch.sh
./scripts/eval_batch.sh <video_path> <csv_path> <save_path (optional)> [use-half]</code></pre>
#### <strong>विंडोज़</strong></p><p>समान <code>.bat</code> स्क्रिप्ट का उपयोग करें:</p><pre><code class="language-bash">.\scripts\eval_batch.bat <video_path> <csv_path> <save_path (optional)> [use-half]</code></pre>
<strong>नोट:</strong></p><ul><li><code><video_path></code>: उस मूल निर्देशिका का पथ जिसमें सभी .mp4 वीडियो प्रोसेसिंग के लिए रखे गए हैं (सभी वीडियो की अवधि समान होनी चाहिए)।</li>
<li><code><csv_path></code>: प्रत्येक वीडियो के लिए टेक्स्ट प्रॉम्प्ट्स वाली एक CSV फ़ाइल (फॉर्मेट के लिए <code>demo_test.csv</code> देखें)।</li>
<li><code><save_path></code> (वैकल्पिक): जनरेटेड ऑडियो को कहाँ सेव करना है। डिफ़ॉल्ट है <code>results/features</code>।</li>
<li><code>[use-half]</code> (वैकल्पिक): हाफ प्रिसीजन फ़ीचर एक्सट्रैक्शन को सक्षम करने के लिए अंत में use-half जोड़ें।</li></p><p></ul>---</p><h3>वेब इंटरफेस उपयोग</h3></p><p>इंटरएक्टिव अनुभव के लिए, Gradio वेब इंटरफेस लॉन्च करें:</p><pre><code class="language-bash">python app.py</code></pre>
<h2>🏋️ मॉडल को प्रशिक्षित करें</h2></p><p><a href="https://raw.githubusercontent.com/FunAudioLLM/ThinkSound/master/docs/Training.md" target="_blank" rel="noopener noreferrer"><code>Training.md</code></a> देखें</p><hr></p><h2>📄 लाइसेंस</h2></p><p>यह परियोजना Apache 2.0 लाइसेंस के अंतर्गत जारी की गई है।</p><blockquote><strong>नोट:</strong></blockquote>
<blockquote>कोड, मॉडल, और डेटासेट केवल <strong>शोध और शैक्षिक उद्देश्यों के लिए</strong> हैं।</blockquote>
<blockquote><strong>व्यावसायिक उपयोग की अनुमति नहीं है।</strong></blockquote>
<blockquote>व्यावसायिक लाइसेंसिंग के लिए, कृपया लेखकों से संपर्क करें।</blockquote></p><p><strong>📦 तृतीय-पक्ष घटक</strong></p><ul><li><strong>Stable Audio Open VAE</strong> (Stability AI द्वारा):</li>
  </ul>यह रिपोजिटरी <a href="https://huggingface.co/stabilityai/stable-audio-open-1.0/" target="_blank" rel="noopener noreferrer">Stable Audio Open</a> से फाइन-ट्यून किया गया VAE शामिल करती है, जो <a href="https://raw.githubusercontent.com/FunAudioLLM/ThinkSound/master/./third_party/LICENSE_StabilityAI.md" target="_blank" rel="noopener noreferrer">Stability AI Community License</a> के अंतर्गत लाइसेंस प्राप्त है।
  <strong>व्यावसायिक उपयोग और पुनर्वितरण के लिए Stability AI से पूर्व अनुमति आवश्यक है।</strong></p><ul><li>📘 <strong>अन्य सभी कोड और मॉडल</strong> Apache License 2.0 के अंतर्गत जारी किए गए हैं।</li></p><p></ul>---</p><h2>आभार</h2></p><p>इनका विशेष धन्यवाद:</p><ul><li><strong>stable-audio-tools</strong> (Stability AI द्वारा):</li>
  </ul>ऑडियो जेनरेशन के लिए आसान फ्रेमवर्क, साथ ही VAE मॉड्यूल और वज़न उपलब्ध कराने के लिए।
<ul><li><strong>MMAudio</strong>:</li>
  </ul>ऑडियो डोमेन में MM-DiT बैकबोन के कार्यान्वयन के लिए।</p><hr></p><h2>📖 उद्धरण</h2></p><p>यदि आप अपने शोध या कार्य में हमारे प्रोजेक्ट को उपयोगी पाते हैं, तो कृपया हमारे पेपर का उल्लेख करें:</p><pre><code class="language-bibtex">@misc{liu2025thinksoundchainofthoughtreasoningmultimodal,
      title={ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing}, 
      author={Huadai Liu and Jialei Wang and Kaicheng Luo and Wen Wang and Qian Chen and Zhou Zhao and Wei Xue},
      year={2025},
      eprint={2506.21448},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2506.21448}, 
}
@misc{liu2025prismaudiodecomposedchainofthoughtsmultidimensional,
          title={PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation}, 
          author={Huadai Liu and Kaicheng Luo and Wen Wang and Qian Chen and Peiwen Sun and Rongjie Huang and Xiangang Li and Jieping Ye and Wei Xue},
          year={2025},
          eprint={2511.18833},
          archivePrefix={arXiv},
          primaryClass={cs.SD},
          url={https://arxiv.org/abs/2511.18833}, 
    }</code></pre></p><hr></p><h2>📬 Contact</h2></p><p>
✨ Feel free to <a href="https://github.com/liuhuadai/ThinkSound/issues" target="_blank" rel="noopener noreferrer">open an issue</a> or contact us via email (<a href="https://raw.githubusercontent.com/FunAudioLLM/ThinkSound/master/mailto:liuhuadai@zju.edu.cn" target="_blank" rel="noopener noreferrer">liuhuadai@zju.edu.cn</a>) if you have any questions or suggestions!</p><p>


---


Tranlated By <a href="https://github.com/OpenAiTx/OpenAiTx" target="_blank" rel="noopener noreferrer">Open Ai Tx</a> | Last indexed: 2026-04-20


---</p>
        </div>
        
        <div class="original-link">
            <strong>Original README:</strong> <a href="https://raw.githubusercontent.com/FunAudioLLM/ThinkSound/master/README.md" target="_blank" rel="noopener noreferrer">View on GitHub</a>
        </div>
    </div>
    
    <div class="footer">
        <p>Translated by <a href="https://github.com/OpenAiTx/OpenAiTx" target="_blank" rel="noopener noreferrer">OpenAiTx</a> | 
        Last updated: 2026-04-20 
    </div>
    
</body>
</html>