Web Analytics

ThinkSound

⭐ 1043 stars Hindi by FunAudioLLM

ThinkSound

🌐 English | 简体中文 | 繁體中文 | Español | Français | 日本語

NeurIPS 2025

arXiv   Online Demo   Hugging Face   ModelScope

यदि आपको यह प्रोजेक्ट उपयोगी लगे,
GitHub पर एक स्टार ⭐ देना अत्यंत सराहनीय होगा!


ThinkSound एक एकीकृत Any2Audio जनरेशन फ्रेमवर्क है, जिसमें Chain-of-Thought (CoT) रीजनिंग द्वारा फ्लो मैचिंग का मार्गदर्शन किया जाता है।

मल्टीमॉडल ऑडियो जेनरेशन और एडिटिंग के लिए PyTorch इम्प्लीमेंटेशन: वीडियो, टेक्स्ट और ऑडियो से ऑडियो जनरेट या एडिट करें, मल्टीमॉडल लार्ज लैंग्वेज मॉडल्स (MLLMs) की स्टेप-बाय-स्टेप रीजनिंग द्वारा संचालित।

टीज़र


📰 समाचार

---

🚀 विशेषताएँ

---

✨ विधि अवलोकन

ThinkSound ऑडियो जेनरेशन और एडिटिंग को तीन इंटरएक्टिव चरणों में विभाजित करता है, जो सभी MLLM-आधारित चेन-ऑफ-थॉट (CoT) रीजनिंग द्वारा निर्देशित हैं:

ThinkSound अवलोकन


⚡ त्वरित प्रारंभ

पर्यावरण तैयारी:

git clone https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound
conda create -n thinksound python=3.10
conda activate thinksound
pip install thinksound
conda install -y -c conda-forge 'ffmpeg<7'

Download pretrained weights https://huggingface.co/liuhuadai/ThinkSound to Directory ckpts/

model weights can be also downloaded from https://www.modelscope.cn/models/iic/ThinkSound

git lfs install git clone https://huggingface.co/liuhuadai/ThinkSound ckpts

To improve inference and training speed, you may optionally install a FlashAttention backend compatible with your system and PyTorch version.

Windows टिप:
Windows उपयोगकर्ता केवल setup_windows.bat चला सकते हैं (या उस पर डबल-क्लिक कर सकते हैं) जिससे कोंडा वातावरण अपने आप बन जाएगा, सभी आवश्यकताएँ (FFmpeg सहित) स्थापित हो जाएंगी, और प्रीट्रेंड मॉडल डाउनलोड हो जाएगा — कोई मैन्युअल सेटअप आवश्यक नहीं है।
स्क्रिप्ट चलाने से पहले सुनिश्चित करें कि आपके सिस्टम PATH में conda और git इंस्टॉल और उपलब्ध हैं।

▶️ डेमो चलाएँ

#### Linux/macOS

chmod +x scripts/demo.sh
./scripts/demo.sh   <CoT description> [use-half]</code></pre>
#### <strong>Windows</strong></p><p>इसके बजाय आप प्रदान की गई <code>.bat</code> स्क्रिप्ट का उपयोग कर सकते हैं:</p><pre><code class="language-bash">.\scripts\demo.bat <path-to-your-demo-video> <title> <CoT description> [use-half]</code></pre>
<strong>नोट:</strong></p><ul><li><code><path-to-your-demo-video></code>: एकल वीडियो का पथ</li>
<li><code>[use-half]</code> (वैकल्पिक): अंतिम में use-half जोड़ें ताकि हाफ प्रिसीजन फीचर एक्सट्रैक्शन सक्षम हो सके।</li></p><p></ul>---</p><h3>📦 बैच इनफेरेंस</h3></p><p>#### <strong>Linux/macOS</strong></p><pre><code class="language-bash">chmod +x scripts/eval_batch.sh
./scripts/eval_batch.sh <video_path> <csv_path> <save_path (optional)> [use-half]</code></pre>
#### <strong>विंडोज़</strong></p><p>समान <code>.bat</code> स्क्रिप्ट का उपयोग करें:</p><pre><code class="language-bash">.\scripts\eval_batch.bat <video_path> <csv_path> <save_path (optional)> [use-half]</code></pre>
<strong>नोट:</strong></p><ul><li><code><video_path></code>: उस मूल निर्देशिका का पथ जिसमें सभी .mp4 वीडियो प्रोसेसिंग के लिए रखे गए हैं (सभी वीडियो की अवधि समान होनी चाहिए)।</li>
<li><code><csv_path></code>: प्रत्येक वीडियो के लिए टेक्स्ट प्रॉम्प्ट्स वाली एक CSV फ़ाइल (फॉर्मेट के लिए <code>demo_test.csv</code> देखें)।</li>
<li><code><save_path></code> (वैकल्पिक): जनरेटेड ऑडियो को कहाँ सेव करना है। डिफ़ॉल्ट है <code>results/features</code>।</li>
<li><code>[use-half]</code> (वैकल्पिक): हाफ प्रिसीजन फ़ीचर एक्सट्रैक्शन को सक्षम करने के लिए अंत में use-half जोड़ें।</li></p><p></ul>---</p><h3>वेब इंटरफेस उपयोग</h3></p><p>इंटरएक्टिव अनुभव के लिए, Gradio वेब इंटरफेस लॉन्च करें:</p><pre><code class="language-bash">python app.py</code></pre></p><h2>🏋️ मॉडल को प्रशिक्षित करें</h2></p><p>देखें <a href="https://raw.githubusercontent.com/FunAudioLLM/ThinkSound/master/docs/Training.md" target="_blank" rel="noopener noreferrer"><code>Training.md</code></a></p><hr></p><h2>📝 TODO और भविष्य की योजनाएँ</h2>
<ul><li>- [ ] एक अधिक शक्तिशाली फाउंडेशन मॉडल जारी करें जो कई क्षेत्रों को कवर करे ताकि अधिक आकर्षक और इमर्सिव फोली निर्माण प्रदान किया जा सके</li>
<li>- [ ] अतिरिक्त मोडालिटी और डाउनस्ट्रीम कार्यों के लिए समर्थन जोड़ें</li>
<li>- [ ] विभिन्न स्तरों पर मॉडल जारी करें</li>
<li>- [x] AudioCoT डेटासेट और स्वचालित पाइपलाइन को ओपन-सोर्स करें</li>
<li>- [x] ThinkSound मॉडल के लिए प्रशिक्षण स्क्रिप्ट जारी करें</li>
<li>- [x] शुरुआती के लिए Windows क्विक-स्टार्ट README जारी करें</li>
</ul>---</p><h2>📄 लाइसेंस</h2></p><p>यह परियोजना Apache 2.0 लाइसेंस के तहत जारी की गई है।</p><blockquote><strong>नोट:</strong></blockquote>
<blockquote>कोड, मॉडल, और डेटासेट <strong>केवल शोध और शैक्षिक उद्देश्यों के लिए हैं</strong>।</blockquote>
<blockquote><strong>व्यावसायिक उपयोग की अनुमति नहीं है।</strong></blockquote>
<blockquote>व्यावसायिक लाइसेंसिंग के लिए, कृपया लेखकों से संपर्क करें।</blockquote></p><p><strong>📦 तृतीय-पक्ष घटक</strong></p><ul><li><strong>Stable Audio Open VAE</strong> (Stability AI द्वारा):</li>
  </ul>यह रिपॉजिटरी <a href="https://huggingface.co/stabilityai/stable-audio-open-1.0/" target="_blank" rel="noopener noreferrer">Stable Audio Open</a> से फाइन-ट्यून किया गया VAE शामिल करती है, जो <a href="https://raw.githubusercontent.com/FunAudioLLM/ThinkSound/master/./third_party/LICENSE_StabilityAI.md" target="_blank" rel="noopener noreferrer">Stability AI Community License</a> के अंतर्गत लाइसेंस प्राप्त है।
  <strong>व्यावसायिक उपयोग और पुनर्वितरण के लिए Stability AI से पूर्व अनुमति आवश्यक है।</strong></p><ul><li>📘 <strong>अन्य सभी कोड और मॉडल</strong> Apache License 2.0 के तहत जारी किए गए हैं।</li></p><p></ul>---</p><h2>आभार</h2></p><p>बहुत धन्यवाद:</p><ul><li><strong>stable-audio-tools</strong> (Stability AI द्वारा):</li>
</ul>ऑडियो जनरेशन के लिए आसान फ्रेमवर्क प्रदान करने के लिए, साथ ही VAE मॉड्यूल और वज़न के लिए।
<ul><li><strong>MMAudio</strong>:</li>
  </ul>ऑडियो डोमेन में MM-DiT बैकबोन के कार्यान्वयन के लिए।</p><hr></p><h2>📖 उद्धरण</h2></p><p>यदि आपको ThinkSound अपने शोध या कार्य में उपयोगी लगे, तो कृपया हमारे पेपर का उल्लेख करें:</p><pre><code class="language-bibtex">@misc{liu2025thinksoundchainofthoughtreasoningmultimodal,
      title={ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing}, 
      author={Huadai Liu and Jialei Wang and Kaicheng Luo and Wen Wang and Qian Chen and Zhou Zhao and Wei Xue},
      year={2025},
      eprint={2506.21448},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2506.21448}, 
}</code></pre></p><hr></p><h2>📬 Contact</h2></p><p>
✨ Feel free to <a href="https://github.com/liuhuadai/ThinkSound/issues" target="_blank" rel="noopener noreferrer">open an issue</a> or contact us via email (<a href="https://raw.githubusercontent.com/FunAudioLLM/ThinkSound/master/mailto:liuhuadai@zju.edu.cn" target="_blank" rel="noopener noreferrer">liuhuadai@zju.edu.cn</a>) if you have any questions or suggestions!</p><p>


---


Tranlated By <a href="https://github.com/OpenAiTx/OpenAiTx" target="_blank" rel="noopener noreferrer">Open Ai Tx</a> | Last indexed: 2025-10-04


---</p>
        </div>
        
        <div class="original-link">
            <strong>Original README:</strong> <a href="https://raw.githubusercontent.com/FunAudioLLM/ThinkSound/master/README.md" target="_blank" rel="noopener noreferrer">View on GitHub</a>
        </div>
    </div>
    
    <div class="footer">
        <p>Translated by <a href="https://github.com/OpenAiTx/OpenAiTx" target="_blank" rel="noopener noreferrer">OpenAiTx</a> | 
        Last updated: 2025-10-04 
    </div>
    
</body>
</html>