Web Analytics

ThinkSound

⭐ 1321 stars Arabic by FunAudioLLM

ThinkSound

🌐 English | 简体中文 | 繁體中文 | Español | Français | 日本語

NeurIPS 2025   arXiv   Online Demo   Hugging Face   ModelScope

إذا وجدت هذا المشروع مفيدًا،
فإن وضع نجمة ⭐ على GitHub سيكون محل تقدير كبير!


هيكلية المستودع

يستضيف مستودع ThinkSound على GitHub مشروعين مرتبطين على فرعين منفصلين:

| الفرع | المشروع | التوثيق | |--------|---------|----------------| | master | ThinkSound (NeurIPS 2025) — توليد Any2Audio موحد مع مطابقة تدفق موجهة بواسطة التفكير التسلسلي (CoT) | هذا الملف: README.md | | prismaudio | PrismAudio — عمل لاحق (ICLR 2026) لتحويل الفيديو إلى صوت باستخدام CoT-RL متعدد الأبعاد | README.md على فرع prismaudio |

بالنسبة لـ ThinkSound، استخدم فرع master (هذا الملف README). بالنسبة لـ PrismAudio، انتقل إلى prismaudio واتبع README.md هناك.


ThinkSound هو إطار موحد لتوليد Any2Audio مع مطابقة تدفق موجهة بواسطة التفكير التسلسلي (CoT).

تنفيذ PyTorch لتوليد وتحرير الصوت متعدد الوسائط: توليد أو تحرير الصوت من الفيديو أو النص أو الصوت، مدعوم بالتفكير خطوة بخطوة من نماذج اللغة الكبيرة متعددة الوسائط (MLLMs).

عرض توضيحي


📰 الأخبار

---

المتابعة: PrismAudio (نفس المستودع، فرع prismaudio)

PrismAudio هو الجيل التالي من ThinkSound (ICLR 2026)، تم تطويره تحت اسم جديد ولكن تم الاحتفاظ به في هذا المستودع على الفرع prismaudio. التثبيت، نقاط التحقق، والاستشهاد العلمي موجودة في README.md على ذلك الفرع.

👉 git checkout prismaudio أو افتح الفرع على GitHub.


🚀 الميزات

---

✨ نظرة عامة على الطريقة

يقوم ThinkSound بتقسيم عملية توليد وتحرير الصوت إلى ثلاث مراحل تفاعلية، جميعها موجهة باستدلال سلسلة الأفكار (CoT) القائم على MLLM:

نظرة عامة على ThinkSound


⚡ البدء السريع

تحضير البيئة:

# ThinkSound code: branch master. PrismAudio: clone with -b prismaudio (see README.md on that branch).
git clone -b master https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound
conda create -n thinksound python=3.10
conda activate thinksound
pip install thinksound
conda install -y -c conda-forge 'ffmpeg<7'

Download pretrained weights https://huggingface.co/liuhuadai/ThinkSound to Directory ckpts/

model weights can be also downloaded from https://www.modelscope.cn/models/iic/ThinkSound

git lfs install git clone https://huggingface.co/liuhuadai/ThinkSound ckpts

To improve inference and training speed, you may optionally install a FlashAttention backend compatible with your system and PyTorch version.

نصيحة لمستخدمي ويندوز:
يمكن لمستخدمي ويندوز ببساطة تشغيل setup_windows.bat (أو النقر المزدوج عليه) لإنشاء بيئة conda تلقائيًا، وتثبيت جميع التبعيات (بما في ذلك FFmpeg)، وتنزيل النموذج المدرب مسبقًا — دون الحاجة للإعداد اليدوي.
تأكد من أن conda و git مثبتان ومتوفران في متغير PATH الخاص بالنظام قبل تشغيل السكربت.

▶️ تشغيل العرض التجريبي

#### لينكس/ماكOS

chmod +x scripts/demo.sh
./scripts/demo.sh   <CoT description> [use-half]</code></pre>
#### <strong>ويندوز</strong></p><p>يمكنك بدلاً من ذلك استخدام البرنامج النصي <code>.bat</code> المرفق:</p><pre><code class="language-bash">.\scripts\demo.bat <path-to-your-demo-video> <title> <CoT description> [use-half]</code></pre>
<strong>ملاحظة:</strong></p><ul><li><code><مسار-فيديو-العرض-التوضيحي-الخاص-بك></code>: مسار فيديو واحد</li>
<li><code>[use-half]</code> (اختياري): أضف use-half في النهاية لتفعيل استخراج الميزات بدقة نصفية.</li></p><p></ul>---</p><h3>📦 الاستدلال على دفعات</h3></p><p>#### <strong>لينكس/ماك أو إس</strong></p><pre><code class="language-bash">chmod +x scripts/eval_batch.sh
./scripts/eval_batch.sh <video_path> <csv_path> <save_path (optional)> [use-half]</code></pre>
#### <strong>ويندوز</strong></p><p>استخدم سكربت <code>.bat</code> المكافئ:</p><pre><code class="language-bash">.\scripts\eval_batch.bat <video_path> <csv_path> <save_path (optional)> [use-half]</code></pre>
<strong>ملاحظة:</strong></p><ul><li><code><video_path></code>: مسار الدليل الجذري الذي يحتوي على جميع ملفات الفيديو .mp4 المراد معالجتها (يجب أن تكون جميع الفيديوهات بنفس المدة).</li>
<li><code><csv_path></code>: ملف CSV يحتوي على مطالبات نصية لكل فيديو (انظر <code>demo_test.csv</code> لمعرفة التنسيق).</li>
<li><code><save_path></code> (اختياري): مكان حفظ الصوت الناتج. الافتراضي هو <code>results/features</code>.</li>
<li><code>[use-half]</code> (اختياري): أضف use-half في النهاية لتمكين استخراج الميزات بنصف الدقة.</li></p><p></ul>---</p><h3>استخدام الواجهة الويب</h3></p><p>للحصول على تجربة تفاعلية، قم بتشغيل واجهة Gradio على الويب:</p><pre><code class="language-bash">python app.py</code></pre></p><h2>🏋️ تدريب النموذج</h2></p><p>راجع <a href="https://raw.githubusercontent.com/FunAudioLLM/ThinkSound/master/docs/Training.md" target="_blank" rel="noopener noreferrer"><code>Training.md</code></a></p><hr></p><h2>📄 الرخصة</h2></p><p>تم إصدار هذا المشروع بموجب رخصة أباتشي 2.0.</p><blockquote><strong>ملاحظة:</strong></blockquote>
<blockquote>الكود والنماذج ومجموعة البيانات <strong>لأغراض البحث والتعليم فقط</strong>.</blockquote>
<blockquote><strong>الاستخدام التجاري غير مسموح به.</strong></blockquote>
<blockquote>للحصول على ترخيص تجاري، يرجى التواصل مع المؤلفين.</blockquote></p><p><strong>📦 المكونات الخارجية</strong></p><ul><li><strong>Stable Audio Open VAE</strong> (من تطوير Stability AI):</li>
  </ul>يحتوي هذا المستودع على VAE تم تدريبه من <a href="https://huggingface.co/stabilityai/stable-audio-open-1.0/" target="_blank" rel="noopener noreferrer">Stable Audio Open</a>، بموجب <a href="https://raw.githubusercontent.com/FunAudioLLM/ThinkSound/master/./third_party/LICENSE_StabilityAI.md" target="_blank" rel="noopener noreferrer">رخصة مجتمع Stability AI</a>.
  <strong>الاستخدام التجاري وإعادة التوزيع يتطلبان إذنًا مسبقًا من Stability AI.</strong></p><ul><li>📘 <strong>جميع الشفرات والنماذج الأخرى</strong> تم إصدارها بموجب رخصة أباتشي 2.0.</li></p><p></ul>---</p><h2>الشكر والتقدير</h2></p><p>شكر خاص إلى:</p><ul><li><strong>stable-audio-tools</strong> (من Stability AI):</li>
  </ul>لتوفير إطار عمل سهل الاستخدام لتوليد الصوت، بالإضافة إلى وحدة VAE والأوزان.
<ul><li><strong>MMAudio</strong>:</li>
  </ul>لتنفيذ العمود الفقري لـ MM-DiT في مجال الصوت.</p><hr></p><h2>📖 الاستشهاد</h2></p><p>إذا وجدت مشروعنا مفيدًا في بحثك أو عملك، يرجى الاستشهاد بورقتنا البحثية:</p><pre><code class="language-bibtex">@misc{liu2025thinksoundchainofthoughtreasoningmultimodal,
      title={ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing}, 
      author={Huadai Liu and Jialei Wang and Kaicheng Luo and Wen Wang and Qian Chen and Zhou Zhao and Wei Xue},
      year={2025},
      eprint={2506.21448},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2506.21448}, 
}
@misc{liu2025prismaudiodecomposedchainofthoughtsmultidimensional,
          title={PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation}, 
          author={Huadai Liu and Kaicheng Luo and Wen Wang and Qian Chen and Peiwen Sun and Rongjie Huang and Xiangang Li and Jieping Ye and Wei Xue},
          year={2025},
          eprint={2511.18833},
          archivePrefix={arXiv},
          primaryClass={cs.SD},
          url={https://arxiv.org/abs/2511.18833}, 
    }</code></pre></p><hr></p><h2>📬 Contact</h2></p><p>
✨ Feel free to <a href="https://github.com/liuhuadai/ThinkSound/issues" target="_blank" rel="noopener noreferrer">open an issue</a> or contact us via email (<a href="https://raw.githubusercontent.com/FunAudioLLM/ThinkSound/master/mailto:liuhuadai@zju.edu.cn" target="_blank" rel="noopener noreferrer">liuhuadai@zju.edu.cn</a>) if you have any questions or suggestions!</p><p>


---


Tranlated By <a href="https://github.com/OpenAiTx/OpenAiTx" target="_blank" rel="noopener noreferrer">Open Ai Tx</a> | Last indexed: 2026-04-20


---</p>
        </div>
        
        <div class="original-link">
            <strong>Original README:</strong> <a href="https://raw.githubusercontent.com/FunAudioLLM/ThinkSound/master/README.md" target="_blank" rel="noopener noreferrer">View on GitHub</a>
        </div>
    </div>
    
    <div class="footer">
        <p>Translated by <a href="https://github.com/OpenAiTx/OpenAiTx" target="_blank" rel="noopener noreferrer">OpenAiTx</a> | 
        Last updated: 2026-04-20 
    </div>
    
</body>
</html>