ثينك ساوند
🌐 English | 简体中文 | 繁體中文 | Español | Français | 日本語
إذا وجدت هذا المشروع مفيدًا،
سيكون من الرائع وضع نجمة ⭐ على GitHub!
ثينك ساوند هو إطار موحد لتوليد الصوت من أي مدخلات (Any2Audio) باستخدام مطابقة التدفق الموجهة بواسطة استدلال سلسلة الأفكار (CoT). تنفيذ PyTorch لتوليد وتحرير الصوت متعدد الوسائط: توليد أو تحرير الصوت من الفيديو أو النص أو الصوت، مدعوم بتسلسل التفكير خطوة بخطوة من نماذج اللغة الكبيرة متعددة الوسائط (MLLMs).
📰 الأخبار
- 2025.09.19 🎉 تم قبول ThinkSound في المؤتمر الرئيسي لـ NeurIPS 2025!
- 2025.09.01 🔥 مجموعة بيانات AudioCoT أصبحت مفتوحة المصدر ومتاحة الآن على Hugging Face!
- 2025.07.17 🧠 تمكين التخصيص الدقيق: كود التدريب والتخصيص الدقيق متاح الآن للجمهور، مع تعليمات استخدام واضحة لمساعدتك على تخصيص وتوسيع ThinkSound ببياناتك الخاصة.
- 2025.07.15 📦 تثبيت واستخدام مبسط: الاعتماديات متوفرة على PyPI لإعداد عبر المنصات بسهولة؛ سكريبتات Windows
.batلأتمتة إنشاء البيئة وتشغيل السكريبتات. - 2025.07.08 🔧 تحديث رئيسي: النموذج أصبح أخف وزناً وتم تحسين استخدام الذاكرة وGPU، يدعم الآن توليد الصوت عالي الإنتاجية على نطاق واسع!
- 2025.07.01 🔥عرض تجريبي مباشر على Hugging Face Spaces و ModelScope لتجربة تفاعلية!
- 2025.07.01 🔥تم إصدار سكريبتات الاستدلال وواجهة الويب؛
- 2025.06 🔥ورقة ThinkSound منشورة على arXiv!
- 2025.06 🔥العرض التجريبي المباشر متاح الآن - جربه فوراً!
🚀 الميزات
- Any2Audio: توليد الصوت من أي نوع وسائط — فيديو، نص، صوت، أو مزيج منها.
- أحدث نتائج الفيديو إلى صوت: يحقق نتائج متقدمة في العديد من معايير V2A.
- استدلال عبر سلسلة التفكير: توليد صوت تركيبي وقابل للتحكم عبر سلسلة التفكير باستخدام MLLMs.
- تحرير تفاعلي مركز على الكائنات: تحسين أو تحرير أحداث صوتية محددة بالنقر على كائنات مرئية أو استخدام تعليمات نصية.
- إطار موحد: نموذج أساسي واحد يدعم التوليد والتحرير وسير العمل التفاعلي.
✨ نظرة عامة على المنهجية
يقوم ThinkSound بتقسيم توليد وتحرير الصوت إلى ثلاث مراحل تفاعلية، جميعها موجهة باستدلال سلسلة التفكير عبر MLLM:
- توليد Foley: توليد مشاهد صوتية أساسية متوافقة دلالياً وزمنياً مع الفيديو.
- تحسين مركز على الكائنات: تحسين أو إضافة أصوات لكائنات يحددها المستخدم عبر النقرات أو المناطق في الفيديو.
- تحرير صوت مستهدف: تعديل الصوت المولد باستخدام تعليمات لغة طبيعية عالية المستوى.
⚡ البداية السريعة
تحضير البيئة:
git clone https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound
conda create -n thinksound python=3.10
conda activate thinksound
pip install thinksound
conda install -y -c conda-forge 'ffmpeg<7'
Download pretrained weights https://huggingface.co/liuhuadai/ThinkSound to Directory ckpts/
model weights can be also downloaded from https://www.modelscope.cn/models/iic/ThinkSound
git lfs install
git clone https://huggingface.co/liuhuadai/ThinkSound ckpts
To improve inference and training speed, you may optionally install a FlashAttention backend compatible with your system and PyTorch version.
✅ نصيحة لمستخدمي ويندوز:
يمكن لمستخدمي ويندوز ببساطة تشغيل setup_windows.bat (أو النقر المزدوج عليه) لإنشاء بيئة conda تلقائيًا، وتثبيت جميع التبعيات (بما في ذلك FFmpeg)، وتنزيل النموذج المدرب مسبقًا — دون الحاجة للإعداد اليدوي.
تأكد من أنcondaوgitمثبتان ومتوفران في متغير PATH الخاص بالنظام قبل تشغيل السكربت.
▶️ تشغيل العرض التجريبي
#### لينكس/ماكOS
chmod +x scripts/demo.sh
./scripts/demo.sh [use-half]
#### ويندوزيمكنك بدلاً من ذلك استخدام البرنامج النصي .bat المرفق:
.\scripts\demo.bat [use-half]
ملاحظة:<مسار-فيديو-العرض-التوضيحي-الخاص-بك>: مسار فيديو واحد[use-half](اختياري): أضف use-half في النهاية لتفعيل استخراج الميزات بدقة نصفية.
📦 الاستدلال على دفعات
#### لينكس/ماك أو إس
chmod +x scripts/eval_batch.sh
./scripts/eval_batch.sh [use-half]
#### ويندوزاستخدم سكربت .bat المكافئ:
.\scripts\eval_batch.bat [use-half]
ملاحظة:: مسار الدليل الجذري الذي يحتوي على جميع ملفات الفيديو .mp4 المراد معالجتها (يجب أن تكون جميع الفيديوهات بنفس المدة).: ملف CSV يحتوي على مطالبات نصية لكل فيديو (انظرdemo_test.csvلمعرفة التنسيق).(اختياري): مكان حفظ الصوت الناتج. الافتراضي هوresults/features.[use-half](اختياري): أضف use-half في النهاية لتمكين استخراج الميزات بنصف الدقة.
استخدام الواجهة الويب
للحصول على تجربة تفاعلية، قم بتشغيل واجهة Gradio على الويب:
python app.py🏋️ تدريب النموذج
راجع Training.md
📝 المهام المستقبلية وخطط العمل
- - [ ] إصدار نموذج أساسي أكثر قوة يغطي مجالات متعددة لتوفير إنشاء فولي أكثر جاذبية وانغماسًا
- - [ ] إضافة دعم لأنماط إضافية ومهام لاحقة
- - [ ] إصدار نماذج بمقاييس مختلفة
- - [x] فتح مصدر مجموعة بيانات AudioCoT وخط الأنابيب المؤتمت
- - [x] إصدار نصوص التدريب لنماذج ThinkSound
- - [x] ملف README للبدء السريع في ويندوز للمبتدئين
📄 الترخيص
تم إصدار هذا المشروع بموجب ترخيص أباتشي 2.0.
ملاحظة:
الكود، النماذج، ومجموعة البيانات لأغراض البحث والتعليم فقط.
الاستخدام التجاري غير مسموح به.
للحصول على ترخيص تجاري، يرجى التواصل مع المؤلفين.
📦 المكونات الخارجية
- Stable Audio Open VAE (بواسطة Stability AI):
- 📘 جميع الكودات والنماذج الأخرى تم إصدارها بموجب ترخيص أباتشي 2.0.
الشكر والتقدير
شكراً جزيلاً لـ:
- stable-audio-tools (من قبل Stability AI):
- MMAudio:
📖 الاقتباس
إذا وجدت ThinkSound مفيداً في بحثك أو عملك، يرجى اقتباس ورقتنا:
@misc{liu2025thinksoundchainofthoughtreasoningmultimodal,
title={ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing},
author={Huadai Liu and Jialei Wang and Kaicheng Luo and Wen Wang and Qian Chen and Zhou Zhao and Wei Xue},
year={2025},
eprint={2506.21448},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2506.21448},
}📬 Contact
✨ Feel free to open an issue or contact us via email (liuhuadai@zju.edu.cn) if you have any questions or suggestions!
--- Tranlated By Open Ai Tx | Last indexed: 2025-10-04 ---