ThinkSound
🌐 English | 简体中文 | 繁體中文 | Español | Français | 日本語
إذا وجدت هذا المشروع مفيدًا،
فإن وضع نجمة ⭐ على GitHub سيكون محل تقدير كبير!
هيكلية المستودع
يستضيف مستودع ThinkSound على GitHub مشروعين مرتبطين على فرعين منفصلين:| الفرع | المشروع | التوثيق |
|--------|---------|----------------|
| master | ThinkSound (NeurIPS 2025) — توليد Any2Audio موحد مع مطابقة تدفق موجهة بواسطة التفكير التسلسلي (CoT) | هذا الملف: README.md |
| prismaudio | PrismAudio — عمل لاحق (ICLR 2026) لتحويل الفيديو إلى صوت باستخدام CoT-RL متعدد الأبعاد | README.md على فرع prismaudio |
بالنسبة لـ ThinkSound، استخدم فرع master (هذا الملف README). بالنسبة لـ PrismAudio، انتقل إلى prismaudio واتبع README.md هناك.
ThinkSound هو إطار موحد لتوليد Any2Audio مع مطابقة تدفق موجهة بواسطة التفكير التسلسلي (CoT).
تنفيذ PyTorch لتوليد وتحرير الصوت متعدد الوسائط: توليد أو تحرير الصوت من الفيديو أو النص أو الصوت، مدعوم بالتفكير خطوة بخطوة من نماذج اللغة الكبيرة متعددة الوسائط (MLLMs).
📰 الأخبار
- 2026.03.24 🔥 تم إصدار PrismAudio في نفس المستودع على فرع
prismaudio— راجعREADME.mdهناك للإعداد والنماذج. - 2026.01.26 🎉 تم قبول PrismAudio في المؤتمر الرئيسي ICLR 2026 (الشفرة/الوثائق على
prismaudio). - 2025.11.25 🔥 عرض PrismAudio التجريبي عبر الإنترنت أصبح متاحاً.
- 2025.11.25 🔥 ورقة PrismAudio على arXiv — CoT-RL متعدد الأبعاد لتحويل الفيديو إلى صوت.
- 2025.09.19 🎉 تم قبول ThinkSound في المؤتمر الرئيسي NeurIPS 2025!
- 2025.09.01 تم فتح مصدر مجموعة بيانات AudioCoT وهي متاحة الآن على Hugging Face!
- 2025.07.17 🧠 تمكين التخصيص: كود التدريب والتخصيص متاح الآن للجمهور مع تعليمات واضحة لمساعدتك على تخصيص وتوسيع ThinkSound ببياناتك الخاصة.
- 2025.07.15 📦 التثبيت والاستخدام أصبح أسهل: الاعتماديات متوفرة على PyPI لإعداد سهل عبر الأنظمة؛ نصوص
.batللويندوز لأتمتة إنشاء البيئة وتشغيل السكريبتات. - 2025.07.08 🔧 تحديث رئيسي: تم تخفيف وزن النموذج وتحسين استهلاك الذاكرة وGPU، ويدعم الآن توليد صوتي عالي الإنتاجية على نطاق واسع!
- 2025.07.01 عرض تجريبي عبر الإنترنت على Hugging Face Spaces وModelScope لتجربة تفاعلية!
- 2025.07.01 تم إصدار سكريبتات الاستدلال وواجهة الويب؛
- 2025.06 تم إصدار ورقة ThinkSound على arXiv!
- 2025.06 العرض التجريبي عبر الإنترنت متاح الآن - جربه الآن!
المتابعة: PrismAudio (نفس المستودع، فرع prismaudio)
PrismAudio هو الجيل التالي من ThinkSound (ICLR 2026)، تم تطويره تحت اسم جديد ولكن تم الاحتفاظ به في هذا المستودع على الفرع prismaudio. التثبيت، نقاط التحقق، والاستشهاد العلمي موجودة في README.md على ذلك الفرع.
👉 git checkout prismaudio أو افتح الفرع على GitHub.
🚀 الميزات
- Any2Audio: توليد الصوت من أي وسائط — فيديو، نص، صوت، أو مزيج منها.
- أفضل أداء في تحويل الفيديو إلى صوت: يحقق نتائج متقدمة على عدة معايير فيديو إلى صوت (V2A).
- الاستدلال القائم على سلسلة الأفكار (CoT): استدلال سلسلة الأفكار لتوليد صوت تركيبي وقابل للتحكم عبر MLLMs.
- تحرير تفاعلي مركز على الكائنات: تحسين أو تعديل أحداث صوتية محددة بالنقر على كائنات بصرية أو باستخدام تعليمات نصية.
- إطار موحد: نموذج أساس واحد يدعم التوليد، التحرير، وسير العمل التفاعلي.
✨ نظرة عامة على الطريقة
يقوم ThinkSound بتقسيم عملية توليد وتحرير الصوت إلى ثلاث مراحل تفاعلية، جميعها موجهة باستدلال سلسلة الأفكار (CoT) القائم على MLLM:
- توليد Foley: توليد خلفيات صوتية أساسية متوافقة دلاليًا وزمنيًا من الفيديو.
- التحسين المركز على الكائن: تحسين أو إضافة أصوات لكائنات يحددها المستخدم عبر النقر أو تحديد مناطق في الفيديو.
- تحرير الصوت المستهدف: تعديل الصوت الناتج باستخدام تعليمات لغوية طبيعية عالية المستوى.
⚡ البدء السريع
تحضير البيئة:
# ThinkSound code: branch master. PrismAudio: clone with -b prismaudio (see README.md on that branch).
git clone -b master https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound
conda create -n thinksound python=3.10
conda activate thinksound
pip install thinksound
conda install -y -c conda-forge 'ffmpeg<7'
Download pretrained weights https://huggingface.co/liuhuadai/ThinkSound to Directory ckpts/
model weights can be also downloaded from https://www.modelscope.cn/models/iic/ThinkSound
git lfs install
git clone https://huggingface.co/liuhuadai/ThinkSound ckpts
To improve inference and training speed, you may optionally install a FlashAttention backend compatible with your system and PyTorch version.
✅ نصيحة لمستخدمي ويندوز:
يمكن لمستخدمي ويندوز ببساطة تشغيل setup_windows.bat (أو النقر المزدوج عليه) لإنشاء بيئة conda تلقائيًا، وتثبيت جميع التبعيات (بما في ذلك FFmpeg)، وتنزيل النموذج المدرب مسبقًا — دون الحاجة للإعداد اليدوي.
تأكد من أنcondaوgitمثبتان ومتوفران في متغير PATH الخاص بالنظام قبل تشغيل السكربت.
▶️ تشغيل العرض التجريبي
#### لينكس/ماكOS
chmod +x scripts/demo.sh
./scripts/demo.sh [use-half]
#### ويندوزيمكنك بدلاً من ذلك استخدام البرنامج النصي .bat المرفق:
.\scripts\demo.bat [use-half]
ملاحظة:<مسار-فيديو-العرض-التوضيحي-الخاص-بك>: مسار فيديو واحد[use-half](اختياري): أضف use-half في النهاية لتفعيل استخراج الميزات بدقة نصفية.
📦 الاستدلال على دفعات
#### لينكس/ماك أو إس
chmod +x scripts/eval_batch.sh
./scripts/eval_batch.sh [use-half]
#### ويندوزاستخدم سكربت .bat المكافئ:
.\scripts\eval_batch.bat [use-half]
ملاحظة:: مسار الدليل الجذري الذي يحتوي على جميع ملفات الفيديو .mp4 المراد معالجتها (يجب أن تكون جميع الفيديوهات بنفس المدة).: ملف CSV يحتوي على مطالبات نصية لكل فيديو (انظرdemo_test.csvلمعرفة التنسيق).(اختياري): مكان حفظ الصوت الناتج. الافتراضي هوresults/features.[use-half](اختياري): أضف use-half في النهاية لتمكين استخراج الميزات بنصف الدقة.
استخدام الواجهة الويب
للحصول على تجربة تفاعلية، قم بتشغيل واجهة Gradio على الويب:
python app.py🏋️ تدريب النموذج
راجع Training.md
📄 الرخصة
تم إصدار هذا المشروع بموجب رخصة أباتشي 2.0.
ملاحظة:
الكود والنماذج ومجموعة البيانات لأغراض البحث والتعليم فقط.
الاستخدام التجاري غير مسموح به.
للحصول على ترخيص تجاري، يرجى التواصل مع المؤلفين.
📦 المكونات الخارجية
- Stable Audio Open VAE (من تطوير Stability AI):
- 📘 جميع الشفرات والنماذج الأخرى تم إصدارها بموجب رخصة أباتشي 2.0.
الشكر والتقدير
شكر خاص إلى:
- stable-audio-tools (من Stability AI):
- MMAudio:
📖 الاستشهاد
إذا وجدت مشروعنا مفيدًا في بحثك أو عملك، يرجى الاستشهاد بورقتنا البحثية:
@misc{liu2025thinksoundchainofthoughtreasoningmultimodal,
title={ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing},
author={Huadai Liu and Jialei Wang and Kaicheng Luo and Wen Wang and Qian Chen and Zhou Zhao and Wei Xue},
year={2025},
eprint={2506.21448},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2506.21448},
}
@misc{liu2025prismaudiodecomposedchainofthoughtsmultidimensional,
title={PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation},
author={Huadai Liu and Kaicheng Luo and Wen Wang and Qian Chen and Peiwen Sun and Rongjie Huang and Xiangang Li and Jieping Ye and Wei Xue},
year={2025},
eprint={2511.18833},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2511.18833},
}📬 Contact
✨ Feel free to open an issue or contact us via email (liuhuadai@zju.edu.cn) if you have any questions or suggestions!
--- Tranlated By Open Ai Tx | Last indexed: 2026-04-20 ---