ThinkSound
🌐 English | 简体中文 | 繁體中文 | Español | Français | 日本語
اگر این پروژه برای شما مفید بود،
یک ستاره ⭐ در گیتهاب بسیار ارزشمند خواهد بود!
ساختار مخزن
این مخزن ThinkSound در GitHub میزبان دو پروژه مرتبط در شاخههای جداگانه است:| شاخه | پروژه | مستندسازی |
|--------|---------|----------------|
| master | ThinkSound (NeurIPS 2025) — تولید یکپارچه Any2Audio با تطبیق جریان مبتنی بر CoT | این فایل: README.md |
| prismaudio | PrismAudio — کار ادامهدار (ICLR 2026) در تبدیل ویدیو به صدا با CoT-RL چندبعدی | README.md در شاخه prismaudio |
برای ThinkSound، از شاخه master (همین README) استفاده کنید. برای PrismAudio، شاخه prismaudio را بررسی و README.md آن را دنبال کنید.
ThinkSound یک چارچوب یکپارچه برای تولید Any2Audio با تطبیق جریان هدایتشده توسط استدلال زنجیرهای (CoT) است.
پیادهسازی PyTorch برای تولید و ویرایش صوت چندمدلی: تولید یا ویرایش صوت از ویدیو، متن و صوت، با بهرهگیری از استدلال مرحلهبهمرحله مدلهای زبانی بزرگ چندمدلی (MLLMs).
📰 اخبار
- 2026.03.24 🔥 PrismAudio در همین مخزن و شاخه
prismaudioمنتشر شد — برای راهاندازی و مدلها بهREADME.mdآن مراجعه کنید. - 2026.01.26 🎉 PrismAudio به کنفرانس اصلی ICLR 2026 پذیرفته شد (کد/مستندات در
prismaudio). - 2025.11.25 🔥 دموی آنلاین PrismAudio فعال است.
- 2025.11.25 🔥 مقاله PrismAudio در arXiv — CoT-RL چندبعدی برای تبدیل ویدیو به صوت.
- 2025.09.19 🎉 ThinkSound به کنفرانس اصلی NeurIPS 2025 پذیرفته شد!
- 2025.09.01 دیتاست AudioCoT ما اکنون بهصورت متنباز روی Hugging Face در دسترس است!
- 2025.07.17 🧠 قابلیت آموزش و ریزتنظیم: کد آموزش و ریزتنظیم به همراه دستورالعملهای واضح برای شخصیسازی و گسترش ThinkSound با دادههای خودتان منتشر شد.
- 2025.07.15 📦 نصب و استفاده سادهتر: وابستگیها در PyPI برای راهاندازی آسان بینسیستمی؛ اسکریپتهای
.batویندوز ایجاد محیط و اجرای اسکریپتها را خودکار میکنند. - 2025.07.08 🔧 بروزرسانی عمده: مدل سبکتر شده و استفاده از حافظه و GPU بهینه شده، اکنون از تولید صوت با توان بالا در مقیاس پشتیبانی میکند!
- 2025.07.01 دموی آنلاین در Hugging Face Spaces و ModelScope برای تجربه تعاملی!
- 2025.07.01 اسکریپتهای استنتاج و رابط وب منتشر شد؛
- 2025.06 مقاله ThinkSound در arXiv منتشر شد!
- 2025.06 دموی آنلاین فعال است - هماکنون امتحان کنید!
کار ادامهدار: PrismAudio (همین مخزن، شاخه prismaudio)
PrismAudio جانشین ThinkSound (ICLR 2026) است که تحت نامی جدید توسعه یافته اما در این مخزن در شاخه prismaudio نگهداری میشود. راهنمای نصب، نقاط بازیابی و نحوه استناد در README.md روی آن شاخه موجود است.
👉 git checkout prismaudio یا شاخه را در گیتهاب باز کنید.
🚀 قابلیتها
- Any2Audio: تولید صوت از هر نوع ورودی — ویدئو، متن، صدا یا ترکیبی از آنها.
- ویدئو به صوت SOTA: دستیابی به نتایج پیشرفته در چندین بنچمارک V2A.
- استدلال مبتنی بر CoT: تولید صوت ترکیبی و قابل کنترل با استفاده از استدلال زنجیرهای توسط MLLMها.
- ویرایش تعاملی مبتنی بر شیء: اصلاح یا ویرایش رویدادهای صوتی خاص با کلیک روی اشیاء تصویری یا استفاده از دستورهای متنی.
- چارچوب یکپارچه: یک مدل پایه که از تولید، ویرایش و روند تعاملی پشتیبانی میکند.
✨ نمای کلی روش
ThinkSound فرایند تولید و ویرایش صوت را به سه مرحله تعاملی تقسیم میکند که همگی توسط استدلال زنجیرهای مبتنی بر MLLM (CoT) هدایت میشوند:
- تولید Foley: تولید صداهای پایهای با همترازی معنایی و زمانی از ویدئو.
- اصلاح مبتنی بر شیء: اصلاح یا افزودن صدا برای اشیاء انتخابی کاربر از طریق کلیک یا تعیین ناحیه در ویدئو.
- ویرایش هدفمند صوت: ویرایش صوت تولید شده با استفاده از دستورهای زبان طبیعی سطح بالا.
⚡ شروع سریع
آمادهسازی محیط:
# ThinkSound code: branch master. PrismAudio: clone with -b prismaudio (see README.md on that branch).
git clone -b master https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound
conda create -n thinksound python=3.10
conda activate thinksound
pip install thinksound
conda install -y -c conda-forge 'ffmpeg<7'
Download pretrained weights https://huggingface.co/liuhuadai/ThinkSound to Directory ckpts/
model weights can be also downloaded from https://www.modelscope.cn/models/iic/ThinkSound
git lfs install
git clone https://huggingface.co/liuhuadai/ThinkSound ckpts
To improve inference and training speed, you may optionally install a FlashAttention backend compatible with your system and PyTorch version.
✅ نکته ویندوز:
کاربران ویندوز میتوانند به سادگی فایل setup_windows.bat را اجرا کنند (یا روی آن دوبار کلیک کنند) تا محیط کاندا بهطور خودکار ساخته شود، تمامی وابستگیها (از جمله FFmpeg) نصب شوند و مدل از پیش آموزشدیده دانلود گردد — هیچ تنظیمات دستی لازم نیست.
قبل از اجرای اسکریپت، مطمئن شوید کهcondaوgitنصب شده و در PATH سیستم شما قرار دارند.
▶️ اجرای دمو
#### لینوکس/macOS
chmod +x scripts/demo.sh
./scripts/demo.sh [use-half]
#### ویندوزدر عوض میتوانید از اسکریپت .bat ارائهشده استفاده کنید:
.\scripts\demo.bat [use-half]
توجه:: مسیر یک ویدئوی تکی[use-half](اختیاری): افزودن use-half در انتها برای فعالسازی استخراج ویژگی با دقت نیمه.
📦 استنتاج دستهای
#### لینوکس/macOS
chmod +x scripts/eval_batch.sh
./scripts/eval_batch.sh [use-half]
#### ویندوزاز اسکریپت معادل .bat استفاده کنید:
.\scripts\eval_batch.bat [use-half]
توجه:: مسیر دایرکتوری اصلی که حاوی تمام ویدیوهای .mp4 برای پردازش است (همه ویدیوها باید مدت زمان یکسان داشته باشند).: یک فایل CSV با متون راهنما برای هر ویدیو (فرمت را درdemo_test.csvببینید).(اختیاری): مسیر ذخیرهسازی فایلهای صوتی تولید شده. به طور پیشفرضresults/featuresاست.[use-half](اختیاری): افزودن use-half در انتها برای فعالسازی استخراج ویژگی با دقت نیمه.
استفاده از رابط وب
برای تجربه تعاملی، رابط وب Gradio را اجرا کنید:
python app.py🏋️ آموزش مدل
به Training.md مراجعه کنید
📄 مجوز
این پروژه تحت مجوز Apache 2.0 منتشر شده است.
توجه:
کد، مدلها و دادهها فقط برای اهداف پژوهشی و آموزشی ارائه شدهاند.
استفاده تجاری مجاز نیست.
برای دریافت مجوز تجاری، لطفاً با نویسندگان تماس بگیرید.
📦 اجزای شخص ثالث
- Stable Audio Open VAE (توسط Stability AI):
- 📘 سایر کدها و مدلها تحت مجوز Apache License 2.0 منتشر شدهاند.
تقدیر و تشکر
با تشکر فراوان از:
- stable-audio-tools (توسط Stability AI):
- MMAudio:
📖 استناد
اگر پروژه ما را در تحقیقات یا کار خود مفید یافتید، لطفاً به مقاله ما استناد کنید:
@misc{liu2025thinksoundchainofthoughtreasoningmultimodal,
title={ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing},
author={Huadai Liu and Jialei Wang and Kaicheng Luo and Wen Wang and Qian Chen and Zhou Zhao and Wei Xue},
year={2025},
eprint={2506.21448},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2506.21448},
}
@misc{liu2025prismaudiodecomposedchainofthoughtsmultidimensional,
title={PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation},
author={Huadai Liu and Kaicheng Luo and Wen Wang and Qian Chen and Peiwen Sun and Rongjie Huang and Xiangang Li and Jieping Ye and Wei Xue},
year={2025},
eprint={2511.18833},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2511.18833},
}📬 Contact
✨ Feel free to open an issue or contact us via email (liuhuadai@zju.edu.cn) if you have any questions or suggestions!
--- Tranlated By Open Ai Tx | Last indexed: 2026-04-20 ---