ThinkSound

Jika Anda merasa proyek ini bermanfaat,
memberikan bintang ⭐ di GitHub akan sangat dihargai!

ThinkSound adalah kerangka kerja generasi Any2Audio terpadu dengan pencocokan alur yang dipandu oleh penalaran Chain-of-Thought (CoT).

Implementasi PyTorch untuk pembuatan dan pengeditan audio multimodal: menghasilkan atau mengedit audio dari video, teks, dan audio, didukung oleh penalaran bertahap dari Multimodal Large Language Models (MLLMs).

Teaser

📰 Berita

2025.11.25 🔥Demo PrismAudio Online telah aktif - coba sekarang!
2025.11.25 🔥Makalah PrismAudio dirilis di arXiv, kerangka kerja CoT-RL multi-dimensi pertama untuk Video-to-Audio Generation!
2025.09.19 🎉 ThinkSound diterima di Konferensi Utama NeurIPS 2025!
2025.09.01 Dataset AudioCoT kami kini open-source dan tersedia di Hugging Face!
2025.07.17 🧠 Finetuning diaktifkan: kode pelatihan dan finetuning kini tersedia secara publik, beserta instruksi penggunaan yang jelas untuk membantu Anda menyesuaikan dan memperluas ThinkSound dengan data Anda sendiri.
2025.07.15 📦 Instalasi dan kemudahan penggunaan yang disederhanakan: dependensi tersedia di PyPI untuk setup lintas platform yang mudah; script Windows .bat otomatisasi pembuatan environment dan menjalankan script.
2025.07.08 🔧 Pembaruan besar: model menjadi lebih ringan dan memori serta penggunaan GPU dioptimalkan, kini mendukung pembuatan audio berkapasitas tinggi!
2025.07.01 Demo online di Hugging Face Spaces dan ModelScope untuk pengalaman interaktif!
2025.07.01 Skrip inferensi dan antarmuka web dirilis;
2025.06 Makalah ThinkSound dirilis di arXiv!
2025.06 Demo Online telah aktif - coba sekarang!

---

🚀 Fitur

Any2Audio: Hasilkan audio dari berbagai modalitas — video, teks, audio, atau kombinasinya.
Video-to-Audio SOTA: Mencapai hasil mutakhir pada berbagai benchmark V2A.
Penalaran Berbasis CoT: Penalaran Chain-of-Thought untuk pembuatan audio komposisional dan terkontrol melalui MLLMs.
Pengeditan Interaktif Berbasis Objek: Perbaiki atau edit kejadian suara spesifik dengan mengklik objek visual atau menggunakan instruksi teks.
Kerangka Kerja Terpadu: Satu model dasar mendukung generasi, editing, dan alur kerja interaktif.

---

✨ Ikhtisar Metode

ThinkSound membagi proses pembuatan dan pengeditan audio ke dalam tiga tahap interaktif, semuanya dipandu oleh penalaran Chain-of-Thought (CoT) berbasis MLLM:

Foley Generation: Menghasilkan soundscape dasar yang selaras secara semantik dan temporal dari video.
Object-Centric Refinement: Memperbaiki atau menambahkan suara untuk objek yang ditentukan pengguna melalui klik atau area pada video.
Targeted Audio Editing: Mengubah audio yang dihasilkan menggunakan instruksi bahasa alami tingkat tinggi.

⚡ Mulai Cepat

Persiapan Lingkungan:

git clone https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound
conda create -n thinksound python=3.10
conda activate thinksound
pip install thinksound
conda install -y -c conda-forge 'ffmpeg<7'
Download pretrained weights https://huggingface.co/liuhuadai/ThinkSound to Directory ckpts/
model weights can be also downloaded from https://www.modelscope.cn/models/iic/ThinkSound
git lfs install
git clone https://huggingface.co/liuhuadai/ThinkSound ckpts
To improve inference and training speed, you may optionally install a FlashAttention backend compatible with your system and PyTorch version.

✅ Tips Windows:

Pengguna Windows dapat langsung menjalankan setup_windows.bat (atau klik dua kali) untuk secara otomatis membuat environment conda, menginstal semua dependensi (termasuk FFmpeg), dan mengunduh model pra-latih — tanpa perlu pengaturan manual.

Pastikan conda dan git sudah terinstal dan tersedia di PATH sistem Anda sebelum menjalankan skrip.

▶️ Jalankan Demo

#### Linux/macOS

chmod +x scripts/demo.sh
./scripts/demo.sh   <CoT description> [use-half]</code></pre>
#### <strong>Windows</strong></p><p>Anda dapat menggunakan skrip <code>.bat</code> yang disediakan sebagai gantinya:</p><pre><code class="language-bash">.\scripts\demo.bat <path-to-your-demo-video> <title> <CoT description> [use-half]</code></pre>
<strong>Catatan:</strong></p><ul><li><code><path-to-your-demo-video></code>: Jalur ke satu video</li>
<li><code>[use-half]</code> (opsional): Tambahkan use-half di akhir untuk mengaktifkan ekstraksi fitur presisi setengah.</li></p><p></ul>---</p><h3>📦 Inferensi Batch</h3></p><p>#### <strong>Linux/macOS</strong></p><pre><code class="language-bash">chmod +x scripts/eval_batch.sh
./scripts/eval_batch.sh <video_path> <csv_path> <save_path (optional)> [use-half]</code></pre>
#### <strong>Windows</strong></p><p>Gunakan skrip <code>.bat</code> yang setara:</p><pre><code class="language-bash">.\scripts\eval_batch.bat <video_path> <csv_path> <save_path (optional)> [use-half]</code></pre>
<strong>Catatan:</strong></p><ul><li><code><video_path></code>: Jalur ke direktori root yang berisi semua video .mp4 yang akan diproses (semua video harus berdurasi sama).</li>
<li><code><csv_path></code>: File CSV dengan prompt teks untuk setiap video (lihat <code>demo_test.csv</code> untuk formatnya).</li>
<li><code><save_path></code> (opsional): Tempat untuk menyimpan audio yang dihasilkan. Default ke <code>results/features</code>.</li>
<li><code>[use-half]</code> (opsional): Tambahkan use-half di akhir untuk mengaktifkan ekstraksi fitur presisi setengah.</li></p><p></ul>---</p><h3>Penggunaan Antarmuka Web</h3></p><p>Untuk pengalaman interaktif, jalankan antarmuka web Gradio:</p><pre><code class="language-bash">python app.py</code></pre></p><h2>🏋️ Latih Model</h2></p><p>Lihat <a href="https://raw.githubusercontent.com/FunAudioLLM/ThinkSound/master/docs/Training.md" target="_blank" rel="noopener noreferrer"><code>Training.md</code></a></p><hr></p><h2>📝 TODO & Rencana Masa Depan</h2>
<ul><li>- [ ] Merilis model fondasi yang lebih kuat yang mencakup beberapa domain untuk memberikan kreasi foley yang lebih menarik dan imersif</li>
<li>- [ ] Menambahkan dukungan untuk modalitas tambahan dan tugas hilir</li>
<li>- [ ] Merilis model dalam berbagai skala</li>
<li>- [x] Open-source dataset AudioCoT dan pipeline otomatis</li>
<li>- [x] Merilis skrip pelatihan untuk model ThinkSound</li>
<li>- [x] README Windows quick-start yang ramah pemula</li>
</ul>---</p><h2>📄 Lisensi</h2></p><p>Proyek ini dirilis di bawah Lisensi Apache 2.0.</p><blockquote><strong>Catatan:</strong></blockquote>
<blockquote>Kode, model, dan dataset <strong>hanya untuk tujuan riset dan edukasi</strong>.</blockquote>
<blockquote><strong>Penggunaan komersial TIDAK diizinkan.</strong></blockquote>
<blockquote>Untuk lisensi komersial, silakan hubungi penulis.</blockquote></p><p><strong>📦 Komponen Pihak Ketiga</strong></p><ul><li><strong>Stable Audio Open VAE</strong> (oleh Stability AI):</li>
  </ul>Repository ini menyertakan VAE yang telah di-finetune dari <a href="https://huggingface.co/stabilityai/stable-audio-open-1.0/" target="_blank" rel="noopener noreferrer">Stable Audio Open</a>, berlisensi di bawah <a href="https://raw.githubusercontent.com/FunAudioLLM/ThinkSound/master/./third_party/LICENSE_StabilityAI.md" target="_blank" rel="noopener noreferrer">Stability AI Community License</a>.
  <strong>Penggunaan dan redistribusi komersial memerlukan izin terlebih dahulu dari Stability AI.</strong></p><ul><li>📘 <strong>Seluruh kode dan model lainnya</strong> dirilis di bawah Lisensi Apache 2.0.</li></p><p></ul>---</p><h2>Ucapan Terima Kasih</h2></p><p>Terima kasih banyak kepada:</p><ul><li><strong>stable-audio-tools</strong> (oleh Stability AI):</li>
</ul>Untuk menyediakan kerangka kerja yang mudah digunakan untuk generasi audio, serta modul VAE dan bobotnya.
<ul><li><strong>MMAudio</strong>:</li>
  </ul>Untuk implementasi backbone MM-DiT di domain audio.</p><hr></p><h2>📖 Sitasi</h2></p><p>Jika Anda merasa ThinkSound berguna dalam penelitian atau pekerjaan Anda, silakan sitasi makalah kami:</p><pre><code class="language-bibtex">@misc{liu2025thinksoundchainofthoughtreasoningmultimodal,
      title={ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing}, 
      author={Huadai Liu and Jialei Wang and Kaicheng Luo and Wen Wang and Qian Chen and Zhou Zhao and Wei Xue},
      year={2025},
      eprint={2506.21448},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2506.21448}, 
}</code></pre></p><hr></p><h2>📬 Contact</h2></p><p>
✨ Feel free to <a href="https://github.com/liuhuadai/ThinkSound/issues" target="_blank" rel="noopener noreferrer">open an issue</a> or contact us via email (<a href="https://raw.githubusercontent.com/FunAudioLLM/ThinkSound/master/mailto:liuhuadai@zju.edu.cn" target="_blank" rel="noopener noreferrer">liuhuadai@zju.edu.cn</a>) if you have any questions or suggestions!</p><p>

---


Tranlated By <a href="https://github.com/OpenAiTx/OpenAiTx" target="_blank" rel="noopener noreferrer">Open Ai Tx</a> | Last indexed: 2026-01-07


---</p>
        </div>
        
        <div class="original-link">
            <strong>Original README:</strong> <a href="https://raw.githubusercontent.com/FunAudioLLM/ThinkSound/master/README.md" target="_blank" rel="noopener noreferrer">View on GitHub</a>
        </div>
    </div>
    
    <div class="footer">
        <p>Translated by <a href="https://github.com/OpenAiTx/OpenAiTx" target="_blank" rel="noopener noreferrer">OpenAiTx</a> | 
        Last updated: 2026-01-07 
    </div>
    
</body>
</html>