ThinkSound
🌐 English | 简体中文 | 繁體中文 | Español | Français | 日本語
このプロジェクトが役立つと感じた場合、
GitHubでスター ⭐ をいただけると嬉しいです!
ThinkSound は、Chain-of-Thought(CoT)推論によるフロー・マッチングを活用した統合型Any2Audio生成フレームワークです。 PyTorchによるマルチモーダル音声生成および編集の実装:動画・テキスト・音声から音声を生成・編集し、マルチモーダル大規模言語モデル(MLLM)の段階的推論によって実現します。
📰 ニュース
- 2025.09.19 🎉 ThinkSoundがNeurIPS 2025メインカンファレンスに採択されました!
- 2025.09.01 🔥 AudioCoTデータセットがオープンソース化され、Hugging Faceで利用可能になりました!
- 2025.07.17 🧠 ファインチューニング対応:トレーニングとファインチューニングコードが公開され、独自データでThinkSoundをカスタマイズ・拡張する手順も明確化されています。
- 2025.07.15 📦 インストール・利用がより簡単に:PyPI経由の依存関係でクロスプラットフォーム環境構築が容易に。Windows用
.batスクリプトで環境作成とスクリプト実行を自動化。 - 2025.07.08 🔧 主要アップデート:モデルの軽量化とメモリ・GPU使用の最適化、大規模高スループット音声生成に対応!
- 2025.07.01 🔥Hugging Face SpacesとModelScopeでオンラインデモ公開、インタラクティブ体験が可能!
- 2025.07.01 🔥推論スクリプトとWebインターフェース公開;
- 2025.06 🔥ThinkSound論文がarXivに掲載!
- 2025.06 🔥オンラインデモ公開中 - 今すぐお試しください!
🚀 特徴
- Any2Audio:任意のモダリティ(動画・テキスト・音声・その組み合わせ)から音声生成。
- Video-to-Audio SOTA:複数のV2Aベンチマークで最先端の性能を達成。
- CoT駆動型推論:MLLMによるChain-of-Thought推論で構成的・制御可能な音声生成。
- インタラクティブなオブジェクト中心編集:映像内のオブジェクトクリックやテキスト指示で特定の音イベントを編集・調整。
- 統合フレームワーク:生成・編集・インタラクティブワークフローを単一基盤モデルでサポート。
✨ メソッド概要
ThinkSoundは、MLLMベースのChain-of-Thought(CoT)推論で導かれる3つのインタラクティブな段階に音声生成・編集を分解します:
- フォリー生成: 動画から意味的・時間的に整合した基礎サウンドスケープを生成。
- オブジェクト中心の精緻化: 動画内のクリックや領域指定で、ユーザーが指定したオブジェクトの音を精緻化・追加。
- ターゲット音声編集: 高度な自然言語指示で生成音声を修正。
⚡ クイックスタート
環境準備:
git clone https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound
conda create -n thinksound python=3.10
conda activate thinksound
pip install thinksound
conda install -y -c conda-forge 'ffmpeg<7'
Download pretrained weights https://huggingface.co/liuhuadai/ThinkSound to Directory ckpts/
model weights can be also downloaded from https://www.modelscope.cn/models/iic/ThinkSound
git lfs install
git clone https://huggingface.co/liuhuadai/ThinkSound ckpts
To improve inference and training speed, you may optionally install a FlashAttention backend compatible with your system and PyTorch version.
✅ Windowsのヒント:
Windowsユーザーは、setup_windows.bat を実行(またはダブルクリック)するだけで、自動的にconda環境が作成され、すべての依存関係(FFmpegを含む)がインストールされ、学習済みモデルがダウンロードされます — 手動でのセットアップは不要です。
スクリプトを実行する前に、condaおよびgitがインストールされており、システムPATHに追加されていることを確認してください。
▶️ デモの実行
#### Linux/macOS
chmod +x scripts/demo.sh
./scripts/demo.sh [use-half]
#### Windows代わりに、用意された .bat スクリプトを使用できます。
.\scripts\demo.bat [use-half]
注意:: 単一ビデオへのパス[use-half](オプション): 最後にuse-halfを追加して半精度特徴抽出を有効にします。
📦 バッチ推論
#### Linux/macOS
chmod +x scripts/eval_batch.sh
./scripts/eval_batch.sh [use-half]
#### Windows同等の .bat スクリプトを使用してください:
.\scripts\eval_batch.bat [use-half]
注意:: 処理するすべての.mp4動画を含むルートディレクトリへのパス(すべての動画は同じ長さである必要があります)。: 各動画に対応するテキストプロンプトが記載されたCSVファイル(形式はdemo_test.csvを参照)。(オプション): 生成された音声の保存先。デフォルトはresults/features。[use-half](オプション): 最後にuse-halfを追加すると半精度特徴量抽出を有効化します。
Webインターフェースの利用
インタラクティブな操作を行うには、GradioのWebインターフェースを起動してください。
python app.py🏋️ モデルのトレーニング
Training.md を参照してください
📝 TODO & 今後の計画
- - [ ] より強力な基礎モデルを公開し、複数のドメインをカバーしてより魅力的で没入感のあるフォーリー作成を提供
- - [ ] 追加のモダリティおよび下流タスクへの対応を追加
- - [ ] 異なるスケールのモデルを公開
- - [x] AudioCoTデータセットおよび自動化パイプラインのオープンソース化
- - [x] ThinkSoundモデル用のトレーニングスクリプト公開
- - [x] 初心者向けWindowsクイックスタートREADME
📄 ライセンス
このプロジェクトはApache 2.0ライセンスの下で公開されています。
注意:
コード、モデル、データセットは 研究および教育目的のみ で利用可能です。
商用利用は許可されていません。
商用ライセンスについては著者にお問い合わせください。
📦 サードパーティコンポーネント
- Stable Audio Open VAE(Stability AIによる):
- 📘 その他のコードおよびモデル はApache License 2.0の下で公開されています。
謝辞
感謝:
- stable-audio-tools(Stability AI 提供):
- MMAudio:
📖 引用
もしThinkSoundが研究や業務で役立った場合は、ぜひ私たちの論文を引用してください:
@misc{liu2025thinksoundchainofthoughtreasoningmultimodal,
title={ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing},
author={Huadai Liu and Jialei Wang and Kaicheng Luo and Wen Wang and Qian Chen and Zhou Zhao and Wei Xue},
year={2025},
eprint={2506.21448},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2506.21448},
}📬 Contact
✨ Feel free to open an issue or contact us via email (liuhuadai@zju.edu.cn) if you have any questions or suggestions!
--- Tranlated By Open Ai Tx | Last indexed: 2025-10-04 ---