ThinkSound
🌐 English | 简体中文 | 繁體中文 | Español | Français | 日本語
Nếu bạn thấy dự án này hữu ích,
hãy tặng một sao ⭐ trên GitHub để ủng hộ!
ThinkSound là một khung tạo Any2Audio thống nhất với phương pháp ghép luồng được hướng dẫn bởi lý luận Chuỗi-Suy-Nghĩ (CoT).
Triển khai PyTorch cho tạo và chỉnh sửa âm thanh đa phương thức: tạo hoặc chỉnh sửa âm thanh từ video, văn bản và âm thanh, được hỗ trợ bởi suy luận từng bước từ các Mô hình Ngôn ngữ Lớn Đa phương thức (MLLMs).
📰 Tin tức
- 2025.09.19 🎉 ThinkSound đã được chấp nhận tại Hội nghị chính NeurIPS 2025!
- 2025.09.01 🔥 Bộ dữ liệu AudioCoT của chúng tôi hiện đã mã nguồn mở và có sẵn trên Hugging Face!
- 2025.07.17 🧠 Đã kích hoạt finetuning: mã huấn luyện và tinh chỉnh hiện đã công khai, kèm hướng dẫn sử dụng rõ ràng để bạn tùy chỉnh và mở rộng ThinkSound với dữ liệu của riêng mình.
- 2025.07.15 📦 Cài đặt và sử dụng đơn giản: phụ thuộc đã có trên PyPI để thiết lập đa nền tảng dễ dàng; script Windows
.battự động tạo môi trường và chạy script. - 2025.07.08 🔧 Cập nhật lớn: mô hình nhẹ hơn và tối ưu hóa bộ nhớ cùng GPU, hiện hỗ trợ tạo âm thanh hiệu suất cao với quy mô lớn!
- 2025.07.01 🔥Demo trực tuyến trên Hugging Face Spaces và ModelScope cho trải nghiệm tương tác!
- 2025.07.01 🔥Đã phát hành script suy luận và giao diện web;
- 2025.06 🔥Bài báo ThinkSound đã phát hành trên arXiv!
- 2025.06 🔥Demo trực tuyến đã hoạt động - hãy thử ngay!
🚀 Tính năng
- Any2Audio: Tạo âm thanh từ bất kỳ phương thức nào — video, văn bản, âm thanh hoặc kết hợp của chúng.
- Video-to-Audio SOTA: Đạt kết quả hàng đầu trên nhiều bộ đánh giá V2A.
- Suy luận dựa trên CoT: Suy luận chuỗi tư duy cho tạo âm thanh có tính thành phần và kiểm soát qua MLLMs.
- Chỉnh sửa tập trung vào đối tượng tương tác: Tinh chỉnh hoặc chỉnh sửa sự kiện âm thanh cụ thể bằng cách nhấp vào đối tượng hình ảnh hoặc sử dụng hướng dẫn văn bản.
- Khung hợp nhất: Một mô hình nền tảng duy nhất hỗ trợ tạo, chỉnh sửa và quy trình tương tác.
✨ Tổng quan phương pháp
ThinkSound phân tách quá trình tạo và chỉnh sửa âm thanh thành ba giai đoạn tương tác, tất cả đều được hướng dẫn bởi suy luận Chuỗi Tư Duy (CoT) dựa trên MLLM:
- Tạo Foley: Tạo nền âm thanh cơ bản, phù hợp ngữ nghĩa và thời gian từ video.
- Tinh chỉnh tập trung vào đối tượng: Tinh chỉnh hoặc thêm âm thanh cho đối tượng do người dùng chỉ định thông qua nhấp chuột hoặc vùng trên video.
- Chỉnh sửa âm thanh mục tiêu: Chỉnh sửa âm thanh đã tạo bằng hướng dẫn ngôn ngữ tự nhiên cấp cao.
⚡ Bắt đầu nhanh
Chuẩn bị môi trường:
git clone https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound
conda create -n thinksound python=3.10
conda activate thinksound
pip install thinksound
conda install -y -c conda-forge 'ffmpeg<7'
Download pretrained weights https://huggingface.co/liuhuadai/ThinkSound to Directory ckpts/
model weights can be also downloaded from https://www.modelscope.cn/models/iic/ThinkSound
git lfs install
git clone https://huggingface.co/liuhuadai/ThinkSound ckpts
To improve inference and training speed, you may optionally install a FlashAttention backend compatible with your system and PyTorch version.
✅ Mẹo cho Windows:
Người dùng Windows chỉ cần chạy setup_windows.bat (hoặc nhấp đúp vào nó) để tự động tạo môi trường conda, cài đặt tất cả các phụ thuộc (bao gồm cả FFmpeg), và tải về mô hình đã huấn luyện — không cần thiết lập thủ công.
Hãy đảm bảo rằngcondavàgitđã được cài đặt và có trong PATH hệ thống của bạn trước khi chạy script.
▶️ Chạy Demo
#### Linux/macOS
chmod +x scripts/demo.sh
./scripts/demo.sh [use-half]
#### WindowsBạn có thể sử dụng tập lệnh .bat được cung cấp thay thế:
.\scripts\demo.bat [use-half]
Lưu ý:: Đường dẫn đến một video duy nhất[use-half](tùy chọn): Thêm use-half vào cuối để bật chức năng trích xuất đặc tả với độ chính xác nửa.
📦 Suy luận theo lô
#### Linux/macOS
chmod +x scripts/eval_batch.sh
./scripts/eval_batch.sh [use-half]
#### WindowsSử dụng script .bat tương đương:
.\scripts\eval_batch.bat [use-half]
Lưu ý:: Đường dẫn đến thư mục gốc chứa tất cả các video .mp4 cần xử lý (tất cả video phải có cùng độ dài).: Một tệp CSV chứa các lệnh văn bản cho mỗi video (xemdemo_test.csvđể biết định dạng).(tùy chọn): Nơi lưu trữ tệp âm thanh được tạo ra. Mặc định làresults/features.[use-half](tùy chọn): Thêm use-half ở cuối để bật tính năng trích xuất đặc trưng với độ chính xác nửa.
Sử Dụng Giao Diện Web
Để trải nghiệm tương tác, hãy khởi chạy giao diện web Gradio:
python app.py🏋️ Huấn Luyện Mô Hình
Xem Training.md
📝 VIỆC CẦN LÀM & Kế Hoạch Tương Lai
- - [ ] Phát hành mô hình nền tảng mạnh mẽ hơn, bao phủ nhiều lĩnh vực để cung cấp trải nghiệm tạo foley hấp dẫn và sống động hơn
- - [ ] Thêm hỗ trợ cho các dạng dữ liệu và tác vụ hạ nguồn bổ sung
- - [ ] Phát hành các mô hình ở các quy mô khác nhau
- - [x] Mã nguồn mở bộ dữ liệu AudioCoT và quy trình tự động
- - [x] Phát hành các script huấn luyện cho các mô hình ThinkSound
- - [x] README hướng dẫn nhanh cho người mới dùng Windows
📄 Giấy Phép
Dự án này được phát hành theo Giấy phép Apache 2.0.
Lưu ý:
Mã nguồn, mô hình và bộ dữ liệu chỉ dành cho mục đích nghiên cứu và giáo dục.
Không được phép sử dụng cho mục đích thương mại.
Để xin giấy phép thương mại, vui lòng liên hệ tác giả.
📦 Thành Phần Bên Thứ Ba
- Stable Audio Open VAE (bởi Stability AI):
- 📘 Tất cả mã nguồn và mô hình còn lại được phát hành theo Giấy phép Apache 2.0.
Lời cảm ơn
Xin cảm ơn đến:
- stable-audio-tools (bởi Stability AI):
- MMAudio:
📖 Trích dẫn
Nếu bạn thấy ThinkSound hữu ích trong nghiên cứu hoặc công việc của mình, vui lòng trích dẫn bài báo của chúng tôi:
@misc{liu2025thinksoundchainofthoughtreasoningmultimodal,
title={ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing},
author={Huadai Liu and Jialei Wang and Kaicheng Luo and Wen Wang and Qian Chen and Zhou Zhao and Wei Xue},
year={2025},
eprint={2506.21448},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2506.21448},
}📬 Contact
✨ Feel free to open an issue or contact us via email (liuhuadai@zju.edu.cn) if you have any questions or suggestions!
--- Tranlated By Open Ai Tx | Last indexed: 2025-10-04 ---