index-tts-lora
Versi Bahasa Mandarin | Versi Bahasa Inggris
Proyek ini didasarkan pada index-tts dari Bilibili, menyediakan solusi fine-tuning LoRA untuk pengaturan single-speaker dan multi-speaker. Proyek ini bertujuan meningkatkan prosidis dan naturalitas dalam sintesis audio speaker berkualitas tinggi.
Pelatihan & Inferensi
#### 1. Ekstraksi token audio dan kondisi pembicara
# Extract tokens and speaker conditions
python tools/extract_codec.py --audio_list ${audio_list} --extract_conditionaudio_list format: audio_path + transcript, separated by \t
/path/to/audio.wav 小朋友们,大家好,我是凯叔,今天我们讲一个龟兔赛跑的故事。Setelah ekstraksi, file yang telah diproses dan speaker_info.json akan dihasilkan di bawah direktori finetune_data/processed_data/. Sebagai contoh:
[
{
"speaker": "kaishu_30min",
"avg_duration": 6.6729,
"sample_num": 270,
"total_duration_in_seconds": 1801.696,
"total_duration_in_minutes": 30.028,
"total_duration_in_hours": 0.500,
"train_jsonl": "/path/to/kaishu_30min/metadata_train.jsonl",
"valid_jsonl": "/path/to/kaishu_30min/metadata_valid.jsonl",
"medoid_condition": "/path/to/kaishu_30min/medoid_condition.npy"
}
]#### 2. Pelatihan
python train.py#### 3. Inferensi
python indextts/infer.pyHasil Fine-tuning
Eksperimen ini menggunakan data audio bahasa Mandarin dari Kai Shu Tells Stories, dengan durasi total \~30 menit dan 270 klip audio. Dataset dibagi menjadi 244 sampel pelatihan dan 26 sampel validasi. Catatan: Transkrip dihasilkan secara otomatis melalui model ASR dan tanda baca, tanpa koreksi manual, sehingga beberapa kesalahan dapat terjadi.
Contoh sampel pelatihan, 他上了马车,来到了皇宫之中。:kaishu_train_01.wav
#### 1. Contoh Sintesis Ucapan
| Teks | Audio | | ----------------------------------------------------------- | ------------------------------------------------------------ | | Jam tua di rumah berhenti pada pukul tiga tengah malam, di antara debu muncul jejak kaki asing. Detektif berjongkok, menemukan sebuah cincin berlumuran darah tersembunyi di celah lantai. | kaishu_cn_1.wav | | Di bawah cahaya bulan, labu tiba-tiba tumbuh wajah tersenyum, sulur bergerak mendorong gerbang taman. Gadis kecil berjinjit, mendengar jamur menyanyikan lagu nina bobo kuno. | kaishu_cn_2.wav | | Jadi di Java, tingkat menengah masih harus belajar, M serta sampai pengembangan sistem aplikasi front-end eksternal, harus belajar database Java Script, harus belajar membuat situs web dinamis. | kaishu_cn_en_mix_1.wav | | Laporan keuangan ini menganalisis secara rinci kinerja pendapatan dan tren pengeluaran perusahaan selama kuartal terakhir. | kaishu_cn_en_mix_2.wav | | Naik gunung turun gunung, naik satu gunung, turun satu gunung, berlari tiga li tiga meter tiga, mendaki sebuah gunung tinggi, ketinggian gunung tiga ratus tiga. Setelah naik gunung, teriak keras: aku lebih tinggi tiga kaki tiga dari gunung. | kaishu_raokouling.wav | | Seorang pria kurus tergeletak di pinggir jalan dengan kemeja dan satu sepatu terlepas serta tas di dekatnya. | kaishu_en_1.wav | | Saat penelitian berlanjut, efek perlindungan fluoride terhadap kerusakan gigi pun terbukti. | kaishu_en_2.wav |
#### 2. Evaluasi Model
Ucapan Terima Kasih
--- Tranlated By Open Ai Tx | Last indexed: 2025-12-28 ---