index-tts-lora
यह प्रोजेक्ट Bilibili के index-tts पर आधारित है, जो LoRA फाइन-ट्यूनिंग समाधानों को एकल-स्पीकर और बहु-स्पीकर दोनों सेटअप के लिए प्रदान करता है। इसका उद्देश्य उच्च गुणवत्ता वाली स्पीकर ऑडियो सिंथेसिस में स्वर और प्राकृतिकता को बढ़ाना है।
प्रशिक्षण और अनुमान
#### 1. ऑडियो टोकन और स्पीकर कंडीशन निष्कर्षण
# Extract tokens and speaker conditions
python tools/extract_codec.py --audio_list ${audio_list} --extract_conditionaudio_list format: audio_path + transcript, separated by \t
/path/to/audio.wav 小朋友们,大家好,我是凯叔,今天我们讲一个龟兔赛跑的故事。एक्सट्रैक्शन के बाद, प्रोसेस्ड फाइलें और speaker_info.json फाइल finetune_data/processed_data/ डायरेक्टरी के तहत जेनरेट होंगी। उदाहरण के लिए:
[
{
"speaker": "kaishu_30min",
"avg_duration": 6.6729,
"sample_num": 270,
"total_duration_in_seconds": 1801.696,
"total_duration_in_minutes": 30.028,
"total_duration_in_hours": 0.500,
"train_jsonl": "/path/to/kaishu_30min/metadata_train.jsonl",
"valid_jsonl": "/path/to/kaishu_30min/metadata_valid.jsonl",
"medoid_condition": "/path/to/kaishu_30min/medoid_condition.npy"
}
]#### 2. प्रशिक्षण
python train.py#### 3. निष्कर्ष
python indextts/infer.pyफाइन-ट्यूनिंग परिणाम
यह प्रयोग चीनी ऑडियो डेटा का उपयोग करता है जो काई शू टेल्स स्टोरीज़ से लिया गया है, कुल अवधि \~30 मिनट और 270 ऑडियो क्लिप्स की है। डेटासेट को 244 प्रशिक्षण नमूनों और 26 मान्यता नमूनों में विभाजित किया गया है। नोट: ट्रांसक्रिप्ट्स को ASR और विराम चिह्न मॉडलों के माध्यम से स्वचालित रूप से उत्पन्न किया गया, बिना मैन्युअल सुधार के, इसलिए कुछ त्रुटियाँ अपेक्षित हैं।
उदाहरण प्रशिक्षण नमूना, 他上了马车,来到了皇宫之中。:kaishu_train_01.wav
#### 1. वाक् संश्लेषण उदाहरण
| पाठ | ऑडियो | | -------------------------------------------------------------- | ------------------------------------------------------------ | | पुरानी हवेली की घड़ी आधी रात के तीन बजे रुकी थी, धूल में अजनबी पैरों के निशान उभरे थे। जासूस झुककर देखता है, फर्श की दरार में खून से सनी अंगूठी छिपी थी। | kaishu_cn_1.wav | | चांदनी में कद्दू ने अचानक मुस्कान वाला चेहरा बना लिया, बेलें मरोड़ती हुई बगिया की बाड़ खोलती हैं। छोटी लड़की उचककर, सुनती है कि मशरूम प्राचीन लोरी गुनगुना रहे हैं। | kaishu_cn_2.wav | | तो Java में मिड-लेवल भी सीखना है, M तथा बाहरी फ्रंटएंड एप्लिकेशन सिस्टम डेवलपमेंट तक, Java Script का डेटाबेस, और डायनामिक वेबसाइट बनाना भी सीखना है। | kaishu_cn_en_mix_1.wav | | यह financial report कंपनी के पिछले तिमाही के revenue performance और expenditure trends का विस्तार से विश्लेषण करती है। | kaishu_cn_en_mix_2.wav | | पहाड़ चढ़े, पहाड़ उतरे, एक पहाड़ ऊपर, दूसरा पहाड़ नीचे, तीन कोस तीन मीटर तीन दौड़े, एक ऊँचा बड़ा पहाड़ चढ़ा, पहाड़ की ऊँचाई तीन सौ तीन। पहाड़ पर चढ़कर ऊँचे स्वर में बोला: मैं पहाड़ से तीन फुट तीन ऊँचा हूँ। | kaishu_raokouling.wav | | एक पतला आदमी सड़क के किनारे अपनी शर्ट और एक जूते के बिना लेटा है, बैग पास में हैं। | kaishu_en_1.wav | | जैसे-जैसे शोध आगे बढ़ा, दंत क्षय के खिलाफ फ्लोराइड का सुरक्षात्मक प्रभाव प्रदर्शित हुआ। | kaishu_en_2.wav |
#### 2. मॉडल मूल्यांकन
आभार
--- Tranlated By Open Ai Tx | Last indexed: 2025-12-28 ---