Web Analytics

index-tts-lora

⭐ 272 stars Hindi by asr-pub

🌐 भाषा

index-tts-lora

中文版本 | अंग्रेज़ी संस्करण

यह परियोजना Bilibili के index-tts पर आधारित है, जो एकल वक्ता और बहु-वक्ता सेटअप के लिए LoRA फाइन-ट्यूनिंग समाधान प्रदान करती है। इसका उद्देश्य उच्च गुणवत्ता वाले वक्ता ऑडियो संश्लेषण में लय और स्वाभाविकता को बढ़ाना है।

प्रशिक्षण एवं अनुमान

#### 1. ऑडियो टोकन और वक्ता स्थिति निष्कर्षण

# Extract tokens and speaker conditions
python tools/extract_codec.py --audio_list ${audio_list} --extract_condition

audio_list format: audio_path + transcript, separated by \t

/path/to/audio.wav 小朋友们,大家好,我是凯叔,今天我们讲一个龟兔赛跑的故事。

एक्सट्रैक्शन के बाद, प्रोसेस्ड फाइलें और speaker_info.json फाइल finetune_data/processed_data/ डायरेक्टरी के तहत जेनरेट होंगी। उदाहरण के लिए:

[
    {
        "speaker": "kaishu_30min",
        "avg_duration": 6.6729,
        "sample_num": 270,
        "total_duration_in_seconds": 1801.696,
        "total_duration_in_minutes": 30.028,
        "total_duration_in_hours": 0.500,
        "train_jsonl": "/path/to/kaishu_30min/metadata_train.jsonl",
        "valid_jsonl": "/path/to/kaishu_30min/metadata_valid.jsonl",
        "medoid_condition": "/path/to/kaishu_30min/medoid_condition.npy"
    }
]

#### 2. प्रशिक्षण

python train.py

#### 3. निष्कर्ष

python indextts/infer.py

फाइन-ट्यूनिंग परिणाम

इस प्रयोग में चीनी ऑडियो डेटा का उपयोग किया गया है Kai Shu Tells Stories से, जिसकी कुल अवधि \~30 मिनट और 270 ऑडियो क्लिप्स है। डेटासेट को 244 प्रशिक्षण नमूनों और 26 सत्यापन नमूनों में विभाजित किया गया है। नोट: ट्रांस्क्रिप्ट्स स्वचालित रूप से ASR और विराम चिन्ह मॉडल्स द्वारा बनाई गई हैं, बिना मैन्युअल सुधार के, इसलिए कुछ त्रुटियाँ अपेक्षित हैं।

उदाहरण प्रशिक्षण नमूना, 他上了马车,来到了皇宫之中。kaishu_train_01.wav

#### 1. भाषण संश्लेषण उदाहरण

| टेक्स्ट | ऑडियो | | ------------------------------------------------------------ | ------------------------------------------------------------ | | पुराने घर की घड़ी आधी रात तीन बजे पर रुकी है, धूल में अजनबी पैरों के निशान उभर आते हैं। जासूस झुककर देखता है, फर्श की दरार में खून लगा हुआ अंगूठी छिपी है। | kaishu_cn_1.wav | | चांदनी में, कद्दू ने अचानक हँसता चेहरा बना लिया, बेलें मुड़ती हुई बगिया की जाली खोल देती हैं। छोटी लड़की उचककर खड़ी होती है, सुनती है कि मशरूम प्राचीन लोरी गा रहे हैं। | kaishu_cn_2.wav | | तो Java में मिड-लेवल भी सीखना है, M और बाहरी फ्रंटएंड एप्लिकेशन सिस्टम डेवलपमेंट तक, Java Script का डेटाबेस सीखना है, डायनामिक वेबसाइट बनाना सीखना है। | kaishu_cn_en_mix_1.wav | | यह financial report कंपनी की पिछले एक तिमाही की revenue performance और expenditure trends का विस्तृत विश्लेषण करती है। | kaishu_cn_en_mix_2.wav | | पहाड़ चढ़ा, पहाड़ उतरा, एक पहाड़ ऊपर, एक पहाड़ नीचे, तीन ली तीन मीटर तीन दौड़े, एक बड़ा ऊँचा पहाड़ चढ़ा, पहाड़ की ऊँचाई तीन सौ तीस। पहाड़ चढ़कर जोर से बोला: मैं पहाड़ से तीन फीट ऊँचा हूँ। | kaishu_raokouling.wav | | एक दुबला आदमी सड़क के किनारे अपनी शर्ट और एक जूता उतारकर और बैग पास में रखकर लेटा हुआ है। | kaishu_en_1.wav | | जैसे-जैसे रिसर्च आगे बढ़ी, दंत क्षय के खिलाफ फ्लोराइड की सुरक्षा प्रभाव सिद्ध हुई। | kaishu_en_2.wav |

#### 2. मॉडल मूल्यांकन मूल्यांकन सेट का विवरण देखें: 2025 Benchmark of Mainstream TTS Models: Who Is the Best Voice Synthesis Solution? image

आभार

index-tts

finetune-index-tts

--- Tranlated By Open Ai Tx | Last indexed: 2025-12-16 ---