Web Analytics

index-tts-lora

⭐ 276 stars German by asr-pub

🌐 Sprache

index-tts-lora

Chinesische Version | Englische Version

Dieses Projekt basiert auf Bilibilis index-tts und bietet LoRA-Feinabstimmungslösungen sowohl für Einzelsprecher- als auch Mehrsprechersysteme. Ziel ist es, die Prosodie und Natürlichkeit bei der hochwertigen Sprachsynthese zu verbessern.

Training & Inferenz

#### 1. Extraktion von Audio-Token und Sprecherbedingungen

# Extract tokens and speaker conditions
python tools/extract_codec.py --audio_list ${audio_list} --extract_condition

audio_list format: audio_path + transcript, separated by \t

/path/to/audio.wav 小朋友们,大家好,我是凯叔,今天我们讲一个龟兔赛跑的故事。

Nach der Extraktion werden die verarbeiteten Dateien und speaker_info.json im Verzeichnis finetune_data/processed_data/ erzeugt. Zum Beispiel:

[
    {
        "speaker": "kaishu_30min",
        "avg_duration": 6.6729,
        "sample_num": 270,
        "total_duration_in_seconds": 1801.696,
        "total_duration_in_minutes": 30.028,
        "total_duration_in_hours": 0.500,
        "train_jsonl": "/path/to/kaishu_30min/metadata_train.jsonl",
        "valid_jsonl": "/path/to/kaishu_30min/metadata_valid.jsonl",
        "medoid_condition": "/path/to/kaishu_30min/medoid_condition.npy"
    }
]

#### 2. Training (Schulung)

python train.py

#### 3. Inferenz

python indextts/infer.py

Feinabstimmungs-Ergebnisse

Dieses Experiment verwendet chinesische Audiodaten aus Kai Shu erzählt Geschichten, mit einer Gesamtdauer von \~30 Minuten und 270 Audioclips. Der Datensatz ist in 244 Trainingsbeispiele und 26 Validierungsbeispiele aufgeteilt. Hinweis: Die Transkripte wurden automatisch mittels ASR- und Interpunktionsmodellen erstellt, ohne manuelle Korrektur. Daher sind einige Fehler zu erwarten.

Beispiel für ein Trainingsbeispiel, 他上了马车,来到了皇宫之中。kaishu_train_01.wav

#### 1. Sprachsynthese-Beispiele

| Text | Audio | | ------------------------------------------------------------ | ------------------------------------------------------------ | | Die Standuhr im alten Haus blieb um Mitternacht um drei Uhr stehen, im Staub erschien eine Reihe fremder Fußspuren. Der Detektiv kniete sich nieder und fand einen blutigen Ring in den Ritzen des Bodens. | kaishu_cn_1.wav | | Im Mondlicht wuchs plötzlich ein lachendes Gesicht auf dem Kürbis, Ranken drängten das Gartentor auf. Das kleine Mädchen stellte sich auf die Zehenspitzen und hörte, wie Pilze ein altes Wiegenlied summten. | kaishu_cn_2.wav | | Also muss man im mittleren Java-Bereich noch lernen, M sowie die Entwicklung von externen Frontend-Anwendungssystemen, die Datenbank von Java Script und die Erstellung dynamischer Webseiten. | kaishu_cn_en_mix_1.wav | | Dieser financial report analysiert detailliert die revenue performance und expenditure trends des Unternehmens im letzten Quartal. | kaishu_cn_en_mix_2.wav | | Bergauf, bergab, einen Berg hinauf, den nächsten hinab, drei Li und drei Meter gelaufen, einen hohen Berg bestiegen, der Berg ist dreihundertdrei Meter hoch. Oben auf dem Berg rief ich laut: Ich bin drei Chi und drei größer als der Berg. | kaishu_raokouling.wav | | A thin man lies against the side of the street with his shirt and a shoe off and bags nearby. | kaishu_en_1.wav | | As research continued, the protective effect of fluoride against dental decay was demonstrated. | kaishu_en_2.wav |

#### 2. Modellevaluierung image

Danksagungen

index-tts

finetune-index-tts

--- Tranlated By Open Ai Tx | Last indexed: 2025-12-28 ---