Web Analytics

index-tts-lora

⭐ 276 stars Russian by asr-pub

🌐 Язык

index-tts-lora

中文版本 | English Version

Этот проект основан на index-tts от Bilibili и предоставляет решения для дообучения LoRA для одного и нескольких дикторов. Цель — улучшить просодию и естественность синтеза аудио высокого качества для дикторов.

Обучение и инференс

#### 1. Извлечение аудиотокенов и условий говорящего

# Extract tokens and speaker conditions
python tools/extract_codec.py --audio_list ${audio_list} --extract_condition

audio_list format: audio_path + transcript, separated by \t

/path/to/audio.wav 小朋友们,大家好,我是凯叔,今天我们讲一个龟兔赛跑的故事。

После извлечения обработанные файлы и speaker_info.json будут сгенерированы в директории finetune_data/processed_data/. Например:

[
    {
        "speaker": "kaishu_30min",
        "avg_duration": 6.6729,
        "sample_num": 270,
        "total_duration_in_seconds": 1801.696,
        "total_duration_in_minutes": 30.028,
        "total_duration_in_hours": 0.500,
        "train_jsonl": "/path/to/kaishu_30min/metadata_train.jsonl",
        "valid_jsonl": "/path/to/kaishu_30min/metadata_valid.jsonl",
        "medoid_condition": "/path/to/kaishu_30min/medoid_condition.npy"
    }
]

#### 2. Обучение

python train.py

#### 3. Инференция

python indextts/infer.py

Результаты дообучения

В этом эксперименте используется китайский аудиодатасет из Кай Шу рассказывает истории, общей продолжительностью \~30 минут и 270 аудиофрагментов. Датасет разделён на 244 обучающих примера и 26 валидационных примеров. Примечание: Транскрипции были сгенерированы автоматически с помощью моделей ASR и пунктуации, без ручной корректировки, поэтому возможны ошибки.

Пример обучающего примера, 他上了马车,来到了皇宫之中。kaishu_train_01.wav

#### 1. Примеры синтеза речи

| Текст | Аудио | | ------------------------------------------------------------ | ------------------------------------------------------------ | | Часы в старом доме остановились на три часа ночи, в пыли проявились незнакомые следы. Детектив присел и обнаружил в щели пола окровавленное кольцо. | kaishu_cn_1.wav | | Под лунным светом у тыквы внезапно появляется улыбающееся лицо, плети двигаются и открывают садовую калитку. Девочка встает на цыпочки и слышит, как грибы напевают древнюю колыбельную. | kaishu_cn_2.wav | | Так вот, в Java средний уровень еще нужно изучать, а также приложения внешних фронтенд-систем, нужно учить базы данных Java Script, учиться делать динамические сайты. | kaishu_cn_en_mix_1.wav | | Этот financial report подробно анализирует revenue performance и expenditure trends компании за прошлый квартал. | kaishu_cn_en_mix_2.wav | | Вверх по горе, вниз по горе, на одну гору, на другую гору, пробежал три ли три метра три, взобрался на большую высокую гору, высота горы триста три. На вершине горы громко крикнул: я выше горы на три чи три. | kaishu_raokouling.wav | | A thin man lies against the side of the street with his shirt and a shoe off and bags nearby. | kaishu_en_1.wav | | As research continued, the protective effect of fluoride against dental decay was demonstrated. | kaishu_en_2.wav |

#### 2. Оценка модели image

Благодарности

index-tts

finetune-index-tts

--- Tranlated By Open Ai Tx | Last indexed: 2025-12-28 ---