index-tts-lora
本プロジェクトはBilibiliの index-tts をベースにしており、単一話者および多話者の両方に対応したLoRAファインチューニングソリューションを提供します。高品質な話者音声合成においてプロソディと自然さを強化することを目的としています。
学習と推論
#### 1. オーディオトークンおよび話者条件の抽出
# Extract tokens and speaker conditions
python tools/extract_codec.py --audio_list ${audio_list} --extract_conditionaudio_list format: audio_path + transcript, separated by \t
/path/to/audio.wav 小朋友们,大家好,我是凯叔,今天我们讲一个龟兔赛跑的故事。
抽出後、処理されたファイルと speaker_info.json は finetune_data/processed_data/ ディレクトリの下に生成されます。例えば:[
{
"speaker": "kaishu_30min",
"avg_duration": 6.6729,
"sample_num": 270,
"total_duration_in_seconds": 1801.696,
"total_duration_in_minutes": 30.028,
"total_duration_in_hours": 0.500,
"train_jsonl": "/path/to/kaishu_30min/metadata_train.jsonl",
"valid_jsonl": "/path/to/kaishu_30min/metadata_valid.jsonl",
"medoid_condition": "/path/to/kaishu_30min/medoid_condition.npy"
}
]#### 2. トレーニング
python train.py#### 3. 推論
python indextts/infer.pyファインチューニング結果
本実験では凯叔讲故事の中国語音声データを使用し、総収録時間は約30分、270音声クリップです。 データセットは244件の訓練サンプルと26件の検証サンプルに分割されています。 注意:文字起こしはASRと句読点モデルで自動生成されており、手動で修正していないため、誤りが含まれている可能性があります。
訓練サンプル例:他上了马车,来到了皇宫之中。:kaishu_train_01.wav
#### 1. 音声合成例
| テキスト | 音声 | | ------------------------------------------------------------ | ------------------------------------------------------------ | | 老宅の時計は真夜中の三時で止まり、埃の中に見知らぬ足跡が浮かび上がる。探偵はしゃがみこみ、床の隙間に血のついた指輪が隠れているのを見つけた。 | kaishu_cn_1.wav | | 月明かりの下でカボチャは突然笑顔になり、蔓がねじれて庭の柵を押し開ける。少女は背伸びして、キノコが古い子守唄を口ずさむのを聞いた。 | kaishu_cn_2.wav | | それでJavaでは中級も学び、Mそして外部フロントエンドの応用システム開発、JavaScriptのデータベースも学び、動的なウェブサイトの作り方も学びます。 | kaishu_cn_en_mix_1.wav | | この financial report は、過去四半期の会社の revenue performance と expenditure trends を詳細に分析しています。 | kaishu_cn_en_mix_2.wav | | 山を登り下りして一つの山、次の山、三里三メートル三走って、高い大きな山に登り、標高三百三。山に上がって大声で叫ぶ:私は山より三尺三高い。 | kaishu_raokouling.wav | | A thin man lies against the side of the street with his shirt and a shoe off and bags nearby. | kaishu_en_1.wav | | As research continued, the protective effect of fluoride against dental decay was demonstrated. | kaishu_en_2.wav |
#### 2. モデル評価
謝辞
--- Tranlated By Open Ai Tx | Last indexed: 2025-12-28 ---