Web Analytics

index-tts-lora

⭐ 276 stars Traditional Chinese by asr-pub

🌐 語言

index-tts-lora

中文版本 | English Version

本專案基於嗶哩嗶哩的index-tts,為單說話人及多說話人場景提供LoRA微調解決方案。旨在提升高品質說話人語音合成的韻律與自然度

訓練與推理

#### 1. 音訊標記與說話者條件提取

# Extract tokens and speaker conditions
python tools/extract_codec.py --audio_list ${audio_list} --extract_condition

audio_list format: audio_path + transcript, separated by \t

/path/to/audio.wav 小朋友们,大家好,我是凯叔,今天我们讲一个龟兔赛跑的故事。

提取後,處理過的檔案和 speaker_info.json 會生成在 finetune_data/processed_data/ 目錄下。例如:

[
    {
        "speaker": "kaishu_30min",
        "avg_duration": 6.6729,
        "sample_num": 270,
        "total_duration_in_seconds": 1801.696,
        "total_duration_in_minutes": 30.028,
        "total_duration_in_hours": 0.500,
        "train_jsonl": "/path/to/kaishu_30min/metadata_train.jsonl",
        "valid_jsonl": "/path/to/kaishu_30min/metadata_valid.jsonl",
        "medoid_condition": "/path/to/kaishu_30min/medoid_condition.npy"
    }
]

#### 2. 訓練

python train.py

#### 3. 推論

python indextts/infer.py

微調結果

本實驗使用來自 凱叔講故事中文語音資料,總時長約 30 分鐘,共 270 段語音片段。 資料集分為 244 個訓練樣本26 個驗證樣本。 注意:語音稿是通過語音識別及標點模型自動生成,未經人工校正,因此可能存在錯誤。

訓練樣本範例,他上了馬車,來到了皇宮之中。kaishu_train_01.wav

#### 1. 語音合成範例

| 文字 | 音訊 | | ------------------------------------------------------------ | ------------------------------------------------------------ | | 老宅的鐘錶停在午夜三點,灰塵中浮現一串陌生腳印。偵探蹲下身,發現地板縫隙裡藏著一枚帶血的戒指。 | kaishu_cn_1.wav | | 月光下,南瓜突然長出笑臉,藤蔓扭動著推開花園柵欄。小女孩踮起腳,聽見蘑菇在哼唱古老的搖籃曲。 | kaishu_cn_2.wav | | 那麼Java裡面中級還要學,M以及到外部前端的應用系統開發,要學到Java Script的資料庫,要學做動態的網站。 | kaishu_cn_en_mix_1.wav | | 這份 financial report 詳細分析了公司在過去一個季度的 revenue performance 和 expenditure trends。 | kaishu_cn_en_mix_2.wav | | 上山下山上一山,下一山,跑了三里三米三,登了一座大高山,山高海拔三百三。上了山,大聲喊:我比山高三尺三。 | kaishu_raokouling.wav | | A thin man lies against the side of the street with his shirt and a shoe off and bags nearby. | kaishu_en_1.wav | | As research continued, the protective effect of fluoride against dental decay was demonstrated. | kaishu_en_2.wav |

#### 2. 模型評估 image

致謝

index-tts

finetune-index-tts

--- Tranlated By Open Ai Tx | Last indexed: 2025-12-28 ---