Web Analytics

index-tts-lora

⭐ 276 stars Vietnamese by asr-pub

🌐 Ngôn ngữ

index-tts-lora

Phiên bản tiếng Trung | Phiên bản tiếng Anh

Dự án này dựa trên index-tts của Bilibili, cung cấp giải pháp tinh chỉnh LoRA cho cả thiết lập một người nói và nhiều người nói. Mục tiêu nhằm nâng cao ngữ điệu và sự tự nhiên trong tổng hợp âm thanh người nói chất lượng cao.

Huấn luyện & Suy luận

#### 1. Trích xuất token âm thanh và điều kiện người nói

# Extract tokens and speaker conditions
python tools/extract_codec.py --audio_list ${audio_list} --extract_condition

audio_list format: audio_path + transcript, separated by \t

/path/to/audio.wav 小朋友们,大家好,我是凯叔,今天我们讲一个龟兔赛跑的故事。

Sau khi trích xuất, các tệp đã xử lý và speaker_info.json sẽ được tạo ra trong thư mục finetune_data/processed_data/. Ví dụ:

[
    {
        "speaker": "kaishu_30min",
        "avg_duration": 6.6729,
        "sample_num": 270,
        "total_duration_in_seconds": 1801.696,
        "total_duration_in_minutes": 30.028,
        "total_duration_in_hours": 0.500,
        "train_jsonl": "/path/to/kaishu_30min/metadata_train.jsonl",
        "valid_jsonl": "/path/to/kaishu_30min/metadata_valid.jsonl",
        "medoid_condition": "/path/to/kaishu_30min/medoid_condition.npy"
    }
]

#### 2. Đào tạo

python train.py

#### 3. Suy luận

python indextts/infer.py

Kết quả Fine-tuning

Thí nghiệm này sử dụng dữ liệu âm thanh tiếng Trung từ Kai Shu Tells Stories, với tổng thời lượng \~30 phút270 đoạn âm thanh. Bộ dữ liệu được chia thành 244 mẫu huấn luyện26 mẫu xác thực. Lưu ý: Bản phiên âm được tạo tự động qua hệ thống nhận diện giọng nói và mô hình dấu câu, không có chỉnh sửa thủ công, nên có thể có một số lỗi.

Ví dụ mẫu huấn luyện, 他上了马车,来到了皇宫之中。kaishu_train_01.wav

#### 1. Ví dụ tổng hợp giọng nói

| Văn bản | Âm thanh | | -------------------------------------------------------------- | -------------------------------------------------------------- | | Đồng hồ ở ngôi nhà cũ dừng lại lúc ba giờ sáng, một chuỗi dấu chân lạ xuất hiện giữa bụi bặm. Thám tử cúi xuống, phát hiện một chiếc nhẫn dính máu giấu trong kẽ sàn. | kaishu_cn_1.wav | | Dưới ánh trăng, quả bí ngô bỗng mọc khuôn mặt cười, dây leo uốn mình đẩy mở hàng rào khu vườn. Cô bé nhón chân lên, nghe thấy nấm đang ngân nga bài hát ru cổ xưa. | kaishu_cn_2.wav | | Vậy thì trong Java ở mức trung cấp còn phải học, M cũng như đến phát triển hệ thống ứng dụng phía trước bên ngoài, phải học cơ sở dữ liệu Java Script, phải học làm website động. | kaishu_cn_en_mix_1.wav | | Báo cáo tài chính này phân tích chi tiết hiệu suất doanh thu và xu hướng chi tiêu của công ty trong quý vừa qua. | kaishu_cn_en_mix_2.wav | | Lên núi xuống núi lên một núi, xuống một núi, chạy ba dặm ba mét ba, leo một ngọn núi cao lớn, núi cao độ cao ba trăm ba. Lên núi, hét lớn: Tôi cao hơn núi ba thước ba. | kaishu_raokouling.wav | | Một người đàn ông gầy nằm dựa bên đường, áo sơ mi và một chiếc giày đã tháo ra, túi xách đặt gần đó. | kaishu_en_1.wav | | Khi nghiên cứu tiếp tục, hiệu quả bảo vệ của fluoride chống lại sâu răng đã được chứng minh. | kaishu_en_2.wav |

#### 2. Đánh giá mô hình image

Lời cảm ơn

index-tts

finetune-index-tts

--- Tranlated By Open Ai Tx | Last indexed: 2025-12-28 ---