Web Analytics

index-tts-lora

⭐ 276 stars Thai by asr-pub

🌐 ภาษา

index-tts-lora

เวอร์ชันภาษาจีน | เวอร์ชันภาษาอังกฤษ

โปรเจกต์นี้มีพื้นฐานมาจาก index-tts ของ Bilibili โดยให้โซลูชัน LoRA fine-tuning สำหรับทั้ง แบบพูดคนเดียวและหลายคน มีเป้าหมายเพื่อยกระดับ จังหวะและความเป็นธรรมชาติ ในการสังเคราะห์เสียงพูดคุณภาพสูง

การฝึกสอน & การอนุมาน

#### 1. การสกัดโทเคนเสียงและเงื่อนไขของผู้พูด

# Extract tokens and speaker conditions
python tools/extract_codec.py --audio_list ${audio_list} --extract_condition

audio_list format: audio_path + transcript, separated by \t

/path/to/audio.wav 小朋友们,大家好,我是凯叔,今天我们讲一个龟兔赛跑的故事。
หลังจากการแยกไฟล์แล้ว ไฟล์ที่ผ่านการประมวลผลและ speaker_info.json จะถูกสร้างขึ้นภายใต้ไดเรกทอรี finetune_data/processed_data/ เช่น:

[
    {
        "speaker": "kaishu_30min",
        "avg_duration": 6.6729,
        "sample_num": 270,
        "total_duration_in_seconds": 1801.696,
        "total_duration_in_minutes": 30.028,
        "total_duration_in_hours": 0.500,
        "train_jsonl": "/path/to/kaishu_30min/metadata_train.jsonl",
        "valid_jsonl": "/path/to/kaishu_30min/metadata_valid.jsonl",
        "medoid_condition": "/path/to/kaishu_30min/medoid_condition.npy"
    }
]

#### 2. การฝึกอบรม

python train.py

#### 3. การอนุมาน

python indextts/infer.py

ผลการปรับแต่งโมเดล

การทดลองนี้ใช้ ข้อมูลเสียงภาษาจีน จาก Kai Shu Tells Stories โดยมีระยะเวลารวม ประมาณ 30 นาที และ 270 คลิปเสียง ชุดข้อมูลถูกแบ่งเป็น 244 ตัวอย่างสำหรับฝึก และ 26 ตัวอย่างสำหรับตรวจสอบความถูกต้อง หมายเหตุ: ข้อความถอดเสียงถูกสร้างโดยอัตโนมัติผ่านโมเดล ASR และระบบวรรคตอน โดยไม่มีการแก้ไขด้วยมนุษย์ จึงอาจมีข้อผิดพลาดบ้าง

ตัวอย่างข้อมูลฝึก, 他上了马车,来到了皇宫之中。kaishu_train_01.wav

#### 1. ตัวอย่างการสังเคราะห์เสียงพูด

| ข้อความ | เสียง | | -------------------------------------------------------------- | ------------------------------------------------------------ | | นาฬิกาในบ้านเก่าหยุดที่เที่ยงคืนสามนาฬิกา มีรอยเท้าแปลกปลอมปรากฏบนฝุ่น นักสืบย่อตัวลง พบแหวนเปื้อนเลือดซ่อนอยู่ในร่องพื้นไม้ | kaishu_cn_1.wav | | ใต้แสงจันทร์ ฟักทองจู่ๆ ก็มีใบหน้าที่ยิ้มแย้ม เถาวัลย์บิดตัวผลักรั้วสวน เด็กหญิงเขย่งเท้า ได้ยินเห็ดร้องเพลงกล่อมโบราณ | kaishu_cn_2.wav | | ดังนั้นใน Java ระดับกลางยังต้องเรียน และไปถึงการพัฒนาระบบแอปพลิเคชันฝั่งหน้าบ้านภายนอก ต้องเรียนฐานข้อมูล Java Script ต้องเรียนการทำเว็บไซต์ไดนามิก | kaishu_cn_en_mix_1.wav | | รายงานการเงินนี้ได้วิเคราะห์รายละเอียดประสิทธิภาพรายรับและแนวโน้มการใช้จ่ายของบริษัทในไตรมาสที่ผ่านมา | kaishu_cn_en_mix_2.wav | | ขึ้นเขาลงเขาขึ้นเขา หนึ่งเขา สองเขา วิ่งสามลี้สามเมตรสาม ขึ้นเขาสูงลูกหนึ่ง สูงเหนือระดับน้ำทะเลสามร้อยสาม ขึ้นเขาแล้วตะโกนดังว่า: ฉันสูงกว่าเขาสามฟุตสาม | kaishu_raokouling.wav | | ชายผอมคนหนึ่งนอนอยู่ข้างถนน เสื้อและรองเท้าหลุดออก ถุงวางอยู่ใกล้ ๆ | kaishu_en_1.wav | | เมื่อการวิจัยดำเนินต่อไป พบว่า ฟลูออไรด์มีฤทธิ์ป้องกันฟันผุอย่างมีประสิทธิภาพ | kaishu_en_2.wav |

#### 2. การประเมินโมเดล image

ขอบคุณ

index-tts

finetune-index-tts

--- Tranlated By Open Ai Tx | Last indexed: 2025-12-28 ---