index-tts-lora
เวอร์ชันภาษาจีน | เวอร์ชันภาษาอังกฤษ
โปรเจกต์นี้มีพื้นฐานมาจาก index-tts ของ Bilibili โดยให้โซลูชัน LoRA fine-tuning สำหรับทั้ง แบบพูดคนเดียวและหลายคน มีเป้าหมายเพื่อยกระดับ จังหวะและความเป็นธรรมชาติ ในการสังเคราะห์เสียงพูดคุณภาพสูง
การฝึกสอน & การอนุมาน
#### 1. การสกัดโทเคนเสียงและเงื่อนไขของผู้พูด
# Extract tokens and speaker conditions
python tools/extract_codec.py --audio_list ${audio_list} --extract_conditionaudio_list format: audio_path + transcript, separated by \t
/path/to/audio.wav 小朋友们,大家好,我是凯叔,今天我们讲一个龟兔赛跑的故事。
หลังจากการแยกไฟล์แล้ว ไฟล์ที่ผ่านการประมวลผลและ speaker_info.json จะถูกสร้างขึ้นภายใต้ไดเรกทอรี finetune_data/processed_data/ เช่น:[
{
"speaker": "kaishu_30min",
"avg_duration": 6.6729,
"sample_num": 270,
"total_duration_in_seconds": 1801.696,
"total_duration_in_minutes": 30.028,
"total_duration_in_hours": 0.500,
"train_jsonl": "/path/to/kaishu_30min/metadata_train.jsonl",
"valid_jsonl": "/path/to/kaishu_30min/metadata_valid.jsonl",
"medoid_condition": "/path/to/kaishu_30min/medoid_condition.npy"
}
]#### 2. การฝึกอบรม
python train.py#### 3. การอนุมาน
python indextts/infer.pyผลการปรับแต่งโมเดล
การทดลองนี้ใช้ ข้อมูลเสียงภาษาจีน จาก Kai Shu Tells Stories โดยมีระยะเวลารวม ประมาณ 30 นาที และ 270 คลิปเสียง ชุดข้อมูลถูกแบ่งเป็น 244 ตัวอย่างสำหรับฝึก และ 26 ตัวอย่างสำหรับตรวจสอบความถูกต้อง หมายเหตุ: ข้อความถอดเสียงถูกสร้างโดยอัตโนมัติผ่านโมเดล ASR และระบบวรรคตอน โดยไม่มีการแก้ไขด้วยมนุษย์ จึงอาจมีข้อผิดพลาดบ้าง
ตัวอย่างข้อมูลฝึก, 他上了马车,来到了皇宫之中。:kaishu_train_01.wav
#### 1. ตัวอย่างการสังเคราะห์เสียงพูด
| ข้อความ | เสียง | | -------------------------------------------------------------- | ------------------------------------------------------------ | | นาฬิกาในบ้านเก่าหยุดที่เที่ยงคืนสามนาฬิกา มีรอยเท้าแปลกปลอมปรากฏบนฝุ่น นักสืบย่อตัวลง พบแหวนเปื้อนเลือดซ่อนอยู่ในร่องพื้นไม้ | kaishu_cn_1.wav | | ใต้แสงจันทร์ ฟักทองจู่ๆ ก็มีใบหน้าที่ยิ้มแย้ม เถาวัลย์บิดตัวผลักรั้วสวน เด็กหญิงเขย่งเท้า ได้ยินเห็ดร้องเพลงกล่อมโบราณ | kaishu_cn_2.wav | | ดังนั้นใน Java ระดับกลางยังต้องเรียน และไปถึงการพัฒนาระบบแอปพลิเคชันฝั่งหน้าบ้านภายนอก ต้องเรียนฐานข้อมูล Java Script ต้องเรียนการทำเว็บไซต์ไดนามิก | kaishu_cn_en_mix_1.wav | | รายงานการเงินนี้ได้วิเคราะห์รายละเอียดประสิทธิภาพรายรับและแนวโน้มการใช้จ่ายของบริษัทในไตรมาสที่ผ่านมา | kaishu_cn_en_mix_2.wav | | ขึ้นเขาลงเขาขึ้นเขา หนึ่งเขา สองเขา วิ่งสามลี้สามเมตรสาม ขึ้นเขาสูงลูกหนึ่ง สูงเหนือระดับน้ำทะเลสามร้อยสาม ขึ้นเขาแล้วตะโกนดังว่า: ฉันสูงกว่าเขาสามฟุตสาม | kaishu_raokouling.wav | | ชายผอมคนหนึ่งนอนอยู่ข้างถนน เสื้อและรองเท้าหลุดออก ถุงวางอยู่ใกล้ ๆ | kaishu_en_1.wav | | เมื่อการวิจัยดำเนินต่อไป พบว่า ฟลูออไรด์มีฤทธิ์ป้องกันฟันผุอย่างมีประสิทธิภาพ | kaishu_en_2.wav |
#### 2. การประเมินโมเดล
ขอบคุณ
--- Tranlated By Open Ai Tx | Last indexed: 2025-12-28 ---