Web Analytics

index-tts-lora

⭐ 276 stars Arabic by asr-pub

🌐 اللغة

index-tts-lora

النسخة الصينية | النسخة الإنجليزية

هذا المشروع مبني على index-tts من Bilibili، ويقدم حلول تحسين LoRA لكل من إعدادات المتحدث الواحد والمتعدد المتحدثين. يهدف إلى تعزيز الإيقاع والطبيعية في توليد صوت المتحدث عالي الجودة.

التدريب والاستدلال

#### 1. استخراج رمز الصوت وحالة المتحدث

# Extract tokens and speaker conditions
python tools/extract_codec.py --audio_list ${audio_list} --extract_condition

audio_list format: audio_path + transcript, separated by \t

/path/to/audio.wav 小朋友们,大家好,我是凯叔,今天我们讲一个龟兔赛跑的故事。

بعد الاستخراج، سيتم إنشاء الملفات المعالجة وملف speaker_info.json ضمن دليل finetune_data/processed_data/. على سبيل المثال:

[
    {
        "speaker": "kaishu_30min",
        "avg_duration": 6.6729,
        "sample_num": 270,
        "total_duration_in_seconds": 1801.696,
        "total_duration_in_minutes": 30.028,
        "total_duration_in_hours": 0.500,
        "train_jsonl": "/path/to/kaishu_30min/metadata_train.jsonl",
        "valid_jsonl": "/path/to/kaishu_30min/metadata_valid.jsonl",
        "medoid_condition": "/path/to/kaishu_30min/medoid_condition.npy"
    }
]

#### 2. التدريب

python train.py

#### 3. الاستنتاج

python indextts/infer.py

نتائج التخصيص الدقيق

يستخدم هذا الاختبار بيانات صوتية صينية من كاي شو يروي القصص، بإجمالي مدة حوالي 30 دقيقة و 270 مقطعًا صوتيًا. تم تقسيم مجموعة البيانات إلى 244 عينة تدريبية و 26 عينة تحقق. ملاحظة: تم توليد النصوص تلقائيًا عبر نماذج التعرف التلقائي على الكلام وعلامات الترقيم، دون تصحيح يدوي، لذلك من المتوقع وجود بعض الأخطاء.

مثال على عينة تدريب: 他上了马车,来到了皇宫之中。kaishu_train_01.wav

#### 1. أمثلة على توليد الكلام

| النص | الصوت | | ------------------------------------------------------------ | ------------------------------------------------------------ | | توقفَت ساعة المنزل القديم عند الثالثة بعد منتصف الليل، وظهرت آثار أقدام غريبة في الغبار. انحنى المحقق واكتشف خاتمًا ملطخًا بالدماء مخفيًا في شقوق الأرضية. | kaishu_cn_1.wav | | تحت ضوء القمر، ظهر وجه مبتسم على اليقطين فجأة، وتلوّت الكرمة دافعة بوابة الحديقة. وقفت الطفلة على أطراف أصابعها، وسمعت الفطر يدندن لحن تهويدة قديمة. | kaishu_cn_2.wav | | إذًا في جافا، لا بد أن تتعلم المستوى المتوسط، M وتطوير أنظمة تطبيق الواجهة الأمامية الخارجية، وتتعلم قاعدة بيانات Java Script، وتتعلم إنشاء مواقع ديناميكية. | kaishu_cn_en_mix_1.wav | | هذا الـ financial report يحلل بالتفصيل أداء الإيرادات trends وexpenditure trends للشركة في الربع الماضي. | kaishu_cn_en_mix_2.wav | | صعود الجبل نزول الجبل، جبل بعد جبل، ركض ثلاث لي وثلاثة أمتار وثلاثة، صعد جبلًا عاليًا، ارتفاع الجبل ثلاثمئة وثلاثة. بعد الصعود، صاح بصوت عالٍ: أنا أعلى من الجبل بثلاثة أقدام وثلاثة. | kaishu_raokouling.wav | | رجل نحيف مستلقٍ على جانب الطريق وقميصه وحذاؤه مخلوعان وحقائبه بجانبه. | kaishu_en_1.wav | | مع استمرار الأبحاث، تم إثبات التأثير الوقائي للفلورايد ضد تسوس الأسنان. | kaishu_en_2.wav |

#### 2. تقييم النموذج image

الشكر والتقدير

index-tts

finetune-index-tts

--- Tranlated By Open Ai Tx | Last indexed: 2025-12-28 ---