Web Analytics

index-tts-lora

⭐ 276 stars Korean by asr-pub

🌐 언어

index-tts-lora

中文版本 | 영문 버전

이 프로젝트는 Bilibili의 index-tts를 기반으로 하며, 단일 화자 및 다중 화자 환경 모두에서 LoRA 파인튜닝 솔루션을 제공합니다. 고품질 화자 음성 합성에서 운율과 자연스러움을 강화하는 것을 목표로 합니다.

학습 & 추론

#### 1. 오디오 토큰 및 화자 조건 추출

# Extract tokens and speaker conditions
python tools/extract_codec.py --audio_list ${audio_list} --extract_condition

audio_list format: audio_path + transcript, separated by \t

/path/to/audio.wav 小朋友们,大家好,我是凯叔,今天我们讲一个龟兔赛跑的故事。
추출 후, 처리된 파일들과 speaker_info.json 파일이 finetune_data/processed_data/ 디렉토리 아래에 생성됩니다. 예를 들어:

[
    {
        "speaker": "kaishu_30min",
        "avg_duration": 6.6729,
        "sample_num": 270,
        "total_duration_in_seconds": 1801.696,
        "total_duration_in_minutes": 30.028,
        "total_duration_in_hours": 0.500,
        "train_jsonl": "/path/to/kaishu_30min/metadata_train.jsonl",
        "valid_jsonl": "/path/to/kaishu_30min/metadata_valid.jsonl",
        "medoid_condition": "/path/to/kaishu_30min/medoid_condition.npy"
    }
]

#### 2. 교육

python train.py

#### 3. 추론

python indextts/infer.py

미세 조정 결과

이번 실험은 Kai Shu Tells Stories중국어 오디오 데이터를 사용하며, 총 길이는 약 30분이고 270개의 오디오 클립이 포함되어 있습니다. 데이터셋은 244개의 학습 샘플26개의 검증 샘플로 나뉩니다. 참고: 전사본은 ASR 및 구두점 모델을 통해 자동으로 생성되었으며, 수동으로 수정하지 않았으므로 일부 오류가 있을 수 있습니다.

학습 샘플 예시, 그는 마차를 타고 궁전으로 갔다.: kaishu_train_01.wav

#### 1. 음성 합성 예시

| 텍스트 | 오디오 | | ------------------------------------------------------------ | ------------------------------------------------------------ | | 오래된 집의 시계는 자정 3시에 멈췄고, 먼지 속에 낯선 발자국이 나타났다. 탐정은 몸을 낮춰 바닥 틈새에서 피 묻은 반지를 발견했다. | kaishu_cn_1.wav | | 달빛 아래서 호박이 갑자기 웃는 얼굴을 내밀고, 덩굴이 꿈틀거리며 정원 울타리를 밀어냈다. 소녀는 까치발을 들어 버섯이 오래된 자장가를 흥얼거리는 소리를 들었다. | kaishu_cn_2.wav | | 그럼 Java에서는 중급을 더 배워야 하고, M 그리고 외부 프론트엔드 응용 시스템 개발, Java Script 데이터베이스, 동적인 웹사이트 제작을 배워야 합니다. | kaishu_cn_en_mix_1.wav | | 이 financial report는 회사의 지난 분기 revenue performance와 expenditure trends를 상세히 분석했습니다. | kaishu_cn_en_mix_2.wav | | 산을 오르고 내리고 또 한 산, 다음 산, 세리 세미 삼, 큰 산을 올랐네, 산 높이 해발 삼백삼. 산에 올라 크게 외치네: 내가 산보다 세 치 삼 더 높아. | kaishu_raokouling.wav | | A thin man lies against the side of the street with his shirt and a shoe off and bags nearby. | kaishu_en_1.wav | | As research continued, the protective effect of fluoride against dental decay was demonstrated. | kaishu_en_2.wav |

#### 2. 모델 평가 image

감사의 글

index-tts

finetune-index-tts

--- Tranlated By Open Ai Tx | Last indexed: 2025-12-28 ---