Web Analytics

fish-speech

⭐ 21587 stars Spanish by fishaudio

Fish Speech

Inglés | 简体中文 | Portugués | 日本語 | 한국어

Fish Speech 1.4 - Open-Source Multilingual Text-to-Speech with Voice Cloning | Product Hunt fishaudio%2Ffish-speech | Trendshift




Discord Docker QQ Channel

TTS-Arena2 Score Huggingface HuggingFace Model

[!IMPORTANT]
Aviso de Licencia
Este repositorio de código se publica bajo la Licencia Apache y todos los pesos de los modelos se publican bajo la Licencia CC-BY-NC-SA-4.0. Por favor, consulte LICENSE para más detalles.

[!WARNING]
Descargo de Responsabilidad Legal
No asumimos ninguna responsabilidad por el uso ilegal de este repositorio. Por favor, consulte las leyes locales sobre DMCA y otras leyes relacionadas.


🎉 Anuncio

Nos complace anunciar que nos hemos renovado como OpenAudio — presentando una nueva serie revolucionaria de avanzados modelos de Texto a Voz que se basa en la fundación de Fish-Speech.

Nos enorgullece lanzar OpenAudio-S1 como el primer modelo de esta serie, ofreciendo mejoras significativas en calidad, rendimiento y capacidades.

OpenAudio-S1 está disponible en dos versiones: OpenAudio-S1 y OpenAudio-S1-mini. Ambos modelos están disponibles en Fish Audio Playground (para OpenAudio-S1) y en Hugging Face (para OpenAudio-S1-mini).

Visita el sitio web de OpenAudio para el blog e informe técnico.

Destacados ✨

Excelente calidad TTS

Utilizamos las métricas de evaluación Seed TTS Eval Metrics para evaluar el rendimiento del modelo, y los resultados muestran que OpenAudio S1 alcanza 0.008 WER y 0.004 CER en texto en inglés, lo que es significativamente mejor que modelos anteriores. (Inglés, evaluación automática, basada en OpenAI gpt-4o-transcribe, distancia del hablante usando Revai/pyannote-wespeaker-voxceleb-resnet34-LM)

| Modelo | Tasa de Error de Palabras (WER) | Tasa de Error de Caracteres (CER) | Distancia del Hablante | |--------|-------------------------------|-------------------------------|------------------------| | S1 | 0.008 | 0.004 | 0.332 | | S1-mini | 0.011 | 0.005 | 0.380 |

Mejor Modelo en TTS-Arena2 🏆

OpenAudio S1 ha logrado el puesto #1 en TTS-Arena2, el benchmark para la evaluación de texto a voz:

TTS-Arena2 Ranking

Control de Voz

OpenAudio S1 soporta una variedad de emociones, tonos y marcadores especiales para mejorar la síntesis de voz:

(angry) (sad) (excited) (surprised) (satisfied) (delighted) 
(scared) (worried) (upset) (nervous) (frustrated) (depressed)
(empathetic) (embarrassed) (disgusted) (moved) (proud) (relaxed)
(grateful) (confident) (interested) (curious) (confused) (joyful)

(disdainful) (unhappy) (anxious) (hysterical) (indifferent) 
(impatient) (guilty) (scornful) (panicked) (furious) (reluctant)
(keen) (disapproving) (negative) (denying) (astonished) (serious)
(sarcastic) (conciliative) (comforting) (sincere) (sneering)
(hesitating) (yielding) (painful) (awkward) (amused)

(in a hurry tone) (shouting) (screaming) (whispering) (soft tone)

(laughing) (chuckling) (sobbing) (crying loudly) (sighing) (panting)
(groaning) (crowd laughing) (background laughter) (audience laughing)

También puedes usar Ha,ha,ha para controlar, hay muchos otros casos esperando ser explorados por ti mismo.

(¡Actualmente soporta inglés, chino y japonés, y pronto habrá más idiomas!)

Dos Tipos de Modelos

| Modelo | Tamaño | Disponibilidad | Características | |--------|--------|----------------|-----------------| | S1 | 4B parámetros | Disponible en fish.audio | Modelo insignia con todas las funciones | | S1-mini | 0.5B parámetros | Disponible en huggingface hf space | Versión destilada con capacidades principales |

Tanto S1 como S1-mini incorporan aprendizaje por refuerzo en línea a partir de retroalimentación humana (RLHF).

Características

Medios y Demos

Redes Sociales

Latest Demo on X

Demos Interactivas

Try OpenAudio S1 Try S1 Mini

Demostraciones en Video

OpenAudio S1 Video

Muestras de Audio

Próximamente estarán disponibles muestras de audio de alta calidad, demostrando nuestras capacidades TTS multilingües en diferentes idiomas y emociones.


Documentos

Créditos

Informe Técnico (V1.4)

@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
      eprint={2411.01156},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2411.01156},
}
--- Tranlated By Open Ai Tx | Last indexed: 2025-06-10 ---