Web Analytics

fish-speech

⭐ 21587 stars Simplified Chinese by fishaudio

Fish Speech

English | 简体中文 | Portuguese | 日本語 | 한국어

Fish Speech 1.4 - Open-Source Multilingual Text-to-Speech with Voice Cloning | Product Hunt fishaudio%2Ffish-speech | Trendshift




Discord Docker QQ Channel

TTS-Arena2 Score Huggingface HuggingFace Model

[!IMPORTANT]
许可证说明
本代码库以 Apache License 许可证发布,所有模型权重以 CC-BY-NC-SA-4.0 License 许可证发布。详情请参见 LICENSE

[!WARNING]
法律免责声明
对于本代码库的任何非法使用我们不承担任何责任。请遵守您当地关于 DMCA 及相关法律法规。


🎉 公告

我们很高兴地宣布,Fish-Speech 正式更名为 OpenAudio —— 这是一个全新的革命性高级文本转语音模型系列,基于 Fish-Speech 的技术基础上全新打造。

我们自豪地发布该系列的首个模型 OpenAudio-S1,在质量、性能和功能上带来了重大提升。

OpenAudio-S1 提供两个版本:OpenAudio-S1OpenAudio-S1-mini。两个模型现已分别在 Fish Audio PlaygroundOpenAudio-S1)和 Hugging FaceOpenAudio-S1-mini)上线。

访问 OpenAudio 官网 获取博客与技术报告。

亮点 ✨

卓越的 TTS 质量

我们使用 Seed TTS 评测指标对模型性能进行评估,结果显示 OpenAudio S1 在英文文本上达到 0.008 WER0.004 CER,远优于以往模型。(英文,自动评测,基于 OpenAI gpt-4o-transcribe,发音人距离使用 Revai/pyannote-wespeaker-voxceleb-resnet34-LM)

| 模型 | 词错误率 (WER) | 字符错误率 (CER) | 发音人距离 | |-------|----------------------|---------------------------|------------------| | S1 | 0.008 | 0.004 | 0.332 | | S1-mini | 0.011 | 0.005 | 0.380 |

TTS-Arena2 最佳模型 🏆

OpenAudio S1 在文本转语音评测基准 TTS-Arena2 上取得了 第一名 的成绩:

TTS-Arena2 Ranking

语音可控性

OpenAudio S1 支持多种情感、语气和特殊标记,进一步提升语音合成的表现力:

(angry) (sad) (excited) (surprised) (satisfied) (delighted) 
(scared) (worried) (upset) (nervous) (frustrated) (depressed)
(empathetic) (embarrassed) (disgusted) (moved) (proud) (relaxed)
(grateful) (confident) (interested) (curious) (confused) (joyful)

(disdainful) (unhappy) (anxious) (hysterical) (indifferent) 
(impatient) (guilty) (scornful) (panicked) (furious) (reluctant)
(keen) (disapproving) (negative) (denying) (astonished) (serious)
(sarcastic) (conciliative) (comforting) (sincere) (sneering)
(hesitating) (yielding) (painful) (awkward) (amused)

(in a hurry tone) (shouting) (screaming) (whispering) (soft tone)

(laughing) (chuckling) (sobbing) (crying loudly) (sighing) (panting)
(groaning) (crowd laughing) (background laughter) (audience laughing)

你还可以使用 Ha,ha,ha 进行控制,更多用法等你自行探索。

(目前支持英文、中文和日语,更多语言即将上线!)

两种模型类型

| 模型 | 参数量 | 可用性 | 特性 | |-------|------|--------------|----------| | S1 | 40亿参数 | 可在 fish.audio 获取 | 全功能旗舰版 | | S1-mini | 5亿参数 | 可在 huggingface hf space 获取 | 精简核心功能版 |

S1 与 S1-mini 均集成了在线人类反馈强化学习(RLHF)。

功能特性

媒体与演示

社交媒体

Latest Demo on X

在线演示

Try OpenAudio S1 Try S1 Mini

视频展示

OpenAudio S1 Video

音频样例

高质量音频样例即将上线,涵盖多语言和多情感 TTS 能力展示。


文档

致谢

技术报告 (V1.4)

@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
eprint={2411.01156}, archivePrefix={arXiv}, primaryClass={cs.SD}, url={https://arxiv.org/abs/2411.01156}, } ``` --- Tranlated By Open Ai Tx | Last indexed: 2025-06-10 ---