模型100%自营·0转接0共享

专业 靠谱 贴心

专注音频大模型API,全自营零转接零共享,全程1v1陪跑式接入

indextts

发布时间:2025年3月25日

IndexTTS是B站开源的工业级零样本语音合成系统。它采用基于大语言模型的架构,支持中英混读,仅需数秒音频即可克隆音色。其特色功能包括通过拼音纠正多音字发音和精确控制停顿,在语音自然度与相似度上超越了市面主流开源模型。

indextts2

发布时间:2025年9月8日

IndexTTS2是B站开源的新一代语音克隆模型,首次实现了对语音时长和情感的精准控制。它支持零样本克隆,仅需几秒参考音频即可合成目标音色,并可通过语气参数自由调整情感风格。是目前市面上最受漫剧团队欢迎的音频制作模型。

ClearerVoice

发布时间:2026年4月4日

ClearerVoice 是由通义实验室开源 的一个集成 语音增强、语音分离、语音超分辨率和音视频说话人提取 等功能的语音处理框架。通过融合复数域深度学习算法,大幅提升了语音降噪和分离的性能,能够最大限度地消除背景噪声并保留语音清晰度,同时保持语音失真最小化。

omnivoice

发布时间:2026年4月4日

OmniVoice是一款于2026年4月4日开源的多语言零样本文本转语音模型。该模型基于扩散语言模型架构的离散非自回归设计,使用58.1万小时数据进行训练,支持超过600种语言的语音合成 。它具备零样本语音克隆、语音设计等功能,其特点为速度快。

cosyvoice3

发布时间:-

2024年7月8日,阿里通义实验室发布并开源了语音大模型项目FunAudioLLM,其核心模型包括CosyVoice。CosyVoice致力于自然语音生成,支持多语言、音色和情感控制。CosyVoice 3是一个为野外场景下的零样本多语言语音合成设计的改进模型,旨在提升内容一致性、说话人相似性和韵律自然度。

FireRedASR2

发布时间:2026年2月25日

FireRedASR2-LLM是小红书FireRed团队开源的工业级语音识别模型,采用Encoder-Adapter-LLM架构,参数量达8B以上。它在中文普通话测试集上实现2.89%的平均字错率,在方言测试集上达到11.55%,均刷新SOTA记录。该模型支持普通话、方言、英语及歌声转写,追求极致识别精度。