企业级音频大模型API服务商

力啪霹LipApi.net

专业 · 靠谱 · 贴心

专注音频大模型API,全自营零转接零共享,全程1v1陪跑式接入

indextts

发布时间:2025年3月25日

IndexTTS是B站开源的工业级零样本语音合成系统。它采用基于大语言模型的架构,支持中英混读,仅需数秒音频即可克隆音色。其特色功能包括通过拼音纠正多音字发音和精确控制停顿,在语音自然度与相似度上超越了市面主流开源模型。

indextts2

发布时间:2025年9月8日

IndexTTS2是B站开源的新一代语音克隆模型,首次实现了对语音时长和情感的精准控制。它支持零样本克隆,仅需几秒参考音频即可合成目标音色,并可通过语气参数自由调整情感风格。是目前市面上最受漫剧团队欢迎的音频制作模型。

ClearerVoice

发布时间:2026年4月4日

ClearerVoice 是由通义实验室开源 的一个集成 语音增强、语音分离、语音超分辨率和音视频说话人提取 等功能的语音处理框架。通过融合复数域深度学习算法,大幅提升了语音降噪和分离的性能,能够最大限度地消除背景噪声并保留语音清晰度,同时保持语音失真最小化。

omnivoice

发布时间:2026年4月4日

OmniVoice是一款于2026年4月4日开源的多语言零样本文本转语音模型。该模型基于扩散语言模型架构的离散非自回归设计,使用58.1万小时数据进行训练,支持超过600种语言的语音合成 。它具备零样本语音克隆、语音设计等功能,其特点为速度快。

cosyvoice3

发布时间:-

2024年7月8日,阿里通义实验室发布并开源了语音大模型项目FunAudioLLM,其核心模型包括CosyVoice。CosyVoice致力于自然语音生成,支持多语言、音色和情感控制。CosyVoice 3是一个为野外场景下的零样本多语言语音合成设计的改进模型,旨在提升内容一致性、说话人相似性和韵律自然度。

FireRedASR2

发布时间:2026年2月25日

FireRedASR2-LLM是小红书FireRed团队开源的工业级语音识别模型,采用Encoder-Adapter-LLM架构,参数量达8B以上。它在中文普通话测试集上实现2.89%的平均字错率,在方言测试集上达到11.55%,均刷新SOTA记录。该模型支持普通话、方言、英语及歌声转写,追求极致识别精度。

典型客户和合作伙伴

合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo
合作伙伴Logo

常见问题

快速了解你关心的问题