力啪霹 LipApi.net - 企业级音频大模型API服务商

indextts

发布时间：2025年3月25日

IndexTTS是B站开源的工业级零样本语音合成系统。它采用基于大语言模型的架构，支持中英混读，仅需数秒音频即可克隆音色。其特色功能包括通过拼音纠正多音字发音和精确控制停顿，在语音自然度与相似度上超越了市面主流开源模型。

indextts2

发布时间：2025年9月8日

IndexTTS2是B站开源的新一代语音克隆模型，首次实现了对语音时长和情感的精准控制。它支持零样本克隆，仅需几秒参考音频即可合成目标音色，并可通过语气参数自由调整情感风格。是目前市面上最受漫剧团队欢迎的音频制作模型。

ClearerVoice

发布时间：2026年4月4日

ClearerVoice 是由通义实验室开源的一个集成语音增强、语音分离、语音超分辨率和音视频说话人提取等功能的语音处理框架。通过融合复数域深度学习算法，大幅提升了语音降噪和分离的性能，能够最大限度地消除背景噪声并保留语音清晰度，同时保持语音失真最小化。

omnivoice

发布时间：2026年4月4日

OmniVoice是一款于2026年4月4日开源的多语言零样本文本转语音模型。该模型基于扩散语言模型架构的离散非自回归设计，使用58.1万小时数据进行训练，支持超过600种语言的语音合成。它具备零样本语音克隆、语音设计等功能，其特点为速度快。

cosyvoice3

发布时间：-

2024年7月8日，阿里通义实验室发布并开源了语音大模型项目FunAudioLLM，其核心模型包括CosyVoice。CosyVoice致力于自然语音生成，支持多语言、音色和情感控制。CosyVoice 3是一个为野外场景下的零样本多语言语音合成设计的改进模型，旨在提升内容一致性、说话人相似性和韵律自然度。

FireRedASR2

发布时间：2026年2月25日

FireRedASR2-LLM是小红书FireRed团队开源的工业级语音识别模型，采用Encoder-Adapter-LLM架构，参数量达8B以上。它在中文普通话测试集上实现2.89%的平均字错率，在方言测试集上达到11.55%，均刷新SOTA记录。该模型支持普通话、方言、英语及歌声转写，追求极致识别精度。

力啪霹LipApi.net