OpenBMB发布VoxCPM2 实现30种语言高保真语音合成

Source

品玩4月8日讯,OpenBMB近日正式推出VoxCPM2,这是基于MiniCPM-4骨干网络的最新一代语音生成基座模型。该模型参数量升级至20亿,并在超过200万小时的多语言语料上进行训练,实现了从文本到语音的无分词器端到端合成,支持30种语言及多种中国方言的直接输入与生成。

VoxCPM2引入了创新的“声音设计”功能,用户仅需通过自然语言描述性别、年龄、情感等特征,即可凭空创造全新音色,无需参考音频。在克隆能力上,模型支持可控克隆与终极克隆两种模式,既能通过短音频复刻音色并调整情感节奏,也能在提供原文对照的情况下精准还原说话人的每一处细微韵律与呼吸感。

技术层面,VoxCPM2通过AudioVAE V2的非对称编解码设计,可直接输出48kHz录音室级音质,无需外部超分辨率工具。该模型已基于Apache-2.0协议完全开源,支持商用,并在消费级显卡上实现了高效的实时流式输出,为多语言内容创作与智能交互提供了新的技术选择。