电脑桌面
添加运营动脉到电脑桌面
安装后可以在桌面快捷访问

MOSS-Speech开源:国内首个语音到语音大模型,告别文本中介

2025-11-23 110

复旦大学MOSS团队推出MOSS-Speech,首次实现端到端Speech-to-Speech对话,模型已上线Hugging Face Demo并同步开源权重与代码。MOSS-Speech采用“层拆分”架构:冻结原MOSS文本大模型参数,新增语音理解、语义对齐与神经声码器三层,可一次性完成语音问答、情绪模仿与笑声生成,无需ASR→LLM→TTS三段流水线。

6389925290612520954261263.png

评测显示,MOSS-Speech在ZeroSpeech2025无文本语音任务中WER降至4.1%,情感识别准确率91.2%,均优于Meta的SpeechGPT与Google AudioLM;中文口语测试主观MOS分达4.6,接近真人录音4.8。项目提供48kHz超采样版与16kHz轻量版,后者可在单张RTX4090实时推理,延迟<300ms,适合移动端部署。

6389925292018377338287361.png

团队透露,下一步将开源“语音控制版”MOSS-Speech-Ctrl,支持通过语音指令动态调整语速、音色与情感强度,预计2026年Q1发布。MOSS-Speech已开放商用许可,开发者可通过GitHub获取训练与微调脚本,在本地完成私有声音克隆与角色语音化。


2025小红书美妆个护行业运营专家
2025小红书美妆个护行业运营专家
23 页 35 次下载 8.65 MB
2025小红书户外运动运营专家
2025小红书户外运动运营专家
16 页 91 次下载 6.63 MB
哔哩哔哩出行区《世界遗产守护人》招商通案
哔哩哔哩出行区《世界遗产守护人》招商通案
23 页 28 次下载 48.12 MB

声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。

已经是第一篇
已经是最后一篇
确认删除?
回到顶部
0.0315s