以下5组精选音频对比展示了自研模型与Minimax在相同文本下的合成效果。每组对比涵盖不同的日语语音特征。
| 评测维度 | 自研模型 (v1) | Minimax (v1) | 差距 |
|---|---|---|---|
| 情感表现力 | 顶级 (5/5):声优级,情感精准,角色生动 | 极差 (1/5):完全平直,毫无情感 | 差4分 |
| 发音准确性 | 顶级 (5/5):发音完美,音调重音准确 | 差 (3/5):音调重音错误,基础发音清晰 | 差2分 |
| 综合听感 | 专业、愉悦、有生命力 | 单调、机械、可预测 | - |
| 技术成熟度 | 非常高,已达到商用顶尖水平 | 较低 | - |
我们的模型是唯一一个在核心维度上达到完美水平的产品,已经超越了"工具"的范畴,进入了"艺术"的层面。
基于10万小时自有日语数据的深度优化,结合CosyVoice 2的先进架构,我们在情感表现力和发音准确性两大核心指标上均达到了满分评价(5/5),实现了SOTA级别的突破。