自研TTS模型技术报告

基于10万小时自有日语数据的SOTA级语音合成系统
情感表现力 5/5 | 字音准确率 5/5 | 达到专业声优水准

🚀 技术优势与创新

10万小时
高质量自有日语语音数据

核心技术架构(基于CosyVoice 2)

🔢有限标量量化(FSQ)

  • 100%码本利用率(VQ仅为23%)
  • ASR错误率降低约40%
  • 完整保留语音信息
  • 无需码本训练,直接量化

🧠统一文本-语音LM

  • 基于Qwen2.5-0.5B预训练
  • 流式/非流式统一架构
  • 强大的上下文理解能力
  • 简化部署,降低复杂度

🌊分块感知流匹配

  • 支持多种掩码策略
  • 真正的流式合成能力
  • 流式模式近乎无损
  • 灵活的延迟控制

🎯监督语义分词器

  • 基于SenseVoice-Large ASR
  • 说话人信息解耦
  • 25Hz高保真token率
  • 专注语义内容建模

🎌 日语韵律特征专项优化

📈音高重音(Pitch Accent)

  • FSQ训练中加入音高损失约束
  • 大量标注数据学习准确音高模式
  • 文本-语音LM增强音高信息建模
  • 准确区分同音异义词

⏱️长短音优化

  • 语音tokenizer显式建模时长信息
  • 时长预测模块确保准确区分
  • 区分「おばあさん」vs「おばさん」
  • 语义准确性大幅提升

⏸️促音(っ)优化

  • 训练数据中标注促音位置和时长
  • Flow Matching精确控制促音特征
  • 准确的停顿和时长控制
  • 自然流畅的语音节奏

🔤拗音(ゃ、ゅ、ょ)优化

  • 学习拗音的联合表示
  • 上下文信息确保准确发音
  • 精确的协同发音建模
  • 专业声优级发音质量

🎧 音频对比试听

以下5组精选音频对比展示了自研模型与Minimax在相同文本下的合成效果。每组对比涵盖不同的日语语音特征。

📌 样本 1: 促音(っ)处理

促音 あれ?学校(がっこう)の鞄(かばん)、どこ置いたっけモン?
自研模型 (v1)
我们的模型
5/5 分
✅ 促音停顿准确
✅ 情感自然生动
✅ 韵律完美
Minimax (v1)
竞品模型
3/5 分
⚠️ 促音处理一般
⚠️ 情感平直
⚠️ 韵律机械

📌 样本 2: 情感表达(喜悦)

情感表达 わぁ〜、雑誌(ざっし)に載ってるケーキ、めっちゃ美味しそうだモン!
自研模型 (v1)
我们的模型
5/5 分
✅ 喜悦情感饱满
✅ 语气生动自然
✅ 角色感强
Minimax (v1)
竞品模型
1/5 分
❌ 完全平直
❌ 毫无情感
❌ 机械感强

📌 样本 3: 音高重音(Pitch Accent)

音高重音 あれ?橋(はし)と箸(はし)、どっち持ってくるモン?
自研模型 (v1)
我们的模型
5/5 分
✅ 音高重音准确
✅ 语义区分清晰
✅ 专业声优水准
Minimax (v1)
竞品模型
3/5 分
⚠️ 音高重音错误
⚠️ 语义区分不清
⚠️ 基础发音清晰

📌 样本 4: 长短音区分

长短音 えへへ、切手(きって)買うの忘れちゃったモン〜
自研模型 (v1)
我们的模型
5/5 分
✅ 长短音准确
✅ 害羞情感自然
✅ 韵律细节完美
Minimax (v1)
竞品模型
3/5 分
⚠️ 长短音处理一般
⚠️ 情感表达缺失
⚠️ 韵律细节不足

📌 样本 5: 复杂情感表达(悲伤)

复杂情感 えぇ〜、悲しいモン…
自研模型 (v1)
我们的模型
5/5 分
✅ 悲伤情感真实
✅ 语气转换自然
✅ 富有生命力
Minimax (v1)
竞品模型
1/5 分
❌ 情感完全缺失
❌ 语气单调
❌ 机械可预测

📊 评测总结

评测维度 自研模型 (v1) Minimax (v1) 差距
情感表现力 顶级 (5/5):声优级,情感精准,角色生动 极差 (1/5):完全平直,毫无情感 差4分
发音准确性 顶级 (5/5):发音完美,音调重音准确 差 (3/5):音调重音错误,基础发音清晰 差2分
综合听感 专业、愉悦、有生命力 单调、机械、可预测 -
技术成熟度 非常高,已达到商用顶尖水平 较低 -

🎯 核心结论

我们的模型是唯一一个在核心维度上达到完美水平的产品,已经超越了"工具"的范畴,进入了"艺术"的层面。

基于10万小时自有日语数据的深度优化,结合CosyVoice 2的先进架构,我们在情感表现力和发音准确性两大核心指标上均达到了满分评价(5/5),实现了SOTA级别的突破。