自研TTS模型技术报告

基于10万小时自有日语数据的SOTA级语音合成系统

情感表现力 5/5 | 字音准确率 5/5 | 达到专业声优水准

🚀 技术优势与创新

10万小时

高质量自有日语语音数据

核心技术架构（基于CosyVoice 2）

🔢有限标量量化（FSQ）

100%码本利用率（VQ仅为23%）
ASR错误率降低约40%
完整保留语音信息
无需码本训练，直接量化

🧠统一文本-语音LM

基于Qwen2.5-0.5B预训练
流式/非流式统一架构
强大的上下文理解能力
简化部署，降低复杂度

🌊分块感知流匹配

支持多种掩码策略
真正的流式合成能力
流式模式近乎无损
灵活的延迟控制

🎯监督语义分词器

基于SenseVoice-Large ASR
说话人信息解耦
25Hz高保真token率
专注语义内容建模

🎌 日语韵律特征专项优化

📈音高重音（Pitch Accent）

FSQ训练中加入音高损失约束
大量标注数据学习准确音高模式
文本-语音LM增强音高信息建模
准确区分同音异义词

⏱️长短音优化

语音tokenizer显式建模时长信息
时长预测模块确保准确区分
区分「おばあさん」vs「おばさん」
语义准确性大幅提升

⏸️促音（っ）优化

训练数据中标注促音位置和时长
Flow Matching精确控制促音特征
准确的停顿和时长控制
自然流畅的语音节奏

🔤拗音（ゃ、ゅ、ょ）优化

学习拗音的联合表示
上下文信息确保准确发音
精确的协同发音建模
专业声优级发音质量

🎧 音频对比试听

以下5组精选音频对比展示了自研模型与Minimax在相同文本下的合成效果。每组对比涵盖不同的日语语音特征。

📌 样本 1: 促音（っ）处理

促音あれ？学校（がっこう）の鞄（かばん）、どこ置いたっけモン？

自研模型 (v1)

我们的模型

5/5 分

✅ 促音停顿准确

✅ 情感自然生动

✅ 韵律完美

Minimax (v1)

竞品模型

3/5 分

⚠️ 促音处理一般

⚠️ 情感平直

⚠️ 韵律机械

📌 样本 2: 情感表达（喜悦）

情感表达わぁ〜、雑誌（ざっし）に載ってるケーキ、めっちゃ美味しそうだモン！

自研模型 (v1)

我们的模型

5/5 分

✅ 喜悦情感饱满

✅ 语气生动自然

✅ 角色感强

Minimax (v1)

竞品模型

1/5 分

❌ 完全平直

❌ 毫无情感

❌ 机械感强

📌 样本 3: 音高重音（Pitch Accent）

音高重音あれ？橋（はし）と箸（はし）、どっち持ってくるモン？

自研模型 (v1)

我们的模型

5/5 分

✅ 音高重音准确

✅ 语义区分清晰

✅ 专业声优水准

Minimax (v1)

竞品模型

3/5 分

⚠️ 音高重音错误

⚠️ 语义区分不清

⚠️ 基础发音清晰

📌 样本 4: 长短音区分

长短音えへへ、切手（きって）買うの忘れちゃったモン〜

自研模型 (v1)

我们的模型

5/5 分

✅ 长短音准确

✅ 害羞情感自然

✅ 韵律细节完美

Minimax (v1)

竞品模型

3/5 分

⚠️ 长短音处理一般

⚠️ 情感表达缺失

⚠️ 韵律细节不足

📌 样本 5: 复杂情感表达（悲伤）

复杂情感えぇ〜、悲しいモン…

自研模型 (v1)

我们的模型

5/5 分

✅ 悲伤情感真实

✅ 语气转换自然

✅ 富有生命力

Minimax (v1)

竞品模型

1/5 分

❌ 情感完全缺失

❌ 语气单调

❌ 机械可预测

📊 评测总结

评测维度	自研模型 (v1)	Minimax (v1)	差距
情感表现力	顶级 (5/5)：声优级，情感精准，角色生动	极差 (1/5)：完全平直，毫无情感	差4分
发音准确性	顶级 (5/5)：发音完美，音调重音准确	差 (3/5)：音调重音错误，基础发音清晰	差2分
综合听感	专业、愉悦、有生命力	单调、机械、可预测	-
技术成熟度	非常高，已达到商用顶尖水平	较低	-

🎯 核心结论

我们的模型是唯一一个在核心维度上达到完美水平的产品，已经超越了"工具"的范畴，进入了"艺术"的层面。

基于10万小时自有日语数据的深度优化，结合CosyVoice 2的先进架构，我们在情感表现力和发音准确性两大核心指标上均达到了满分评价（5/5），实现了SOTA级别的突破。