微软SSML语音合成标记语言完全指南

官方文档：语音合成标记语言 (SSML) 的语音和声音 - 语音服务 - Azure AI services | Microsoft Learn

一、SSML概述

Speech Synthesis Markup Language（SSML）是W3C标准的XML格式标记语言，用于精确控制语音合成的输出效果。微软Azure认知服务的神经语音技术深度支持SSML规范，并提供扩展功能，可实现对发音、语调、节奏等200+参数的精细控制，支持超过450种神经语音和90种标准语音。

二、基础文档结构

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
       xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
  
  <!-- 正文内容 -->

</speak>

支持多命名空间嵌套，可通过xml:lang声明主语言（支持87种语言/变体）

三、语音控制

1. 选择发音人

<voice name="en-US-JennyNeural">
  This is the default voice.
</voice>

2. 动态切换发音人

<voice name="en-US-JennyNeural">
  Main content...
  <voice name="en-US-GuyNeural">
    Interruption part
  </voice>
</voice>

四、韵律控制

1. 语速调节

<prosody rate="+20%">加速20%</prosody>
<prosody rate="-30%">减速30%</prosody>
<!-- 取值范围：0.5x-3x -->

<!-- 微软扩展 -->
<mstts:silence type="Sentenceboundary" value="500ms"/>

2. 音调调节

<prosody pitch="high">高音调</prosody>
<prosody pitch="+5st">升高5半音</prosody> 
<!-- 范围：-12st到+12st -->

3. 音量控制

<prosody volume="+6dB">大声</prosody>
<prosody volume="soft">轻声</prosody>
<!-- 范围：-24dB到+24dB -->

4. 停顿控制

<break time="500ms"/> <!-- 精确毫秒控制 -->
<break strength="x-weak"/> <!-- 四级停顿强度 -->
<bookmark mark="chapter1"/> <!-- 锚点标记 -->

五、高级发音控制

1. 多语言混合

<lang xml:lang="ja-JP">
  こんにちは
</lang>

2. 音素控制

<phoneme alphabet="sapi" ph="t eh 1 k s t">text</phoneme>
<!-- 支持IPA/SAPI两种音标体系 -->

3. 特殊发音

<say-as interpret-as="telephone">+1 (800) 555-1234</say-as>
<say-as interpret-as="ordinal">3rd</say-as>
<!-- 支持18种语义解释类型 -->

六、语音风格控制（微软扩展）

1. 情感表达

<mstts:express-as style="cheerful">
  今天真是个好天气!
</mstts:express-as>
<!-- 支持15+情感风格 -->

2. 角色扮演

<mstts:role-play role="Boy">
  妈妈你看，飞机！
</mstts:role-play>

3. 背景音效

<mstts:backgroundaudio src="soundbank://sound/restaurant/plate_clinking"/>

七、最佳实践建议

渐进式调节原则：每次只调整一个参数
环境适配：设备外放建议+3dB音量补偿

自然停顿配置：

<prosody rate="-10%"><break strength="medium"/>重要内容</prosody>

多语音工程结构：

<speak version="1.0">
  <voice name="en-US-JennyNeural" role="narrator">
    <!-- 主叙述 -->
  </voice>
  <voice name="en-US-AriaNeural" style="whispering">
    <!-- 画外音 -->
  </voice>
</speak>

八、完整示例

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        女儿看见父亲走了进来，问道：
        <mstts:express-as role="YoungAdultFemale" style="calm">
            “您来的挺快的，怎么过来的？”
        </mstts:express-as>
        父亲放下手提包，说：
        <mstts:express-as role="OlderAdultMale" style="calm">
            “刚打车过来的，路上还挺顺畅。”
        </mstts:express-as>
    </voice>
</speak>

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

发表回复取消回复

后才能评论

永雪雏莲普通 2025年5月27日下午4:17

为何生成ssml占用了那么多字数，这个生成几段文本用ssml用了5k字怎么说

登录以回复
- 酷猫猫 SVIP @ 永雪雏莲 2025年5月27日下午4:55
  
  后台字数统计，算的是文本框的字符数，ssml格式的符号字母也会算进去。
  
  登录以回复
- 新用户普通 @ 酷猫猫 2025年7月21日上午11:15
  
  微软都不计算SSML的标记哇
  
  登录以回复
- 酷猫猫 SVIP @ 新用户 2025年7月21日上午11:22
  
  是的，但是这个计算也挺麻烦，懒得改了，会员每天20万字，很够用了。
  
  登录以回复
军旅户外劳保专卖普通 2025年5月28日上午5:29

额度用不了

登录以回复
- 酷猫猫 SVIP @ 军旅户外劳保专卖 2025年5月28日上午9:47
  
  加我微信G770044133
  
  登录以回复
mpweixin用户普通 2025年9月2日下午5:28

ssml用不了

登录以回复
- 酷猫猫 SVIP @ mpweixin用户 2025年9月2日下午5:41
  
  应该是内容格式不对，可以让ai处理下再试试。
  
  登录以回复
新用户普通 2025年11月22日上午9:53

测试

{“code”:400,”msg”:”生成失败，减少字数或降低质量后再试”}

登录以回复
- 酷猫猫 SVIP @ 新用户 2025年11月22日上午10:23
  
  可能是内容有问题，也可能就是字多并且质量选择的高，生成太慢超时了
  
  登录以回复

官方文档：语音合成标记语言 (SSML) 的语音和声音 - 语音服务 - Azure AI services | Microsoft Learn

一、SSML概述

二、基础文档结构

三、语音控制

1. 选择发音人

2. 动态切换发音人

四、韵律控制

1. 语速调节

2. 音调调节

3. 音量控制

4. 停顿控制

五、高级发音控制

1. 多语言混合

2. 音素控制

3. 特殊发音

六、语音风格控制（微软扩展）

1. 情感表达

2. 角色扮演

3. 背景音效

七、最佳实践建议

八、完整示例

发表回复取消回复

评论(10)

使用说明

快速导航

文章分类

联系我

官方文档：语音合成标记语言 (SSML) 的语音和声音 - 语音服务 - Azure AI services | Microsoft Learn

一、SSML概述

二、基础文档结构

三、语音控制

1. 选择发音人

2. 动态切换发音人

四、韵律控制

1. 语速调节

2. 音调调节

3. 音量控制

4. 停顿控制

五、高级发音控制

1. 多语言混合

2. 音素控制

3. 特殊发音

六、语音风格控制（微软扩展）

1. 情感表达

2. 角色扮演

3. 背景音效

七、最佳实践建议

八、完整示例

相关文章

发表回复 取消回复

评论(10)

发表回复取消回复