微软文字转语音SSML教程和示例

SSML合成是一种基于 XML 的标记语言，可用于微调文本转语音输出属性，例如音调、发音、语速、音量等。与纯文本输入相比，它可以提供更多的控制权和灵活性。

简单说就是通过特殊格式生成语音，这个特殊格式中包含了各种标签去控制语音语速等参数。没有特殊需求的忽略此功能。

官方文档地址：语音合成标记语言 (SSML) 概述 - 语音服务 - Azure AI services | Microsoft Learn

示例👇

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        女儿看见父亲走了进来，问道：
        <mstts:express-as role="YoungAdultFemale" style="calm">
            “您来的挺快的，怎么过来的？”
        </mstts:express-as>
        父亲放下手提包，说：
        <mstts:express-as role="OlderAdultMale" style="calm">
            “刚打车过来的，路上还挺顺畅。”
        </mstts:express-as>
    </voice>
</speak>

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。