linux 嵌入式 tts引擎_语音合成(TTS)的概念和分类[通俗易懂]

linux 嵌入式 tts引擎_语音合成(TTS)的概念和分类[通俗易懂]智能音箱在ASR(语音识别)以及NLP自然语义处理常用框架-兔尔摩斯的文章-知乎https://zhuanlan.zhihu.com/p/55658291语音合成SpeechSynthesis或TexttoSpeech(TTS)语音合成(SpeechSynthesis)是人类语音的人工合成。用于此目的的计算机系统称为语音计算机或语音合成器,可以在软件或硬件产品中实…

大家好,又见面了,我是你们的朋友全栈君。

534b3331b2ea94b17daca94e4bb77823.png

智能音箱在ASR(语音识别)以及NLP自然语义处理常用框架 – 兔尔摩斯的文章 – 知乎

https://zhuanlan.zhihu.com/p/55658291

语音合成

Speech Synthesis 或Text to Speech(TTS)

语音合成(Speech Synthesis)是人类语音的人工合成。用于此目的的计算机系统称为语音计算机或语音合成器,可以在软件或硬件产品中实现。文本到语音(TTS)系统将普通语言文本转换为语音;其他系统则把像音标这样的符号语言表示法翻译成语音。其他系统则使用符号语言表征例如标音法翻译成语音。(other systems render symbolic linguistic representations[2] like phonetic transcriptions into speech.[1] )

1. Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis (1987). From Text to Speech: The MITalk system. Cambridge University Press. ISBN 978-0-521-30641-6.

2. A symbolic linguistic representation符号语言表征是一种话语的表征,它使用符号来表征话语的语言信息,如语音、音位、形态学、句法或语义的信息。符号语言表征不同于非符号表征,如录音,因为它们使用符号来表示语言信息,而不是测量。

合成语音可以通过连接存储在数据库中的记录语音片段来创建。系统存储的语音单元大小不同;存储音素和亚音素(phones and diphones)[3]的系统提供最大的输出范围,但可能缺乏清晰度。对于特定的使用领域,整个单词或句子的存储允许高质量的输出。或者,合成器可以结合声道模型和其他人类声音特征来创建一个完全“合成”的声音输出。

3.语音学(Phonetics)是语言学的一个分支,研究人类语言的声音,或者,在手语中,是手语的等效方面。它涉及语音或信号(电话)的物理特性:它们的生理产生、声学特性、听觉感知和神经生理状态。另一方面,音韵学是研究声音或符号系统的抽象语法特征。

语音合成器的质量是由它与人类声音的相似性和它被清晰理解的能力来判断的。一种可理解的文本-语音转换程序允许有视觉障碍或阅读障碍的人在家用电脑上听书面文字。自上世纪90年代初以来,许多计算机操作系统都包含语音合成器。

文本到语音系统(或“引擎”)由两部分组成:前端和后端。前端有两个主要任务。首先,它将包含数字和缩写等符号的原始文本转换为相当于输出的单词。这个过程通常称为文本规范化、预处理或标记化。然后前端为每个单词分配语音转录,并将文本划分和标记为韵律单位,如短语、子句和句子。将音标分配给单词的过程称为文本到音素或字母到音素的转换。音标和韵律信息共同构成了前端输出的符号语言表征。后端通常被称为合成器,然后将符号语言表示转换成声音。在某些系统中,这部分包括计算目标韵律(音高轮廓,音素时长),然后将之加到输出语音上。(^ van Santen, Jan P. H.; Sproat, Richard W.; Olive, Joseph P.; Hirschberg, Julia (1997). Progress in Speech Synthesis. Springer. ISBN 978-0-387-94701-3.)

之前的文章有提到过,目前国内的主流语音合成方案有科大讯飞、搜狗、云知声、思必驰等。

而语音合成目前市面上一般使用参数合成,或者拼接合成,前者的音库都是在10小时左右,基本用不到20小时,对于合成人声效果的自然度,更依赖算法,而拼接则对于数据的需求量很高,对合成人声效果的自然度,更依赖数据量。很多听起来很自然的音库时长在100~200小时左右。

以及,TTS模型通常也会分为中文,英文,或者中英混输的。做训练的文本,有很多文字比较拗口,故而对录音声优的功力有要求,中英混输的模型数据就更难了。如果是普通的中文TTS模型,以刚才的例子“马上为您播放周杰伦的《晴天》live版本”,这种就可以在录音时加入一些简单的字母,单词,短语等等。

合成的wav文件回传到终端音箱,并播放出来,如此,完成了一环基础的用户与智能硬件之间的对话。

方法上:波形拼接合成和参数合成

波形拼接语音合成:

基于统计规则的大语料库拼接语音合成系统

超大规模音库制作:语料设计;音库录制;精细切分;韵律标注;

f7b7dc5f5aa0666513b21183b999c195.png

优点:音质最佳,录音和合成音质差异小,正常句子的自然度也好

缺点:非常依赖音库的规模大小和制作质量,尺寸大,无法在嵌入式设备中应用,仍然存在拼接不连续性

参数语音合成技术:

对于引得频谱特性参数进行建模,生成参数合成器,来构建文本序列映射到语音的映射关系

687cbb0a79127181599aafdc66ebb242.png

优点:尺寸小,语音自然度好

缺点:音质不如拼接合成

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/124895.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • sql优化的几种方法面试题_mysql存储过程面试题

    sql优化的几种方法面试题_mysql存储过程面试题drop、delete与truncate分别在什么场景之下使用?对比一下他们的区别:droptable1)属于DDL2)不可回滚3)不可带where4)表内容和结构删除5)删除速度快truncatetable1)属于DDL2)不可回滚3)不可带where4)表内容删除5)删除速度快deletefrom1)属于DML2)可回滚3)可带where4)表结构在,表内容要看where执行的情况5)删…

    2022年8月27日
    2
  • 缓存穿透,缓存击穿,缓存雪崩解决方案分析

    缓存穿透,缓存击穿,缓存雪崩解决方案分析前言设计一个缓存系统,不得不要考虑的问题就是:缓存穿透、缓存击穿与失效时的雪崩效应。缓存穿透缓存穿透是指查询一个一定不存在的数据,由于缓存是不命中时被动写的,并且出于容错考虑,如果从存储层查不到数据则不写入缓存,这将导致这个存在的数据每次请求都要到存储层去查询,失去了缓存的意义。在流量大时,可能DB就挂掉了,要是有人利用不存在的key频繁攻击我们的应用,这就是漏洞。解决方案

    2022年6月30日
    28
  • 系统首选dns服务器修改,Windows系统首选DNS如何设置

    系统首选dns服务器修改,Windows系统首选DNS如何设置Windows系统首选DNS如何设置的呢,有时候可能需要修改或者调整DNS服务器地址的设置,以达到优化网络连接速度的效果。该怎么办?下面是学习啦小编收集整理的Windows系统首选DNS如何设置,希望对大家有帮助~~Windows系统首选DNS的设置方法一:在图形界面下设置DNS服务器址1这里Windows8为例,首先在屏幕的右下角找到“网络连接”图标,如图所示2在“网络连接”…

    2022年5月4日
    93
  • 恋空 By whaosoft「建议收藏」

    恋空 By whaosoft「建议收藏」/序曲 如果那天,我没有遇见你。我想,我就不会感到如此痛苦、如此悲伤、如此难过、如此令人悲从中来了。但是,如果我没有遇见你。我也不会知道那么欢愉、那么温柔、那么相爱、那么温暖、那么幸福的心情了……噙着泪水的我,今天,依旧仰望着天空。 仰望着天空。I.虚幻的开始1 『哇~!!肚子超饿的啦~』期待已久的午休时间终于到了。美嘉一如往常地打开桌上的便当。来上学真的是麻烦事一大堆

    2022年7月11日
    11
  • ArcGIS二次开发基础教程(09):叠加分析

    ArcGIS二次开发基础教程(09):叠加分析ArcGIS二次开发基础教程(09):叠加分析缓冲区分析的概念及原理请查看帮助文档http://desktop.arcgis.com/zh-cn/arcmap/latest/tools/analysis-toolbox/how-buffer-analysis-works.htm缓冲区分析//实现对图层中所有点要素进行缓冲分析IGraphicsContainergraphicsConta…

    2022年7月23日
    9
  • VSCode安装教程(超详细)[通俗易懂]

    VSCode安装教程(超详细)[通俗易懂]VSCode安装教程(超详细)下载安装一、同意协议(废话了我)二、选择合适的安装位置,下一步三、下一步四、这里注意下,进行相关的选择五、点击安装六、等待安装完成,很快配置中文界面上面安装完成后会出现下面的界面,我们搜索Chinese,点击install然后Restart重启后就ok了,中文界面下载下载地址:DownloadVisualStudioCode选择相应的版本下载。安装跟着图一步步走,简单明了。一、同意协议(废话了我)二、选择合适的安装位置,下一步三、下一步四

    2022年8月22日
    5

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号