上海添力网络科技有限公司

请使用手机扫描二维码,登录网站手机版。

语音技术

当前位置:首页 > > 语音技术 > 主播原音合成

语音主播原音合成:自然语音声纹拼接合成系统

据说一名优秀的语音从业者年收入可以达到八位数,但不管是播音员、播讲员还是配音员、声音主播等,再优秀的人也无法分身,把自己的生产力提升到好几倍,赚取更多的收入,一个人每天的工作时间顶多也就十几个小时,所以就算是年收入过千万,就算是想挣更多的钱,也无能为力。

而另一方面,一名长期从事语音播讲工作的专业人士,自己也清楚,常用的字词,可能已经播讲了N多遍了,就算是同一声音属性的词,也有几十到几千个相同的语音。后期播讲新的内容时,还需要把这些字词再讲N多遍,无非是这些字词语音进行新的排列组合。这些播讲者还有一个优势,就是手头上积累了大量的、同一录音棚环境下的语音音频文件,特别适合制作个人的语音合成数据库。

但采用市场上主流的TTS语音合成技术,订制一个人的专业语音数据库成本是非常高的,而且合成的自然度并不好。大家比较熟悉的合成语音就是高德导航里的林志颖合成音,听起来确实是林志颖的声音,但也确实像机器人讲话,缺少了真人的自然流畅感。

这是因为主流的TTS语音合成技术,语音库主要采集的是语音中的元音、辅音和声调,再用机器把它们合成字、词、句的发音,把这些字、词和句合在一起时,自然流畅度就会下降。为了弥补这一缺陷,不少语音合成系统中尽可能保留了语音采集资料中句、词的完整语音,但也是杯水车薪,主要的合成语音仍然是以机器合成音为主。

音码语音合成系统(SCTS技术)则不同,它是采用语音声纹拼接方法合成语音,所有语音都取自于原音,没有机器合成部分。首先在建立语音库时,保留的是原有语音音频文件的字、词和句的语音属性,如:元音、辅音和声调,还有前后音的关系,在句中的位置,语速,音强、音高和音长等信息。在合成时,只需要根据文字和播讲人想表达的意思和情感,选用适合的语音而已。比如常用词“我们”,对于某一位语音主播,可能已经讲了几千次,在建立该语音主播的语音库时,就把“我们”一词,根据前后音的关系,在句中的位置,语速,音强、音高和音长等属性进行分类建库。在合成时,先由机器根据文字的前后关系,自动调用最适合的语音,后续人工在试听时,可以根据需要优化,调换更为合适的语音。即我们称之为:可随时人工干预的语音合成系统。

自然语音声纹拼接合成系统由三个模块组成:

一、自动建语音库系统

二、自动语音合成系统

三、自然语音造词系统(该系统主要是针对个别没有语音的词,确实需要根据字词的发音习惯,以及元音、辅音、音调,用机器合成新词,但这样的合成仍然会比目前市场上的主流语音合成技术自然度高,因为这些元音、辅音仍然会带有一些属性:音高、音强和音长,以及前后音的关系、在句中的位置、语速等。所以造出的词语音丰富,满足不同场景的需要)

自然语音声纹拼接合成系统的优势:

一、自然度高,合成语音都取自于原音,个别词需要机器合成;

二、采用音码语音技术,既能建立信息量更大的语音库,也能合成意思和情感更为丰富的语音;

三、播讲人所表现的语音更为丰富,有的无法用汉字表达,比如已故评书艺术家单田芳在形容一个重物掉在地上,用“duang-”这样的像声字,采用音码语音合成技术,就可以很好地建立这类词的语音库,也可以合成这类词的语音。

自然语音声纹拼接合成系统的劣势:

一、需要大量的语音音频文件,才能建立完善的语音库;

二、需要在同一语境环境下录制的语音。

以上这两点,都决定了该系统主要适用于语音从业者,这两个劣势条件都能满足。

自然语音声纹拼接合成系统应用场景:

一、语音播讲辅助系统:一位语音主播开始播讲一本新书时,采用本系统边播讲边建立自己的自然语音库,其助手在校对音稿,修改语音错误时,就可以直接用语音库中的正确语音替换错误语音。一部书播讲三分之一或者一半时,语音库语料丰富后,后半部分的内容,其助理就可以根据文字内容和主播的风格,合成接下来的内容,只有个别特殊语音表现,或者是语音库没有的词、句,才需要播讲人亲自播讲。这样就可以将效率提升至少一倍。

二、为优秀甚至是已故播音员建立语音合成系统:这些人都有一个特点,就是手头上积累了大量的、同一录音棚环境下的语音音频文件,可以建立丰富的语音库,并为今后语音合成提供了丰富的语料。