推广文章

Site PathHome > > 推广文章 > 语料库
0

音码语音合成系统SCTS(Speech Code To Speech)

  • 索引610
  • 发布时间2023-07-03
  • 点击次数
  • 加入收藏
  • 发表评论
  • 语音阅读
正如当年“地心说”统治人类达1300年之久,TTS(Text to Speech)技术也是目前语音合成的主流技术,但用文字作为媒介真的很合理吗?尽管TTS技术近年来有了快速的发展,甚至接近于自然音,但也遭遇到了“地心说”同样的尴尬,就是当年发表“地心说”的托勒密不得不设计一个非常复杂的多轮结构(本轮、均轮)来自圆其说,但仍有误差。同样为了达到更好的语音合成效果,TTS技术也设计了非常复杂的情感模型、韵律模型等,虽然能接近自然音,但始终达不到自然音的效果。

问题的关键就在于TTS技术一直把文字作为语音合成的核心,大大限制了语音合成技术的发展,比如“我们”这两个汉字,在语音合成时,我们无法从文字上获取声音的信息,如:音高、音长、音强等。还有一些口语化的语音,因为没有对应的汉字,更无法表达。如在评书里,形容重物掉在地上的“duang”的一声,要比汉字里的象声词“咣”、“当”显得更重,却因为没有对应的汉字,从而无法表达这样的语音。更别说我们在口语中的换气声和咂巴嘴的声音等。

基于对主流语音合成TTS技术的思考,上海添力网络科技有限公司采用了不同的技术路线,称为:音码语音合成技术,简称SCTS技术(Speech Code to Speech)。该技术正如“地心说”统治1000年后的“日心说”一样,哥白尼用“日心说”解释太阳和行星的运行就特别简单、有效。用SCTS技术做语音合成,也同样简单、有效。

首先我们在建立某人的语音库时,就会用语音识别系统生成音码而不是文字,可以很好地保留该语音的声音信息:音长、音高、音强、前后音的关系等。在语音合成时,就可以根据音码和语义,调用想要的语音。

SCTS技术一经问世,就展现了它独特的优势:比如,如果让一个失语者通过敲击键盘来发音,采用TTS技术,该操作者必须先输入汉字,然后由汉字转成语音,效率低而且慢,也无法表达更丰富的情感。而采用SCTS技术,操作者直接输入音码,同步发音,效率高而且快,平均每分钟发200个音,达到正常说话的语速,而且可以表达更丰富的情感。

再比如,采用TTS技术合成一段语音,如果对某些发音不满意,想换更好的语音来表达,是无法实现的,最多由机器帮你调个语调、音强、空隙等,这样的结果也不自然。而采用SCTS技术合成一段语音,每个字词都有至少几十个自然音可供替换,基本满足日常需要。
SCTS技术的兼容性和扩容性非常强,只需要不断地增加音码的长度,就可以把更多的语音信息保存,并在语音合成时表现出来,比如哭泣、高兴时的语音,模仿老人和小孩讲话的声音等。

SCTS技术实现的目标:人人都有自己的语音库,人人都是中央播音员,人人都是单田芳

SCTS技术的应用场景非常广泛,主要应用领域有:

一、为失语者提供发音输入法,实现与普通人进行语音交流;

二、建立人工可干预的语音播报或朗读系统,真正实现“我的声音我做主“;

三、采用音码技术驱动数字人,可以达到与真人同样的驱动效果;

四、低成本定制个性化语音库,作为儿童教育、办公机器人、陪伴机器人的语音;

五、辅助配音系统:部分甚至完全替代配音、评书、广播剧的播讲人和配音员;

六、与数字虚拟人合作,实现在元宇宙和游戏中的分身。

这就是创新SCTS语音合成技术,非TTS技术

音码语音合成技术

0