上海添力网络科技有限公司

请使用手机扫描二维码,登录网站手机版。

语音技术

当前位置:首页 > > 语音技术 > 语音搜索引擎

真正的语音搜索引擎:音码语音检索系统


人类录制声音的历史已经有100多年了,特别是近几十年来,计算机技术的大发展,人类存储了海量的音像文件,如果从这些音像文件中寻找某个人讲过的话语,以现有的语音识别技术,可以这样操作:

1、 先将所有音像文件中的语音识别成文字;

2、 将识别出的文字建立检索索引系统;

3、 查找所需的汉字,再对应到相应的音频文件;

4、 调出该音频文件收听相应的语音段,确认是否为要找的语音;

5、 如果需要找一定发音特点的语音(如大喊大叫的、激动的、哭泣的),需要人工一个一个文件去听。

在整个过程中,有以下几个问题:

1、将音像中的语音识别成汉字,会丢失语音原有的一些信息:音高、音强、音长等,如果想找声音宏亮一些的语音,就需要调用一个一个音频文件,用人工去听;

2、汉字具有多音字或者是多字一音的特点,识别错误,会让一些文字检索不到或者是查找结果错误;

3、普通话发音只有400个音节,加上声调不超过1300个。而口语化的发音更丰富,比如形容重物掉地的声音“duang”,是没有对应的汉字。目前市场上的主流语音识别系统也不会识别出喘气声、砸吧嘴声、笑声之类的语音。所以只用汉字是无法记录丰富的口语化信息;

4、以这种方式建立的语音检索系统本质上还是文字检索系统,拿到的检索结果还是多个音像大文件,得一个一个文件去听,使用起来不方便;

5、如果查找的是一个常用词,比如某一个人说过的“我们”这两个字,可能的结果是成千上万个语音,这么多“我们”语音,其实有相当一部分的发音是一模一样的(音高、音长、音强基本一致),我们常人是分辨不出来的,这些语音可以合并,完全没有必要占用大量的存储资源,也可以简化搜索结果。以现有的语音技术做不到这一点。


正是因为建立在现有语音识别技术基础上的语音检索功能不足,才导致目前没有真正意义上的语音检索系统,而采用音码语音技术就能将以上问题得到很好地解决。

首先音码语音检索系统是这样一个流程:

1、先将所有音像文件中的语音识别成音码(音码的主要信息包括:每句话的语速、每个字词的准确发音以及音高、音强、音长、前后音的关系等信息);

2、再将含有音码的音像文件分割成以句为单位的小音频文件,并将语音特性一致的语句合并,减少存储量;

3、检索时,语音告诉系统需要查找什么样语音,或者是输入汉字,让系统转成音码进行查找;

4、找到相应的语音语句直接使用。

5、如果寻找一定发音特点的语音,只需要在查找条件里设定对应的声音信息。

采用音码语音检索系统有以下几个优点:

1、根据实际应用,寻找具有特定音调和情感的词语,而且不需要人工一个一个音频文件去听,通过音码信息,就能知道该发音的特点;

2、找到的语音可能汉字不同,但由于其发音相同,检索结果是一样的,比如“做一做”和“坐一坐”,这两个词汉字不同、意思不同,但发音相同,搜索结果里会一起出现;

3、音码采用的是音标注释发音,所以比常规的汉字能表达更为丰富的发音,如汉字没有的字、喘气声、砸吧嘴声、笑声之类的语音;

4、以这种方式建立的语音检索系统本质上是语音检索系统,不用绕道进行汉字检索,拿到的检索结果是多个语句语音文件,可以快速使用;

5、采用音码标注的语音文件,可以在语音要素相同的情况下(音高、音长、音强),自由替换整句或者字词,大大节省存储空间,这就好比用字库来存储文字一样。不同的语音就相当于不同的字库。


音码语音检索系统的应用范围:

1、 为音像档案部门建立语音检索系统

2、 自动建立个人自然语音音码库

3、 语音从业者的朗读辅助系统

4、 为音频和视频编辑提供丰富的语音素材


音码语音技术背景资料:

目前主流的语音技术,采用文字作为媒介,具体表现为:语音识别时,是将语音识别成文字,丢失声音信息,也无法识别非文字语音;语音合成时,将文字转语音(TTS技术),无法表达非文字的语音信息,也无法进行丰富的语音变换。

上海添力网络科技有限公司正是看到以文字为媒介的语音技术不足,研发了一套音码语音技术,这种新的编码方式可以很好地记录自然语音的丰富声音信息,在使用这些声音信息合成语音(SCTS技术)时,可以表达丰富的自然语音。

用音码取代文字建立的音像资料搜索引擎,具有直观、效率高、速度快的特点,是音码语音技术中重要的技术环节。

0