最新消息:最新信息可以到系统基本设置里填写,如果不想要这一栏可以修改head.htm,将第53行到55行删除即可

基于语音识别的IVR系统的设计与实现

创意新鲜 dedesos.com

跟着计算机技能和人工智能整体技能的开展,天然言语了解不断获得开展。语音辨认体系已成为一个越来越广泛的运用方向。因为电话网络的普及性,天然言语处理体系在电话信道上的运用已成为最重要的运用之一。而且跟着移动通讯技能的开展和人们关于信息获取的移动性的需求不断添加,商场关于电话语音辨认体系的需求也不断的添加。因而在新一代呼叫中心的IVR体系中引入了语音辨认技能作为用户的输入手法,用户能够直接用语音与体系进行交互,这样大大提高了工作功率。

本体系方针是支撑多用户并发查询车辆违章信息和驾驶证信息。用户运用天然的言语说出需查询信息的类别和车牌号码,体系辨认后将辨认成果反馈给用户,经用户承认后,体系把辨认成果作为后台数据库查询的要害字进行查询,并将查询成果播映给用户。其流程见图1。本体系首要包括以下几个模块:

语音辨认模块:担任查询类别和车牌号码的辨认。

依据语音辨认的IVR体系的规划与完成

▲图1 车辆违章信息和驾驶证信息查询体系流程图

本体系的硬件部分是由电话语音卡和一台PC机组成,语音卡经过其供给的语音处理和信令处理才能,来完成用户的接入请求和挂机信号的检测,并担任录音和回放语音。本体系选用的是东进D161A语音卡。该语音卡可接入16条模仿电话线,供给16路以内的话路并行处理才能。其首要功用有:自动增益操控及语音信号的压扩改换;收集和播映各种格局的电话语音信号,完成A律PCM、 律PCM、ADPCM等算法;辨识和发生DTMF信号;ITU-TSS G3传真功用。

本体系话路处理模块的要害部分是语音数据的实时收集。东进语音卡在这方面供给了一系列接口函数,如:StartRecordFile、StartRecordFileNew、VR_StartRecord等。这几个函数都能够完成对通道的录音,所不同的是前两个函数将语音数据保存到磁盘文件,后一个函数则将语音数据保存到存储器缓冲区。因为咱们要完成的是一个实时语音辨认体系,因而咱们选用后者来收集语音数据。在开端录音之前,咱们首要调用VR_SetEcrMode函数发动回声按捺功用,然后每隔一段时刻调用一次VR_GetRecordData函数获得录音数据,并将其送入语音辨认引擎。当语音辨认引擎有辨认成果回来时,中止录音,并依据辨认成果转入下一个状况。

依据语音辨认的IVR体系的规划与完成
▲图2 话路处理流程

依据语音辨认的IVR体系的规划与完成

语音辨认体系的开发能够选用依据模板匹配的动态时刻规整、依据计算参数模型的隐马尔可夫模型,神经网络等技能,他们都是针对某些详细运用的,其模型参数的获得需求对大规模的样本进行学习,关于非特定人语音辨认往往需求收集数百人的语音样本,其工作量是相当大的。跟着语音研讨的不断开展,现已呈现了很多的语音辨认开发工具:如Microsoft Speech SDK,IBM ViaVoice等。他们都供给了语音辨认和语音组成的二次开发渠道,而且微软的Speech SDK是彻底免费的,它具有辨认率高,辨认速度快,可移植性好,支撑多种言语等长处。因而它被广泛运用于各个领域。

SAPI SDK是微软公司免费供给的语音运用开发工具包,这个SDK中包括了语音运用规划接口、微软的接连语音辨认引擎以及微软的语音组成引擎等等。现在的5.1版别总共能够支撑3种言语的辨认 以及2种言语的组成。SAPI中还包括关于低层操控和高度适应性的直接语音办理、练习导游、事情、语法编译、资源、语音辨认办理以及TTS办理等强壮的规划接口。

IspRecognizer接口:用于创立语音辨认引擎的实例,辨认引擎有两种:独占引擎和同享引擎。独占的引擎对象是在本程序的进程中创立,只能由本运用程序运用,而同享的引擎是在一个独自的进程中创立,能够供多个运用程序一起运用。

IspRecoGrammar接口:经过这个接口,运用程序能够载入并激活语法规矩,而语法规矩里界说了待辨认的单词、短语和语句。一般语法规矩有两种:听写语法和指令操控语法。听写语法用于接连语音辨认,能够辨认出引擎词典中很多的词汇;指令操控语法用于辨认用户自界说的词汇。

IspAudioPlug接口:经过这个接口,运用程序能够将内存中的语音数据送到语音辨认引擎,进行辨认。

因为指令操控语法办法能够约束辨认的词汇量,而且这种辨认技能不需求对说话人事先进行练习,因而在实践运用中具有较高的鲁棒性和较高的辨认功率。本体系的辨认词汇包括: 车辆信息查询 、 驾驶证信息查询 和26个英文字母10个数字,咱们首要编写了包括这些特定词汇的语法文件。

微软辨认引擎的语音输入有多种办法,一般都是经过声卡直接输入,也能够经过其他语音输入流。本体系的语音数据是从语音卡获得的实时数据,将其存入内存,然后经过调用ISpAudioPlug的SetData办法将其送入辨认引擎。

车牌的辨认词汇中包括10个数字和26个英文字母,这些词汇的发音有许多是相同或附近的,比方:E和1,R和2,T和7,D和B,M和N,X和S。这些词汇在辨认时很简单发生误识,有的乃至彻底不能辨认。假如单从算法上来考虑,是很难处理这些问题的。因而咱们考虑从体系的流程动身,当用户以为辨认有误时,能够输入辨认过错的位数,然后体系依据用户的输入,供给几个备选成果,供用户挑选,这样极大的提高了体系辨认率。

5 操作办法

6 实验成果及剖析

    与本文相关的文章

    网友最新评论