随着人工智能的发展,ASR和TTS在通讯里面的应用越来越多,之前也陆续做过很多相关的项目,通讯和人工智能应用结合我们做的最多的项目就是自动外呼,关于外呼的模式和原理说明可以参考我的另一篇文章,外呼系统分类说明,自动外呼是完全无人工交互外呼模式,交换机将名单外呼,客户接通后转移给IVR,IVR负责和客户交互,IVR通过ASR和TTS实现完全无人工干预。


  从目前做的项目总结一下目前这些应用的场景和效果,目前做了此类项目大概有七八个,用户大客户居多,用户所用的场景大部分都是回访、到期提醒功能、分期办理等等,对接过有科大、捷通、nuance等语音引擎,对接的协议都是MRCP V2.0,从效果来说感觉在基础业务上能够覆盖百分之80的操作,百分之20的处理不了的可以转人工,由于大客户对效果的要求还是比较高,总体效果感觉还是不错的。

    总结一下自动外呼产品的优势和不足:

  1. 最大的优势就是可以无人工参与,减少人力成本,由于现在人力成本不断的增加,人工管理越来越复杂,减少人力成本无疑是最吸引企业的优点;
  2. 去年可以说是人工智能年,所以很多大型企业在应用上都靠向人工智能,所以偏向人工智能的应用还是容易得到预算;
  3. 因为机器是单一的,无情绪的所以在外呼效率和满意度上可以比人工外呼提高很多;

     个人认为不足有以下几点

  1. 复杂的场景往往效果不太好,比如身份核实,信息采集,电话营销等;
  2. 价格昂贵,由于大厂商的ASR、TTS引擎价格往往都很贵,再加上集成费用,一套自动外呼系统的价格往往不菲

最近仔细研究了阿里、百度、科大、腾讯的云asr、tts服务,基本上公有云版的服务都不提供mrcp协议,都会http的或者是websocket的服务,识别的效果一般,但是基本上符合目前最常用的需求,尝试过和FreeSwitch做过对接,可以实现,实现的方式通过监听媒体流的方式或者到媒体流,然后转化厂商特定的协议,发送给服务端,然后获取结果,这种方式实现起来很复杂,不好维护,因为你要在一通呼叫中不停去监听和释放媒体流,而且在不改变FreeSwitch源码的基础上很难实现只获取单边媒体流,所以效果不太好;最后决定实现一个MRCP Server中间件服务,和FreeSwitch的交互跟所有MRCP V2.0的引擎一样,然后在中间件的一遍实现和所有公网接口的对接;这样原有的交互模式不再发生变化;总结一下这种方式有优势也有挑战;

优势就是: 

  1. 由于云端的接口往往按需付费,很多可以免费试用一定次数,所以成本会降低太多;
  2. 云端的接口统一稳定,不需要特定的厂商支持,效率上要高很多;

挑战:

  1.  中间件平台的实现难度有点大;
  2. 必须支持公网访问,内网部署方案(不具有访问外网权限不能用);

初步简单的架构图如下所示

Freeswitch MRCP服务端中间件

初步列了下需要完成的工作

  1. 和FreeSwitch的MRCP交互协议实现包括,包括SIP,RTP协议的实现;
  2. 相关识别语法的实现,包含最常用的srgs/xml实现
  3. 和各种服务供应商的对接, 包含阿里、腾讯、百度、科大或者其它的ASR、TTS; 

目前已经完成了第一步,实现语言java,在尝试对接阿里,基本的可行性已经验证过,这条路是可行,一步一步来,每一个大的工程都不是简单。

欢迎交流,联系方式参考边栏。

相关文章:

  • 2021-12-20
  • 2021-06-05
  • 2021-11-25
  • 2022-12-23
  • 2022-12-23
  • 2021-11-25
  • 2021-12-11
猜你喜欢
  • 2021-10-15
  • 2021-10-03
  • 2021-10-31
  • 2022-12-23
  • 2022-12-23
  • 2021-08-10
  • 2022-12-23
相关资源
相似解决方案