声智科技CTO冯大航:AI章鱼系统架构在智慧城市的进展与应用

  • 时间:
  • 浏览:0
  • 来源:彩神大发快三-彩神网快3官方

9月21日,中国人工智能大会2019(Chinese Congress on Artificial Intelligence 2019,简称“CCAI 2019”)于青岛胶州方圆体育中心盛大开幕,本届大会以“智变融合”为主题,由中国人工智能研究会主办,是我国最早发起举办的人工智能大会,声智科技联合创始人兼CTO冯大航受邀出席并发表演讲,此次大会有超过50位国际人工智能领域顶尖人才,50余位国内外人工智能领域专家教授、头部企业高管及行业代表,250余位专业观众并肩参会。

大会期间,声智科技联合创始人兼CTO冯大航以《智慧生活 城市中声学与AI融合技术的进展与应用》为主题发表了演讲。冯大航表示,中国的智慧生活 城市位于有有一4个快速发展当中,以声智科技为代表的人工智能企业将声学与人工智能融合应用在智慧生活 城市上边的方方面面,之类在智能交通领域进行监测,安防提出的需求是希望给摄像头“装上耳朵”,能够 实现对异常声和你这俩关键词的监测。又比如应用在智能家居里的智能空调、电视等等,以及应用在政务系统中能够 极大的方便市民迅速获得能够 的服务。那先 案例声智科技都机会在参与,我想要机会有了你这俩项目完成落地。

基于那先 项目经验,其他同学其他同学将观察到的问提总结为两大趋势:

一是在技术上,声学与人工智能正在不断地融合——通过宽度学习进行信号除理和语音识别等,应用在智能安防和智慧生活 交通等诸多领域;二是在新的场景下,新的系统架构正在形成——章鱼架构,且具有更强大的计算和控制能力,基于“章鱼架构”的模式声学与人工智能融合的案例机会应用在智慧生活 城市的方方面面。

交通、安防、政务、教育……城市生活暗含着多个场景,也充满着各式各样的设备。以AI为核心的智能化如若要实现在城市的广泛应用,自然能够 完成在不同设备间的真正落地。为适应你这俩新需求,更好的服务客户,声智科技推出了SoundAI Azero 智能操作系统。其具有更加智能的终端控制能力、更强大的计算除理能力、放慢速的网络传输能力以及更个性化的定制能力。

其他同学其他同学认为未来会总出 更多的“章鱼”系统,我想要进化的更加智能,并肩不要 的“章鱼”系统总出 都在产生“智慧生活 的规模效应”,产生有有一4个更大提新型系统。

据悉,声智科技成立于2016年5月,是全球领先的远场智能交互系统提供商之一,专注于声学语音技术和语言理解技术,致力于通过不断引领真实环境下的人机交互体验,实现“让机器更智能”的使命,达成“用科技改善生活”的愿景。声智科技核心团队来自中科院声学所,聚集了全球著名高校的毕业生和著名企业的商业精英,以及中关村、福布斯、胡润以及IEEE、ACM、ASA、AES、中国人工智能研究会、中国计算机研究会、中国声学数研究会等众多高端人才。

以下为冯大航演讲实录:

其他同学其他同学好,我是声智科技的联合创始人兼CTO冯大航,其他同学其他同学公司主要专注于声学和人工智能的融合,今天我主要希望分享一下其他同学其他同学公司这几年在智慧生活 城市中的进展与思考。

首先看你这俩数据,根据2013-2017年智慧生活 生活 城市数量与投资规模的曲线图能够 发现,无论是试点的数量还是投资的规模都在有有一4个逐年上涨的过程,能够 说中国的智慧生活 城市是在有有一4个快速发展当中,其他同学其他同学公司主要做声学与人工智能的融合应用。声学在智慧生活 城市上边都在好多好多 重要的应用,之类在智能交通领域进行监测,安防提出的需求是希望给摄像头“装上耳朵”,能够 实现对异常声和你这俩关键词的监测。又比如应用在智能家居里的智能空调、电视等等,以及应用在政务系统中能够 极大的方便市民迅速获得能够 的服务。那先 案例其他同学其他同学都机会在参与,我想要机会有了你这俩项目完成落地。

基于那先 项目经验,我将观察到的问提总结为两大趋势:

一是在技术上,声学与人工智能正在不断地融合。二是在新的场景下,新的系统架构正在形成。接下来,我将主要就这两条脉络进行阐述。

其他同学其他同学公司产生之初就致力于声学与AI的融合,2014年前一天声学和语音信号除理以及语音除理的交叉都在很糙多,都在独立向前发展,很糙是宽度学习被用于语音识别以来,语音识别率得到了放慢的提升。

上图展示了语音识别总出 以来的错误率曲线,能够 想看 ,最关键的你这俩总出 在2017年微软推出一套语音识别系统,其语音识别错误率达到了5.1%,首次低于人类的语音识别错误率。人类在数据集上达到那先 水平呢?通常,有有一4个正常人在数据集上平均值错误率是5.9%,即使受过专业的训练的人,在你这俩数据集上错误率也达到了5.2%。能够 说,至此,语音识别发展机会达到非常成熟的句子是什么图片 期图片 图片 的句子的句子 图片 期的程度。

我觉得语音识别在商业应用中受到你这俩阻力,比如手机上的语音助手应用的都在很糙多。但在2014年亚马逊推出智能音箱以来,语音识别得到不要 的关注,比如说房间的混响、旁边的背景噪声以及人声干扰,在你这俩状态下,我觉得信号除理是能够 做你这俩工作的,比如其他同学其他同学能够 利用麦克风阵列将目标声音和噪音区分开,从而让语音识别率有有有一4个明显提升。

这上边便涉及到信号除理与语音识别的融合的过程,接下来我会举有有一4个更简单的例子,当然机会更偏于学术你这俩,去解释一下身前更宽度次的原因分析分析分析。

以混响为例,现在我在这里演讲,在座的观众听到我的声音我觉得是我买车人的声音和经过强烈的反射后的声音的叠加,在数学上为什么会表示呢?能够 表示为有有一4个纯净的信号经过房间重新响应得到混响的信号,可想而知,原本一定不要 再得到有有一4个好的结果。现在你这俩学者们也在进行深入的研究,比如说让语音信号经不要 种房间的重新响应再训练网络,我认为这都在的是很糙完美的有有一4个过程。首先,即使在同有有一4个房间上边每个点也是不同的,其他同学其他同学有好多好多 的房间,这是好多好多 种组合,最少同两根语音,机会变化出非常多的你这俩依据,在你这俩状态下,让宽度学习的网络去学习东西,效果会有所折扣。

在你这俩过程当中,信号除理完整性能够 出有有一4个逆流波器,这能够够完整性和原声一模一样。换言之,也不位于你这俩偏差,实际当中都在你这俩非线性效应,但你这俩信号我觉得和原本的信号更接近了你这俩,前一天其他同学其他同学再重新训练网络,就能够 达到很好的语音识别的效果。

我觉得,整个信号除理能够 做的是那先 样的工作?简单你这俩来说,其他同学其他同学要做的是信号多样性的问提。

左边的图是其他同学其他同学当前的语音识别的系统框图,一般来说,信号回来前一天要做有有一4个回声的工作,把设备买车人的声音加进。接下来其他同学其他同学会做有有一4个去混响的操作,我想要找到说话人的位置,做你这俩波形的工作,把除理后的信号送到云端,再上边是声学模型的内控 ,这也不有有一4个简化的网络,最终转化成文字。你这俩过程当中,从波形形成前一天,你这俩信号实际上也是位于一定的失真,能够 对我想要的网络进行重新的迭代,让它对非线性的累积有有有一4个学习的过程。其他同学其他同学能够 想看 ,总而言之,整个过程还是信号除理跟语音识别的集联关系,都在宽度的融合。但其他同学其他同学在不断探索,比如其他同学其他同学现在希望用宽度学习的网络把回声消除的非线性累积进一步去除掉,你这俩公式比较简单,有有一4个设备买车人发出声音前一天,首先利用线性的累积消除掉,就得到下面的公式,这是参考信号的非线性表达,S(n)是期望的信号,在这上边非线性回声残留会用参考信号的非线性的关系来表达。其他同学其他同学能够 利用神经元网络进行有有一4个模拟,原本除理前一天,能够 得到更好的结果。

右边的图是谷歌的做法,当信号进来前一天,同样进行去混响的操作,用上边的两层网络对波束形成的累积做了有有一4个拟合的过程,我想要倒进声学模型当中除理。

从这十几条 图能够 想看 ,最简单的是接下来进一步的融合,你这俩过程机会信号除理发挥的作用更少你这俩。但机会有有一一两买车人声重叠在并肩,就没能识别出来应该识别哪有有一一两买车人声。

有有一4个好的系统,最本质的原因分析分析分析主要在于其他同学其他同学是在自然界原本有有一4个简化的系统当中,一定是位于线性效应也位于非线性效应。关于信号除理,声学擅长除理的是线性累积,宽度学习擅长除理的是非线性累积,最好的依据一定是两者的完美融合。比如说鸣笛检测能够 定位到车辆的位置,你这俩过程信号除理就能够 发挥作用,通过宽度学习把噪声加进,智能安防和智慧生活 交通系统也是没人 。

以上是技术方面的阐释,接下来其他同学其他同学剖析下系统层面。首先,其他同学其他同学认为现在新的系统正在形成,以简单的借喻说明,能够 认为是从水母的计算模式向章鱼的计算模式进行转变。没人 章鱼和水母有那先 区别呢?章鱼的头脑更加聪明,触手更加灵活,原本能够 联网的设备无外乎也不手机、平板或电脑,那先 设备计算能力比较强,系统比较统一,用水母的计算模式完整性能够 满足需求。但现在,能够 连通网络的设备不要 ,也位于各种各样的系统。要怎样屏蔽那先 不同设备和系统间的差异,尽机会地实现统一,就必然催生出一套新的系统。在你这俩方面,亚马逊走在了最前列, 2014年亚马逊推出智能音箱的前一天就考虑到你这俩问提,对整套系统进行彻底的优化,将50%的计算倒进云端,把20%能够够倒进云端的计算倒进端上,原本做的好处也不不论是再计算能力还是系统方面,都能够 最大化地屏蔽端上的差异。

事实上,其他同学其他同学也按照你这俩思路做了一套买车人的系统,这套系统有那先 好处呢?简单来说,第你这俩也不能够 极大地降低端上的成本,第二点是能够 非常方便地进行定制,比如说采用了其他同学其他同学系统的智能设备应用在酒店中,客人一进酒店关于“餐厅在那先 地方”之类的非通用回答的个性化问提,智能设备完整性能够 提供正确答案。使用这套系统,客户完整性能够 在网上定制有有一4个对话系统,再将其部署到云端,让酒店的设备都能够 按照你这俩对话系统的逻辑进行工作。

还有你这俩,当设备接入不要 的状态下,我觉得能够 反过来让云端更加智能。比如询问酒店的餐厅在哪里,你这俩问提我觉得有好多好多 的问法,回到前面的例子,我觉得那先 例子都能够 用上述提到的系统进行覆盖。简化的提问依据能够 使得系统定制变得更加简化,以前一天提到的鸣笛监测为例,就能够 对特定的某一时间段进行监测,又机会以政务系统为例,对于不同省份而言政务系统肯定是不一样的。

既然系统有没人 多好处,那其身前有没人 驱动力呢?其他同学其他同学认为其身前的驱动因素有六个关键点,首先是新的传感器机会传感器的组合,原本能够构创造造出新产品,比如智能音箱,这也不在传统音箱的基础上简单地加了麦克风阵列,又比如现在的VR或AR设备、可穿戴设备。机会传感器的组合和新的传感器的诞生构建出来新的品类,我想要你这俩新品类机会不断增加,你这俩过程也会不断扩大,机会传感器的组合依据不要 了。

第二,算法方面,我觉得现在其他同学其他同学也在讲宽度学习。宽度学习的算法现在能够 说发展得没人 快,包括语音识别,在短短两三年的时间里整个系统提升得非常快,也为用户带来更好的体验。

还有你这俩,云端计算能力要足够强,我觉得现在的计算能力也是能够 满足需求的,但云端计算能力足够强能够 让其他同学其他同学运行更大、更简化的网络。

最后,还能够 网络足够给力,现在其他同学其他同学马上也进入到5G时代,5G的网速没人 快,接入网络更加的便捷,在原本大背景下,相信一定有不要 的设备能够接入到网络。整套系统机会满足以上四点,一定能够 一键复制到更多领域,也会催生出不要 的新产品。

没人 在上边有有一4个趋势下,未来又会位于那先 样的事情呢?我在这里做个简单大胆的预测。

未来几年内,机会会总出 不要 的“章鱼”系统,你这俩过程其他同学其他同学内控 称之为“数据的规模效应”,简单理解也不,在接入“章鱼”系统的设备不要 的状态下,会产生不要 的数据,你这俩数据会反哺算法,让算法变得更加智能,又使得“章鱼”更加聪明。接下来机会有不要 的“章鱼”总出 ,其他同学其他同学把目光放得再长远你这俩比如十年、二十年前一天,那先 “章鱼”系统会不要 再进行有有一4个裂变呢?比如说变成有有一4个更大的系统,这块其他同学其他同学认为也是会位于的,其他同学其他同学把你这俩过程称之为“智慧生活 的规模效应”。

机会能够 实现将那先 合并成有有一4个大的系统,未来的确能够 像电影中所展现的那样。但你这俩过程机会还能够 一定的时间,但“章鱼”系统现在正在总出 ,我想要未来会不要 。今天我的分享就到这里,谢谢其他同学其他同学!