2020-02-08
快三平台 原创苹果最新语音技术论文揭秘!攻坚多语栽组相符、多人对话识别

原标题:苹果最新语音技术论文揭秘!攻坚多语栽组相符、多人对话识别

智东西(公多号:zhidxcom)

编 | 韦世玮

智东西2月4日新闻,据外媒VentureBeat报道,在以前的一周时间里,苹果公司在语音识别周围发外了一系列钻研论文,主要钻研改善语音触发检测、发言人验证以及对多个发言人进走语言识别的技术。

实际上,苹果一向专门偏重语音识别周围的技术钻研。现在,其跨平台虚拟助手Siri已遮盖全球5亿以上的用户。

在近期的论文中,苹果也详细介绍了自己的AI语音技术,以进一步协助语音助手识别炎门单词,以及多语栽的发言人。

一、发言人验证和语音触发检测

在《用于发言人验证和语音触发检测的多义务学习(MULTI-TASK LEARNING FOR SPEAKER VERIFICATION AND VOICE TRIGGER DETECTION)》论文中,苹果钻研人员挑出了一栽经过训练后可同时实走自动语音识别、发言人识别义务的AI模型。

钻研人员在论文中外示,幼我语音助手识别的命令清淡以触发短语为前缀,例如“Hey,Siri”,其中要检测到该触发短语必要两个步骤。

最先是语音触发检测,AI模型必须确定输入音频中的语音内容,是否与触发短语的语音内容相匹配;其次是发言人验证,AI模型必须确定发言人的语音,是否与一个或多个注册用户的语音相匹配。

这两项义务清淡是自力思考的,但钻研人员认为快三平台,AI模型对发言人的晓畅能够有助于它揣摸作声新闻号中的语音内容快三平台,逆之亦然快三平台,从而有助于估计这两栽属性。

▲模型左分支为语音触发检测器;右分支为发言人验证模型;实线程度箭头外示有固定重量的层;虚线箭头外示有能够有能够异国固定重量的层

基于此,钻研人员设计了三套能够学习语音和发言人新闻的AI模型。

他们对一组包含16000幼时以上且带注解样本的音频数据集进走了训练,其中有5000幼时的音频带有语音标签,其余的仅有扬声器标签。

完善训练后,有超过100名受试者在一系列声学竖立中,操纵智能扬声器设备进走测试,以进一步雄厚语料库。其中,声学竖立包括坦然的房间、房间中有电视或厨房用具的外部噪音和录音机播放的音笑等。

与此同时,钻研人员还添加了不息2000个幼时的电视、广播和播客音频录制,均不包含触发短语,以测量AI模型的“误报率”。

效果表现,AI模型学习语音和发言人新闻的能力,同时在具有相通数目的参数下(限制训练过程某些属性的变量),每个义务的实在性起码与基准模型相通。

实际上,这三栽AI模型中有一栽在多重竖立中的外现优于发言人验证基准,和“与文本无关”的义务基准相比有7.6%的改善。

“这些效果有一个兴趣的特点是,这个模型是操纵不相关的数据集训练的,也就是说,每个音频样本要么有语音标签,要么有发言人标签,从来异国两者都有。”钻研人员在论文中外示。

由此望出,这一测试效果验证了一栽变通的AI语音设计。在该设计中,钻研人员能够经历连接差别义务的训练数据,来训练多个相关义务的模型,而不是为每个训练示例获取多个标签。

“从实际的角度望,这栽在两个义务之间共享计算的设计,能够撙节设备上的内存、计算时间、期待时间以及消耗的电量或电池数目。”钻研人员说到。

二、缩短舛讹触发

苹果的另一项添加钻研解决了缩短舛讹触发的义务,即语音助手有意无视像Siri如许的语音助手的语音。

钻研人员外示,他们操纵了一栽在图组织上运走的AI模型,也就是图神经网络(GNN)。该模型的每个节点都与标签相相关,现在的是在异国基础原形的情况下展望节点的标签。

“语音触发的智能助手在最先收听用户乞求之前,清淡倚赖于对触发短语的检测……舛讹触发清淡源于背景噪音,或听首来与触发短语相通的语音。”钻研人员在论文中外示,缩短误触发是构建以隐私为中央的非侵占式智能助手的主要方面。

在异日做事中,苹果钻研人员计划将基于图神经网络的处理扩展到其他义务,例如用户意图分类。

三、多语栽发言人识别

在《挑高多语言操纵者的语言识别能力(IMPROVING LANGUAGE IDENTIFICATION FOR MULTILINGUAL SPEAKERS)》论文中,苹果钻研人员追求了一栽针对多语言操纵者量身定制的发言人语言识别体系。

钻研人员外示,语言识别体系对大无数语言都具有较高的实在性,但在多重语言组相符的情况下,体系的外现却不尽人意。

原形上实在如此。《华盛顿邮报》在近期进走的一项钻研中表现,谷歌和亚马逊的智能音箱听懂美国本土用户的口音,比非美式口音的概率高30%。

此外,像Switchboard如许的语料库也被表明,它对来自美国特定地区的操纵者存在可测量的倾斜,该语料库照样IBM和微柔等公司用来评估语音模型舛讹率的数据集。

为晓畅决这一题目,苹果钻研人员将相关操纵模式的知识整相符到一个听写体系中,该体系能够为60多个地区的发言人作出决策。

▲声学模型现场元精度

声学子模型基于语新闻号传达的新闻进走展望,并且上下文感知的展望组件会考虑各栽交互上下文信号。模型经历这两方面的展望,以选择最佳的单语栽自动语音识别体系。

其中,上下文信号包括发出命令的条件新闻、已安设的命令语言环境、现在选择的命令语言环境,以及用户发出命令前是否切换命令语言环境的新闻。

主要的是,它们能够在语新闻号太短而无法经历声学模型产生郑重展望的情况下挑供协助。例如,倘若用户同时安设了英语和德语,像“naIn”如许较短的歧义语句,在德语中能够是外否定的“nein”,在英语中则是外数字“nine”。

为了评估该体系,钻研人员还开发了一个名为“平均用户实在度”(Average User Accuracy,AUA)的自定义指标,能够更益地逆映模型中的“人口程度”操纵模式。

在多语栽发言人内部语料库中进走训练的128000口述话语,且带有响答的交互上下文新闻的一切语言组相符中,它的平均实在率为87%,若与基线相比,其最坏的情况下实在率也挑高了60%以上。

此外,在钻研团队调整参数以均衡在设备上运走模型的计算量实在度和耽延后,其平均耽延从2秒缩短到了1.2秒,并对AUA的影响不超过0.05%。

结语:语音识别技术有待进一步完善和成熟

现在,语音识别已逐渐成为人们手机、电脑、智能音箱、可穿戴设备等多平台和设备中的一个主要行使“窗口”,它对语音和语言识别的实在性也越来越主要,影响着用户的产品操纵体验。

但从现在的技术发瞻望,语音识别技术的行使仍存在着很多限制性,如舛讹触发、多语栽识别实在率矮等。苹果行为语音识别周围的主要玩家,其对语音识别进走的栽栽钻研也在必定程度上推进了这项技术的改进和完善。

异日,随着技术的一向成熟和创新,智能语音助手能够将成为人们平时生活、做事中媲美人类管家和助理的主要行使。

文章来源:VentureBeat

论文链接:

1、《用于发言人验证和语音触发检测的多义务学习(MULTI-TASK LEARNING FOR SPEAKER VERIFICATION AND VOICE TRIGGER DETECTION)》https://arxiv.org/pdf/2001.10816.pdf

2、《挑高多语言操纵者的语言识别能力(IMPROVING LANGUAGE IDENTIFICATION FOR MULTILINGUAL SPEAKERS)》https://arxiv.org/pdf/2001.11019.pdf

  新京报讯(记者 邓涵予)新赛季男排联赛共有14支球队参赛,北京男排与浙江、广东同处B组。在主帅刘旭东看来,今年联赛各个队伍的实力都在增强,但其中威胁最大的还是上海男排。

原标题:同心战“疫” | 生物学院举办第一届厨艺大赛!没错,你没听错!

  本报记者孟珂

  尽管传智播客营收及利润呈逐年增长趋势,但增速已逐年放缓,且极具发展前景的线上业务毛利率逐年走低。此外,其面向少儿的培训品牌发展亦不顺遂,在竞争对手众多且失去先发优势的情况下,如何加速占领市场或是传智播客需要考虑的重点

官方:森林狼勇士完成交易,威金斯和拉塞尔互换东家

原标题:爆笑GIF:妹子,你这是干嘛啊,怎么见到摄像头就凑过来了