出色的研究教会了机器倾听

机器能分辨婴儿的哭声和狗叫吗?

2018年1月9日

采访

Chris Mitchell, Audio Analytic

- 856770 - _1280.png声音

信贷:

公共领域

玩下载

如何教会机器倾听，为什么要这样做?乔治亚·米尔斯(Georgia Mills)与剑桥郡音频分析公司(Audio Analytic)的克里斯·米切尔(Chris Mitchell)打破了僵局，或者在这种情况下打破了玻璃……

Chris Audio Analytic做的是一种全新的声音信号处理。我们称之为音频人工智能，它着眼于赋予计算机对婴儿哭声或玻璃破碎等声音做出反应的能力，而不是语音或音乐类型的信号。我所见过的关于我们所做的事情的最简短的描述之一我们就像现实世界中的沙赞，我认为这是描述我们所做事情的一种合理的简短方式。从技术上讲，它非常不准确，但它很短。

Georgia -你是如何教机器分辨声音的?

Chris -首先你需要得到声音。我们面临的一个基本问题是所谓的零数据问题，这意味着没有数据来训练机器。无论人工智能多么聪明，如果你一开始就没有数据来训练，它就一点也不聪明，所以我们必须出去收集数据。这意味着我们要在所有你能想象到的声音中不停地撞击，撞击，撞击，发出哔哔声。一旦我们收集了所有的数据，你就需要检查并标记它。

然后你将转向AI的一面，即尝试着模拟这些声音以及它们出现的组合和顺序。这和语言本身是非常不同的因为没有语言与声音相关，所以你和我的对话是由一个我们都能理解的相对正式的交流结构控制的。我们知道它的规则，这意味着在声音分析层面上，你可以根据这些规则猜测出哪些声音会从哪里来。我的狗对这些规则没有任何有意义的感觉，所以这并不适用。许多语言技术和其他方面，你可以从语音方面进行处理，但根本无法翻译，因此，你必须建立一套全新的人工智能，以便能够准确地检测并响应这些声音。

乔治亚-这个过程，大大简化了，包括将声音分解成微小的组成部分，让人工智能学习哪些组成部分来自哪些声音，以及在什么背景下。但我最感兴趣的是数据收集方面，尤其是打碎窗户的声音。很多这样的事情都发生在剑桥的一个隔音的移动小屋里，我在那里看到了他们的玻璃破碎设备……

马里-我的名字是马里·格里夫。我是Audio Analytic的数据和QA经理。

乔治亚:我能看到后面有一把大锤，看起来很令人兴奋。所以我要打碎这扇窗户吗?

马里-你要把它砸了-对。我们要做的是给你穿上安全装备。你将站在玻璃破碎装置的后面，这样你就会像一个闯入房间的窃贼。这可能需要你尝试几次。这实际上比很多人想象的要难得多。很多人认为你只要用大锤敲玻璃就能把它敲碎，但实际上，你必须要用相当大的力才能把它敲碎。

乔治亚-我太兴奋了。我无法形容我有多兴奋，我抡着大锤砸窗户。这一定是最好的工作场所了!

马里——这很有趣——是的。当他们开始的时候，这对每个人来说都是一种启蒙。

乔治亚-对。所以我最好穿好衣服。

我穿了大约五层防护服，以防止玻璃把我撕碎，还戴了耳罩，因为声音太大了。所以，虽然这很有趣，但不能在家里再试一次。而且，信不信由你，用大锤敲了七次才敲穿了一块著名的易碎材料——玻璃。
但最终……玻璃碎了。

Georgia -学习机器的听觉有什么意义?

Chris -我们的工作涉及到安全和安全方面的应用。如果我们卖的是人们储存在家里的摄像头，检测窗户是否被打碎，然后向你发送短信警报，显然，就能够做到这一点而言，是非常有价值的。通过现代智能扬声器，了解您投射声音的声音环境。如果你能理解这一点——如果你知道你在煎培根，如果你想演奏爵士乐，那就会有影响——所以从声音中理解更广泛的场景也很重要。

乔治亚-哦，我明白了。当我在做晚饭的时候想看播客的时候就会有这个问题。那么，我想，理解这些声音对我听播客有什么帮助呢?

Chris -现在的演讲者一般都很笨。如果它能理解你在做培根——听起来我对培根很着迷，但这很公平!如果我们回到培根的片段知道其中涉及的各种声音并改变音乐产生的方式，这样它就有最好的机会超越声音并绕过它，这意味着你可以在这种情况下一边享受你的播客，一边还在烹饪培根。

Georgia -这有多准确?我想和人类相比，因为我们经常提到婴儿的哭声，我被一个我以为是婴儿的东西吓坏了，结果是一只狐狸在花园里尖叫。有没有什么声音会让它感到困惑，它的精确度有多高?

Chris -我们使用的指标非常准确。不可避免地，有些东西听起来和它非常相似，如果你想用它作为一个度量标准，会让人类感到困惑，有些人会这样做。例如，我有一个工程师，他非常擅长重现婴儿的哭声——非常非常可怕。他花了很多年的时间才得以重现，所以我不知道这是一个多大的实际问题。

我们在欧洲进行了大规模的部署，我们发现有一种特殊的鸟被养在家里，尤其是在法国南部，它的声音听起来就像北美的烟雾报警器。它们实际上是一模一样的，为了确保它们能被识别出来，人们不得不花很多精力去消除它们。所以你确实会遇到这些例子，但通常它是非常准确的。