给无声的演讲发声

电极检测面部肌肉运动并将其转化为语言……
2011年5月1日

采访

Michael Wand,卡尔斯鲁厄理工学院

人工合成的男性声音——识别器可以解读我的肌肉运动,因此我可以通过简单的口型和你说话。你有什么问题吗?

Chris -现在你能介绍一下你自己吗,你是谁,告诉我们你开发了什么我们刚刚听到的东西?

Michael -我叫Michael Wand,来自卡尔斯鲁厄理工学院,这是德国最大的研究机构。我们刚才听到的系统是一个无声识别语音的系统。我们所做的是,在我们的脸上放一个小电极。这项技术被称为表面肌电图,因为它能捕捉到我脸上的肌肉信号。从这些信号中,我们可以追溯说过的话。

克里斯:所以当你说话的时候,电脑会记录下每块肌肉发出的电信号,然后根据肌肉活动的模式,计算出你说过的话。

迈克尔:完全正确。因此,人们可以在屏幕上看到的信号被输入到统计识别器中,该识别器可以识别肌肉活动的模式,并可以追溯所说的话。

克里斯:所以你一定是训练它来识别你说话时的动作模式。所以如果我把电极从你的脸上拿下来(它们装饰在你的嘴周围,我猜是所有的主要肌肉),那么它就不会像识别你说的话那样识别我在说什么。

迈克尔-没错。这个系统是朝向我的。如果其他人想要使用它,它将需要几分钟的录音来适应自己。

克里斯-那就很快了。你可以相对较快地训练它。

迈克尔-没错。我们展示的系统是基于大约5、6、7分钟的训练,实际上对于有限的词汇量来说效果很好。我输入的训练数据越多,系统就越好。我们最好的系统是我们今天没有带来的,它需要大约45分钟的训练,它类似于传统的语音识别器,你可以在商店里买到,它可以识别大约2000个单词,所以它可能没有传统的语音识别器那么好,但它完全适合在没有被听到的情况下进行交流。

克里斯:这很有趣,因为你来自德国,但是你用英语和我说话。所以你应该是用英语训练的。

迈克尔-是的。我们用英语培训这个系统,因为我们是一个非常国际化的机构,我们来到华盛顿特区就是为了展示它。原则上,将这样的系统适应于任何其他语言都不是问题。这将意味着从本质上改变发音字典,告诉系统德语是如何发音的,然后可能重新训练它,因为德语和英语有不同的发音,然后它适用于任何其他语言,法语,西班牙语,无论你得到什么。

克里斯-你觉得谁在用这个?它的目标受众是谁?它会进入什么样的市场?

Michael:所以现在,因为我们是一所大学,这仍然是一个研究项目,但有很多人感兴趣;一边是那些失声的人。有一大群喉癌患者他们的嘴通常可以正常活动,但是缺乏声源因为他们的喉部基本上被切除了这些人非常非常渴望能恢复声音。他们对使用这个系统有很大的兴趣,不管它看起来像什么,它在未来当然会看起来更好。但他们肯定愿意使用这样一个系统。我们的市场会有一个更好的系统,就像一个你可以戴上的小电极头套,然后我可以用这个系统来增强我的手机,然后我可以在我接到电话的时候使用它当我在开会的时候,只是无声地交流。

克里斯-所以不要在火车上大喊大叫了。

迈克尔-没错。

克里斯:目前我能看到的唯一问题是,它确实让你看起来很奇怪。

Michael:目前,我们正在与来自工业界和科学界的合作伙伴一起研究不同种类的电极,未来它们将会变得不同。现在,我们正在研究电极技术和多电极技术,这可能使使用更少的电极获得更好的信号成为可能,这也将提高精度,并使系统更健壮。我们可能使用的是一个系统,我戴上一种耳机,看起来就像普通的麦克风耳机,但它包含电极。我可以在2到3年的时间里看到这一点。

评论

添加注释