KRISP使用机器学习降低了呼叫中的噪声,很快就会来到Windows。-王其杉博客|程序员|科技新闻
如果你的运气和我的一样,一旦你接到一个重要的电话,有人会认为现在是从窗外的人行道上吹落叶子的好时机。2Hz的Krisp是一个新的桌面应用程序,它使用机器学习来减去背景噪音,比如,人群,甚至哭闹的孩子,同时保持你的声音完整。它已经上市了,马上就要到Windows了。
今年早些时候,我在加州大学伯克利分校的Skydeck加速器会见了Krisp的创始人,包括2Hz的联合创始人Davit Baghdasaryan,他们在那里演示了他们当时的原型技术。
所涉及的技术很复杂,但是想法很简单:如果你创建一个机器学习系统,它平均来说能听懂人的声音是什么样的,那么它可以听一个音频信号,并且只选择其中的一部分,从而消除大量的背景噪声。
Baghdasaryan,以前来自Twilio,最初想创建一些可以在移动网络上运行的东西,所以T-Mobile或者任何人都可以吹嘘内置的噪声消除。然而,这种平台的方法被证明是太慢了,所以他们决定直接去找消费者。
Baghdasaryan后来在一封邮件中说:“与客户的联系很慢,这对于一个年轻的初创公司来说是个问题。”然而,人们很喜欢“静音”这个主意,所以我们决定转换我们的注意力,开发一个面向用户的产品。
那是我与他们面谈的时候,顺便说一下,仅仅六个月后,他们就在Mac上发布了。
很简单:你运行这个应用程序,它修改传出和传入的音频信号,其中一端是正常的噪声信号,另一端是干净的、以语音为中心的信号。一切都发生在设备上,并且具有非常短的延迟(大约15毫秒),因此不涉及云,并且任何东西都不会被发送到任何服务器,甚至不会被本地存储。该团队正在努力使软件适应并动态学习,但是尚未实现。
这种方法的另一个好处是,它不需要任何特别的调整,比如使用Skype而不是Webex。因为它在操作系统的声音处理级别上工作,所以无论你使用什么应用程序,都会听到经过Krisp修改的信号,就好像它已经从麦克风中清除了一样。
他们之所以在Mac上发布,是因为他们觉得早期采用者更可能出现在苹果的平台上,而且这种押注似乎已经得到了回报。但是Windows版本很快就要发布了——确切的日期还没有设定,但是预计这个月底或者一月初。(当现场直播时,我们会告诉你的。)
它应该或多或少与Mac版本相同,但是会有一个特别关注游戏的版本。Baghdasaryan指出,玩家更有可能使用GPU来运行Krisp,并且真正需要清晰的通信(作为一名PUBG玩家,我可以对打开麦克风和咔嗒嗒嗒嗒嗒嗒嗒嗒嗒嗒嗒嗒嗒嗒因此,可能会有一些特定于玩家的权力用户特性,但它还没有定下来。
你也许会想,就像我一样,为什么他们不去追逐芯片制造商,也许把Krisp作为内置在手机或电脑音频处理器中的技术包括在内。
他们认为,这最终也是过于缓慢和限制性的。同时,他们发现在软件领域没有真正的竞争,这更容易进入。
“所有当前的噪声消除解决方案需要多个麦克风和一个特殊的形状因素,其中嘴必须接近一个麦克风。”我们没有这样的要求。“我们可以用单个麦克风来操作,或者操作来自网络的音频流。这使得在您想要的任何环境(边缘或网络)和任何方向(入站或出站)中运行软件成为可能。”
如果你对事情的技术方面很好奇——它是如何用一个麦克风完成的,或者低延迟等等——Baghdasaryan不久前为Nvidia博客写了一个很好的解释。
此外,Krisp可以轻松运行的以AI为中心的芯片激增,意味着很容易进入移动和嵌入式空间。“我们已经成功地将DNN移植到NVIDIA GPU、英特尔CPU/GNA和ARM。高通公司正在酝酿中,”Baghdasaryan指出。
为了继续这项工作,该公司迄今已从Skydeck以及朋友和家人那里筹集了总计200万美元的资金,用于种子前期融资,然后由Sierra Ventures和盛大集团牵头的150万美元融资。
期待Windows在今年冬天晚些时候发布,如果你已经是一个用户,那么期待一些新特性以相同的时间尺度出现。你可以免费下载KRISP。