谷歌利用AI技术升级Gboard键盘,听写更快、更可靠

2019-03-13 · 作者:Begins_君

[导读]目前,该更新只在谷歌Pixel手机上可用,但将来应该会在其他设备上使用。

目前,该更新只在谷歌Pixel手机上可用,但将来应该会在其他设备上使用。

f81e9926f21a3f7.gif

新的AI听写方法逐个字符地输入消息,而非一次一个单词。图片来源:谷歌

谷歌正在Pixel手机上更新其Gboard键盘,采用人工智能离线听写。谷歌表示,更新意味着用户可以更快,更可靠地指定电子邮件和文本,而无需担心他们是否已连接到互联网。

谷歌语音识别和移动输入小组的研究科学家兼组长Francoise Beaufays说:“想象一下,你正走出你的大楼,你想向某人发送一条信息,说‘我要迟到了’。这正是你无法上网的时刻,因为你正从Wi-Fi转向蜂窝网络计划。”随着Gboard的升级,Beaufays告诉Verge,“这个问题已经不存在了。”

这可能听起来像一个微不足道的用例,但Beaufays认为语音识别的改进,将慢慢改变我们与移动设备交互的方式。她指出,虽然语音识别近年来有所改善,但它仍然是一项不成熟的技术。它是计算密集型的,这意味着大多数语音识别系统必须通过互联网发送数据,而结果是听写速度缓慢且不可靠。

“如果你使用手机键盘,只要连接情况不好就不能点击键盘,”Beaufays说。“你就是不会用那个键盘。”但她说,通过让系统离线,听写将成为一种更自然的选择。

为实现这一转变,Google团队花了五年时间研究问题并简化应用程序用于语音识别的AI系统。例如,旧版Gboard的听写软件使用三个独立的组件来模拟音频波形,将声音与音素匹配,然后将这些音素组合成书面输出,更新后的版本将所有这些工作集成到一个步骤中。

为了实现这一转变,谷歌的团队花了五年时间研究这个问题,并简化了应用程序用于语音识别的人工智能系统。例如,旧版Gboard的听写软件使用三个独立的组件来模拟音频波形,匹配声音和音素,然后将这些音素组合成书面输出,而更新版本将所有这些工作集成到一个步骤中。

新模型还缩小了系统的一部分,称为“解码器图形”,这个组件的功能类似于书中的索引,将音频波形与书面文字相匹配。在Gboard的听写模型的旧版本中,这个解码器图形大小为2GB,对于设备上处理来说太大了。相比之下,新版本仅为80兆字节,小25倍。

新模型还将系统中被称为“解码器图”的部分缩小,该组件的功能类似于书中的索引,将音频波形与书面文字进行匹配。在旧版本的Gboard的听写模型中,这个解码器图形大小为2GB,对于设备上处理来说太大了。相比之下,新版本只有80MB,小了25倍。

此次升级目前仅限于美式英语听写和Pixel手机,但Beaufays表示,未来这一功能将得到更广泛的应用——扩展AI语音识别的范围。“从技术的角度来看,我认为我们可以在更多的手机上做到这一点,而不仅仅是Pixel,”Beaufays说。“我认为将会发生的事情是,我们可能会在更多的设备(以及更多的语言)上启动它。”

原标题:Google upgrades Gboard keyboard with faster and more reliable AI dictation

作者:James Vincent

编译:郑翊君

文章来源:

https://www.theverge.com/2019/3/12/18261444/google-gboard-keyboard-dictation-voice-recognition-pixel-ai-offline-update

版权声明
本文由智客号作者上传并发布,智客号仅提供信息发布平台。文章仅代表作者个人观点,不代表千家智客立场。

相关推荐

评论文章

全部评论(0)

格式jpg品质60图片即可